Non è una pratica che adoro, l’Ocr di documenti può essere noioso ma a volte è un male necessario.
Potete rifarvi a molti tool, alcuni già presenti nei repo delle vostre distro, che effettuano tale operazione ma, come sapete, la linea di comando è molto più veloce e versatile.
E’ per questo che vi consiglio Tesseract, inizialmente sviluppato dlla Hp per il periodo ‘85-’95 fu abbandonato fino ad un paio di anni fa quando il codice fu reso disponibile.
Il software è reperibile da qui ed è disponibile per molte distro differenti.
L’utilizzo sfiora il banale, una volta passata la pagina da elaborare allo scanner e salvata con estensione .tif dovrete solamente aprire la shell e, una volta posizionati all’interno della cartella dove è contenuta l’immagine, dare il seguente comando:
tesseract input-file.tif output-file
il programma genera 3 file output per ogni file di input, il file che conterrà il testo avrà estensione .txt.
Ancora una dimostrazione della flessibilità e della potenza di uno strumento, la shell, tanto semplice quanto indispensabile.
Ciao a tutti.














15 Novembre, 2007 alle 6:49 pm |
Come risultati come siamo? Riconosce bene il testo?
16 Novembre, 2007 alle 7:19 am |
A me funziona a meraviglia