OCR di documenti provate Tesseract

Non è una pratica che adoro, l’Ocr di documenti può essere noioso ma a volte è un male necessario.

Potete rifarvi a molti tool, alcuni già presenti nei repo delle vostre distro, che effettuano tale operazione ma, come sapete, la linea di comando è molto più veloce e versatile.

E’ per questo che vi consiglio Tesseract, inizialmente sviluppato dlla Hp per il periodo ‘85-’95 fu abbandonato fino ad un paio di anni fa quando il codice fu reso disponibile.

Il software è reperibile da qui ed è disponibile per molte distro differenti.

L’utilizzo sfiora il banale, una volta passata la pagina da elaborare allo scanner e salvata con estensione .tif dovrete solamente aprire la shell e, una volta posizionati all’interno della cartella dove è contenuta l’immagine, dare il seguente comando:

tesseract input-file.tif output-file

il programma genera 3 file output per ogni file di input, il file che conterrà il testo avrà estensione .txt.

Ancora una dimostrazione della flessibilità e della potenza di uno strumento, la shell, tanto semplice quanto indispensabile.

Ciao a tutti.

2 Risposte a “OCR di documenti provate Tesseract”

  1. stambec92 Dice:

    Come risultati come siamo? Riconosce bene il testo?

  2. shaytan Dice:

    A me funziona a meraviglia

Lascia una Risposta