OCR di documenti provate Tesseract

Non è una pratica che adoro, l’Ocr di documenti può essere noioso ma a volte è un male necessario.

Potete rifarvi a molti tool, alcuni già presenti nei repo delle vostre distro, che effettuano tale operazione ma, come sapete, la linea di comando è molto più veloce e versatile.

E’ per questo che vi consiglio Tesseract, inizialmente sviluppato dlla Hp per il periodo ’85-’95 fu abbandonato fino ad un paio di anni fa quando il codice fu reso disponibile.

Il software è reperibile da qui ed è disponibile per molte distro differenti.

L’utilizzo sfiora il banale, una volta passata la pagina da elaborare allo scanner e salvata con estensione .tif dovrete solamente aprire la shell e, una volta posizionati all’interno della cartella dove è contenuta l’immagine, dare il seguente comando:

tesseract input-file.tif output-file

il programma genera 3 file output per ogni file di input, il file che conterrà il testo avrà estensione .txt.

Ancora una dimostrazione della flessibilità e della potenza di uno strumento, la shell, tanto semplice quanto indispensabile.

Ciao a tutti.

Annunci

3 Responses to OCR di documenti provate Tesseract

  1. stambec92 ha detto:

    Come risultati come siamo? Riconosce bene il testo?

  2. shaytan ha detto:

    A me funziona a meraviglia

  3. alamarstables.com ha detto:

    Skin Tag Removal Items

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: