Come estrarre testo da immagini o PDF

di Giovanni Biasi Commenta

Oggi vogliamo parlarvi di un modo per estrarre porzioni di testo da un’immagine o da un documento .pdf. Sappiamo che è una procedura comoda, e che spesso potrebbe causare non pochi problemi agli utenti, soprattutto se inesperti. Generalmente, tutti gli scanner in commercio hanno funzioni OCR (Optical Character Recognition) abbastanza valide, che permettono in pochi passi di ottenere “searchable text” da documenti cartacei.

Un modo piuttosto semplice ma piuttosto lungo, in mancanza di scanner, è quello di utilizzare la funzione OCR di Google Docs, che comunque richiede determinati tempi di attesa per la conversione da PDF a testo (ad ogni modo, se avete abbastanza tempo e avete bisogno di convertire un PDF in .doc o .rtf, vi consigliamo questa soluzione).La funzione di cui vi parliamo in questo articolo può invece essere risolta in un tempo decisamente minore: il software col quale è possibile estrarre il testo che ci serve si chiama OCR Terminal ed è disponibile per l’uso a questo link (anche in lingua italiana). Basta registrarsi (gratuitamente) per ottenere fino a 20 pagine gratuite al mese.

La conversione, che abbiamo testato personalmente, risulta abbastanza accurata sia da immagini che da PDF, basta che il testo sia abbastanza leggibile e ad una risoluzione quantomeno decente. I file risultanti potranno essere sia .doc che .rtf.

Un altro servizio che permette di estrarre testo da immagini o documenti PDF è OnlineOCR: presenta un servizio gratuito in “Guest mode” che permette di convertire fino a 15 immagini all’ora, ma è leggermente meno preciso di OCR Terminal. Anche qui, basta selezionare il file (dalle dimensioni massime di 4MB), il linguaggio da cui estrarre il testo (disponibili 32 linguaggi totali, italiano compreso) e il formato risultante, che può essere doc, xls o txt.

Basterà quindi attendere qualche minuto, tempo che il software userà per analizzare e convertire i dati, e salvare quindi il file risultante sul vostro HDD.

Lascia un commento

Il tuo indirizzo email non verrà pubblicato.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>