Che cos'è Optical Character Recognition (OCR)?

Il riconoscimento ottico dei caratteri (OCR) si riferisce al software che crea una versione digitale di un documento stampato, dattiloscritto o scritto a mano che i computer possono leggere senza dover digitare o immettere manualmente il testo. L'OCR viene generalmente utilizzato su documenti scansionati in formato PDF, ma può anche creare una versione di testo leggibile da computer all'interno di un file immagine.

Cos'è l'OCR?

OCR, noto anche come riconoscimento del testo, è una tecnologia software che trasforma caratteri come numeri, lettere e punteggiatura (detti anche glifi) da documenti stampati o scritti in un formato elettronico più facilmente riconosciuto e letto da computer e altri programmi software. Alcuni programmi OCR lo fanno come un documento scansionato o fotografato con una fotocamera digitale e altri possono applicare questo processo a documenti che sono stati precedentemente scansionati o fotografati senza OCR. OCR consente agli utenti di cercare all'interno di documenti PDF, modificare il testo e riformattare i documenti.

A cosa serve l'OCR?

Per esigenze di scansione veloci e quotidiane, l'OCR potrebbe non essere un grosso problema. Se si esegue una grande quantità di scansioni, la possibilità di effettuare ricerche all'interno dei PDF per trovare quella esatta di cui si ha bisogno consente di risparmiare un po 'di tempo e rende più importante la funzionalità OCR nel programma dello scanner. Ecco alcune altre cose che OCR aiuta con:

Elaborazione automatica dei dati e immissione dei dati (Esempio: sistemi di tracciamento dei candidati per i CV)
Rendere ricercabili i libri scansionati
Conversione di scansioni scritte a mano in testo leggibile dal computer
Rendere i documenti più utilizzabili dai programmi di lettura che aiutano gli utenti ipovedenti
Conservazione di documenti e giornali storici, rendendoli anche ricercabili
Estrazione e trasferimento dei dati ai programmi di contabilità (Esempio: ricevute e fatture)
Documenti di indicizzazione per l'utilizzo da parte dei motori di ricerca
Riconoscimento delle targhe dell'autista tramite autovelox e software per telecamere a luci rosse
Sintetizzatori vocali per persone che non sanno parlare - il fisico teorico, Stephen Hawking, è forse l'utente più conosciuto di un programma di sintetizzatore vocale

Perché utilizzare l'OCR?

Perché non fare semplicemente una foto, giusto? Perché non potresti modificare nulla o cercare il testo perché sarebbe solo un'immagine. La scansione del documento e l'esecuzione del software OCR possono trasformare quel file in qualcosa che puoi modificare ed essere in grado di cercare.

Storia di OCR

Mentre il primissimo uso del riconoscimento del testo risale al 1914, lo sviluppo e l'uso diffuso delle tecnologie relative all'OCR è iniziato sul serio negli anni '50, in particolare con la creazione di caratteri molto semplificati che erano più facili da convertire in testo leggibile digitalmente. Il primo di questi caratteri semplificati è stato creato da David Shepard e comunemente noto come OCR-7B. OCR-7B è ancora in uso oggi nel settore finanziario per il carattere standard utilizzato su carte di credito e carte di debito. Negli anni '60, i servizi postali in diversi paesi iniziarono a utilizzare la tecnologia OCR per accelerare enormemente l'ordinamento postale, inclusi Stati Uniti, Gran Bretagna, Canada e Germania. L'OCR è ancora la tecnologia principale utilizzata per ordinare la posta per i servizi postali in tutto il mondo. Nel 2000, la conoscenza fondamentale dei limiti e delle capacità della tecnologia OCR è stata utilizzata per sviluppare i programmi CAPTCHA utilizzati per fermare bot e spammer.

Nel corso dei decenni, l'OCR è diventato più accurato e più sofisticato grazie ai progressi in settori tecnologici correlati come l'intelligenza artificiale, l'apprendimento automatico e la visione artificiale. Oggi, il software OCR utilizza il riconoscimento dei pattern, il rilevamento delle funzionalità e il text mining per trasformare i documenti in modo più rapido e accurato che mai.