Riconoscimento automatico del testo

De Cliomatica - Digital History
Tempo di lettura 8 minuti - per Andrea Failla


Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta [1]. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.

Esistono fondamentalmente due tipi di riconoscimento automatico del testo, l’OCR (Optical Character Recognition, ovvero il riconoscimento ottico dei caratteri stampati) e l’HTR (Handwritten Text Recognition, cioè il riconoscimento del testo manoscritto). L'OCR è uno standard in grado di riconoscere i testi senza essere addestrato, poiché possiede già in memoria un modello delle lettere da individuare. Tale tecnologia risulta ideale per i testi stampati, ma solitamente non funziona con i manoscritti, per i quali è più adatto l’HTR. L'HTR, a differenza dell’OCR, non conosce a priori la forma delle lettere, che può variare a seconda delle diverse grafie. Perciò, si basa su reti neurali a cui vengono forniti in input degli esempi, dai quali impara a identificare lettere e parole in una specifica grafia. A differenza dell'OCR, l’HTR deve quindi essere addestrato, vista anche la maggiore complessità del compito che svolge.

Fig. 1. Illustrazione dell'optofono di Fournier D’Albe
Il riconoscimento automatico del testo affonda le sue radici ben prima dell’avvento dei primi calcolatori. Le sue origini risalgono al 1870, quando Charles Carey inventò il primo scanner a retina, un sistema di trasmissione di immagini che sfruttava gruppi di fotocellule [2]. Successivamente vennero sviluppati degli strumenti d’ausilio ai non vedenti, tra i quali ricordiamo l’optofono – un dispositivo brevettato dal fisico irlandese Edmund Edward. Fournier D’Albe in grado di convertire i caratteri in suoni – e la macchina per leggere del professore italiano Ciroi Codelupi, che invece convertiva il testo in sensazioni tattili [3]. La tecnologia che vi stava alla base, tuttavia, era ancora primordiale, le apparecchiature lente, e il livello di accuratezza non molto alto. Il primo strumento capace di riconoscere dei caratteri in tempi accettabili è la macchina di Jacob Rainbow, in grado di individuare un carattere al minuto: un risultato straordinario se si pensa che altre apparecchiature svolgevano lo stesso compito impiegando più del doppio del tempo.

Tra il 1960 e il 1965 vengono commercializzate le prime macchine di OCR, per il riconoscimento automatico del testo. Sebbene queste fossero ben più potenti delle loro antenate, erano ancora in grado di leggere un solo font (Fig. 2), disegnato specificatamente per questo scopo.

Fig. 2. Cifre decimali in font MICR.

Tra la seconda metà degli anni ’60 e gli inizi degli anni ’70, poi, vennero sviluppati dei dispositivi in grado di riconoscere un numero maggiore di font e, per la prima volta, anche i caratteri manoscritti – sebbene per questi ultimi ci si limitò inizialmente solo alle cifre e ad alcuni caratteri speciali. Tra questi ricordiamo l’IBM 1287, che analizzava ogni carattere con una velocità pari a dieci volte al secondo, raggiungendo così un’ottima precisione in tempi esigui[4]. In seguito, vennero prodotte delle macchine in grado di leggere anche documenti di bassa qualità, con set di caratteri più ampi e complessi.

Sebbene alcuni dispositivi per il riconoscimento automatico del testo fossero stati lanciati sul mercato già negli anni '50, le unità vendute fino al 1986 furono solo poche migliaia, principalmente a causa del costo eccessivo dei sistemi. Oggi, tuttavia, i prezzi dell'hardware sono diminuiti notevolmente, e i sistemi OCR sono ora disponibili come pacchetti software; ciò ha favorito un aumento delle vendite, tanto che l’uso di sistemi avanzati con alto grado di precisione è molto comune per il riconoscimento della maggior parte dei caratteri. Alcuni sistemi sono persino in grado di produrre output che si avvicinano molto alla pagina originale, riproducendo immagini, colonne e altri elementi extra-testuali [5].


Tra i vari ambiti di applicazione, che spaziano dalla finanza, ai videogiochi, allo sviluppo di software per l’accessibilità all’organizzazione e conservazione di grosse moli di dati, gli OCR e gli HTR risultano particolarmente preziosi anche per il loro impiego in ambito storico. I primi, ad esempio, possono essere utilizzati per digitalizzare degli articoli di giornale per poi costruire un archivio digitale di un quotidiano, come è stato fatto – tra gli altri – dal Corriere della Sera [6] , Il Messaggero [7] , e La Stampa [8] . In questo modo è possibile rendere accessibile, in pochi clic, l’intero patrimonio archivistico della testata a una vasta gamma di utenti, tra cui gli storiografi. Anche gli HTR si rivelano particolarmente utili in ambito storiografico, poiché, se adeguatamente addestrati, sono in grado di trascrivere automaticamente grandi quantità di documenti storici, tra cui lettere, cartoline e addirittura interi libri.

Vediamo questi argomenti nel dettaglio:

  • OCR – Riconoscimento Ottico dei Caratteri
  • HTR – Riconoscimento del Testo Manoscritto


Bibliografia e sitografia

  1. Cheriet M. et al. (2007), Character recognition systems, A Guide for Students and Practioners, Hoboken, John Wiley & Sons, Inc., p. xiii.
  2. Mantas, J. (1986), An Overview of Character Recognition Methodologies, in Pattern Recognition, 19, 6, pp. 425–430.
  3. Chaudhuri A. et al. (2017), Optical Character Recognition Systems for Different Languages with Soft Computing, Cham, Springer International Publishing.
  4. s.a. (2017, o.l.), IBM 1287 Optical Reader, (recuperato con Internet Archive, URL: https://archive.org/details/TNM_IBM_1287_optical_reader_hand-printed_numeric__20170911_0168)
  5. Chaudhuri A. et al. (2017), Optical Character Recognition Systems for Different Languages with Soft Computing, Cham, Springer International Publishing.
  6. AA.VV. (s.d., o.l.), Archivio Corriere della Sera (URL: http://archivio.corriere.it/Archivio/interface/landing.html)
  7. AA.VV. (s.d., o.l.), Archivio de Il Messaggero (URL: http://shop.ilmessaggero.it/archivio)
  8. AA.VV. (s.d., o.l.), Archivio storico dal 1967 (URL: http://www.archiviolastampa.it/)



Citazione di questo articolo
Come citare: FAILLA, Andrea . "Riconoscimento automatico del testo". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Riconoscimento_automatico_del_testo. il giorno: 17/05/2024.






Informare errori in questa pagina