Revisão de 18h08min de 26 de junho de 2021 por Lana.Sato (discussão | contribs)

Riconoscimento automatico del testo

De Cliomatica - Digital History
Tempo di lettura 4 minuti - per Andrea Failla


Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta [1]. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.

Esistono fondamentalmente due tipi di riconoscimento automatico del testo, l’OCR [link] (Optical Character Recognition, ovvero il riconoscimento ottico dei caratteri stampati) e l’HTR [link] (Handwritten Text Recognition, cioè il riconoscimento del testo manoscritto). L'OCR è uno standard in grado di riconoscere i testi senza essere addestrato, poiché possiede già in memoria un modello delle lettere da individuare. Tale tecnologia risulta ideale per i testi stampati, ma solitamente non funziona con i manoscritti, per i quali è più adatto l’HTR. L'HTR, a differenza dell’OCR, non conosce a priori la forma delle lettere, che può variare a seconda delle diverse grafie. Perciò, si basa su reti neurali a cui vengono forniti in input degli esempi, dai quali impara a identificare lettere e parole in una specifica grafia. A differenza dell'OCR, l’HTR deve quindi essere addestrato, vista anche la maggiore complessità del compito che svolge.

Fig. 1. Illustrazione dell'optofono di Fournier D’Albe
Il riconoscimento automatico del testo affonda le sue radici ben prima dell’avvento dei primi calcolatori. Le sue origini risalgono al 1870, quando Charles Carey inventò il primo scanner a retina, un sistema di trasmissione di immagini che sfruttava gruppi di fotocellule [2]. Successivamente vennero sviluppati degli strumenti d’ausilio ai non vedenti, tra i quali ricordiamo l’optofono – un dispositivo brevettato dal fisico irlandese Edmund Edward. Fournier D’Albe in grado di convertire i caratteri in suoni – e la macchina per leggere del professore italiano Ciroi Codelupi, che invece convertiva il testo in sensazioni tattili [3]. La tecnologia che vi stava alla base, tuttavia, era ancora primordiale, le apparecchiature lente, e il livello di accuratezza non molto alto. Il primo strumento capace di riconoscere dei caratteri in tempi accettabili è la macchina di Jacob Rainbow, in grado di individuare un carattere al minuto: un risultato straordinario se si pensa che altre apparecchiature svolgevano lo stesso compito impiegando più del doppio del tempo.

Tra il 1960 e il 1965 vengono commercializzate le prime macchine di OCR, per il riconoscimento automatico del testo. Sebbene queste fossero ben più potenti delle loro antenate, erano ancora in grado di leggere un solo font (Fig. 2), disegnato specificatamente per questo scopo.

Fig. 2. Cifre decimali in font MICR.


Bibliografia e sitografia

  1. Cheriet M. et al. (2007), Character recognition systems, A Guide for Students and Practioners, Hoboken, John Wiley & Sons, Inc., p. xiii.
  2. Mantas, J. (1986), An Overview of Character Recognition Methodologies, in Pattern Recognition, 19, 6, pp. 425–430.
  3. Chaudhuri A. et al. (2017), Optical Character Recognition Systems for Different Languages with Soft Computing, Cham, Springer International Publishing.



Citazione di questo articolo
Come citare: FAILLA, Andrea . "Riconoscimento automatico del testo". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: https://lhs.unb.br/cliomatica/index.php?title=Riconoscimento_automatico_del_testo. il giorno: 6/02/2025.






Informare errori in questa pagina