Riconoscimento automatico dei caratteri - Histórico de revisão

Diacronie1 em 09h48min de 14 de julho de 2021

2021-07-14T09:48:19Z

Diacronie1 em 09h20min de 14 de julho de 2021

2021-07-14T09:20:31Z

Diacronie1 em 21h13min de 28 de março de 2021

2021-03-28T21:13:58Z

Diacronie1: Criou página com 'Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un...'

2021-03-28T21:11:41Z

Criou página com 'Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un...'

Página nova

Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta<ref>CHERIET, Mohamed, KHARMA, Nawwaf, LIU, Cheng-Lin, SUEN, Ching, ''Character recognition systems. A Guide for Students and Practioners'', Hoboken, John Wiley & Sons, Inc., 2007, p. XIII.</ref>. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.

Esistono fondamentalmente due tipi di riconoscimento automatico del testo, l’[[OCR]] (Optical Character Recognition, ovvero il riconoscimento ottico dei caratteri stampati) e l’[[HTR]] (Handwritten Text Recognition, cioè il riconoscimento del testo manoscritto). L'OCR è uno standard in grado di riconoscere i testi senza essere addestrato, poiché possiede già in memoria un modello delle lettere da individuare. Tale tecnologia risulta ideale per i testi stampati, ma solitamente non funziona con i manoscritti, per i quali è più adatto l’HTR. L'HTR, a differenza dell’OCR, non conosce a priori la forma delle lettere, che può variare a seconda delle diverse grafie. Perciò, si basa su reti neurali a cui vengono forniti in input degli esempi, dai quali impara a identificare lettere e parole in una specifica grafia. A differenza dell'OCR, l’HTR deve quindi essere addestrato, vista anche la maggiore complessità del compito che svolge.

Il riconoscimento automatico del testo affonda le sue radici ben prima dell’avvento dei primi calcolatori. Le sue origini risalgono al 1870, quando Charles Carey inventò il primo scanner a retina, un sistema di trasmissione di immagini che sfruttava gruppi di fotocellule<ref>MANTAS, John (), «An Overview of Character Recognition Methodologies», in ''Pattern Recognition'', 19, 6/1986, pp. 425–430</ref>. Successivamente vennero sviluppati degli strumenti d’ausilio ai non vedenti, tra i quali ricordiamo l’optofono – un dispositivo brevettato dal fisico irlandese Edmund Edward. Fournier D’Albe in grado di convertire i caratteri in suoni – e la macchina per leggere del professore italiano Ciroi Codelupi, che invece convertiva il testo in sensazioni tattili<ref>MANDAVIYA, Krupa, GHOSH, Soumya K., CHAUDHURI, Arindam, BADELIA, Pratixa, ''Optical Character Recognition Systems for Different Languages with Soft Computing'', Cham, Springer International Publishing, 2017.</ref>. La tecnologia che vi stava alla base, tuttavia, era ancora primordiale, le apparecchiature lente, e il livello di accuratezza non molto alto. Il primo strumento capace di riconoscere dei caratteri in tempi accettabili è la macchina di Jacob Rainbow, in grado di individuare un carattere al minuto: un risultato straordinario se si pensa che altre apparecchiature svolgevano lo stesso compito impiegando più del doppio del tempo.

Tra il 1960 e il 1965 vengono commercializzate le prime macchine di OCR, per il riconoscimento automatico del testo. Sebbene queste fossero ben più potenti delle loro antenate, erano ancora in grado di leggere un solo font (Fig. 2), disegnato specificatamente per questo scopo.
Tra la seconda metà degli anni Sessanta e gli inizi degli anni Settanta, poi, vennero sviluppati dei dispositivi in grado di riconoscere un numero maggiore di font e, per la prima volta, anche i caratteri manoscritti – sebbene per questi ultimi ci si limitò inizialmente solo alle cifre e ad alcuni caratteri speciali. Tra questi ricordiamo l’IBM 1287, che analizzava ogni carattere con una velocità pari a dieci volte al secondo, raggiungendo così un’ottima precisione in tempi esigui<ref>''IBM 1287 Optical Reader'', visibile su Internet Archive, URL: < https://archive.org/details/TNM_IBM_1287_optical_reader_hand-printed_numeric__20170911_0168 >.</ref>. In seguito, vennero prodotte delle macchine in grado di leggere anche documenti di bassa qualità, con set di caratteri più ampi e complessi.

Sebbene alcuni dispositivi per il riconoscimento automatico del testo fossero stati lanciati sul mercato già negli anni Cinquanta, le unità vendute fino al 1986 furono solo poche migliaia, principalmente a causa del costo eccessivo dei sistemi. Oggi, tuttavia, i prezzi dell'hardware sono diminuiti notevolmente, e i sistemi OCR sono ora disponibili come pacchetti software; ciò ha favorito un aumento delle vendite, tanto che l’uso di sistemi avanzati con alto grado di precisione è molto comune per il riconoscimento della maggior parte dei caratteri. Alcuni sistemi sono persino in grado di produrre output che si avvicinano molto alla pagina originale, riproducendo immagini, colonne e altri elementi extra-testuali<ref>MANDAVIYA, Krupa, GHOSH, Soumya K., CHAUDHURI, Arindam, BADELIA, Pratixa, ''Optical Character Recognition Systems for Different Languages with Soft Computing'', Cham, Springer International Publishing, 2017.</ref>.
Tra i vari ambiti di applicazione, che spaziano dalla finanza, ai videogiochi, allo sviluppo di software per l’accessibilità all’organizzazione e conservazione di grosse moli di dati, gli OCR e gli HTR risultano particolarmente preziosi anche per il loro impiego in ambito storico. I primi, ad esempio, possono essere utilizzati per digitalizzare degli articoli di giornale per poi costruire un archivio digitale di un quotidiano, come è stato fatto – tra gli altri – dal ''Corriere della Sera''<ref>Archivio Corriere della Sera, URL: < http://archivio.corriere.it/Archivio/interface/landing.html >.</ref>, ''Il Messaggero''<ref>Archivio de Il Messaggero, URL: < http://shop.ilmessaggero.it/archivio >.</ref>, e ''La Stampa''<ref>''Archivio storico de La Stampa dal 1967'', URL: < http://www.archiviolastampa.it/ >.</ref>. In questo modo è possibile rendere accessibile, in pochi clic, l’intero patrimonio archivistico della testata a una vasta gamma di utenti, tra cui gli storiografi. Anche gli HTR si rivelano particolarmente utili in ambito storiografico, poiché, se adeguatamente addestrati, sono in grado di trascrivere automaticamente grandi quantità di documenti storici, tra cui lettere, cartoline e addirittura interi libri.

Vediamo questi argomenti nel dettaglio:

- [[OCR]] – Riconoscimento Ottico dei Caratteri;

- [[HTR]] – Riconoscimento del Testo Manoscritto.

← Edição anterior		Edição das 09h48min de 14 de julho de 2021
Linha 26:		Linha 26:


−	- [[MACHINE LEARNING per la lettura dei manoscritti]] ~~– MACHINE LEARNING per la lettura dei manoscritti~~.	+	- [[MACHINE LEARNING per la lettura dei manoscritti]].

	}}		}}

← Edição anterior		Edição das 21h13min de 28 de março de 2021
Linha 1:		Linha 1:
		+	{{articolo\|
		+	nome=Andrea\|
		+	cognome=Failla\|
		+
		+	testo=
		+
	Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta<ref>CHERIET, Mohamed, KHARMA, Nawwaf, LIU, Cheng-Lin, SUEN, Ching, ''Character recognition systems. A Guide for Students and Practioners'', Hoboken, John Wiley & Sons, Inc., 2007, p. XIII.</ref>. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.		Con riconoscimento automatico del testo si intende un insieme di strumenti e sistemi capaci di leggere dati testuali ad alta velocità, individuando e riconoscendo il testo un carattere per volta<ref>CHERIET, Mohamed, KHARMA, Nawwaf, LIU, Cheng-Lin, SUEN, Ching, ''Character recognition systems. A Guide for Students and Practioners'', Hoboken, John Wiley & Sons, Inc., 2007, p. XIII.</ref>. Ciò può essere molto utile per trascrivere automaticamente le foto digitali o i pdf immagine di documenti, file e libri o, più in generale, qualsiasi immagine che contenga del testo. Testi e immagini sono dati di tipo diverso: mentre i primi sono sequenze di caratteri, le immagini sono sequenze di pixel, cioè di punti luminosi che possono “colorarsi” di rosso, giallo, o blu fino a formare, nel complesso, l’intero spettro dei colori percepibili dall’occhio umano. Convertire pixel in caratteri può rivelarsi piuttosto complesso. Il livello di difficoltà dipende soprattutto dalla qualità dell’immagine in ingresso – che deve essere più nitida possibile – e dalla leggibilità del testo che questa presenta.

Linha 18:		Linha 24:

	- [[HTR]] – Riconoscimento del Testo Manoscritto.		- [[HTR]] – Riconoscimento del Testo Manoscritto.
		+
		+	}}

@@ Linha 9: / Linha 9: @@
 Esistono fondamentalmente due tipi di riconoscimento automatico del testo, l’[[OCR]] (Optical Character Recognition, ovvero il riconoscimento ottico dei caratteri stampati) e l’[[HTR]] (Handwritten Text Recognition, cioè il riconoscimento del testo manoscritto). L'OCR è uno standard in grado di riconoscere i testi senza essere addestrato, poiché possiede già in memoria un modello delle lettere da individuare. Tale tecnologia risulta ideale per i testi stampati, ma solitamente non funziona con i manoscritti, per i quali è più adatto l’HTR. L'HTR, a differenza dell’OCR, non conosce a priori la forma delle lettere, che può variare a seconda delle diverse grafie. Perciò, si basa su reti neurali a cui vengono forniti in input degli esempi, dai quali impara a identificare lettere e parole in una specifica grafia. A differenza dell'OCR, l’HTR deve quindi essere addestrato, vista anche la maggiore complessità del compito che svolge.
-Il riconoscimento automatico del testo affonda le sue radici ben prima dell’avvento dei primi calcolatori. Le sue origini risalgono al 1870, quando Charles Carey inventò il primo scanner a retina, un sistema di trasmissione di immagini che sfruttava gruppi di fotocellule<ref>MANTAS, John (), «An Overview of Character Recognition Methodologies», in ''Pattern Recognition'', 19, 6/1986, pp. 425–430</ref>. Successivamente vennero sviluppati degli strumenti d’ausilio ai non vedenti, tra i quali ricordiamo l’optofono – un dispositivo brevettato dal fisico irlandese Edmund Edward. Fournier D’Albe in grado di convertire i caratteri in suoni – e la macchina per leggere del professore italiano Ciroi Codelupi, che invece convertiva il testo in sensazioni tattili<ref>MANDAVIYA, Krupa, GHOSH, Soumya K., CHAUDHURI, Arindam, BADELIA, Pratixa, ''Optical Character Recognition Systems for Different Languages with Soft Computing'', Cham, Springer International Publishing, 2017.</ref>. La tecnologia che vi stava alla base, tuttavia, era ancora primordiale, le apparecchiature lente, e il livello di accuratezza non molto alto. Il primo strumento capace di riconoscere dei caratteri in tempi accettabili è la macchina di Jacob Rainbow, in grado di individuare un carattere al minuto: un risultato straordinario se si pensa che altre apparecchiature svolgevano lo stesso compito impiegando più del doppio del tempo.
+Il riconoscimento automatico del testo affonda le sue radici ben prima dell’avvento dei primi calcolatori. Le sue origini risalgono al 1870, quando Charles Carey inventò il primo scanner a retina, un sistema di trasmissione di immagini che sfruttava gruppi di fotocellule<ref>MANTAS, John (), «An Overview of Character Recognition Methodologies», in ''Pattern Recognition'', 19, 6/1986, pp. 425–430</ref>. Successivamente vennero sviluppati degli strumenti d’ausilio ai non vedenti, tra i quali ricordiamo l’optofono – un dispositivo brevettato dal fisico irlandese Edmund Edward. Fournier D’Albe in grado di convertire i caratteri in suoni – e la macchina per leggere del professore italiano Ciro Codelupi, che invece convertiva il testo in sensazioni tattili<ref>MANDAVIYA, Krupa, GHOSH, Soumya K., CHAUDHURI, Arindam, BADELIA, Pratixa, ''Optical Character Recognition Systems for Different Languages with Soft Computing'', Cham, Springer International Publishing, 2017.</ref>. La tecnologia che vi stava alla base, tuttavia, era ancora primordiale, le apparecchiature lente, e il livello di accuratezza non molto alto. Il primo strumento capace di riconoscere dei caratteri in tempi accettabili è la macchina di Jacob Rainbow, in grado di individuare un carattere al minuto: un risultato straordinario se si pensa che altre apparecchiature svolgevano lo stesso compito impiegando più del doppio del tempo.
 Tra il 1960 e il 1965 vengono commercializzate le prime macchine di OCR, per il riconoscimento automatico del testo. Sebbene queste fossero ben più potenti delle loro antenate, erano ancora in grado di leggere un solo font (Fig. 2), disegnato specificatamente per questo scopo.
@@ Linha 23: / Linha 23: @@
--	[[HTR]] – Riconoscimento del Testo Manoscritto.
+-	[[HTR]] – Riconoscimento del Testo Manoscritto;
 }}