Mudanças entre as edições de "IN CODICE RATIO"

De Cliomatica - Digital History
Linha 31: Linha 31:
  
 
== '''''SVILUPPI''''' ==
 
== '''''SVILUPPI''''' ==
 +
 +
[[Arquivo:InCastronuovo1.png|800px]]
 +
 +
Nell’Archivio segreto vaticano. Una pergamena degli atti di una lettera di Ladislao d’Ungheria del 20 marzo 1339.
 +
 +
Il team ha addestrato la propria rete neurale su immagini e documenti forniti dal Vaticano, per riconoscere intere parole anziché lettere.
 +
 +
Spieghiamo qui in sintesi i principi di funzionamento.
 +
 +
Mentre i sistemi OCR (''Optical Character Recognition'') sono addestrati a riconoscere singoli glifi dattiloscritti, la maggior parte dei sistemi di ''Handrwitten Text Recognition'' (HTR, cioè il riconoscimento del testo manoscritto) usano approcci olistici: tutti gli elementi di testo (frasi, parole e caratteri) di una singola riga sono riconosciuti nel loro insieme, senza alcuna segmentazione preliminare della riga in più elementi.
 +
 +
L’ ''Handwritten Text Recognition'' può essere definito come la capacità di trasformare l'input scritto a mano rappresentato come segno grafico, in una rappresentazione simbolica come testo ASCII.
 +
 +
Il programma creato dagli studiosi, infatti, è in grado di riconoscere parole complete invece delle singole lettere come accade con l’utilizzo del tradizionale OCR: il problema principale nei manoscritti, per di più, è la mancanza di spazio tra le lettere e l’OCR non è in grado di capire dove finisca una lettera e dove ne cominci un’altra, per cui ha bisogno di riconoscere le lettere per poterle correttamente segmentare. Per fare questo servirebbe un esercito di paleografi che dovrebbe analizzare un numero enorme di documenti, per associare a centinaia di migliaia di immagini di parole la trascrizione corrispondente.
 +
 +
Il risultato sarebbe  quindi una sorta di o stallo informatico, noto come il paradosso di Sayre. Quest’ultimo viene  risolto grazie ad un’innovazione chiamata “scomposizione a mosaico”, la quale separa le parole non in lettere ma in segmenti più simili a tratti singoli di penna, come nella seguente foto.
 +
  
  
 
}}
 
}}

Edição das 22h14min de 25 de março de 2021

Tempo di lettura 7 minuti - per Castronuovo


INTRODUZIONE: COS’È IN CODICE RATIO

In Codice Ratio è un progetto interdisciplinare, basato su metodi di machine learning, nato dall’Università di Roma Tre con l’intento di sviluppare una tecnica per la trascrizione, interpretazione e conservazione dei documenti dell’Archivio Segreto Vaticano.

Il nome di questo progetto gioca sul doppio senso del termine “codice”, inteso sia come manoscritto, sia come l’algoritmo di un programma informatico.

L’idea è di indicizzare ed interrogare gli Archivi Segreti Vaticani. Nello specifico, una parte degli archivi: i Registri Vaticani, che costituiscono un corpus di testi di oltre 18.000 pagine di corrispondenze ufficiali della Curia Romana nel 13° secolo.

Le aree di specializzazione di questo progetto riguardano il patrimonio culturale e le tecnologie della cultura e i principali settori di ricerca coinvolti sono l’informatica e gli studi umanistici.

L’ARCHIVIO SEGRETO VATICANO

L’archivio Segreto Vaticano è uno degli archivi storici più grandi e quindi a rischio di perdita e degrado se non si provvede a preservarli anche attraverso la digitalizzazione.

Ben due secoli di storia della Chiesa Cattolica sono racchiusi in milioni di documenti che ammantano 85 chilometri di scaffali in un bunker del Cortile della Pigna (Città del Vaticano) e rappresentano la più grande banca dati storica al mondo, nonché uno strumento indispensabile per capire la storia dell’Europa. I Registri Vaticani contengono, tra le altre cose,lettere dei papi, lettere e documenti di Michelangelo, le richieste di annullamento del matrimonio di Enrico VIII e persino lettere di Ambraham Lincoln e Jefferson Davis a Papa Pio IX. E ancora, i processi ai Cavalieri Templari, che iniziarono nel 1307 e durarono molti anni; lettere dalla regina Mary di Scozia che richiese l’intercessione prima della sua decapitazione; poi ci sono i documenti relativi a Papa Pio XII e ai suoi rapporti con il regime nazista durante la seconda guerra mondiale, che non sono mai stati pubblicati.

IN CODICE RATIO

Il progetto è stato sviluppato dal Dipartimento di Ingegneria e dal Dipartimento di Studi Umanistici dell’Università di Roma Tre, utilizzando metodi di machine learning (apprendimento automatico) e pratiche di crowdsourcing. La finalità è quella di ridurre il gap semantico tra la digitalizzazione e l’analisi delle fonti storiche e inoltre dare vita a tecnologie che potranno risultare utili per la creazione di servizi innovativi nell’analisi di documentazione manoscritta. I testi esaminati sono in lingua latina o in una vasta gamma di lingue volgari; sono pieni di simboli grafici e linguistici particolari (abbreviazioni, compendi, ecc).

Il coordinatore è Paolo Merialdo, professore associato di Analisi dell’Informazione su Web, responsabile scientifico nei PRIN 2004 e PRIN 2010. Gli altri componenti sono: Alessandro Micarelli, professore ordinario di Intelligenza artificiale, membro della commissione per la valutazione della ricerca Industriale, fondatore dell’Associazione Italiana di Intelligenza Artificiale; quattro ricercatori del Dipartimento di Studi Umanistici: Serena Ammirati, Donatella Firmani, Elena Nieddu, e Marco Maiorino dell’Archivio segreto vaticano. Sono inoltre coinvolti assegnisti appositamente reclutati per il progetto con compiti nell’ambito della paleografia e nell’ambito dell’intelligenza artificiale e dell’elaborazione delle immagini; un consulente esterno con competenze in paleografia e archivistica, in particolare sui registri papali dell’Archivio Segreto Vaticano.

Altro partner del progetto è NTT Data (azienda nel settore IT che si occupa di digitalizzazione di manoscritti).

Il progetto ha aperto le porta anche a collaboratori non usuali, quali gli studenti del liceo “G. Keplero” di Roma delle classi terze e quarte, che hanno partecipato all'interno del programma alternanza scuola-lavoro.

SVILUPPI

InCastronuovo1.png

Nell’Archivio segreto vaticano. Una pergamena degli atti di una lettera di Ladislao d’Ungheria del 20 marzo 1339.

Il team ha addestrato la propria rete neurale su immagini e documenti forniti dal Vaticano, per riconoscere intere parole anziché lettere.

Spieghiamo qui in sintesi i principi di funzionamento.

Mentre i sistemi OCR (Optical Character Recognition) sono addestrati a riconoscere singoli glifi dattiloscritti, la maggior parte dei sistemi di Handrwitten Text Recognition (HTR, cioè il riconoscimento del testo manoscritto) usano approcci olistici: tutti gli elementi di testo (frasi, parole e caratteri) di una singola riga sono riconosciuti nel loro insieme, senza alcuna segmentazione preliminare della riga in più elementi.

L’ Handwritten Text Recognition può essere definito come la capacità di trasformare l'input scritto a mano rappresentato come segno grafico, in una rappresentazione simbolica come testo ASCII.

Il programma creato dagli studiosi, infatti, è in grado di riconoscere parole complete invece delle singole lettere come accade con l’utilizzo del tradizionale OCR: il problema principale nei manoscritti, per di più, è la mancanza di spazio tra le lettere e l’OCR non è in grado di capire dove finisca una lettera e dove ne cominci un’altra, per cui ha bisogno di riconoscere le lettere per poterle correttamente segmentare. Per fare questo servirebbe un esercito di paleografi che dovrebbe analizzare un numero enorme di documenti, per associare a centinaia di migliaia di immagini di parole la trascrizione corrispondente.

Il risultato sarebbe  quindi una sorta di o stallo informatico, noto come il paradosso di Sayre. Quest’ultimo viene  risolto grazie ad un’innovazione chiamata “scomposizione a mosaico”, la quale separa le parole non in lettere ma in segmenti più simili a tratti singoli di penna, come nella seguente foto.


Bibliografia e sitografia




Citazione di questo articolo
Come citare: CASTRONUOVO, . "IN CODICE RATIO". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/IN_CODICE_RATIO. il giorno: 28/06/2024.






Informare errori in questa pagina