IN CODICE RATIO

De Cliomatica - Digital History
Tempo di lettura 15 minuti - per Antonella Castronuovo


INTRODUZIONE: COS’È IN CODICE RATIO

In Codice Ratio è un progetto interdisciplinare, basato su metodi di machine learning, nato dall’Università di Roma Tre con l’intento di sviluppare una tecnica per la trascrizione, interpretazione e conservazione dei documenti dell’Archivio Segreto Vaticano.

Il nome di questo progetto gioca sul doppio senso del termine “codice”, inteso sia come manoscritto, sia come l’algoritmo di un programma informatico.

L’idea è di indicizzare ed interrogare gli Archivi Segreti Vaticani. Nello specifico, una parte degli archivi: i Registri Vaticani, che costituiscono un corpus di testi di oltre 18.000 pagine di corrispondenze ufficiali della Curia Romana nel 13° secolo.

Le aree di specializzazione di questo progetto riguardano il patrimonio culturale e le tecnologie della cultura e i principali settori di ricerca coinvolti sono l’informatica e gli studi umanistici.

L’ARCHIVIO SEGRETO VATICANO

L’archivio Segreto Vaticano è uno degli archivi storici più grandi e quindi a rischio di perdita e degrado se non si provvede a preservarli anche attraverso la digitalizzazione.

Ben due secoli di storia della Chiesa Cattolica sono racchiusi in milioni di documenti che ammantano 85 chilometri di scaffali in un bunker del Cortile della Pigna (Città del Vaticano) e rappresentano la più grande banca dati storica al mondo, nonché uno strumento indispensabile per capire la storia dell’Europa. I Registri Vaticani contengono, tra le altre cose,lettere dei papi, lettere e documenti di Michelangelo, le richieste di annullamento del matrimonio di Enrico VIII e persino lettere di Ambraham Lincoln e Jefferson Davis a Papa Pio IX. E ancora, i processi ai Cavalieri Templari, che iniziarono nel 1307 e durarono molti anni; lettere dalla regina Mary di Scozia che richiese l’intercessione prima della sua decapitazione; poi ci sono i documenti relativi a Papa Pio XII e ai suoi rapporti con il regime nazista durante la seconda guerra mondiale, che non sono mai stati pubblicati.

IN CODICE RATIO

Il progetto è stato sviluppato dal Dipartimento di Ingegneria e dal Dipartimento di Studi Umanistici dell’Università di Roma Tre, utilizzando metodi di machine learning (apprendimento automatico) e pratiche di crowdsourcing. La finalità è quella di ridurre il gap semantico tra la digitalizzazione e l’analisi delle fonti storiche e inoltre dare vita a tecnologie che potranno risultare utili per la creazione di servizi innovativi nell’analisi di documentazione manoscritta. I testi esaminati sono in lingua latina o in una vasta gamma di lingue volgari; sono pieni di simboli grafici e linguistici particolari (abbreviazioni, compendi, ecc).

Il coordinatore è Paolo Merialdo, professore associato di Analisi dell’Informazione su Web, responsabile scientifico nei PRIN 2004 e PRIN 2010. Gli altri componenti sono: Alessandro Micarelli, professore ordinario di Intelligenza artificiale, membro della commissione per la valutazione della ricerca Industriale, fondatore dell’Associazione Italiana di Intelligenza Artificiale; quattro ricercatori del Dipartimento di Studi Umanistici: Serena Ammirati, Donatella Firmani, Elena Nieddu, e Marco Maiorino dell’Archivio segreto vaticano. Sono inoltre coinvolti assegnisti appositamente reclutati per il progetto con compiti nell’ambito della paleografia e nell’ambito dell’intelligenza artificiale e dell’elaborazione delle immagini; un consulente esterno con competenze in paleografia e archivistica, in particolare sui registri papali dell’Archivio Segreto Vaticano.

Altro partner del progetto è NTT Data (azienda nel settore IT che si occupa di digitalizzazione di manoscritti).

Il progetto ha aperto le porta anche a collaboratori non usuali, quali gli studenti del liceo “G. Keplero” di Roma delle classi terze e quarte, che hanno partecipato all'interno del programma alternanza scuola-lavoro.

SVILUPPI

Nell’Archivio segreto vaticano. Una pergamena degli atti di una lettera di Ladislao d’Ungheria del 20 marzo 1339.

Il team ha addestrato la propria rete neurale su immagini e documenti forniti dal Vaticano, per riconoscere intere parole anziché lettere.

Spieghiamo qui in sintesi i principi di funzionamento.

Mentre i sistemi OCR (Optical Character Recognition) sono addestrati a riconoscere singoli glifi dattiloscritti, la maggior parte dei sistemi di Handrwitten Text Recognition (HTR, cioè il riconoscimento del testo manoscritto) usano approcci olistici: tutti gli elementi di testo (frasi, parole e caratteri) di una singola riga sono riconosciuti nel loro insieme, senza alcuna segmentazione preliminare della riga in più elementi.

L’ Handwritten Text Recognition può essere definito come la capacità di trasformare l'input scritto a mano rappresentato come segno grafico, in una rappresentazione simbolica come testo ASCII.

Il programma creato dagli studiosi, infatti, è in grado di riconoscere parole complete invece delle singole lettere come accade con l’utilizzo del tradizionale OCR: il problema principale nei manoscritti, per di più, è la mancanza di spazio tra le lettere e l’OCR non è in grado di capire dove finisca una lettera e dove ne cominci un’altra, per cui ha bisogno di riconoscere le lettere per poterle correttamente segmentare. Per fare questo servirebbe un esercito di paleografi che dovrebbe analizzare un numero enorme di documenti, per associare a centinaia di migliaia di immagini di parole la trascrizione corrispondente.

Il risultato sarebbe quindi una sorta di o stallo informatico, noto come il paradosso di Sayre. Quest’ultimo viene risolto grazie ad un’innovazione chiamata “scomposizione a mosaico”, la quale separa le parole non in lettere ma in segmenti più simili a tratti singoli di penna, come nella seguente foto.

InCastronuovo2.png

Questo nuovo approccio all’OCR permette di dividere ogni parola in una serie di strisce verticali e orizzontali, cercando le porzioni più sottili, in cui si trova meno inchiostro (o meglio meno pixel). Il software poi incide le lettere in corrispondenza di queste giunzioni. Il risultato finale è una serie di tessere di mosaico. Di per sé, le tessere di mosaico non sono particolarmente utili. Ma il software le può ricombinare in vari modi. Successivamente si preoccupa di capire quali gruppi di segni rappresentano delle vere lettere e quali no.

Un sistema addestrato su qualche decina di pagine potrebbe, teoricamente, poi operare una trascrizione automatica su interi volumi.

Ci sono però due limiti:

  • una soluzione basata su tecniche di Machine Learning funziona bene solo a fronte di una costosissima fase di addestramento. In pratica, è necessario mostrare al sistema un numero molto elevato di esempi;
  • le eccezioni presenti nei testi, tipicamente sotto forma di abbreviazioni (nuovi simboli introdotti dal copista per abbreviare sequenze più o meno frequenti di caratteri), inficiano l’apprendimento, a meno di non prevedere comunque l’intervento manuale di un paleografo.

I paleografi dovrebbero tuttavia intervenire in una seconda fase di lavori e non nella prima, perché troppo dispendioso. Ovviamente, il sistema può essere addestrato anche a riconoscere le abbreviazioni più frequenti: da qui nasce la necessità di scomporre l’addestramento del sistema in azioni elementari molto semplici, che possano anche essere affidate a persone meno qualificate.

Il sistema di machine learning dovrebbe poter usare gli esempi prodotti in questa fase per riconoscere la maggior parte dei caratteri. Successivamente, i paleografi potranno concentrarsi solo su peculiari abbreviazioni.

In questa prima fase di istruzione del software, che non necessitava di elevate competenze paleografiche, gli ideatori del progetto hanno pensato di ricorrere agli studenti di 24 licei italiani al fine di costruire una base di dati che memorizzasse migliaia di esempi di caratteri estrapolati dai manoscritti.

Inizialmente sono state divise le lettere dell’alfabeto latino in classi: 19 più dei caratteri speciali.

Esempi di caratteri speciali

Poi è stata fatta un’altra suddivisione in classi in base a come queste lettere sono scritte, per un totale di 23 classi.

Un esempio di trascrizione per caratteri a, b, c

Una volta operata questa classificazione gli studenti accedevano a un’applicazione web, che presentava una schermata divisa in tre sezioni:

InCastronuovo5.png

La banda verde in alto contiene esempi “positivi” di una lettera specifica (la g in questo caso) provenienti da un testo medievale in latino.

La banda rossa contiene esempi ingannevoli della stessa lettera che nel progetto In Codice Ratio vengono chiamati “falsi amici”.

La griglia in basso è la parte essenziale del programma. Ognuna delle immagini al suo interno è composta da una serie di tessere del mosaico che il software OCR ha composto, ipotizzando una lettera plausibile.

Agli studenti veniva chiesto di valutare queste lettere, indicando quali corrispondono alla lettera in esame (la g, nell’esempio). In pratica, gli studenti dovevano confrontare ogni immagine nella griglia con lettere degli esempi positivi nella barra verde, spuntando la casella dove trovavano una corrispondenza. Immagine dopo immagine, clic dopo clic, gli studenti hanno insegnato al software la forma di ciascuno dei 22 caratteri dell’alfabeto latino medievale (dalla A alla X, più alcune forme alternative di S e di D).

Terminato il compito degli studenti, dopo aver approvato un numero sufficiente di esempi, il software ha cominciato ad assemblare porzioni di mosaico in modo indipendente, giudicando in autonomia quali lettere fossero presenti.

Esempi di porzioni di mosaico assemblati dal software.

Tuttavia, assemblare tessere di mosaico, formando lettere plausibili, non è sufficiente. Il sistema ha bisogno di strumenti supplementari per sciogliere alcuni nodi dei testi manoscritti.

InCastronuovo7.png

Nell’immagine appena mostrata, ad esempio, emergono diverse ipotesi: aimo, amio, aniio, aiino , e persino aiiiio . La parola esatta è anno. Il software ha indovinato la lettera A e la lettera O. Ma le quattro colonne parallele in mezzo lo hanno mandato in tilt. A partire da un corpus di 1,5 milioni di testi latini, sono state calcolate le frequenze delle sequenze composte da due, tre, quattro, cinque lettere. Il software usa queste statistiche per assegnare delle probabilità alle diverse ipotesi di parole che emergono dal riconoscimento dei singoli caratteri. In questo modo il sistema ha imparato che la combinazione delle lettere “nn” è molto più frequente delle altre.

Messa a punto questa soluzione, il sistema era finalmente pronto a leggere alcuni testi da solo. L’équipe ha deciso di dargli in pasto una sottosezione di oltre 18.000 pagine dell’Archivio Segreto Vaticano contenenti lettere a sovrani europei, sentenze su questioni legali e altre corrispondenze.

I primi tentativi hanno dato esiti alterni. Nei testi trascritti finora, almeno un terzo delle parole conteneva uno o più refusi: gli errori più comuni erano la confusione tra i caratteri m, n e i e tra altri due caratteri spesso confusi tra loro: la lettera f e una forma allungata e arcaica di s. Il software ha indovinato il 96% delle lettere manoscritte.

(Forme differenti dei caratteri d ed s).

Come tutte le intelligenze artificiali, il software migliorerà nel tempo, man mano che avrà processato un numero maggiore di testi.

CONCLUSIONI

La strategia generale di In Codice Ratio, la frammentazione a mosaico unita a un addestramento del software tramite crowdsourcing, potrebbe facilmente essere adattato alla lettura di testi in altre lingue e altre scritture. La cosa potrebbe potenzialmente fare, per i documenti manoscritti, quello che Google books ha fatto per i testi a stampa: rendere disponibili lettere, riviste, diari e altri testi stampati ai ricercatori di tutto il mondo, semplificando sia la lettura di questi documenti sia la ricerca di materiale rilevante.

Il professore Paolo Merialdo ha inoltre affermato: “le nuove tecnologie possono essere uno strumento per processare una grande mole di dati, offrire strumenti per trovare nuove correlazioni e nuove significative interpretazioni. Coordinare gli esperti, ognuno con un ruolo trasversale (archivisti, paleografi, diplomatisti, filologi) in tutto il processo, è entusiasmante […]. L’idea di coinvolgere dei liceali è stata considerata assurda. Ma ora la macchina sta imparando grazie ai loro sforzi. Mi piace osservare come un piccolo impegno di molte persone possa contribuire alla soluzione di un problema complesso […]. Attraverso seminari e incontri con ricercatori di ingegneria informatica, studiosi di paleografia e storici, gli studenti, oltre a imparare i rudimenti di queste materie, avranno modo di avere una panoramica dell’intero progetto e la possibilità di approfondire le tematiche di maggiore interesse. Si avvicineranno inoltre a tecniche innovative di machine learning, oltre che a quelle di trascrizione e successiva indicizzazione dei manoscritti medioevali […]. Anche trascrizioni imperfette possono fornire informazioni generali e di contesto a proposito del manoscritto analizzato.”

Infine, Google AI ha scelto In Codice Ratio come progetto vetrina dell’ultima versione di TensorFlow. Elena Nieddu è stata invitata a presentare il caso di studio di In Codice Ratio al prossimo TensorFlow Dev Summit, tenutosi il 6 e il 7 marzo 2019 a Sunnyvale, in California.

Link ai video sul progetto In Codice Ratio:

https://www.youtube.com/watch?v=m2OB3qq4KIM

https://www.youtube.com/watch?v=PJoiHWzObGc


Bibliografia e sitografia




Citazione di questo articolo
Come citare: CASTRONUOVO, Antonella . "IN CODICE RATIO". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/IN_CODICE_RATIO. il giorno: 15/06/2024.






Informare errori in questa pagina