Index Thomisticus

De Cliomatica - Digital History
Tempo di lettura 23 minuti - per Erica Cau


L’Index Thomisticus. Sancti Thomae Aquinatis operum omnium indices et concordantiae è un progetto di Digital Humanities che ha portato alla creazione del primo corpus elettronico per lo studio di testi filosofici e letterari. Tale lavoro di ricerca è stato pionieristico soprattutto per la disciplina della Linguistica computazionale, di cui ha posto le fondamenta comprovando la validità dell’analisi dei testi con l’ausilio strumenti informatici.

L’Index Thomisticus venne concepito dal gesuita Roberto Busa e si compone di 118 testi in latino relativi all’opera omnia di Tommaso d’Aquino e di altri 61 testi di autori legati a San Tommaso, per un totale di circa undici milioni di parole lemmatizzate durante un arco temporale di trentaquattro anni, dal 1946 al 1980, anno della conclusione del progetto e della sua pubblicazione in formato cartaceo.


La storia

Le origini del progetto e l’incontro con Thomas Watson

La prima idea per la creazione dell’Index Thomisticus risale al 1946, quando Padre Busa lavorava alla tesi di dottorato, svolto presso l’Università Gregoriana, in Filosofia Tomistica [1] .

L’oggetto della tesi era il concetto di interiorità nella filosofia di Tommaso d’Aquino, per cui Busa, inizialmente, condusse tale ricerca servendosi dei preesistenti indici di concordanze delle due parole latine praesens e praesentia, ma ben presto si accorse della scarsa importanza che tali parole rivestivano. Da qui ebbe una prima, importante intuizione: ad avere effettivamente un ruolo significativo per la comprensione del significato era la preposizione in, che andava sempre ad introdurre il concetto di interiorità. Questa idea lo portò a compilare a mano 10.000 schede di concordanze della preposizione in - sia come prefisso che come morfema - ognuna delle quali organizzata in tre colonne contenenti un’occorrenza di in accompagnata dalla sua contestualizzazione e da un’indicazione bibliografica.

Durante tale lavoro, il gesuita ebbe altre due importanti intuizioni. La prima, relativa all’importanza della comprensione dell’insieme delle parole usate da un autore sia da un punto di vista filologico che lessicografico, poiché, secondo Busa, è così che un autore esprime il suo sistema concettuale, il significato profondo che le parole hanno nella sua mente. La seconda intuizione è relativa all’importanza delle parole grammaticali, ovvero quelle “parole vuote”, ma per il gesuita “filosoficamente ricche” [2] , in quanto contengono quella logica che trasforma il significato ordinario delle parole nel significato specifico inteso dall’autore.

A partire da queste considerazioni, padre Busa iniziò a concepire l’Index Thomisticus sotto forma di indice di concordanze di tutte le parole usate Tommaso d’Aquino nei suoi testi. Il problema principale, emerso fin da subito, era la mole di lavoro necessaria a portare a compimento un'opera simile con il solo intervento umano. Il gesuita, dunque, maturò l’idea di utilizzare dei calcolatori.

Nel 1949, Busa durante un viaggio in Canada e negli Stati Uniti visita venticinque università americane alla ricerca di un’università che fosse interessata a sostenere il suo progetto, ma senza risultati concreti. A questo proposito, fu fondamentale l’incontro con Jerom Wiesner del MIT, che gli suggerì di rivolgersi alla sede newyorkese della IBM.

Il gesuita, dunque, venne ricevuto dal presidente dell’azienda americana, Thomas J. Watson, Sr., che acconsentì all’attivazione di una collaborazione col padre fino alla conclusione del progetto. Il supporto della IBM si concretizzò attraverso una prima concessione di calcolatori a schede perforate, oltre che con l’assistenza di Paul Tasman, che venne ricordata da Busa come “essenziale” [3] .


La realizzazione delle schede perforate

Per la realizzazione del lavoro, Roberto Busa ricevette dalla IBM delle perforatrici IBM 858 Cardatype, che prendevano in input delle schede già perforate e verificate, e restituivano due output, una scheda perforata e interpretata per ogni parola nel testo, e un’altra scheda contenente un massimo di dodici frasi.

Le prime battute del lavoro hanno visto la produzione delle schede di testo o sentence cards, necessarie per poter utilizzare le perforatrici Cardatype:

  • in un primo momento si è provveduto all’annotazione manuale dei testi di San Tommaso per mezzo di opportuni riferimenti che indicassero l’inizio e la fine sia delle frasi che dei paragrafi.

Tale lavoro di annotazione venne svolto da studiosi che avevano anche il compito di effettuare la distinzione tra il testo scritto dalla mano dell’autore e le citazioni inserite al suo interno;

  • dopo l’annotazione manuale, ogni riga veniva rappresentata in una scheda perforata accompagnata da un identificatore riferito al testo. Inoltre, era necessario porre particolare attenzione nel non spezzare una parola in due schede differenti, e, se questo si fosse verificato, sarebbe stato preferibile rappresentare la parola una nuova scheda.
  • Inoltre, era necessario definire in anticipo il numero di colonne disponibile per quella specifica perforazione basandosi sul formato della concordanza;
  • seguiva una fase di verifica della perforatura della scheda per mezzo di strumenti appositi (verifier).

A partire dalle sentence cards era possibile poi dividere le frasi in singole parole per mezzo di strumenti, tra cui l’IBM Cardatype. Utilizzando questa macchina era possibile:

  1. preparare delle copie del testo trascritto mentre si perforavano le schede contenenti i lemmi, o word cards;
  2. avere il contesto dell’occorrenza della parola stampato sul retro di ciascuna scheda perforata.
Scheda perforata dell’Index Thomisticus

Questa fase portava alla realizzazione delle word cards, una per ogni lemma nel testo. Anche in questo, erano presenti dei riferimenti alla posizione del lemma nel testo. Per mezzo dell’IBM Cardatype era possibile ordinare alfabeticamente i lemmi in maniera automatica. In caso di lemmi uguali, essi venivano raggruppati e annotati con un apposito numero di sequenza. Venivano quindi contati attraverso una apposita macchina contabile per ottenere un’attestazione della loro frequenza.

Era possibile inoltre, collegare un’altra macchina, detta summary punch, per ottenere una terza serie di carte a partire dalle word cards. Si ottenevano così le form cards, schede contenenti ciascuna un lemma differente - le parole tipo della linguistica computazionale - accompagnato da un numero che attestava la sua posizione all’interno della lista di tutte parole ordinate alfabeticamente e da un secondo numero indicante la frequenza assoluta all’interno del testo. Queste schede non vennero usate per l’indice di concordanze vero e proprio ma vennero riservate per analisi future [4] .

Le word cards necessitavano però dell’intervento umano. Gli studiosi avevano, infatti. il compito di eseguire la disambiguazione tra i diversi significati delle parole omografe, la rimozione dei prefissi e/o suffissi dai lemmi - che venivano considerati come parole distinte, ognuno con un significato proprio - e la congiunzione di parole separate che in realtà costituiscono un unico lemma.

Una volta effettuate queste operazioni, era possibile ottenere le main cards, delle schede perforate contenenti le main words, che venivano codificate con uno speciale layout, una sola per scheda; queste schede venivano poi ordinate alfabeticamente e numerate progressivamente.

Particolarità delle word cards è che ogni parola doveva essere accompagnata dal suo contesto, che poteva essere stampato negli spazi tra i fori prodotti dalla perforatrice, ed avere un’estensione di 80-120 lettere, oppure si poteva perforare nuovamente la scheda contenente la parola, facendo però attenzione a non superare le 50-80 lettere.

Riassumendo, con le quattro tipologie di card ottenute sono state ottenuti:

  1. un indice delle concordanze di ogni parola
  2. l’elenco dei lemmi (conspectus lemmatum);
  3. la lista delle forme (laterculum formarum);
  4. tabelle contenenti le “parole tipo” (rationarum verborum) accompagnate dalla loro frequenza;
  5. un resoconto degli omografi individuati.


Il passaggio ai nastri magnetici e la conclusione del lavoro

Con l’avanzare delle tecnologie informatiche, le schede perforate vennero abbandonate in favore dei nastri magnetici, dei quali ne furono usati venti per portare a termine il lavoro.

La conclusione del progetto è ufficialmente avvenuta nel 1980 ed è culminata con la stampa dei volumi dell’ Index. L'impresa è stata pionieristica anche nella storia della stampa, in quanto i cinquantasei volumi di cui si compone vennero stampati direttamente dai nastri magnetici utilizzando la tecnologia della fotocomposizione.

A partire dal 1987, con l’avvento dei CD-ROM iniziò il trasferimento dell’ Index Thomisticus sul nuovo supporto grazie all’operato di Piero Slocovich. I cinquantasei volumi cartacei, in formato digitale occupavano poco più di 700 MB, la capienza di un CD-ROM dell’epoca. Attraverso opportuni algoritmi di compressione fu possibile ridurre le dimensioni del file, facendolo rientrare in circa 200 MB, quindi all’interno di un solo disco. Il CD-ROM venne pubblicato nel 1992.

Nel 2005 è stata infine elaborata una versione consultabile gratuitamente online [5], realizzata da Enrique Alarcón e Eduardo Bernot in collaborazione con Roberto Busa, con il patrocinio della Fundación Tomás de Aquino, l’IBM, il CAEL e l’Universidad de Navarra.

Homepage dell’Index Thomisticus online


Il Centro per l’Automazione dell’Analisi Letteraria (CAAL)

Gran parte delle operazioni di realizzazione dell’Index sono state svolte presso il Centro per l’Automazione dell’Analisi Letteraria (CAAL), fondato intorno alla metà degli anni Cinquanta a Gallarate (VA); non si sa con sicurezza l’anno, in quanto Busa stesso nei suoi articoli ne attesta la fondazione in anni differenti.

Un’ipotesi plausibile, suggerita da Marco Passarotti (Passarotti 2019), è che sia stato fondato nel 1956, anno cui risale la prima fotografia conservata all’interno del fondo donato da Busa alla Cattolica di Milano. Si sa di per certo che le sue sedi fossero sparse in diversi locali di Gallarate e che, solo nel 1961, la sede venne spostata in via Galileo Ferraris, 2, all’interno di una fabbrica tessile dismessa ma abbastanza grande da contenere tutti i lavoratori.

Nel 1956, Busa ha inoltre fondato una scuola per gli operatori addetti alla foratura delle schede. L’unico prerequisito è che non avessero mai avuto esperienze lavorative in passato. Essi venivano messi in prova per un mese e solo pochi di essi venivano poi ammessi ad un programma di quattro semestri, in cui lavoravano per otto ore al giorno alla foratura delle schede e alla verifica dei testi; alla fine di tale percorso, inoltre, veniva rilasciato un attestato di qualifica professionale.

Secondo Busa (Busa, 1980), molti di questi operatori venivano richiesti dalle aziende fin da prima che terminassero il programma di quattro semestri.

La scuola rimase in attività fino al 1967, fino a quando non venne completata la foratura dei testi nelle schede.

Da questo operato emersero due evidenze:

  1. le donne commettevano meno errori degli uomini;
  2. la qualità dei testi digitati da operatori privi di conoscenze del latino era superiore rispetto a quelli digitati da persone che conoscevano la lingua, perché, conoscendo la lingua, erano più sicuri di ciò che scrivevano e quindi meno attenti.


L’importanza dell’Index Thomisticus per la Linguistica Computazionale

Roberto Busa viene tradizionalmente considerato il padre della Linguistica Computazionale, in particolare ha il merito di aver avuto per primo l’intuizione di usare il calcolatore come strumento per l’analisi automatica dei testi, facendo uso di un approccio basato su un campione di dati (il corpus) e su esperimenti riproducibili. La disciplina, che nel pensiero di Busa viene definita Informatica Linguistica, è stata da lui suddivisa in tre branche:

  1. strutturale, quel ramo di studi che si occuperebbe dell’indagine sui grafemi dal significato non noto, come nel caso di testi criptati o di linguaggi sconosciuti o, ancora, privi di senso.
  2. documentaristica, che si occupa di conservare grandi quantità di dati testuali in banche dati e si occupa di sviluppare sistemi per il loro recupero in caso di bisogno (information retrieval);
  3. linguistica, se si utilizza il computer per analizzare il significante e il significato delle parole. Il salto di qualità, secondo Busa, è stato effettuato con la possibilità di avere analisi linguistiche su testi nella loro interezza, anche da un punto di vista morfologico e sintattico.

I testi di Busa si sono occupati anche del rapporto tra discipline umanistiche e informatica, soprattutto riguardo l’eventualità che il calcolatore potesse rendere obsoleto il mondo dell’umanista. Altri suoi interessi sono stati rivolti al rapporto tra la filosofia e il computer: secondo Busa, l’analisi testuale delle opere filosofiche, effettuata con strumenti informatici, può dare un rigore scientifico allo studio disciplina che prima non era possibile ottenere con alcun mezzo.

Un altro aspetto importante, che si riverbera tutt’ora sulle Digital Humanities, è inoltre quello della pluridisciplinarietà delle competenze - e di esperti in campi variegati - uniti per perseguire un obiettivo comune. Questo, ben si riflette nel GIRCSE, quel gruppo di ricerca fondato da Busa, che unisce personalità provenienti da diversi campi per la prosecuzionedegli studi sull’opera di San Tommaso [6].

Busa è stato uno dei primi ad interrogarsi su come le discipline umanistiche, e soprattutto la linguistica potesse migliorare le capacità di un computer. La soluzione opposta, infatti era già accettata da Busa, per cui l’utilizzo delle macchine e di grandi quantità di dati testuali avrebbe potuto dare delle analisi linguistiche più esaustive e rilevanti.


Il lascito di Padre Busa: gli Archivi dell’Università Cattolica

Una versione cartacea dell’Index Thomisticus e in generale di tutto ciò che riguarda il lavoro di padre Busa viene conservata ora presso gli Archivi dell’Università Cattolica di Milano, cui il gesuita ha ceduto, per mezzo di una donazione, diversi materiali relativi sia alla sua vita professionale che alla sua sfera privata relativi agli anni tra il 1950 e il 2010.

Tra queste fonti d’interesse per lo storico, si ricordano:

  • materiali di Busa, sia personali sia di ambito accademico, quali documenti d’identità e certificati accademici;
  • fotografie relative sia ai locali di lavoro a Gallarate sia di persone impegnate nella realizzazione dell’Index, annotate con date e nomi;
  • articoli di giornale pubblicati dalla stampa italiana e dalla quella estera sui suoi lavori di ricerca;
  • scambi epistolari tra Busa e colleghi italiani ed esteri;
  • materiali relativi a diverse fasi di realizzazione dell’Index, come stampe, nastri magnetici e schede perforate.

Tra questi materiali, si segnala la proposta redatta in forma scritta “Per Completare Lo Index Thomisticus Per L’Esposizione Mondiale Di New York 1964-1965”, risalente probabilmente al 1962. Al suo interno è presente il cosiddetto Organigramma, un diagramma che presenta l’organizzazione dell’intero progetto e il suo stato attuale.

Organigramma. In rosso è possibile osservare lo status del progetto dell’Index intorno al 1962.


L’eredità dell’Index nella ricerca

L’Index Thomisticus e, più in generale l’intero lavoro di Padre Busa, ha portato alla nascita, oltre che della Linguistica computazionale, anche di diversi centri e gruppi di ricerca, quali per esempio l’Istituto di Linguistica Computazionale presso il CNR di Pisa, fondato da Antonio Zampolli, uno dei coordinatori presso il CAAL di Gallarate.

Ad aver accolto pienamente il lascito dell’operato di Busa, è il CIRCSE (Centro interdisciplinare di ricerche per la computerizzazione dei segni dell’espressione) dell’Università Cattolica del Sacro Cuore di Milano; tale centro, nato nel 2006, precedentemente noto come GIRCSE (Gruppo Interdisciplinare di Ricerca per la Computerizzazione dei Segni dell’Espressione), accoglie figure variegate, esperte in campi quali filologia, informatica, linguistica, impegnate nella prosecuzione dei progetti di Busa. Attualmente è impegnato nella realizzazione dell’Index Thomisticus Treebank [7] , per ampliare il lavoro di lemmatizzazione e analisi morfologica dell’Index Thomisticus attraverso l’inclusione dell’analisi sintattica, facendo uso delle linee guida per il livello di annotazione analitico del Prague Dependency Treebank sviluppate presso l’Ùfal di Praga [8] e di linee guida specifiche per l’annotazione del latino sviluppate dalla Perseus Digital Library.

Tale progetto è attualmente in espansione per poter includere l’analisi semantica e pragmatica del corpus.

Il CIRCSE è inoltre occupato in altri progetti, quali:

  • l’annotazione semantica e pragmatica del Latin Dependecy Treebank, che include testi di autori di Età Classica;
  • il progetto IT-VaLex [9] , un lessico di verbi latini con le loro valenze, creato a partire dall’annotazione sintattica dell’Index;
  • il progetto VALLEX [10] , un lessico di verbi latini estratti dal livello di annotazione semantico/pragmatica dell’Index.


Utilizzare l’Index Thomisticus online

Una volta entrati nella homepage del progetto Index Thomisticus [11], l’utente può visualizzare la seguente pagina.

Homepage dell’Index Thomisticus nella sua versione online

La pagina si suddivide in due parti distinte.

  • nella parte superiore si trova una barra di ricerca, con la quale l’utente può effettuare delle ricerche all’interno dell’Index Thomisticus;
  • nella parte inferiore, al di sotto della maschera di ricerca, vengono presentate delle istruzioni per fruire al meglio del corpus nella sua versione online.
Barra di ricerca dell’Index Thomisticus online

Nella barra si possono inserire i lemmi, in latino, con cui effettuare la ricerca. A questo punto, all’utente si aprono diverse alternative:

  • premendo il tasto “invio” o il bottone “concordances”, si effettua una ricerca delle concordanze. Tale ricerca restituisce, in azzurro, le indicazioni bibliografiche del testo in cui appare l’occorrenza della parola, in nero il cotesto e, evidenziata in rosso, il lemma.
Risultato della ricerca semplice del lemma praesentia, evidenziato in rosso.
  • Se si preme il bottone “terms” dopo aver scritto la parola, si ottengono delle informazioni statistiche e morfologiche sul lemma ricercato.

Con tale ricerca semplice, è inoltre possibile trovare il codice identificativo associato a ciascun lemma.

Esempio di ricerca con il bottone “terms” per il lemma “praesentia”

È inoltre possibile, una volta trovato l’ID del lemma, effettuare una ricerca con il bottone “terms” utilizzando il simbolo “#” associato all’ID del lemma.

Un’altra modalità di ricerca per “terms” prevede l’utilizzo del simbolo “=” accompagnato dal lemma. Si otterranno così informazioni statistiche e morfologiche su tutte quelle parole al cui interno compare il lemma ricercato.

Risultati di una ricerca per “terms” utilizzando “=praesentia” nella barra di ricerca
  • Utilizzando come bottone di ricerca il terzo, “works”, è possibile visualizzare l’elenco di opere che compongono l’Index Thomisticus e avere, per ciascuna di esse, il numero di occorrenze del lemma, la frequenza, il titolo dell’opera e la sua tipologia.
Primi risultati della ricerca “works” del termine “praesentia”
  • Gli ultimi due bottoni permettono di impostare delle opzioni di ricerca e di visualizzazione personalizzate (bottone “options”) e di azzerare le ricerche effettuate in precedenza (“new search”).

L’Index Thomisticus online permette inoltre di utilizzare come wildcard i simboli “*” e “?”. Includendo “?” nel lemma cercato si sostituisce quel carattere jolly con qualsiasi altra lettera, mentre utilizzando “*” si può sostituire il carattere jolly con n occorrenze di qualunque simbolo (anche con nessuna).


Bibliografia e sitografia

  1. La tesi venne pubblicata nel 1949 con il titolo “La terminologia tomistica dell'Interiorità. Saggi di metodo per una interpretazione della metafisica della presenza.”
  2. Busa, Roberto. 1980. “The Annals of Humanities Computing: The Index Thomisticus.” Computers and the Humanities 14(2): p. 83.
  3. ibidem, p. 84.
  4. Nyhan, J., & Passarotti, M. (2019). One origin of digital humanities: Fr Roberto Busa in his own words. In One Origin of Digital Humanities: Fr Roberto Busa in His Own Words. Springer International Publishing, p. 53
  5. https://www.corpusthomisticum.org/
  6. cfr. par. 5
  7. https://itreebank.marginalia.it/
  8. https://ufal.mff.cuni.cz/pdt3.0
  9. https://itreebank.marginalia.it/itvalex
  10. https://github.com/CIRCSE/Latin-VALLEX
  11. https://www.corpusthomisticum.org/it/index.age



Citazione di questo articolo
Come citare: CAU, Erica . "Index Thomisticus". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Index_Thomisticus. il giorno: 1/06/2024.






Informare errori in questa pagina