Mudanças entre as edições de "Index Thomisticus"

De Cliomatica - Digital History
Linha 82: Linha 82:
 
[[Arquivo:InCau2.png|600px|thumb|center|''Homepage dell’Index Thomisticus online'']]
 
[[Arquivo:InCau2.png|600px|thumb|center|''Homepage dell’Index Thomisticus online'']]
  
 +
 +
== Il ''Centro per l’Automazione dell’Analisi Letteraria'' (CAAL) ==
 +
 +
Gran parte delle operazioni di realizzazione dell’''Index'' sono state svolte presso il ''Centro per l’Automazione dell’Analisi Letteraria'' (CAAL), fondato intorno alla metà degli anni Cinquanta a Gallarate (VA); non si sa con sicurezza l’anno, in quanto Busa stesso nei suoi articoli ne attesta la fondazione in anni differenti.
 +
 +
Un’ipotesi plausibile, suggerita da Marco Passarotti (''Passarotti'' 2019), è che sia stato fondato nel 1956, anno cui risale la prima fotografia conservata all’interno del fondo donato da Busa alla Cattolica di Milano. Si sa di per certo che le sue sedi fossero sparse in diversi locali di Gallarate e che, solo nel 1961, la sede venne spostata in via Galileo Ferraris, 2, all’interno di una fabbrica tessile dismessa ma abbastanza grande da contenere tutti i lavoratori.
 +
 +
Nel 1956, Busa ha inoltre fondato una scuola per gli operatori addetti alla foratura delle schede. L’unico prerequisito è che non avessero mai avuto esperienze lavorative in passato. Essi venivano messi in prova per un mese e solo pochi di essi venivano poi ammessi ad un programma di quattro semestri, in cui lavoravano per otto ore al giorno alla foratura delle schede e alla verifica dei testi; alla fine di tale percorso, inoltre, veniva rilasciato un attestato di qualifica professionale.
 +
 +
Secondo Busa (Busa, 1980), molti di questi operatori venivano richiesti dalle aziende fin da prima che terminassero il programma di quattro semestri.
 +
 +
La scuola rimase in attività fino al 1967, fino a quando non venne completata la foratura dei testi nelle schede.
 +
 +
Da questo operato emersero due evidenze:
 +
 +
# le donne commettevano meno errori degli uomini;
 +
# la qualità dei testi digitati da operatori privi di conoscenze del latino era superiore rispetto a quelli digitati da persone che conoscevano la lingua, perché, conoscendo la lingua, erano più sicuri di ciò che scrivevano e quindi meno attenti.
  
  

Edição das 16h11min de 30 de março de 2021

Tempo di lettura 13 minuti - per Cau


L’Index Thomisticus. Sancti Thomae Aquinatis operum omnium indices et concordantiae è un progetto di Digital Humanities che ha portato alla creazione del primo corpus elettronico per lo studio di testi filosofici e letterari. Tale lavoro di ricerca è stato pionieristico soprattutto per la disciplina della Linguistica computazionale, di cui ha posto le fondamenta comprovando la validità dell’analisi dei testi con l’ausilio strumenti informatici.

L’Index Thomisticus venne concepito dal gesuita Roberto Busa e si compone di 118 testi in latino relativi all’opera omnia di Tommaso d’Aquino e di altri 61 testi di autori legati a San Tommaso, per un totale di circa undici milioni di parole lemmatizzate durante un arco temporale di trentaquattro anni, dal 1946 al 1980, anno della conclusione del progetto e della sua pubblicazione in formato cartaceo.


La storia

Le origini del progetto e l’incontro con Thomas Watson

La prima idea per la creazione dell’Index Thomisticus risale al 1946, quando Padre Busa lavorava alla tesi di dottorato, svolto presso l’Università Gregoriana, in Filosofia Tomistica [1] .

L’oggetto della tesi era il concetto di interiorità nella filosofia di Tommaso d’Aquino, per cui Busa, inizialmente, condusse tale ricerca servendosi dei preesistenti indici di concordanze delle due parole latine praesens e praesentia, ma ben presto si accorse della scarsa importanza che tali parole rivestivano. Da qui ebbe una prima, importante intuizione: ad avere effettivamente un ruolo significativo per la comprensione del significato era la preposizione in, che andava sempre ad introdurre il concetto di interiorità. Questa idea lo portò a compilare a mano 10.000 schede di concordanze della preposizione in - sia come prefisso che come morfema - ognuna delle quali organizzata in tre colonne contenenti un’occorrenza di in accompagnata dalla sua contestualizzazione e da un’indicazione bibliografica.

Durante tale lavoro, il gesuita ebbe altre due importanti intuizioni. La prima, relativa all’importanza della comprensione dell’insieme delle parole usate da un autore sia da un punto di vista filologico che lessicografico, poiché, secondo Busa, è così che un autore esprime il suo sistema concettuale, il significato profondo che le parole hanno nella sua mente. La seconda intuizione è relativa all’importanza delle parole grammaticali, ovvero quelle “parole vuote”, ma per il gesuita “filosoficamente ricche” [2] , in quanto contengono quella logica che trasforma il significato ordinario delle parole nel significato specifico inteso dall’autore.

A partire da queste considerazioni, padre Busa iniziò a concepire l’Index Thomisticus sotto forma di indice di concordanze di tutte le parole usate Tommaso d’Aquino nei suoi testi. Il problema principale, emerso fin da subito, era la mole di lavoro necessaria a portare a compimento un'opera simile con il solo intervento umano. Il gesuita, dunque, maturò l’idea di utilizzare dei calcolatori.

Nel 1949, Busa durante un viaggio in Canada e negli Stati Uniti visita venticinque università americane alla ricerca di un’università che fosse interessata a sostenere il suo progetto, ma senza risultati concreti. A questo proposito, fu fondamentale l’incontro con Jerom Wiesner del MIT, che gli suggerì di rivolgersi alla sede newyorkese della IBM.

Il gesuita, dunque, venne ricevuto dal presidente dell’azienda americana, Thomas J. Watson, Sr., che acconsentì all’attivazione di una collaborazione col padre fino alla conclusione del progetto. Il supporto della IBM si concretizzò attraverso una prima concessione di calcolatori a schede perforate, oltre che con l’assistenza di Paul Tasman, che venne ricordata da Busa come “essenziale” [3] .


La realizzazione delle schede perforate

Per la realizzazione del lavoro, Roberto Busa ricevette dalla IBM delle perforatrici IBM 858 Cardatype, che prendevano in input delle schede già perforate e verificate, e restituivano due output, una scheda perforata e interpretata per ogni parola nel testo, e un’altra scheda contenente un massimo di dodici frasi.

Le prime battute del lavoro hanno visto la produzione delle schede di testo o sentence cards, necessarie per poter utilizzare le perforatrici Cardatype:

  • in un primo momento si è provveduto all’annotazione manuale dei testi di San Tommaso per mezzo di opportuni riferimenti che indicassero l’inizio e la fine sia delle frasi che dei paragrafi.

Tale lavoro di annotazione venne svolto da studiosi che avevano anche il compito di effettuare la distinzione tra il testo scritto dalla mano dell’autore e le citazioni inserite al suo interno;

  • dopo l’annotazione manuale, ogni riga veniva rappresentata in una scheda perforata accompagnata da un identificatore riferito al testo. Inoltre, era necessario porre particolare attenzione nel non spezzare una parola in due schede differenti, e, se questo si fosse verificato, sarebbe stato preferibile rappresentare la parola una nuova scheda.
  • Inoltre, era necessario definire in anticipo il numero di colonne disponibile per quella specifica perforazione basandosi sul formato della concordanza;
  • seguiva una fase di verifica della perforatura della scheda per mezzo di strumenti appositi (verifier).

A partire dalle sentence cards era possibile poi dividere le frasi in singole parole per mezzo di strumenti, tra cui l’IBM Cardatype. Utilizzando questa macchina era possibile:

  1. preparare delle copie del testo trascritto mentre si perforavano le schede contenenti i lemmi, o word cards;
  2. avere il contesto dell’occorrenza della parola stampato sul retro di ciascuna scheda perforata.
Scheda perforata dell’Index Thomisticus

Questa fase portava alla realizzazione delle word cards, una per ogni lemma nel testo. Anche in questo, erano presenti dei riferimenti alla posizione del lemma nel testo. Per mezzo dell’IBM Cardatype era possibile ordinare alfabeticamente i lemmi in maniera automatica. In caso di lemmi uguali, essi venivano raggruppati e annotati con un apposito numero di sequenza. Venivano quindi contati attraverso una apposita macchina contabile per ottenere un’attestazione della loro frequenza.

Era possibile inoltre, collegare un’altra macchina, detta summary punch, per ottenere una terza serie di carte a partire dalle word cards. Si ottenevano così le form cards, schede contenenti ciascuna un lemma differente - le parole tipo della linguistica computazionale - accompagnato da un numero che attestava la sua posizione all’interno della lista di tutte parole ordinate alfabeticamente e da un secondo numero indicante la frequenza assoluta all’interno del testo. Queste schede non vennero usate per l’indice di concordanze vero e proprio ma vennero riservate per analisi future [4] .

Le word cards necessitavano però dell’intervento umano. Gli studiosi avevano, infatti. il compito di eseguire la disambiguazione tra i diversi significati delle parole omografe, la rimozione dei prefissi e/o suffissi dai lemmi - che venivano considerati come parole distinte, ognuno con un significato proprio - e la congiunzione di parole separate che in realtà costituiscono un unico lemma.

Una volta effettuate queste operazioni, era possibile ottenere le main cards, delle schede perforate contenenti le main words, che venivano codificate con uno speciale layout, una sola per scheda; queste schede venivano poi ordinate alfabeticamente e numerate progressivamente.

Particolarità delle word cards è che ogni parola doveva essere accompagnata dal suo contesto, che poteva essere stampato negli spazi tra i fori prodotti dalla perforatrice, ed avere un’estensione di 80-120 lettere, oppure si poteva perforare nuovamente la scheda contenente la parola, facendo però attenzione a non superare le 50-80 lettere.

Riassumendo, con le quattro tipologie di card ottenute sono state ottenuti:

  1. un indice delle concordanze di ogni parola
  2. l’elenco dei lemmi (conspectus lemmatum);
  3. la lista delle forme (laterculum formarum);
  4. tabelle contenenti le “parole tipo” (rationarum verborum) accompagnate dalla loro frequenza;
  5. un resoconto degli omografi individuati.


Il passaggio ai nastri magnetici e la conclusione del lavoro

Con l’avanzare delle tecnologie informatiche, le schede perforate vennero abbandonate in favore dei nastri magnetici, dei quali ne furono usati venti per portare a termine il lavoro.

La conclusione del progetto è ufficialmente avvenuta nel 1980 ed è culminata con la stampa dei volumi dell’ Index. L'impresa è stata pionieristica anche nella storia della stampa, in quanto i cinquantasei volumi di cui si compone vennero stampati direttamente dai nastri magnetici utilizzando la tecnologia della fotocomposizione.

A partire dal 1987, con l’avvento dei CD-ROM iniziò il trasferimento dell’ Index Thomisticus sul nuovo supporto grazie all’operato di Piero Slocovich. I cinquantasei volumi cartacei, in formato digitale occupavano poco più di 700 MB, la capienza di un CD-ROM dell’epoca. Attraverso opportuni algoritmi di compressione fu possibile ridurre le dimensioni del file, facendolo rientrare in circa 200 MB, quindi all’interno di un solo disco. Il CD-ROM venne pubblicato nel 1992.

Nel 2005 è stata infine elaborata una versione consultabile gratuitamente online [5], realizzata da Enrique Alarcón e Eduardo Bernot in collaborazione con Roberto Busa, con il patrocinio della Fundación Tomás de Aquino, l’IBM, il CAEL e l’Universidad de Navarra.

Homepage dell’Index Thomisticus online


Il Centro per l’Automazione dell’Analisi Letteraria (CAAL)

Gran parte delle operazioni di realizzazione dell’Index sono state svolte presso il Centro per l’Automazione dell’Analisi Letteraria (CAAL), fondato intorno alla metà degli anni Cinquanta a Gallarate (VA); non si sa con sicurezza l’anno, in quanto Busa stesso nei suoi articoli ne attesta la fondazione in anni differenti.

Un’ipotesi plausibile, suggerita da Marco Passarotti (Passarotti 2019), è che sia stato fondato nel 1956, anno cui risale la prima fotografia conservata all’interno del fondo donato da Busa alla Cattolica di Milano. Si sa di per certo che le sue sedi fossero sparse in diversi locali di Gallarate e che, solo nel 1961, la sede venne spostata in via Galileo Ferraris, 2, all’interno di una fabbrica tessile dismessa ma abbastanza grande da contenere tutti i lavoratori.

Nel 1956, Busa ha inoltre fondato una scuola per gli operatori addetti alla foratura delle schede. L’unico prerequisito è che non avessero mai avuto esperienze lavorative in passato. Essi venivano messi in prova per un mese e solo pochi di essi venivano poi ammessi ad un programma di quattro semestri, in cui lavoravano per otto ore al giorno alla foratura delle schede e alla verifica dei testi; alla fine di tale percorso, inoltre, veniva rilasciato un attestato di qualifica professionale.

Secondo Busa (Busa, 1980), molti di questi operatori venivano richiesti dalle aziende fin da prima che terminassero il programma di quattro semestri.

La scuola rimase in attività fino al 1967, fino a quando non venne completata la foratura dei testi nelle schede.

Da questo operato emersero due evidenze:

  1. le donne commettevano meno errori degli uomini;
  2. la qualità dei testi digitati da operatori privi di conoscenze del latino era superiore rispetto a quelli digitati da persone che conoscevano la lingua, perché, conoscendo la lingua, erano più sicuri di ciò che scrivevano e quindi meno attenti.


Bibliografia e sitografia

  1. La tesi venne pubblicata nel 1949 con il titolo “La terminologia tomistica dell'Interiorità. Saggi di metodo per una interpretazione della metafisica della presenza.”
  2. Busa, Roberto. 1980. “The Annals of Humanities Computing: The Index Thomisticus.” Computers and the Humanities 14(2): p. 83.
  3. ibidem, p. 84.
  4. Nyhan, J., & Passarotti, M. (2019). One origin of digital humanities: Fr Roberto Busa in his own words. In One Origin of Digital Humanities: Fr Roberto Busa in His Own Words. Springer International Publishing, p. 53
  5. https://www.corpusthomisticum.org/



Citazione di questo articolo
Come citare: CAU, . "Index Thomisticus". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Index_Thomisticus. il giorno: 1/07/2024.






Informare errori in questa pagina