Distant reading e strumenti della linguistica computazionale applicati a testi storici

6 minuti - per Pifferi

Il linguaggio umano (o linguaggio naturale) è lo strumento più immediato e duttile di cui disponiamo per creare e comunicare contenuti relativi a ogni tipologia di argomento e disciplina. Negli ultimi decenni, con l’avanzare dell’informatica, si è sfruttata, sempre di più, la possibilità di utilizzare il computer come macchina intelligente in grado di memorizzare ed elaborare enormi quantità di dati (strutturati e non) per renderli disponibili come informazioni. In questo contesto, si è fin da subito resa evidente la possibilità di indagare più facilmente testi di diverso dominio e varietà linguistica, attraverso metodi e strumenti computazionali per riuscire a cogliere aspetti non quantificabili attraverso un’attenta lettura del testo da parte dell’uomo (nota come close reading).

Le prime applicazioni del calcolatore allo studio di testi storici, filosofici e letterari si sono avute nel lavoro pionieristico di padre Roberto Busa che, presso il Centro per l’automazione dell’analisi linguistica di Gallarate, realizzò il primo corpus elettronico delle opere di Tommaso d’Aquino (il cosiddetto Index Thomisticus, che conta circa dieci milioni di parole) e un programma per la loro esplorazione attraverso le concordanze, cioè per mezzo di una lista delle occorrenze di una parola presentata nel suo contesto linguistico. Il suo lavoro diede avvio a una vera e propria nuova disciplina, oggi nota come linguistica computazionale, che oggi prevede anche lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e la creazione di repertori lessicali elettronici.

Questi strumenti innovativi permettono una nuova modalità di lettura dei testi, il cosiddetto distant reading, proposta da Franco Moretti in La letteratura vista da lontano (2005) come alternativa al close reading. Come illustra Moretti, sostituire il binocolo alla lente d’ingrandimento ha diversi vantaggi, in quanto dà la possibilità di estrarre elementi informativi rilevanti dal testo e riconoscere rapporti, somiglianze e pattern con altri documenti che non emergerebbero attraverso una lettura più ravvicinata, in quanto il lettore sarebbe offuscato dai troppi dettagli. In questo modo, la distanza dell’oggetto analizzato, indagata tramite analisi quantitative computazionali, consente di avere una visione completa del libro e dell’autore, permettendo di confermare o confutare ipotesi formulate in una prima fase di lettura ravvicinata, che risulta sempre utile e necessaria per comprendere meglio il focus dell’analisi e capire in che direzione orientare la ricerca.

Uno studio computazionale di questo tipo dà anche la possibilità di comparare in maniera più rapida la trattazione di diversi argomenti da parte di più scrittori (o anche di uno stesso autore in diversi periodi di tempo), mettendo a confronto i contesti d’uso delle parole caratterizzanti un certo dominio.

Così, ad esempio in una ricerca storica, diventa più semplice estrarre dati semantici da fonti attendibili, indagare come viene argomentato un determinato concetto in differenti pensatori di una stessa epoca o di epoche distinte oppure attribuire un determinato documento a un certo autore sulla base dell’analisi del suo stile.

Profilazione linguistica

Quest’ultimo compito è reso possibile attraverso il cosiddetto linguistic profiling, cioè attraverso un processo di estrazione di una vasta gamma di parametri di descrizione linguistica, al fine di ricostruire il profilo di un autore o di un testo. I possibili scenari di applicazione, riportati nella tabella 1 e 2, si possono dividere in due gruppi:

la profilazione del testo;
la profilazione dell’autore;

Tabella 1. Scenari d’uso per la profilazione del testo

Tabella 2. Scenari d’uso per la profilazione dell’autore

In entrambi gli scenari, si possono ricavare, in maniera automatica, un numero notevole di tratti per ciascun livello di annotazione linguistica. In particolare, è possibile estrarre:

a livello di profilo di base: il numero totale di periodi in cui si articola il testo, il numero totale di parole (tokens), la lunghezza media delle frasi calcolata in termini di numero di parole per frase, il numero medio di caratteri per parola.
a livello di profilo lessicale: l’indice di ricchezza lessicale come il rapporto tra le parole tipo e unità (TTR) e la tipologia di vocabolario utilizzato.
a livello di profilo morfosintattico: la distribuzione delle principali parti del discorso e la densità lessicale calcolata come il rapporto tra le parole piene (nomi, verbi, aggettivi, avverbi) e il numero totale delle parole.
a livello di profilo sintattico: l’articolazione interna del periodo.

Analizzando la distribuzione di queste caratteristiche si può tracciare il profilo linguistico di un autore o di un testo e comprendere quali sono le varietà linguistiche, i generi testuali trattati o, più in generale, lo stile di scrittura.

Profiling-UD

Bibliografia e sitografia

Citazione di questo articolo

Come citare: PIFFERI, . "Distant reading e strumenti della linguistica computazionale applicati a testi storici". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Distant_reading_e_strumenti_della_linguistica_computazionale_applicati_a_testi_storici. il giorno: 1/07/2024.

Informare errori in questa pagina

Não está logado

Pesquisa

Navegação

Língua

Ferramentas