Linguistica Computazionale

De Cliomatica - Digital History
Tempo di lettura 14 minuti - per Simona Mazzarino


La linguistica computazionale è una disciplina il cui obiettivo è quello di “sviluppare modelli computazionali della lingua, cioè modelli del funzionamento del linguaggio naturale che possano essere tradotti in programmi eseguibili dal calcolatore e che consentano a quest’ultimo di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua” [1] . La linguistica computazionale, dunque, è descrivibile come una crasi tra l’ambito umanistico e l’ambito informatico, crasi che si declina in due prospettive: da un lato, infatti, ci si domanda cosa il computer possa fare per lo studio del linguaggio naturale, dall’altro che cosa la lingua possa dare al computer.

Analizzando la prima prospettiva, possiamo affermare che il computer aiuta lo studioso a trovare una risposta alle domande classiche della linguistica teorica, cioè come funziona il linguaggio, come viene appreso, come cambia, ecc. utilizzando, tuttavia, metodi innovativi basati su modelli matematico-statistici e tecnologie informatiche; considerando, invece, il secondo punto di vista, possiamo dire che la linguistica computazionale “promette di espandere enormemente le capacità del computer, rendendolo capace di comprendere la struttura e il contenuto dei nostri testi e di interagire col mondo esterno con la naturalezza e l’immediatezza del linguaggio naturale” [2] . La linguistica computazionale, perciò, è un ambito di ricerca interdisciplinare che dialoga sia con materie afferenti all’universo dell’informatica e dell’ingegneria delle lingue sia con materie di stampo umanistico come la linguistica, di cui è figlia diretta, le scienze cognitive, la psicologia e la filosofia.

Un importante progetto di linguistica computazionale è stato sviluppato da padre Roberto Busa: si tratta dell'Index Thomisticus.


I corpora

Un corpus è una collezione di dati linguistici ecologici, presi come campione di una determinata lingua, costruita secondo regole ben precise che determinano il suo contenuto e le sue applicazioni. Un corpus deve essere, dunque, un campione rappresentativo della popolazione linguistica scelta per l’analisi, cioè deve tracciare una mappa di tutte le varietà linguistiche della lingua di riferimento. Per rendere un corpus rappresentativo si usano tecniche di bilanciamento che, attraverso l’utilizzo di dati statistici estratti dalla popolazione, permettono di creare un modello in scala il più simile possibile alla lingua che si vuole rappresentare. I corpora sono organizzati secondo specifici criteri:

  1. generalità: un corpus può essere generale o specialistico, cioè può tenere in considerazione tutte le varietà di una lingua oppure solo alcune, specifiche di un preciso contesto linguistico;
  2. modalità: un corpus può essere formato da solo testi scritti o da solo testi contenenti trascrizioni del parlato o da contenuti misti fino ad arrivare, in alcuni casi e per certi tipi di analisi, a contenuti di tipo audiovisuale;
  3. lingua: un corpus può essere monolingue, cioè contenere materiali solo di una determinata lingua, oppure parallelo, cioè possedere gli stessi testi in diverse lingue così da permettere dei confronti interlinguistici;
  4. cronologia: un corpus può essere diacronico, ossia contenere testi di diverse epoche che consentono di studiare i cambiamenti della lingua nel tempo focalizzandosi su diversi aspetti linguistici (ad esempio, l’aspetto lessicale o semantico), oppure sincronico, cioè contenere testi di uno stesso periodo storico;
  5. annotazione: un corpus può essere annotato, cioè può contenere testi in cui vengono marcate, attraverso linguaggi di marcatura, le diverse parti del discorso, la struttura sintattica, la struttura semantica, la struttura pragmatica, ecc.

Sui dati linguistici presenti nel campione si possono eseguire analisi di tipo matematico-statistico che permettono di descrivere non solo il funzionamento della lingua in quel determinato corpus, ma anche, in maniera inferenziale, nel suo uso reale. Con questi modelli è possibile osservare, ad esempio, la ricchezza lessicale di un testo, la frequenza di una parola, il grado di forza di associazione tra due o più parole e l’entropia di un testo. I corpora presentano, tuttavia, alcuni problemi rilevanti come ad esempio la data sparseness (dispersione dei dati), fenomeno che favorisce i dati più frequenti, ma meno informativi dal punto di vista contenutistico, ai dati meno frequenti, ma molto più informativi, e la design-influence, cioè il fatto che i corpora tendono a essere modellati in base all’obiettivo di ricerca che si vuole perseguire.


Applicazioni della linguistica computazionale alla Storia

I corpora sono una grande risorsa per lo storico: attraverso questi strumenti, infatti, si possono studiare aspetti riguardanti non solo la storia e i processi di creazione e trasformazione di una lingua, o di una sua varietà specifica, ma anche la vita e le abitudini proprie dell’epoca specifica di cui il corpus è il modello in scala. Riportiamo alcuni esempi di corpora che possono tornare utili ad uno studio in chiave storica:

1. Voci della Grande Guerra: corpus contenente diversi testi scritti risalenti alla Prima Guerra Mondiale scelti e selezionati opportunamente da storici e linguisti. L’obiettivo del corpus è quello di esplorare i diversi modi di narrare e descrivere l’Italia in guerra con materiali che riportano “la voce ufficiale della propaganda e la voce dei soldati, la voce dei giornali e la voce delle lettere, la voce delle élite degli intellettuali e la voce popolare, la voce del consenso e la voce del dissenso” [3].

Entrando nel sito, troviamo una pagina introduttiva al corpus con un menù in alto a destra: cliccando sulla voce ‘Esplora il corpus’, l’utente può fare delle ricerche all’interno del database.

Screenshot da www.vocidellagrandeguerra.it

Il corpus permette di fare diversi tipi di ricerche, da quelle più basilari a quelle più complesse. Se l’utente vuole condurre un’analisi semplice può cliccare su ‘Imposta criteri di ricerca’ e selezionare i criteri che vuole utilizzare per la sua ricerca.

Screenshot da www.vocidellagrandeguerra.it

Un metodo interessante per l’utilizzo del corpus in ottica storica, tuttavia, è la ricerca dei nomi propri nei testi: selezionando la voce ‘Ricerca nomi propri’, si apre una pagina che permette di navigare all’interno del corpus per osservare la presenza e la distribuzione di diversi nomi propri di persona, luogo o organizzazione. Supponiamo di voler fare una ricerca per nomi propri di persona: selezioniamo, dunque, nel menù a tendina chiamato ‘Tipo’ il tipo di entità che vogliamo ricercare nel testo, in questo caso un nome proprio di persona.

Screenshot da www.vocidellagrandeguerra.it

A questo punto appare un elenco di tutti i nomi propri di persona presenti nel corpus, con il lemma (cioè la forma non flessa della parola), il numero di occorrenze nel corpus e un’icona a forma di occhio che, se cliccata, conduce a una lista di documenti in cui quel nome è presente. Per esempio, cliccando sull’icona ad occhio della voce di ‘A. Giovanni’, veniamo indirizzati alla lista di testi che contengono il nome ‘A. Giovanni’. Se selezioniamo nuovamente l’icona a forma di occhio a destra della voce, si apre in automatico il testo in cui si trova il nome.

Screenshot da www.vocidellagrandeguerra.it

Il sito è ben strutturato e chiaro, accessibile e fruibile molto facilmente. L’interfaccia grafica è pulita e ordinata. Per un più corretto e approfondito uso è consigliabile possedere qualche competenza in ambito linguistico.

2.MIDIA: corpus di testi scritti in lingua italiana appartenenti al periodo storico che va dal XIII al XX secolo utile per lo studio della formazione delle parole dell’italiano in una prospettiva diacronica.

Nel sito si trova, in evidenza, una breve descrizione del progetto e la barra per le ricerche da fare all’interno del corpus. A sinistra della barra è situato un menù a tendina che permette all’utente di scegliere tra alcune modalità di ricerca; a destra, invece, vi è l’opzione che consente di usare alcune espressioni regolari[4] per ricercare la parola. Supponiamo di voler cercare la parola ‘casa’.

Screenshot da www.corpusmidia.unito.it

Cliccando sul tasto ‘Cerca’, si apre una pagina con una tabella contenente tutte le occorrenze della parola ‘casa’ nei vari testi presenti nel corpus, ognuno facilmente scaricabile in formato .zip una volta selezionata la freccia azzurra posizionata a sinistra della voce, nella colonna ‘Testi’. Le parole possono essere cercate in vari modi: la visualizzazione di default è quelle delle parole nel loro contesto, ma si può cambiare modalità selezionandone una tra quelle riportate sotto la scritta ‘Cambia tipo di risultato in:’. I risultati delle ricerche si possono scaricare cliccando sul tasto verde ‘Download risultati’.

Screenshot da www.corpusmidia.unito.it

Il corpus è facilmente esplorabile, l’interfaccia grafica è chiara e pulita. Di facile approccio anche per neofiti della linguistica, ma consigliato soprattutto agli storici della lingua per osservare il linguaggio in chiave temporale, ad esempio per osservare come cambia l’uso e la semantica di una determinata espressione negli anni.

3. Archivio Datini: corpus lemmatizzato del carteggio di Francesco Datini, mercante italiano vissuto nel XIV secolo. Il corpus digitale del carteggio può essere d’aiuto allo studio della vita e degli affari di un mercante nell’Italia del XIV secolo. La piattaforma GattoWeb, in cui il corpus è situato, è navigabile in modo piuttosto semplice: una volta aperta la homepage basta cliccare sul nome del corpus e si viene reindirizzati agli strumenti di ricerca.
Screenshot da www.aspweb.ovi.cnr.it

GattoWeb permette di fare diversi tipi di ricerche avanzate selezionabili nel menù situato in alto nella pagina. Sono consentite ricerche anche con l’utilizzo di espressioni regolari.

Screenshot da www.aspweb.ovi.cnr.it

Una volta scritta la parola da cercare nel corpus, si apre una pagina con l’elenco delle sue occorrenze. Le parole vengono collocate di default all’interno del contesto standard, ma è possibile cambiare contesto selezionando nel menù in alto la voce ‘Contesti kwic’ che presenta l’elenco delle concordanze della parola in diversi contesti [5] . Sulla sinistra sono presenti alcune finestre per il perfezionamento della ricerca.

Screenshot da www.aspweb.ovi.cnr.it

L’interfaccia grafica del corpus è essenziale e la sua navigazione piuttosto intuitiva. Sono necessarie alcune competenze in ambito linguistico, ma la piattaforma offre sia una guida generale all’utilizzo di GattoWeb sia una pagina contenente informazioni sul corpus, entrambe facilmente consultabili cliccando sui rispettivi tasti in alto a sinistra nella homepage del corpus scelto. È possibile cambiare la lingua del sito scegliendo tra italiano, inglese e francese.

4. Corpus Artesia: corpus dedicato alla raccolta di testi in siciliano medievale. La struttura del corpus è analoga a quella del corpus Archivio Datini dal momento che anche il Corpus Artesia si trova sulla piattaforma GattoWeb.
Screenshot da www.artesia.ovi.cnr.it
5. Corpus ReMediA: corpus contenente un repertorio di testi di medicina antica. La struttura del corpus è analoga a quella del corpus Archivio Datini dal momento che anche il Corpus ReMediA si trova sulla piattaforma GattoWeb.
Screenshot da www.remediaweb.ovi.cnr.it

Esistono, inoltre, alcuni utilizzi più invasivi della linguistica computazionale per lo studio storico delle lingue, come, ad esempio, l’applicazione di tecniche di natural language processing per la ricostruzione di una lista di parole in una lingua Proto-romanza a partire da un insieme di dati linguistici appartenenti a cinquanta lingue e dialetti romanzi moderni diversi con l’obiettivo di ricostruire i processi storici che generano le diversità di ciascuna lingua [6] .


Bibliografia e sitografia

  1. Lenci A., Montemagni S., Pirrelli V., 2005, p. 11
  2. Ibidem, p. 12
  3. www.vocidellagrandeguerra.it, consultato l’1 dicembre 2020
  4. Per approfondire vedi Regular expression, in Encyclopedia of Computer Science, Hoboken, Wiley, 2003.
  5. Per approfondire vedi Occorrenze localizzate in Guida a GattoWeb, www.gattoweb.ovi.cnr.it, consultato il 27 dicembre 2020.
  6. Per approfondire vedi Jäger G., Computational historical linguistics, Theoretical Linguistics, Volume 45, Issue 3-4, pp. 151–182, eISSN 1613-4060, ISSN 0301-4428, DOI: https://doi.org/10.1515/tl-2019-0011.



Citazione di questo articolo
Come citare: MAZZARINO, Simona . "Linguistica Computazionale". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Linguistica_Computazionale. il giorno: 7/06/2024.






Informare errori in questa pagina