Revisão de 16h30min de 8 de abril de 2021 por Lana.Sato (discussão | contribs)

Linguistica Computazionale

De Cliomatica - Digital History
Tempo di lettura 8 minuti - per Mazzarino


La linguistica computazionale è una disciplina il cui obiettivo è quello di “sviluppare modelli computazionali della lingua, cioè modelli del funzionamento del linguaggio naturale che possano essere tradotti in programmi eseguibili dal calcolatore e che consentano a quest’ultimo di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua” [1] . La linguistica computazionale, dunque, è descrivibile come una crasi tra l’ambito umanistico e l’ambito informatico, crasi che si declina in due prospettive: da un lato, infatti, ci si domanda cosa il computer possa fare per lo studio del linguaggio naturale, dall’altro che cosa la lingua possa dare al computer.

Analizzando la prima prospettiva, possiamo affermare che il computer aiuta lo studioso a trovare una risposta alle domande classiche della linguistica teorica, cioè come funziona il linguaggio, come viene appreso, come cambia, ecc. utilizzando, tuttavia, metodi innovativi basati su modelli matematico-statistici e tecnologie informatiche; considerando, invece, il secondo punto di vista, possiamo dire che la linguistica computazionale “promette di espandere enormemente le capacità del computer, rendendolo capace di comprendere la struttura e il contenuto dei nostri testi e di interagire col mondo esterno con la naturalezza e l’immediatezza del linguaggio naturale” [2] . La linguistica computazionale, perciò, è un ambito di ricerca interdisciplinare che dialoga sia con materie afferenti all’universo dell’informatica e dell’ingegneria delle lingue sia con materie di stampo umanistico come la linguistica, di cui è figlia diretta, le scienze cognitive, la psicologia e la filosofia.


I corpora

Un corpus è una collezione di dati linguistici ecologici, presi come campione di una determinata lingua, costruita secondo regole ben precise che determinano il suo contenuto e le sue applicazioni. Un corpus deve essere, dunque, un campione rappresentativo della popolazione linguistica scelta per l’analisi, cioè deve tracciare una mappa di tutte le varietà linguistiche della lingua di riferimento. Per rendere un corpus rappresentativo si usano tecniche di bilanciamento che, attraverso l’utilizzo di dati statistici estratti dalla popolazione, permettono di creare un modello in scala il più simile possibile alla lingua che si vuole rappresentare. I corpora sono organizzati secondo specifici criteri:

  1. generalità: un corpus può essere generale o specialistico, cioè può tenere in considerazione tutte le varietà di una lingua oppure solo alcune, specifiche di un preciso contesto linguistico;
  2. modalità: un corpus può essere formato da solo testi scritti o da solo testi contenenti trascrizioni del parlato o da contenuti misti fino ad arrivare, in alcuni casi e per certi tipi di analisi, a contenuti di tipo audiovisuale;
  3. lingua: un corpus può essere monolingue, cioè contenere materiali solo di una determinata lingua, oppure parallelo, cioè possedere gli stessi testi in diverse lingue così da permettere dei confronti interlinguistici;
  4. cronologia: un corpus può essere diacronico, ossia contenere testi di diverse epoche che consentono di studiare i cambiamenti della lingua nel tempo focalizzandosi su diversi aspetti linguistici (ad esempio, l’aspetto lessicale o semantico), oppure sincronico, cioè contenere testi di uno stesso periodo storico;
  5. annotazione: un corpus può essere annotato, cioè può contenere testi in cui vengono marcate, attraverso linguaggi di marcatura, le diverse parti del discorso, la struttura sintattica, la struttura semantica, la struttura pragmatica, ecc.

Sui dati linguistici presenti nel campione si possono eseguire analisi di tipo matematico-statistico che permettono di descrivere non solo il funzionamento della lingua in quel determinato corpus, ma anche, in maniera inferenziale, nel suo uso reale. Con questi modelli è possibile osservare, ad esempio, la ricchezza lessicale di un testo, la frequenza di una parola, il grado di forza di associazione tra due o più parole e l’entropia di un testo. I corpora presentano, tuttavia, alcuni problemi rilevanti come ad esempio la data sparseness (dispersione dei dati), fenomeno che favorisce i dati più frequenti, ma meno informativi dal punto di vista contenutistico, ai dati meno frequenti, ma molto più informativi, e la design-influence, cioè il fatto che i corpora tendono a essere modellati in base all’obiettivo di ricerca che si vuole perseguire.


Applicazioni della linguistica computazionale alla Storia

I corpora sono una grande risorsa per lo storico: attraverso questi strumenti, infatti, si possono studiare aspetti riguardanti non solo la storia e i processi di creazione e trasformazione di una lingua, o di una sua varietà specifica, ma anche la vita e le abitudini proprie dell’epoca specifica di cui il corpus è il modello in scala. Riportiamo alcuni esempi di corpora che possono tornare utili ad uno studio in chiave storica:

  1. Voci della Grande Guerra: corpus contenente diversi testi scritti risalenti alla Prima Guerra Mondiale scelti e selezionati opportunamente da storici e linguisti. L’obiettivo del corpus è quello di esplorare i diversi modi di narrare e descrivere l’Italia in guerra con materiali che riportano “la voce ufficiale della propaganda e la voce dei soldati, la voce dei giornali e la voce delle lettere, la voce delle élite degli intellettuali e la voce popolare, la voce del consenso e la voce del dissenso” [3].

Entrando nel sito, troviamo una pagina introduttiva al corpus con un menù in alto a destra: cliccando sulla voce ‘Esplora il corpus’, l’utente può fare delle ricerche all’interno del database.

Screenshot da www.vocidellagrandeguerra.it

Il corpus permette di fare diversi tipi di ricerche, da quelle più basilari a quelle più complesse. Se l’utente vuole condurre un’analisi semplice può cliccare su ‘Imposta criteri di ricerca’ e selezionare i criteri che vuole utilizzare per la sua ricerca.

Screenshot da www.vocidellagrandeguerra.it

Un metodo interessante per l’utilizzo del corpus in ottica storica, tuttavia, è la ricerca dei nomi propri nei testi: selezionando la voce ‘Ricerca nomi propri’, si apre una pagina che permette di navigare all’interno del corpus per osservare la presenza e la distribuzione di diversi nomi propri di persona, luogo o organizzazione. Supponiamo di voler fare una ricerca per nomi propri di persona: selezioniamo, dunque, nel menù a tendina chiamato ‘Tipo’ il tipo di entità che vogliamo ricercare nel testo, in questo caso un nome proprio di persona.


Bibliografia e sitografia

  1. Lenci A., Montemagni S., Pirrelli V., 2005, p. 11
  2. Ibidem, p. 12
  3. www.vocidellagrandeguerra.it, consultato l’1 dicembre 2020



Citazione di questo articolo
Come citare: MAZZARINO, . "Linguistica Computazionale". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Linguistica_Computazionale. il giorno: 1/07/2024.






Informare errori in questa pagina