Estrazione di dati da fonti storiche

De Cliomatica - Digital History
Tempo di lettura 7 minuti - per Letizia Ricci


Estrazione di dati da fonti storiche

Il mondo digitale rappresenta per la pratica storica un fattore di grande innovazione, in particolare si è rinnovato il modo in cui le fonti storiche vengono prodotte, conservate e pubblicate. Quando ci troviamo di fronte ad un documento storico ci poniamo il problema di come procedere per presentare il testo in forma tale da poter soddisfare un duplice scopo: per un’analisi circostanziata interna al testo stesso e per ricerche interdisciplinari: filologiche, storiche, geografiche e economiche.

L’edizione digitale è stata per molto tempo considerata una copia mimetica dell’edizione a stampa, ma questo è stato smentito dalle innumerevoli possibilità che offrono le tecnologie delle digital humanities . L’edizione storica digitale rappresenta dunque non un oggetto rinchiuso nel suo involucro elettronico, ma uno strumento dinamico, all’interno del quale i testi sono rappresentati in un formato che permette la loro elaborazione per fini che vanno al di là della semplice lettura. La possibilità di interrogare i dati testuali dell’edizione è una capacità essenziale per poter ottenere molte informazioni che vadano a rispondere a domande complesse. Questa caratteristica risulta quindi particolarmente interessante non solo sul piano strettamente filologico, ad esempio per definire e visualizzare una tipologia di varianti testuali o collegare specifiche lezioni alle scansioni dei manoscritti, ma anche per l’esegesi di fonti primarie, fondamentali per gli studi storici.

Una problematica comune è quella dell’uso limitato che si riesce a fare dei dati, riuscire a sfruttare tali dati per rispondere alle domande fondamentali del ricercatore, oppure per sollevarlo da un’indagine manuale che risulterebbe del tutto anacronistica al momento in cui si dispone di mezzi di calcolo così potenti, costituirebbe un importante servigio reso alla comunità accademica.


Natura dei dati e tecnologie utilizzate

I dati possono essere classificati in strutturati, semi-strutturati e non strutturati.

I dati strutturati, definiti come dati quantitativi, dipendono da uno schema e possono essere rappresentati da righe e colonne e archiviati in un repository centrale, tipicamente un database relazionale, da cui possono essere recuperati separatamente o in una varietà di combinazioni per l’elaborazione e l’analisi. Sono elementi oggettivi che la maggior parte dei software di analisi può raccogliere, rendendo i dati più facili da esportare, archiviare e organizzare in database tipici come SQL da cui estrarre le informazioni con specifiche query.

In ambito storico la prassi più frequente consiste nell’uso di database per archiviare e analizzare i dati, e questo porta in alcuni casi a uno sdoppiamento di funzioni tra le edizioni critiche digitali, utilizzate soprattutto per la visualizzazione di testi e immagini, e il ri-uso dei dati di tali edizioni in ambienti in cui si possono effettuare operazioni di ricerca e data mining.

I dati non strutturati non possono essere ordinati in modo schematico, si tratta di testo libero che manca totalmente di caratteristiche organizzative definite e comuni. Possiamo dire che i dati non strutturati rappresentano un tesoro allo stato grezzo.

I documenti testuali contengono la maggior parte delle informazioni generate manualmente dagli esseri umani, ma per rendere i testi processabili è necessario, attraverso corpora di addestramento, dotare il computer di conoscenze linguistiche, per permettergli di trasformare i dati dal formato non strutturato in cui si trovano nel testo ad un formato strutturato. Questo è possibile attraverso il Natural Language processing (NLP). Tecniche come la Named Entity Recognition (NER), riconoscimento delle entità nominate, permette di identificare, estrarre e classificare automaticamente alcune informazioni chiave presenti nei documenti. Ciò permette di ottenere dei dati strutturati utilizzabili dalle macchine per trovare informazioni, estrarre elementi chiave e anche diversi tipi di entità.

Riferendosi ad un testo storico le informazioni da ricavare possono essere diverse, ad esempio nomi di persona e di luoghi, date, monete, mestieri. Tuttavia l’input è problematico perché i documenti storici non possono essere scomposti facilmente e in modo completo in campi univoci. Anche se utilizziamo strumenti di apprendimento automatico su dati adeguatamente strutturati, non possono emergere grandi risultati finché non abbiamo costruito dei corpora di apprendimento, modelli formali, con poteri esplicativi e predittivi.

Un ibrido tra le due precedenti tipologie di dati sono i dati semi-strutturati, in quanto identificano dati che hanno caratteristiche sia dei dati strutturati che dei dati non strutturati: a testo libero sono aggiunto elementi sono indicati attraverso dei marcatori (tag) che rappresentano un componente logico identificativo del testo. Uno dei linguaggi più utilizzati per la rappresentazione di dati semi-strutturati è XML. Per quanto riguarda la rappresentazione di elementi nei testi viene utilizzato lo standard TEI, si ripropone di contemplare tutti i fenomeni di interesse umanistico. La TEI permette di individuare e dunque di estratte elementi codificati per la visualizzazione dell’informazione e per l’accesso diretto alle occorrenze nella navigazione e studio delle stesse. Tuttavia la debolezza di questo metodo risiede nell’impossibilità di annotare le relazioni fra le varie entità codificate nel testo. Questo permetterebbe di aggiungere un ulteriore livello di ricerca, ossia nell’interrogazione dei dati più articolata, ad esempio consentendo di dirci il quale aree geografiche si è mosso un personaggio in un determinato arco temporale, in quali eventi è stato coinvolto, etc.

La TEI offre glia degli elementi per descrivere le entità di un’ontologia minima; oltre a <listPerson> e <listPlace> ci sono elementi come <relation> e <listRelation>, tuttavia non sono ben supportati. La base necessaria per implementare questa possibilità richiederebbe l’associazione alla codifica di ontologie.


Bibliografia e sitografia




Citazione di questo articolo
Come citare: RICCI, Letizia . "Estrazione di dati da fonti storiche". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/Estrazione_di_dati_da_fonti_storiche. il giorno: 1/06/2024.






Informare errori in questa pagina