Revisão de 01h50min de 30 de março de 2021 por Lana.Sato (discussão | contribs)

TEI - Text Encoding Initiative

De Cliomatica - Digital History
Tempo di lettura 8 minuti - per Letizia Ricci


La Text Encoding Initiative (TEI) è uno dei progetti più influenti nel campo delle Digital Humanities. È considerato lo standard de facto per la codifica dei testi, in quanto si ripropone di contemplare tutti i fenomeni di interesse umanistico, fornendo per ciascuno un vocabolario unico di elementi non ambigui che sia il più possibile completo ed esaustivo. Lo scopo del consorzio TEI è quello di fornire linee guida per la creazione e la gestione di documenti digitali con particolare attenzione alle discipline umanistiche: come manoscritti, documenti archivistici, iscrizioni antiche e molto altro, per uno studio del testo dal punto di vista linguistico, storico e artistico. L’utilizzo dello standard TEI inoltre facilita la portabilità dei documenti digitali, favorendo la condivisione e l’interoperabilità ai fini della ricerca scientifica.

Le Guidelines della TEI forniscono uno strumento per rendere esplicite determinate caratteristiche di un testo in modo tale da facilitarne l’elaborazione mediante programmi informatici basati su diverse piattaforme. Definiamo questo processo di esplicitazione marcatura o codifica. Qualsiasi rappresentazione di un testo digitale usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva proliferazione di schemi di codifica mutualmente incompatibili che ostacolano la ricerca scientifica, sia per adattarsi al crescente numero di applicazioni scientifiche ormai individuate per i testi in formato elettronico.

Le Guidelines privilegiano la descrizione del “significato” del testo, ossia la definizione del modello del testo con le proprie caratteristiche specifiche, piuttosto che gli aspetti di presentazione. La formalizzazione e la struttura del documento è indispensabile per la creazione e la gestione in forma digitale di qualsiasi tipo di dato testuale. A questo fine la TEI propone una struttura modulare, per cui è possibile scegliere i moduli ed i relativi elementi (tagset) d’interesse, in modo da realizzare uno schema di codifica appropriato alle specifiche esigenze del progetto. Grazie a queste caratteristiche, ogni studioso ha la possibilità dunque di sviluppare la propria codifica partendo da una serie di indicazioni, scegliendo i moduli necessari e modificando, in qualsiasi momento, le definizioni degli elementi. L’attuale versione delle linee guida (TEI P5) è stata pubblicata alla fine del 2007, tra le numerose e importanti novità è stato inserito un modulo per la descrizione dei manoscritti. Ad oggi, la soluzione considerata ottimale per una corretta rappresentazione del testo è l’adozione di un linguaggio di markup descrittivo basato su XML (Extensible Markup Language).

Un documento XML è caratterizzato da una struttura gerarchica composta da elementi. Ciascun elemento rappresenta un componente logico del documento e può contenere testo o altri elementi. Gli elementi sono indicati attraverso dei marcatori, che si identificano con un tag di apertura e un tag di chiusura. L’organizzazione gerarchica del documento ha una forma ad albero e prevede un elemento principale, chiamato root o radice che contiene l’insieme di tutti gli elementi del documento ben strutturati e annidati. Il modello TEI è implementato attraverso l’uso del linguaggio di descrizione XML. L’applicazione di XML da parte della TEI è funzionale nella sua complessità e generalità, ma fondamentalmente non differisce da quella di qualsiasi altro schema di codifica XML, per questo qualsiasi generica applicazione software XML è in grado di elaborare testi conformi alla TEI.

La struttura modulare su cui si basa la TEI permette di avere “each element assigned to a single module, typically for use in some specific application area, or to support a particular kind of usage. A module is thus simply a convenient way of grouping together a number of associated element declarations” [1] . Oltre a un certo numero di moduli di base, che raccolgono elementi indispensabili per la struttura dei documenti TEI ed elementi di vario genere utili per molti tipi diversi di testi, sono disponibili moduli opzionali che permettono di marcare specifiche caratteristiche e tipologie di testi, come ad esempio TEI per i manoscritti, che prevede una serie di tag (marcatori) specifici per la descrizione del manoscritto antico, il modulo verse offre ulteriori elementi per la codifica di testi poetici, drama è rivolto agli studiosi di testi drammatici e performativi, etc. L’operazione di selezione e combinazione dei moduli, con i relativi elementi necessari a implementare il proprio modello di codifica, si chiama personalizzazione degli schemi TEI.

I principali moduli TEI:

  • tei: definisce le classi di elementi, le macro e i datatype usati in tutti i moduli
  • header: è l’intestazione contenente i metadati relativi al documento
  • textstructure: definisce gli elementi strutturali per qualsiasi tipo di testo
  • core: definisce gli elementi comuni in qualsiasi documento TEI
  • msdescription: elementi per descrizione del manoscritto
  • transcr: definisce gli elementi per la trascrizione di manoscritti
  • figures: definisce gli elementi per indicare tabelle, formule e immagini
  • namesdates: per la codifica dei nomi di persone, luoghi, organizzazioni
  • analysis: per l’inserimento di semplici analisi e interpretazioni a elementi con contenuto testuale
  • linking: per definire collegamenti, segmentazioni e allineamenti


Struttura di un testo TEI

Elementi strutturali predefiniti

Tutti i documenti conformi alla TEI contengono: una radice <TEI>, un’intestazione codificata con elemento <teiHeader> e la trascrizione del testo marcata con l’elemento <text>.

L’elemento <teiHeader> contiene i metadati relativi al documento ed è composto da quattro parti principali:

  • <fileDesc> che contiene una descrizione bibliografica completa del file digitale, è unico elemento obbligatorio dell’intestazione e si articola in una serie di elementi figli che forniscono una descrizione bibliografica completa del file e della sua fonte: <titleStmt>, <editionStmt>, <publicationStmt>, <notesStmt>, <sourceDesc>. Di questi elementi solo tre sono obbligatori: <titleStmt>, <publicationStmt> e <sourceDesc>;
  • <encodingDesc> che documenta le relazioni tra il testo elettronico e la fonte, o le fonti, da cui è stato tratto;
  • <profileDesc> che contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente;
  • <revisionDesc> riassume la storia delle revisioni di un documento elettronico.

L’elemento <text> a livello testuale si divide in tre elementi:

  • <front> (opzionale): contiene tutti i materiali che tipicamente precedono il corpo del testo, come ad esempio eventuali introduzioni o prefazioni;
  • <body> (obbligatorio): comprende il contenuto testuale vero e proprio, al suo interno si susseguono, continuando a scendere nella struttura gerarchica dell’albero del documento, ulteriori divisioni: capitoli, paragrafi ecc.;
  • <back> (opzionale): racchiude tutti gli annessi ed appendici che possono seguire la parte principale del testo, quali ad esempio: postfazioni, indici, glossari.

Esempio di struttura minima di un documento TEI valido:

Fig.1 – Snippet di un documento TEI minimale


Bibliografia e sitografia

  1. Cfr. TEI P5: Guidelines, p. 178



Citazione di questo articolo
Come citare: RICCI, Letizia . "TEI - Text Encoding Initiative". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/TEI_-_Text_Encoding_Initiative. il giorno: 1/07/2024.






Informare errori in questa pagina