Revisão de 23h36min de 29 de março de 2021 por Lana.Sato (discussão | contribs)

TEI - Text Encoding Initiative

De Cliomatica - Digital History
Tempo di lettura 6 minuti - per Letizia Ricci


La Text Encoding Initiative (TEI) è uno dei progetti più influenti nel campo delle Digital Humanities. È considerato lo standard de facto per la codifica dei testi, in quanto si ripropone di contemplare tutti i fenomeni di interesse umanistico, fornendo per ciascuno un vocabolario unico di elementi non ambigui che sia il più possibile completo ed esaustivo. Lo scopo del consorzio TEI è quello di fornire linee guida per la creazione e la gestione di documenti digitali con particolare attenzione alle discipline umanistiche: come manoscritti, documenti archivistici, iscrizioni antiche e molto altro, per uno studio del testo dal punto di vista linguistico, storico e artistico. L’utilizzo dello standard TEI inoltre facilita la portabilità dei documenti digitali, favorendo la condivisione e l’interoperabilità ai fini della ricerca scientifica.

Le Guidelines della TEI forniscono uno strumento per rendere esplicite determinate caratteristiche di un testo in modo tale da facilitarne l’elaborazione mediante programmi informatici basati su diverse piattaforme. Definiamo questo processo di esplicitazione marcatura o codifica. Qualsiasi rappresentazione di un testo digitale usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva proliferazione di schemi di codifica mutualmente incompatibili che ostacolano la ricerca scientifica, sia per adattarsi al crescente numero di applicazioni scientifiche ormai individuate per i testi in formato elettronico.

Le Guidelines privilegiano la descrizione del “significato” del testo, ossia la definizione del modello del testo con le proprie caratteristiche specifiche, piuttosto che gli aspetti di presentazione. La formalizzazione e la struttura del documento è indispensabile per la creazione e la gestione in forma digitale di qualsiasi tipo di dato testuale. A questo fine la TEI propone una struttura modulare, per cui è possibile scegliere i moduli ed i relativi elementi (tagset) d’interesse, in modo da realizzare uno schema di codifica appropriato alle specifiche esigenze del progetto. Grazie a queste caratteristiche, ogni studioso ha la possibilità dunque di sviluppare la propria codifica partendo da una serie di indicazioni, scegliendo i moduli necessari e modificando, in qualsiasi momento, le definizioni degli elementi. L’attuale versione delle linee guida (TEI P5) è stata pubblicata alla fine del 2007, tra le numerose e importanti novità è stato inserito un modulo per la descrizione dei manoscritti. Ad oggi, la soluzione considerata ottimale per una corretta rappresentazione del testo è l’adozione di un linguaggio di markup descrittivo basato su XML (Extensible Markup Language).

Un documento XML è caratterizzato da una struttura gerarchica composta da elementi. Ciascun elemento rappresenta un componente logico del documento e può contenere testo o altri elementi. Gli elementi sono indicati attraverso dei marcatori, che si identificano con un tag di apertura e un tag di chiusura. L’organizzazione gerarchica del documento ha una forma ad albero e prevede un elemento principale, chiamato root o radice che contiene l’insieme di tutti gli elementi del documento ben strutturati e annidati. Il modello TEI è implementato attraverso l’uso del linguaggio di descrizione XML. L’applicazione di XML da parte della TEI è funzionale nella sua complessità e generalità, ma fondamentalmente non differisce da quella di qualsiasi altro schema di codifica XML, per questo qualsiasi generica applicazione software XML è in grado di elaborare testi conformi alla TEI.

La struttura modulare su cui si basa la TEI permette di avere “each element assigned to a single module, typically for use in some specific application area, or to support a particular kind of usage. A module is thus simply a convenient way of grouping together a number of associated element declarations” [1] . Oltre a un certo numero di moduli di base, che raccolgono elementi indispensabili per la struttura dei documenti TEI ed elementi di vario genere utili per molti tipi diversi di testi, sono disponibili moduli opzionali che permettono di marcare specifiche caratteristiche e tipologie di testi, come ad esempio TEI per i manoscritti, che prevede una serie di tag (marcatori) specifici per la descrizione del manoscritto antico, il modulo verse offre ulteriori elementi per la codifica di testi poetici, drama è rivolto agli studiosi di testi drammatici e performativi, etc. L’operazione di selezione e combinazione dei moduli, con i relativi elementi necessari a implementare il proprio modello di codifica, si chiama personalizzazione degli schemi TEI.

I principali moduli TEI:

  • tei: definisce le classi di elementi, le macro e i datatype usati in tutti i moduli
  • header: è l’intestazione contenente i metadati relativi al documento
  • textstructure: definisce gli elementi strutturali per qualsiasi tipo di testo
  • core: definisce gli elementi comuni in qualsiasi documento TEI
  • msdescription: elementi per descrizione del manoscritto
  • transcr: definisce gli elementi per la trascrizione di manoscritti
  • figures: definisce gli elementi per indicare tabelle, formule e immagini
  • namesdates: per la codifica dei nomi di persone, luoghi, organizzazioni
  • analysis: per l’inserimento di semplici analisi e interpretazioni a elementi con contenuto testuale
  • linking: per definire collegamenti, segmentazioni e allineamenti


Struttura di un testo TEI

Elementi strutturali predefiniti

Bibliografia e sitografia

  1. Cfr. TEI P5: Guidelines, p. 178



Citazione di questo articolo
Come citare: RICCI, Letizia . "TEI - Text Encoding Initiative". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/TEI_-_Text_Encoding_Initiative. il giorno: 1/07/2024.






Informare errori in questa pagina