TEI - Text Encoding Initiative

De Cliomatica - Digital History
Tempo di lettura 19 minuti - per Letizia Ricci


La Text Encoding Initiative (TEI) è uno dei progetti più influenti nel campo delle Digital Humanities. È considerato lo standard de facto per la codifica dei testi, in quanto si ripropone di contemplare tutti i fenomeni di interesse umanistico, fornendo per ciascuno un vocabolario unico di elementi non ambigui che sia il più possibile completo ed esaustivo. Lo scopo del consorzio TEI è quello di fornire linee guida per la creazione e la gestione di documenti digitali con particolare attenzione alle discipline umanistiche: come manoscritti, documenti archivistici, iscrizioni antiche e molto altro, per uno studio del testo dal punto di vista linguistico, storico e artistico. L’utilizzo dello standard TEI inoltre facilita la portabilità dei documenti digitali, favorendo la condivisione e l’interoperabilità ai fini della ricerca scientifica.

Le Guidelines della TEI forniscono uno strumento per rendere esplicite determinate caratteristiche di un testo in modo tale da facilitarne l’elaborazione mediante programmi informatici basati su diverse piattaforme. Definiamo questo processo di esplicitazione marcatura o codifica. Qualsiasi rappresentazione di un testo digitale usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva proliferazione di schemi di codifica mutualmente incompatibili che ostacolano la ricerca scientifica, sia per adattarsi al crescente numero di applicazioni scientifiche ormai individuate per i testi in formato elettronico.

Le Guidelines privilegiano la descrizione del “significato” del testo, ossia la definizione del modello del testo con le proprie caratteristiche specifiche, piuttosto che gli aspetti di presentazione. La formalizzazione e la struttura del documento è indispensabile per la creazione e la gestione in forma digitale di qualsiasi tipo di dato testuale. A questo fine la TEI propone una struttura modulare, per cui è possibile scegliere i moduli ed i relativi elementi (tagset) d’interesse, in modo da realizzare uno schema di codifica appropriato alle specifiche esigenze del progetto. Grazie a queste caratteristiche, ogni studioso ha la possibilità dunque di sviluppare la propria codifica partendo da una serie di indicazioni, scegliendo i moduli necessari e modificando, in qualsiasi momento, le definizioni degli elementi. L’attuale versione delle linee guida (TEI P5) è stata pubblicata alla fine del 2007, tra le numerose e importanti novità è stato inserito un modulo per la descrizione dei manoscritti. Ad oggi, la soluzione considerata ottimale per una corretta rappresentazione del testo è l’adozione di un linguaggio di markup descrittivo basato su XML (Extensible Markup Language).

Un documento XML è caratterizzato da una struttura gerarchica composta da elementi. Ciascun elemento rappresenta un componente logico del documento e può contenere testo o altri elementi. Gli elementi sono indicati attraverso dei marcatori, che si identificano con un tag di apertura e un tag di chiusura. L’organizzazione gerarchica del documento ha una forma ad albero e prevede un elemento principale, chiamato root o radice che contiene l’insieme di tutti gli elementi del documento ben strutturati e annidati. Il modello TEI è implementato attraverso l’uso del linguaggio di descrizione XML. L’applicazione di XML da parte della TEI è funzionale nella sua complessità e generalità, ma fondamentalmente non differisce da quella di qualsiasi altro schema di codifica XML, per questo qualsiasi generica applicazione software XML è in grado di elaborare testi conformi alla TEI.

La struttura modulare su cui si basa la TEI permette di avere “each element assigned to a single module, typically for use in some specific application area, or to support a particular kind of usage. A module is thus simply a convenient way of grouping together a number of associated element declarations” [1] . Oltre a un certo numero di moduli di base, che raccolgono elementi indispensabili per la struttura dei documenti TEI ed elementi di vario genere utili per molti tipi diversi di testi, sono disponibili moduli opzionali che permettono di marcare specifiche caratteristiche e tipologie di testi, come ad esempio TEI per i manoscritti, che prevede una serie di tag (marcatori) specifici per la descrizione del manoscritto antico, il modulo verse offre ulteriori elementi per la codifica di testi poetici, drama è rivolto agli studiosi di testi drammatici e performativi, etc. L’operazione di selezione e combinazione dei moduli, con i relativi elementi necessari a implementare il proprio modello di codifica, si chiama personalizzazione degli schemi TEI.

I principali moduli TEI:

  • tei: definisce le classi di elementi, le macro e i datatype usati in tutti i moduli
  • header: è l’intestazione contenente i metadati relativi al documento
  • textstructure: definisce gli elementi strutturali per qualsiasi tipo di testo
  • core: definisce gli elementi comuni in qualsiasi documento TEI
  • msdescription: elementi per descrizione del manoscritto
  • transcr: definisce gli elementi per la trascrizione di manoscritti
  • figures: definisce gli elementi per indicare tabelle, formule e immagini
  • namesdates: per la codifica dei nomi di persone, luoghi, organizzazioni
  • analysis: per l’inserimento di semplici analisi e interpretazioni a elementi con contenuto testuale
  • linking: per definire collegamenti, segmentazioni e allineamenti


Struttura di un testo TEI

Elementi strutturali predefiniti

Tutti i documenti conformi alla TEI contengono: una radice <TEI>, un’intestazione codificata con elemento <teiHeader> e la trascrizione del testo marcata con l’elemento <text>.

L’elemento <teiHeader> contiene i metadati relativi al documento ed è composto da quattro parti principali:

  • <fileDesc> che contiene una descrizione bibliografica completa del file digitale, è unico elemento obbligatorio dell’intestazione e si articola in una serie di elementi figli che forniscono una descrizione bibliografica completa del file e della sua fonte: <titleStmt>, <editionStmt>, <publicationStmt>, <notesStmt>, <sourceDesc>. Di questi elementi solo tre sono obbligatori: <titleStmt>, <publicationStmt> e <sourceDesc>;
  • <encodingDesc> che documenta le relazioni tra il testo elettronico e la fonte, o le fonti, da cui è stato tratto;
  • <profileDesc> che contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente;
  • <revisionDesc> riassume la storia delle revisioni di un documento elettronico.

L’elemento <text> a livello testuale si divide in tre elementi:

  • <front> (opzionale): contiene tutti i materiali che tipicamente precedono il corpo del testo, come ad esempio eventuali introduzioni o prefazioni;
  • <body> (obbligatorio): comprende il contenuto testuale vero e proprio, al suo interno si susseguono, continuando a scendere nella struttura gerarchica dell’albero del documento, ulteriori divisioni: capitoli, paragrafi ecc.;
  • <back> (opzionale): racchiude tutti gli annessi ed appendici che possono seguire la parte principale del testo, quali ad esempio: postfazioni, indici, glossari.

Esempio di struttura minima di un documento TEI valido:

Fig.1 – Snippet di un documento TEI minimale

Può essere presente anche l’elemento strutturale <facsimile>, che si pone allo stesso livello di <text> o in sua sostituzione. L’ elemento <facsimile> è necessario per la realizzazione dei collegamenti fra contenuti specifici del testo codificato e immagine digitale di esso. Lo scopo principale di un facsimile è fornire una visualizzazione della trascrizione codificata parallelamente alla rappresentazione digitalizzata del documento originale. Il risultato è un’edizione image-based, utile soprattutto per fonti storiche perché permette la fruizione del materiale preservando il supporto fisico, di modo da limitare i possibili danni cui potrebbe essere soggetto quando viene manipolato.

Nella codifica includendo il modulo TEI transcr, si rende disponibile l’attributo globale facs, che collega il corrispettivo contenuto di un elemento codificato a una parte sezionata dell’immagine digitale, mentre l’attributo start punta ad un elemento di testo che codifica dove ha inizio il contenuto della superficie interessata.

Il <facsimile> comprende l’elemento <surface>, che definisce una superficie in termini di uno spazio espresso attraverso coordinate. Quest’ultimo può essere caratterizzato con successivi elementi <zone> per la rappresentazione di specifiche regioni di interesse sulla superficie.

Fig. 2 - Visualizzazione facsimile del Digital Vercelli Book


Elementi di partizione testuale

Il corpo di un testo, marcato dall’elemento <text>, può essere costituito da una serie in capitoli, sezioni, sottosezioni e ciascuno suddiviso in paragrafi. Questa strutturazione del testo viene indicata con gli elementi: <p>, che codifica i paragrafi in prosa e <div> che contiene la suddivisione generica di un testo.

Le divisioni di qualsiasi tipo di testo possono talvolta iniziare con una breve intestazione o un titolo descrittivo, con un’epigrafe o una breve citazione, o un saluto come quello che si trova all’inizio di una lettera. Possono inoltre concludersi con un breve trailer, sottotitoli, poscritto o firma. Quindi nella codifica ci troviamo ad utilizzare elementi come <opener> che indica l’inizio di un testo comprendente elementi come indicazioni di data e luogo, saluti e presentazioni iniziali e il corrispondente <closer> per saluti finali e conclusioni, <signed> per la firma, <postscript> per il poscritto; o ancora l’elemento <head> per ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario, <argument> che contiene un elenco formale o una descrizione degli argomenti affrontati da una suddivisione di un testo, <trailer> che indica una formula di chiusura o un elemento a piè di pagina che compare alla fine di una sezione di testo, <epigraph> per una citazione, anonima o attribuita, che compare all'inizio o alla fine di una sezione o in un frontespizio.


Numeri di pagina e di riga

Quando si codifica un originale con pagine numerate è spesso utile registrare la sua numerazione di pagina, se non altro per semplificare una successiva verifica del testo e, per la stessa ragione potrebbe essere utile registrare l’interruzione delle righe. In entrambi i casi il trattamento dei trattini di sillabazione nelle parole a fine riga con ritorno a capo sull’originale a stampa richiederà una certa considerazione.

Le interruzioni di pagina e di linea possono essere marcate con i cosiddetti milestone, elementi vuoti che marcano i punti di riferimento all’interno di un testo: <pb> che segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard e <lb> che indica a l’inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo.


Interventi editoriali

Il processo di codifica di un testo elettronico ha molti aspetti in comune con il lavoro di edizione di un manoscritto o di un altro testo ai fini della pubblicazione a stampa. In entrambi i casi un editore accurato potrebbe voler registrare sia lo stato originale della fonte, facendo riferimento a particolari fenomeni fisici, codicologici e testuali presenti sul documento come parti mancanti o sbiadite, cancellazioni, errori ortografici e lessicali, termini arcaici, sia ogni correzione editoriale o altro cambiamento introdotto dall’autore stesso dell’edizione digitale.

<sic> e <corr> sono la coppia di elementi usata per marcare delle correzioni, cioè dei cambiamenti editoriali introdotti laddove l’editore ritenga che l’originale presenti errori.

<orig> e <reg> coppia di elementi per codificare gli interventi di normalizzazione, cioè i cambiamenti editoriali introdotti per salvaguardare la coerenza di un testo o per modernizzarlo.

<del> e <add> cancellazioni e aggiunte di testo da parte dell’autore

Altri possibili fenomeni editoriali marcati sono: omesso del testo in una trascrizione, sia per ragioni editoriali, sia perché il materiale è illeggibile, o incomprensibile indicati con l’elemento <gap>; parti di testo interpretabili con difficoltà attraverso il tag <unclear> del quale si può precisare la ragione per cui non è chiaro; testo danneggiato nel documento originale identificato con <damage> per cui si può specificare l’agente; abbreviazioni, indicate con l’elemento <abbr> e la loro resa estesa <expan>.

Un esempio di visualizzazione affiancata di fenomeno editoriale sul supporto fisico e relativa codifica di tale fenomeno:

Fig. 3 – Cartolina con parti illeggibili e snippet di codifica


Citazioni bibliografiche

Spesso è utile codificare le citazioni bibliografiche se esse appaiono nei testi trascritti a scopo scientifico. Per questo viene utilizzato l’elemento <bibl> che contiene una citazione bibliografica scarsamente strutturata, i cui componenti possono, o meno, essere esplicitamente marcati. Qualora sia utile distinguere le componenti di un riferimento bibliografico, possono essere usati in modo appropriato i seguenti elementi:< author> in un riferimento bibliografico contiene il nome dell'autore (o degli autori), personale o collettivo, di un’opera; <biblScope> definisce l’estensione di un riferimento bibliografico, per esempio mediante una lista di numeri di pagina, o il titolo di una parte di un'opera più ampia; <date> che contiene una data in qualunque formato; <editor> che marca il nome di un individuo, istituzione od organizzazione che figura come editore, compilatore, traduttore; <publisher> fornisce il nome dell'organizzazione responsabile della pubblicazione, o distribuzione di un'unità bibliografica; <pubPlace> indica il luogo in cui è stata pubblicata un’unità bibliografica; <title> marca il titolo di un’opera, sia essa un articolo, un libro, un giornale, o una collana, incluso qualunque titolo o sottotitolo alternativo.


Esempio di codifica: il Codice Pelavicino

Fig. 4 – Codice Pelavicino edizione image-based.

Edizione critica digitale del Codice Pelavicino è un manoscritto della fine del XIII secolo conservato presso l’Archivio Capitolare Lunense a Sarzana. L’edizione digitale del codice consente lo studio del manoscritto senza richiedere la sua consultazione fisica e presenta caratteristiche aggiuntive rispetto ad un’edizione cartacea grazie alla codifica e alle tecnologie informatiche utilizzate.

Il Codice Pelavicino è un’edizione image-based, la corrispondenza tra testo trascritto, apparato critico e immagine è stata realizzata utilizzando il software open source EVT [2] , che è stato ampliato e modificato per potersi adattare alla particolare composizione del manoscritto. EVT consente l’accesso simultaneo all’immagine facsimile e alla trascrizione, oltre che al regesto e alle diverse tipologie di note critiche.

Grazie alla versatilità della marcatura XML-TEI è possibile gestire due diversi livelli di edizione, diplomatica e diplomatica-interpretativa, inoltre è contemplato anche l’apparato critico.

Lo schema di codifica del Codice è tenuto a considerare le peculiarità del manoscritto, dunque si tratta di andare a codificare elementi specifici ricorrenti nel testo, come ad esempio nomi di persona e di luoghi, date, mestieri, monete, signa dei notai.

Di alcuni di tali elementi marcati nel testo, in particolare i nomi di persona e di luogo, sono state create delle liste per creare degli indici, essenziali per la consultazione dinamica e per la ricerca dei contenuti all’interno del manoscritto. A livello di codifica la lista delle persone si presenta racchiusa dsll’elemento <listPerson>, che comprende tanti elementi <person> quante sono le persone menzionate nel Codice. Attraverso la predisposizione di queste liste è stato possibile associare una serie di metadati relativi a ogni persona o luogo presente nel testo, creando così una corrispondenza in grado di arricchire l’edizione digitale e, al tempo stesso, di permettere una navigazione completa e approfondita.

Fig. 5 – Codice Pelavicino edizione image-based.

Un altro elemento spesso presente in questa tipologia di manoscritti sono le date, espresse in numeri romani. Si tratta di un’informazione fondamentale, poiché permette di collocare temporalmente un determinato documento. Per questo elemento la TEI utilizza <date> che consente di identificare qualsiasi tipo di data e, grazie all’uso dell’attributo when, di memorizzarla in cifre arabe.

Caso di particolare interesse è poi la codifica delle monete, in quanto la TEI non predispone un tag specifico per tale elemento. Dunque è stato necessario adattare uno degli elementi predisposti dalle TEI Guidelines: il tag <measure>. Questo elemento, infatti, è genericamente usato per qualsiasi unità di misura ma, essendo una definizione generica, si adatta bene all’utilizzo in questo campo. Questo ci permette di capire quanto lo standad TEI, se pur estremamente vario negli elementi possibili da utilizzare nella codifica, non tiene conto di tutto, ma può comunque conformarsi a specifiche esigenze.

La codifica e il sistema di visualizzazione combinati permettono diverse e funzionalità non banali per quanto riguarda la lettura e l’analisi del testo e la comprensione della struttura del Codice.


Bibliografia e sitografia

  1. Cfr. TEI P5: Guidelines, p. 178
  2. EVT - Edition Visualization Technology: <http://evt.labcd.unipi.it/>.



Citazione di questo articolo
Come citare: RICCI, Letizia . "TEI - Text Encoding Initiative". In: CLIOMATICA - Portale di Storia Digitale e ricerca. Disponibile in: http://lhs.unb.br/cliomatica/index.php/TEI_-_Text_Encoding_Initiative. il giorno: 1/06/2024.






Informare errori in questa pagina