Esta lección ofrece la oportunidad de trabajar con más detalles con algunos módulos de la Text Encoding Initiative y algunas de las tipologías textuales más comunes. Aun así, es importante retener que para una información completa debemos siempre dirigirnos a las Guías directrices. Sólo así obtendremos una información detallada sobre las restricciones y el uso adecuado de los elementos, su estructura y su semántica.

Prosa

Las Guías directrices de TEI no tienen un módulo específico para la codificación de prosa, pues se trata de un término algo genérico y difícil de definir. La mayoría de los elementos utilizados para codificar textos en prosa pertenecen al módulo core y textstructure, es decir, los elementos que aparecen integrados en la estructura TEI por defecto y que explicamos en la Estructura básica y elementos comunes de los documentos XML-TEI (L3).

Al afrontar la codificación de un texto, debemos, en primer lugar, llevar a cabo un análisis del documento, aislando las unidades estructurales de las que se compone. Partamos de un ejemplo concreto y veamos de qué manera podría ser codificado:

Análisis estructural de un texto

En la Figura anterior tenemos diferentes elementos que deberemos marcar, como por ejemplo:

Las divisiones que corresponden a la primera parte, a los apartados (1, 2...) y a los subapartados (1.1., 1.2., etc.)
Los títulos o encabezados
Los párrafos
Las citas bibliográficas
Las listas
Los números de página
Las referencias cruzadas

A partir de aquí, la idea consiste en encontrar un elemento TEI que responda a cada uno de estos conceptos y expresarlo tal y como proponen las Guías directrices.

Divisiones

Generalmente, las diferentes partes del texto se delimitan con un elemento genérico llamado <div>; de esta manera podemos crear una serie de divisiones jerárquicas tales como partes, capítulos, subcapítulos, secciones, subsecciones, etc. Debemos siempre recordar que las <div> pueden anidarse unas dentro de otras y pueden contener prácticamente todos los otros elementos TEI.

Es muy frecuente que el elemento <div> conlleve, además, diversos atributos, entre ellos:

@type para especificar y caracterizar el tipo de división.
@n para otorgarle una numeración precisa, aunque no es obligatorio pues el procesador puede localizar fácilmente su orden de aparición a partir del elemento padre.

Párrafos y bloques anónimos

El elemento <p> indica un párrafo y puede aparecer en cualquier tipo de texto. Los párrafos no pueden anidarse unos en el interior de los otros, sino que deben situarse consecutivamente y, normalmente, aparecen en el interior de un elemento <div>.

A veces una sección textual no corresponde exactamente a la noción de párrafo, y en ese caso podría utilizarse el elemento <ab> (anonymous block). Por ejemplo, en nuestro documento, podríamos marcar el texto introductorio con <ab> y relegar el elemento <p> para los párrafos de los apartados y subapartados.

Títulos y encabezados

Los encabezados y títulos de cualquier tipo se marcan con el elemento <head> que puede conllevar, como en los casos anteriores, diversos atributos, como @type, para indicar el tipo de título.

En nuestro documento, se podrían codificar como <head> todo lo que aparece en negrita y que hemos incluido en los cuadros verdes. Ahora bien, si quisiéramos clasificarlos en vista, por ejemplo, de una presentación podríamos establecer tipologías diferentes:

<head type="Principal">Unidad 1</head>
<head type="parte">PARTE I</head>
<head type="apartado">1. Introducción</head>

Aun así, no sería ni mucho menos obligatorio porque los diversos <head> son localizables por el procesador a partir del elemento del que forman parte, de manera que cada <head> podría tener una presentación diferente en función del elemento padre al que pertenece.

Citas

Las citas pueden ser de muchos tipos diferentes, pero las más habituales son aquellas en que se reproducen de manera literal las palabras de otra fuente, acompañadas de la indicación bibliográfica. En estos casos, se utiliza el elemento <cit> que debe estar formado, a su vez, por <quote> que encierra propiamente las palabras de la cita, y por <bibl> que debe contener la referencia bibliográfica:

<cit>
    <quote>The TEI Guidelines for Electronic Text Encoding and Interchange define and document a markup language for representing the structural, renditional, and  conceptual features of 
    </quote> 
    <bibl>TEI Consortium</bibl>
</cit>

En un trabajo en prosa, y especialmente en monografías y trabajos de investigación, la bibliografía suele codificarse separadamente, tal y como lo haríamos tradicionalmente. Puede ir incluida en el <teiHeader>, pero también en el <front>, <back> o incluso dentro de <text> creando una división especial, del tipo:

<div type="bibliografia">

Cada ítem bibliográfico debe tener su identificador (@xml:id) para que pueda ser fácilmente localizable y recuperable. De esta manera, cuando en el cuerpo del texto nos aparezca una cita de ese ítem bibliográfico nos referimos a él con el atributo @corresp al interior del elemento <bibl>:

<bibl corresp="#Guidelines">TEI Consortium</bibl>

Listas

En los textos en prosa aparecen en muchos casos listas de elementos que, en TEI, deben marcarse con el elemento <list>, y cada uno de los ítems se codifica con el elemento <item>.

Si a cada ítem lo antecede un título podríamos utilizar <label>; pero, quizás, lo más interesante sean los diferentes tipos de listas que podemos crear a partir del atributo @type, para indicar el tipo de contenido (TEI propone como valores: gloss, index, instructions, litany, syllogism), y los atributos @rend o @style para determinar el tipo de presentación, donde los valores propuestos son: numbered, inline, bulleted, simple.

Referencias cruzadas

Es también habitual que en un texto en prosa nos encontremos con referencias cruzadas que apunten al interior del documento o a una fuente externa. Los elementos para indicar este tipo de referencias y enlaces son <ref> y <ptr/>. La diferencia básica entre los dos es que el primero puede tener contenido y corresponde en realidad al típico enlace tal cual estamos acostumbrados a ver, mientras que <ptr/> (pointer) es un elemento vacío e indica sólo que en ese punto del texto aparece algo que crea un enlace, como por ejemplo un tipo concreto de imagen.

El posible resultado final -recordad que no hay una sola manera correcta de codificar- para un texto en prosa es el que encontraréis en el Ejemplo en prosa (L5_Ejemplo_prosa.xml).

Ejemplos

Para ver otros ejemplos de prosa, consultad el corpus en abierto de novelas españolas y latinoamericanas en el CLiGS textbox:

Collection of 19th Century Spanish-American Novels (1880-1916), Ulrike Henny-Krahmer (ed.) (24 novelas)
Corpus of Spanish Novels from 1880-1940, José Calvo Tello (ed.) (39 novelas)
Corpus of Spanish Short Stories from 1880-1940, José Calvo Tello (ed.) (20 colecciones de narraciones breves y 302 narraciones)

Sugiero también que sigáis el tutorial de la parte correspondiente de TEI By Example: Module 3: Prose

Cita

Allés Torrent, Susanna (2019). "Introducción a la Text Encoding Initiative". TTHub. Text Technologies Hub: Recursos sobre tecnologías del texto y edición digital. https://TTHub.io/aprende/introduccion-a-tei/

Copiar