1.1. Codificación, texto y TEI

1. Introducción

En el ámbito de las humanidades y las ciencias sociales, el texto representa, en la mayoría de los casos, el punto de partida de muchas investigaciones. La introducción de métodos y herramientas propios de la ciencia informática llevaron hace ya más de veinte años a replantearse la importancia del texto y su procesamiento informático. La gran cantidad de textos a nuestra disposición conlleva la adopción de nuevas estrategias para la creación, la explotación y la conservación de los mismos.

Carta de Federico García Lorca a José María Chacón

La iniciativa de marcado de textos nace pues de la necesidad de procesar los textos desde un punto de vista informático, para que, en definitiva, no sea susceptible solo de una lectura “plana”, sino para que sea procesable a través de múltiples herramientas como pueden ser programas de concordancias, análisis estilométricos, gráficos de frecuencias, segmentación gramatical o, sobretodo, su publicación web y la posibilidad de realizar búsquedas inteligentes.

La Text Encoding Initiative fue la primera iniciativa científica destinada a la codificación informática de textos, actualmente es una de las más utilizadas y uno de los temas centrales en la disciplina de las humanidades digitales.

2. ¿Qué es TEI?

2.1. Definición y objetivos

La Text Encoding Initiative se ampara en primera instancia en el Consorcio TEI, cuya estructura veremos en la siguiente sección de esta unidad. Este consorcio compuesto por personas e instituciones es el responsable de desarrollar y mantener actualizadas las Guías directrices (Guidelines) para el marcado de los textos en formato digital. Estas guías son una especie de manual de codificación o de recomendaciones de buenas prácticas que especifican una metodología concreta de codificación de los textos de manera que sean leídos y procesados por las computadoras.

TEI posee una plataforma web donde se publican tanto las Guías directrices como un sinfín de herramientas y de comunidades de ayuda (Ver video 1: Presentación Consorcio TEI). Aquí encontraréis una primera definición que nos será útil para empezar:

The TEI Guidelines for Electronic Text Encoding and Interchange define and document a markup language for representing the structural, renditional, and conceptual features of texts. They focus (though not exclusively) on the encoding of documents in the humanities and social sciences, and in particular on the representation of primary source materials for research and analysis. These guidelines are expressed as a modular, extensible XML schema, accompanied by detailed documentation, and are published under an open-source license. The Guidelines are maintained and developed by the TEI Consortium, through its Technical Council, with the support and participation of the TEI community.

“Las TEI Guidelines for Electronic Encoding and Interchange [Directrices para la codificación y el intercambio de textos electrónicos] definen y documentan un lenguaje de marcado para la representación de las características estructurales, físicas y conceptuales de los textos. Su foco de atención es el marcado de documentos en Humanidades y Ciencias Sociales (aunque no exclusivamente), y en particular la representación de fuentes primarias para su explotación y análisis. Estas líneas directrices se expresan de forma modular, a través de esquemas XML extensibles, son acompañadas de una documentación detallada, y publicadas bajo una licencia open-source. Las Guidelines son mantenidas y desarrolladas por el TEI Consortium, a través de su Technical Council, con el respaldo y la participación de la comunidad TEI”. http://www.tei-c.org/Guidelines/

Veamos paso por paso los diferentes puntos básicos de esta definición.

  1. El núcleo central de la TEI son las Guidelines que constituyen el manual de uso y la recomendación de buenas prácticas sobre cómo proceder. Su misión principal es proponer unas pautas claras para el marcado y el intercambio electrónico de los textos y ofrecer una documentación general y explicativa.
  2. La Guidelines proponen un tipo concreto de lenguaje de marcado que consiste en aislar a través de “marcas” o “etiquetas” las características textuales, ya sean estructurales (como capítulos de libro, secciones, apartados, etc.), como físicas (distribución de páginas en un manuscrito), como conceptuales o semánticas (nombres de personas, de lugares, palabras clave, etc.).
  3. TEI es especialmente usado en las disciplinas humanísticas, ciencias sociales o lingüística, y en la representación de las fuentes primarias, tales como manuscritos (De hecho TEI es muy utilizado en las bibliotecas para la descripción y catalogación de sus fondos).
  4. El sistema de marcado propuesto por TEI tiene una naturaleza modular que agrupa fenomenología diversa en un mismo “módulo”. Tiene cuatro obligatorios, que corresponden a elementos compartidos por todos y cada uno de los documentos TEI (como puede ser el elemento raíz, o el elemento párrafo). Esta característica modular permite customizar o personalizar el modelo de marcado que cada proyecto necesita.
  5. TEI se expresa a través del lenguaje estándar web XML, correspondiente a Extensible Markup Language (Lenguaje de Marcas Extensible), que veremos en detalle en la próxima unidad. Además, por lo general, los esquemas o modelos de marcado también utilizan este mismo lenguaje.
  6. TEI ofrece una gran cantidad de documentación detallada sobre cada uno de los elementos, módulos y en general cualquier aspecto relacionado con su uso y buena práctica.
  7. Todo este material es de acceso abierto, con lo cual se puede consultar libremente online, descargarse, reutilizarse e, incluso, ser susceptible de mejoras a través del feedback de los usuarios. Todo el material está disponible en GitHub.

En lo que concierne a los objetivos de TEI, podríamos resumirlos de la siguiente manera:

  • ofrecer unas guías directrices para la creación y la manipulación de todo tipo de datos textuales. Los datos pueden proceder de textos de cualquier naturaleza, manuscritos, documentos de archivos, inscripciones, correspondencia, novelas, obras dramáticas, etc.
  • promover la creación, el intercambio y la integración de los datos textuales informatizados.
  • contemplar textos de cualquier tipología, género y disciplina (Ciencias Humanas y Sociales, Humanidades, Lingüística), en cualquier lengua y de cualquier periodo cronológico.
  • captar tanto a un público novel, sin conocimientos previos en informática, que quiera codificar un material textual; como a un público técnico, capaz de buscar nuevas soluciones técnicas.

2.2. Las ventajas del uso de TEI

Las ventajas que ofrece el uso de TEI son múltiples y entre ellas por ahora podemos señalar:

  1. XML-TEI no depende de ningún software y por tanto es gratuito e independiente. Un documento XML será siempre el mismo en cualquier sistema operativo o en cualquier software o programa informático. Este hecho evita que se puedan dar situaciones catastróficas, en que, por ejemplo, un programa con un formato propietario ya no se mantenga o no se utilice y los documentos queden obsoletos.
  2. XML-TEI ha sido diseñado por y para la comunidad científica que es la encargada en última instancia de promover y mejorar las guías de marcado. Cuantos más usuarios y más gente implicada haya utilizando el mismo sistema de marcado, más se avanzara hacia una propuesta sólida de codificación.
  3. XML-TEI facilita el reuso en diferentes formatos, en diferentes contextos, por diferentes usuarios. Un marcado a través de un estándar web, independiente de cualquier software o plataforma web, permite y facilita el re-uso del mismo material: en diferentes formatos, en contextos diferentes, por diferentes usuarios. Ello permite que proyectos posteriores o contemporáneos puedan establecer un vínculo y un reuso del material publicado, evitando el tener que empezar de cero y avanzando en el conocimiento.
  4. XML-TEI se centra en el significado y el contenido del texto y no en su apariencia o en su presentación final.

Lecturas recomendadas:

What is the Text Encoding Initiative?

Burnard, L., “Introduction”, en Burnard, L. (2014), What is the Text Encoding Initiative. How to add intelligent markup to digital resources, Marserille: OpenEdition Press.

3. ¿Qué entendemos por “texto”?

Antes de adentrarnos en ejemplos concretos, conviene que reflexionemos por un momento sobre qué es un texto. Una pregunta tan sencilla y obvia esconde en realidad una respuesta compleja y no siempre fácil de definir.

El texto es una idea abstracta que presupone la existencia de una secuencia de símbolos lingüísticos. ¿Pero donde se encuentra exactamente un texto? ¿Lo debemos buscar en el original que escribió el autor o en todas las otras copias y ediciones posteriores? ¿lo debemos extraer de la historia que se explica o en las intenciones últimas del autor? ¿o es quizás en la presentación y distribución de la página?

Centrémonos por un momento en los siguientes ejemplos e intentemos reflexionar sobre dónde está el texto:

Cada una de estas tipologías contiene aspectos diferentes y todos en realidad tienen un texto. El diccionario contiene voces y significados; la obra teatral tiene escenas y personajes; una postal, además del mensaje, contiene información sobre quien y para quien se escribió; el manuscrito antiguo puede contener diversas obras, la edición del siglo XVI contiene un rico frontispicio con informaciones sobre la impresión, etc. Además hay otros aspectos que en realidad también forman parte del texto aunque sea desde un punto de vista físico: la estructura textual (parágrafos, listas, tablas…), en el caso del manuscrito vemos letras dañadas, caracteres especiales, líneas del folio, abreviaciones, anotaciones manuscritas, correcciones de autor, errores, y un sinfín de casuística.

El texto, pues, no es solo el contenido textual sino que hay muchas otras variantes y componentes que debemos tener en cuenta a la hora de su codificación. Es importante que cuando afrontamos cualquier proyecto de marcado tengamos en cuenta todas y cada una de estas características que componen el “texto” en un sentido amplio. Por ello, será útil establecer una diferencia entre los conceptos de “texto” y “documento”. Mientras que el documento corresponde a un objeto en el mundo real que podemos escanear o digitalizar, como podría ser el caso de estas imágenes. El texto, en cambio, corresponde a la idea abstracta del contenido de ese documento, creado por y para una comunidad de lectores. Es esta última acepción de “texto” con la que en realidad trabajamos la mayoría de las veces al editar o codificar y requiere un análisis previo así como un cierto nivel de abstracción.

Lectura recomendada:

4. La codificación de un texto

Todas las informaciones que queramos localizar y reutilizar deben ser marcadas de una manera explícita y a través de unas marcas informáticas. Sólo las informaciones que son explícitas podrán ser buscadas a posteriori, procesadas y presentadas.

Un marcado electrónico es un valor añadido pues puede proporcionar múltiples anotaciones, difícilmente señalables en una edición en papel, como por ejemplo en qué secuencia un autor canceló y añadió ciertas correcciones.

Es importante antes de empezar a codificar saber qué elementos queremos aislar y cuáles nos serán útiles para nuestro proyecto:

  • divisiones estructurales dentro del texto: título de la página, capítulo, escena, poema, línea, párrafo…
  • elementos tipográficos puntuales: cambios de letra, caracteres especiales…
  • informaciones semánticas: personas, lugares, eventos, fechas…
  • otros elementos: estructuras sintácticas, formas gramaticales, localización de ilustraciones, gráficos, tablas, imágenes…

La decisión, una vez más, dependerá de las informaciones que queramos recuperar a posteriori y qué queramos procesar informáticamente.

5. Formato vs contenido

Conviene aclarar antes de entrar en materia que existen diferentes tipos de lenguajes de marcado. Para simplificarlo, -y para lo que a nosotros aquí nos conviene- podemos establecer dos tipos básicos de lenguajes informáticos, por un lado, están los que se ocupan de la presentación (“Presentational markup”), es decir, de cuestiones como los diferentes tipos de fuentes, el diseño y a la distribución en la página web, etc.; y por otro lado, los lenguajes descriptivos (“Descriptive markups”) que se ocupan de señalar lo que son las cosas sin preocuparse de cómo aparecerán en la página web o sea cual sea su formato de salida, su transformación y presentación se relega a una etapa posterior.

Un lenguaje de presentación es claramente el lenguaje HTML que se ocupa de presentar los contenidos en la web; por el contrario, el lenguaje XML es descriptivo pues se centra en el contenido semántico. Volvamos al ejemplo anterior: imaginemos que queremos marcar el título principal de una obra; pues bien, HTML lo marcaría de esta manera: <b>Título</b>, donde <b> está por “bold” o negrita; mientras que XML lo marcaría con otra etiqueta que indicara lo que es, no cómo debe aparecer: <title type=“principal”>Título</title>. El lenguaje XML-TEI, al centrarse en el contenido semántico y no en su presentación, no señala si una palabra irá o no en negrita, sino la naturaleza de ese elemento, en este caso un “título”. De esta manera, el contenido nunca está limitado a la perspectiva de un único editor, el texto existe y la presentación que se obtenga al final es relativamente irrelevante. Además, como tendréis tiempo de ver, un documento XML puede ser transformado con facilidad a múltiples formatos, como .doc, epub, html, pdf, pero no siempre al revés.

En definitiva, el hecho de separar la forma o su presentación de su contenido facilita el re-uso de un documento pues no contiene todavía los corsés del formato, de manera que su difusión y su reuso es mucho más flexible.

Lecturas recomendadas:

¿Como citar?

Susanna Allés-Torrent, Introducción a la codificación de textos en XML-TEI, 2018.
http://tthub.io/aprende/introduccion-a-tei/ (Última fecha de acceso)