2.2. Reglas y conceptos generales

Veamos enseguida qué aspecto tiene un fichero XML e intentemos comprender la noción de marcado, así como algunas reglas generales:

<?xml version="1.0" encoding="UTF-8"?>
<lista>
    <libro>
        <autor id="esquilo">Esquilo</autor>
        <titulo>Prometeo encadenado</titulo>
    </libro>
    <libro>
        <autor id="sofocles">Sófocles</autor>
        <titulo>Edipo Rey</titulo>
    </libro>
    <libro>
        <autor id="euripides">Eurípides</autor>
        <titulo>Medea</titulo>
    </libro>
</lista>

Ejemplo 1: un documento XML

Este documento es en realidad simple texto, podría crearse, editarse y guardarse en un fichero de texto y con uno de los múltiples editores de texto existentes, tales como Komodo, BBEdit, jEdit, Emacs, TextWrangler, entre muchos otros. Entre la comunidad TEI, el editor más utilizado es oXygen porque, aunque es de pago, ofrece funcionalidades específicas para el marcado TEI. [Vid. video oXygen]

A partir de este simple ejemplo, podemos constatar ya algunas ideas y reglas inherentes a todos los documentos XML:

  • El marcado (“markup”) consiste en aislar una porción de texto, grande o pequeña, con un significado semántico específico y señalarlo a través de una marca electrónica, que comúnmente llamamos etiqueta (“tag”). Dichas etiquetas son en realidad una secuencia lineal de caracteres con una estructura específica. Por ejemplo:
    <autor>Esquilo</autor> <titulo>Prometeo encadenado</titulo>
  • Como vemos, la marca indica una instrucción especial de procesamiento (<...>) que el ordenador interpreta como código informático, dónde empieza y dónde acaba. Estas marcas o etiquetas deben aparecer al inicio del segmento que queramos codificar a través de dos paréntesis angulares, y en el cierre del mismo, también con dos paréntesis angulares con la barra inclinada (/) al inicio. Es importante recordar que los caracteres < > son siempre interpretados como código por nuestro ordenador, de manera que si se quieren representar en el texto como tales deberemos utilizar caracteres diferentes (&lt; para representar < y &gt; para >).
  • La estructura de cada una de estas marcas constituye lo que llamamos un “elemento”. Su estructura es rígida y siempre tiene la misma estructura: el nombre del elemento, también llamado identificador, y, normalmente, uno o varios atributos con sus valores respectivos: Estructura:
    <elemento atributo=“valor”>contenido</elemento>
  • Ejemplo:
    <autor id=“esquilo”>Esquilo</autor>
  • Un documento XML tiene forma de árbol. La estructura consiste en la anidación sin límites de unos elementos al interior de otros, construyendo así una especie de árbol o estructura arbórea. Por eso, necesitamos siempre un solo elemento raíz del que cuelguen todos los otros. En el ejemplo, el elemento <catalogo>, engloba una serie de libros (<libro>), que a su vez, tienen dos elementos descendientes: <autor> y <titulo>.
  • Los elementos y los atributos son sensibles a las mayúsculas y minúsculas, de manera que si os equivocáis en una sola letra, poniéndola en mayúscula en lugar de minúscula o viceversa, os encontraréis con un error.

¿Como citar?

Susanna Allés-Torrent, Introducción a la codificación de textos en XML-TEI, 2018.
http://tthub.io/aprende/introduccion-a-tei/ (Última fecha de acceso)