Consta de un prólogo y un cuerpo. El prólogo aparece al principio del documento y contiene la Declaración XML y las posibles declaraciones de las DTD o Esquemas XML. El cuerpo incluye la información propiamente dicha, el contenido en sí del documento XML.
La información (texto) está jerarquizada y se puede representar como una estructura de árbol. El texto de un documento XML consta de dos conjuntos disjuntos: texto de marcado y caracteres de datos (CDATA). El marcado corresponde a las instrucciones que el analizador XML debe procesar, mientras que los datos son el texto entre la marca o etiqueta.
El marcado en XML está compuesto por:
Un documento XML se dice que está bien formado (well formed) cuando cumple estrictamente la especificación XML, resumiendo:
  
   Si un documento no está bien formado no se considera un documento XML 
 y el analizador al detectarlo lo notificará e interrumpirá su trabajo.
    Un documento XML se dice que es válido, si está bien formado, y además 
 verifica la gramática que describe el contenido del documento. 
    Dicha gramática vendrá especificada mediante una DTD o XML-schema. Cuando 
 especificamos en el prólogo de un XML un tipo de documento mediante el tag DOCTYPE, 
 le indicaremos al parser dónde debe buscar las reglas para comprobar 
 la validez o no de nuestro documento.
   
    
| Entidad | Carácter | English name | 
| < | < | less than | 
| > | > | greater than | 
| & | & | ampersand | 
| ' | ' | apostrophe | 
| " | " | quotation mark | 
| Referencia tabla | ||
|---|---|---|