Aller au contenu

« Extensible Markup Language » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Composants et syntaxe : plus simplement dit
{{Portail|informatique|Édition numérique}}
(30 versions intermédiaires par 20 utilisateurs non affichées)
Ligne 13 : Ligne 13 :
}}
}}


L''''''{{langue|en|Extensible Markup Language}}''''', généralement appelé '''XML'''<ref group=note>Ce nom est une idée de [[James Clark (informatique)|James Clark]], elle est expliquée par {{Lien|lang=en|trad=Tim Bray|texte=Tim Bray}} dans sa [http://www.xml.com/axml/notes/TheCorrectTitle.html spécification annotée]. Comme en [[anglais]] la lettre '''X''' se prononce « eks », elle peut être utilisée dans les sigles pour abréger un ou plusieurs mots commençant par ce même son comme {{langue|en|''eXtensible''}} ou {{langue|en|''eXperience''}} ([[Expérience (jeu de rôle)|XP]]). Plusieurs langages ont ainsi affiché leur parenté avec XML en s'adjoignant un X, comme [[XHTML]].</ref>, « langage de balisage extensible<ref>{{Lien web|prénom1 = Government of Canada, Public Works and Government Services Canada, Translation Bureau,|nom1 = TERMIUM®|titre = xml [1 record] - TERMIUM Plus® — Search - TERMIUM Plus®|url = http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng&i=1&srchtxt=xml&index=alt&codom2nd=1#resultrecs|site = btb.termiumplus.gc.ca|consulté le = 2015-12-08}}</ref> » en français, est un [[métalangage]] informatique de [[Langage de balisage|balisage]] générique qui est un sous-ensemble du [[Standard Generalized Markup Language]] (SGML). Sa syntaxe est dite « extensible » car elle permet de définir différents langages avec chacun leur vocabulaire et leur grammaire, comme [[XHTML]], [[XSLT]], [[RSS]], [[SVG]]… Elle est reconnaissable par son usage des [[Chevron (typographie)|chevrons]] (<code>&lt;</code>, <code>&gt;</code>) encadrant les noms des balises. L'objectif initial de XML est de faciliter l'échange automatisé de contenus complexes ([[Arbre enraciné|arbres]], texte enrichi, etc.) entre [[système d'information|systèmes d'informations]] hétérogènes ([[Interopérabilité en informatique|interopérabilité]]). Avec ses outils et langages associés, une application XML respecte généralement certains principes :
L{{'}}'''''{{langue|en|Extensible Markup Language}}''''', généralement appelé '''XML'''<ref group=note>Ce nom est une idée de [[James Clark (informatique)|James Clark]], elle est expliquée par {{Lien|lang=en|trad=Tim Bray|texte=Tim Bray}} dans sa [http://www.xml.com/axml/notes/TheCorrectTitle.html spécification annotée]. Comme en [[anglais]] la lettre '''X''' se prononce « eks », elle peut être utilisée dans les sigles pour abréger un ou plusieurs mots commençant par ce même son comme {{langue|en|''eXtensible''}} ou {{langue|en|''eXperience''}} ([[Expérience (jeu de rôle)|XP]]). Plusieurs langages ont ainsi affiché leur parenté avec XML en s'adjoignant un X, comme [[XHTML]].</ref>, « langage de balisage extensible<ref>{{Lien web|prénom1 = Government of Canada, Public Works and Government Services Canada, Translation Bureau,|nom1 = TERMIUM®|titre = xml [1 record] - TERMIUM Plus® — Search - TERMIUM Plus®|url = http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng&i=1&srchtxt=xml&index=alt&codom2nd=1#resultrecs|site = btb.termiumplus.gc.ca|consulté le = 2015-12-08}}.</ref> » en français, est un [[métalangage]] informatique de [[Langage de balisage|balisage]] générique qui est un sous-ensemble du [[Standard Generalized Markup Language]] (SGML). Sa syntaxe est dite « extensible » car elle permet de définir différents langages avec pour chacun son vocabulaire et sa grammaire, comme [[XHTML]], [[XSLT]], [[RSS]], [[SVG]]… Elle est reconnaissable par son usage des [[Chevron (typographie)|chevrons]] (<code>&lt;</code>, <code>&gt;</code>) encadrant les noms des balises. L'objectif initial de XML est de faciliter l'échange automatisé de contenus complexes ([[Arbre enraciné|arbres]], texte enrichi, etc.) entre [[système d'information|systèmes d'informations]] hétérogènes ([[Interopérabilité en informatique|interopérabilité]]). Avec ses outils et langages associés, une application XML respecte généralement certains principes :
* la structure d'un document XML est définie et validable par un [[Document Schema Definition Languages|schéma]] ;
* la structure d'un document XML est définie et validable par un [[Document Schema Definition Languages|schéma]] ;
* un document XML est entièrement [[Langage de transformation XML|transformable]] dans un autre document XML.
* un document XML est entièrement [[Langage de transformation XML|transformable]] dans un autre document XML.
Ligne 20 : Ligne 20 :
[[Dan Connolly]] ajoute le {{langue|en|[[Standard Generalized Markup Language]]}} à la liste des activités du {{langue|en|[[World Wide Web Consortium]]}} lorsqu'il s'y joint en 1995. Les travaux débutent à la mi-1996 lorsque l'ingénieur {{Lien|langue=en|trad=Jon Bosak|fr=Jon Bosak|texte=Jon Bosak}} de [[Sun Microsystems]] élabore une charte et recrute des collaborateurs. Bosak se fait connaître dans la petite communauté de personnes ayant de l'expérience à la fois dans le SGML et dans le [[Web]].
[[Dan Connolly]] ajoute le {{langue|en|[[Standard Generalized Markup Language]]}} à la liste des activités du {{langue|en|[[World Wide Web Consortium]]}} lorsqu'il s'y joint en 1995. Les travaux débutent à la mi-1996 lorsque l'ingénieur {{Lien|langue=en|trad=Jon Bosak|fr=Jon Bosak|texte=Jon Bosak}} de [[Sun Microsystems]] élabore une charte et recrute des collaborateurs. Bosak se fait connaître dans la petite communauté de personnes ayant de l'expérience à la fois dans le SGML et dans le [[Web]].


XML est compilé par un groupe de travail de onze membres<ref group=note>Le groupe de travail a été à l'origine appelé le « Editorial Review Board ». Les membres à la première édition sont énumérés à la fin de la première recommandation XML, [http://www.w3.org/TR/1998/REC-xml-19980210 W3C] 1998.</ref>, soutenu par environ 150 membres de divers groupes d'intérêt. Le débat technique a eu lieu sur la liste de diffusion commune et les questions ont été résolues par consensus ou, lorsque cela a échoué, à la majorité des voix du groupe de travail. Les corédacteurs du cahier des charges étaient à l'origine {{Lien|langue=en|trad=Tim Bray|fr=Tim Bray}}, qui a notamment conduit l'informatisation du {{langue|en|''[[Oxford English Dictionary]]''}}, et {{Lien|langue=en|trad=Michael Sperberg-McQueen|fr=Michael Sperberg-McQueen}}, de l'[[Université de l'Illinois]], qui était éditeur en chef de la [[Document Type Definition|DTD]] [[Text Encoding Initiative|TEI]] ; accompagnés ensuite de Jean Paoli, de [[Microsoft]], comme troisième coéditeur<ref>{{fr}} [http://www.journaldunet.com/solutions/itws/040924_it_paoli.shtml ''interview''], journal du net, septembre 2004</ref>. [[James Clark (informatique)|James Clark]] servit comme responsable technique du groupe de travail, notamment en contribuant à l'élément vide « &lt;empty/&gt; » et au nom « XML ». Tim Bray, dans son {{langue|en|''Annotated XML Specification''}}<ref>{{en}} ''[http://www.xml.com/axml/testaxml.htm Extensible Markup Language (XML) 1.0]''.</ref> « la spécification XML annotée », explique plus longuement le contexte qui a rendu possible ce standard. Un compte rendu des décisions de conception et de leurs justifications ont été compilées par Michael Sperberg-McQueen, le 4 décembre 1997<ref name=dec97>{{en}} [http://www.w3.org/XML/9712-reports.html Rapports du W3C SGML ERB pour le SGML WG Et du W3C XML au XML ERB SIG], rapport compilé par C. M. Sperberg-McQueen, 4 décembre 1997.</ref>.
XML est compilé par un groupe de travail de onze membres<ref group=note>Le groupe de travail a été à l'origine appelé le « Editorial Review Board ». Les membres à la première édition sont énumérés à la fin de la première recommandation XML, [http://www.w3.org/TR/1998/REC-xml-19980210 W3C] 1998.</ref>, soutenu par environ 150 membres de divers groupes d'intérêt. Le débat technique a eu lieu sur la liste de diffusion commune et les questions ont été résolues par consensus ou, lorsque cela a échoué, à la majorité des voix du groupe de travail. Les corédacteurs du cahier des charges étaient à l'origine {{Lien|langue=en|trad=Tim Bray|fr=Tim Bray}}, qui a notamment conduit l'informatisation du {{langue|en|''[[Oxford English Dictionary]]''}}, et {{Lien|langue=en|trad=Michael Sperberg-McQueen|fr=Michael Sperberg-McQueen}}, de l'[[Université de l'Illinois]], qui était éditeur en chef de la [[Document Type Definition|DTD]] [[Text Encoding Initiative|TEI]] ; accompagnés ensuite de Jean Paoli, de [[Microsoft]], comme troisième coéditeur<ref>{{fr}} Jean Paoli, [http://www.journaldunet.com/solutions/itws/040924_it_paoli.shtml ''interview''], ''[[Journal du net]]'', septembre 2004.</ref>. [[James Clark (informatique)|James Clark]] servit comme responsable technique du groupe de travail, notamment en contribuant à l'élément vide « &lt;empty/&gt; » et au nom « XML ». Tim Bray, dans son {{langue|en|''Annotated XML Specification''}}<ref>{{en}} ''[http://www.xml.com/axml/testaxml.htm Extensible Markup Language (XML) 1.0]''.</ref> « la spécification XML annotée », explique plus longuement le contexte qui a rendu possible ce standard. Plusieurs autres noms furent envisagés avant XML, ils faisaient référence à une version allégée du SGML : MGML (''Minimal Generalized Markup Language''), SLIM (''Structured Language for Internet Markup'') et MAGMA (''Minimal Architecture for Generalized Markup Applications'')<ref>Thierry Boulanger, ''XML par la pratique'', CNI, p. 15.</ref>. Un compte rendu des décisions de conception et de leurs justifications ont été compilées par Michael Sperberg-McQueen, le 4 décembre 1997<ref name=dec97>{{en}} C. M. Sperberg-McQueen, [http://www.w3.org/XML/9712-reports.html Rapports du W3C SGML ERB pour le SGML WG Et du W3C XML au XML ERB SIG], {{date-|4 décembre 1997}}.</ref>.


Le groupe de travail XML ne s'est jamais rencontré face-à-face, la conception a été réalisée en utilisant [[courrier électronique]] et [[téléconférence]]s hebdomadaires. Les principales décisions de conception ont été prises en une vingtaine de semaines de travail intense entre juillet et novembre 1996, lorsque le premier travail de spécification XML a été publié<ref>{{en}} [http://www.w3.org/TR/WD-xml-961114.html W3C Working Draft] 14-Nov-96</ref>. D'autres travaux de conception sont poursuivis jusqu'en 1997, puis le XML 1.0 est devenu une recommandation [[W3C]] le {{date|10|février|1998|en informatique}}.
Le groupe de travail XML ne s'est jamais rencontré face-à-face, la conception a été réalisée via des [[courrier électronique|courriers électroniques]] et des [[téléconférence]]s hebdomadaires. Les principales décisions de conception ont été prises en une vingtaine de semaines de travail intense entre juillet et novembre 1996, lorsque le premier travail de spécification XML a été publié<ref>{{en}} [http://www.w3.org/TR/WD-xml-961114.html W3C Working Draft] 14-Nov-96.</ref>. D'autres travaux de conception sont poursuivis jusqu'en 1997, puis le XML 1.0 est devenu une recommandation [[W3C]] le {{date|10|février|1998|en informatique}}.


=== XML et SGML ===
=== XML et SGML ===
L'objectif d'XML est expliqué dès le début de la spécification du {{date|10|février|1998|en informatique}} avec une phrase toujours d'actualité : « Son but est de permettre au [[Standard Generalized Markup Language|SGML]] générique d'être transmis, reçu et traité sur le [[Web]] de la même manière que l'est [[HTML]] aujourd'hui. »<ref>[http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html ''Langage de balisage extensible (XML) 1.0''], Recommandation du W3C, 10 février 1998.</ref>{{,}}<ref>{{en}} « {{langue|en|''Its goal is to enable generic SGML to be served, received, and processed on the Web in the way that is now possible with HTML.'' ()}} »[http://www.w3.org/TR/1998/REC-xml-19980210 {{en}}]</ref>. [[Standard Generalized Markup Language|SGML]] est un [[langage de balisage]], employé dans les industries de la documentation et de l'édition. En adoptant cette syntaxe pour [[Hypertext Markup Language|HTML]], [[Tim Berners-Lee]] confrontait une technologie complexe à de plus en plus d'utilisateurs. L'objectif d'XML était de définir un langage aussi générique, mais plus simple que SGML<ref>{{Lien web|langue=anglais|titre=Extensible Markup Language (XML) 1.0|url=https://www.w3.org/TR/1998/REC-xml-19980210|site=w3.org|date=10 février 1998|consulté le=}}</ref>. De fait, XML est un sous-ensemble de SGML.
L'objectif d'XML est expliqué dès le début de la spécification du {{date|10|février|1998|en informatique}}<ref>[http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html ''Langage de balisage extensible (XML) 1.0''], Recommandation du W3C, 10 février 1998.</ref> avec une phrase toujours d'actualité : « Son but est de permettre au [[Standard Generalized Markup Language|SGML]] générique d'être transmis, reçu et traité sur le [[Web]] de la même manière que l'est [[HTML]] aujourd'hui<ref>{{en}} « {{langue|en|''Its goal is to enable generic SGML to be served, received, and processed on the Web in the way that is now possible with HTML.'' ()}} »[http://www.w3.org/TR/1998/REC-xml-19980210 {{en}}].</ref> ». [[Standard Generalized Markup Language|SGML]] est un [[langage de balisage]], employé dans les industries de la documentation et de l'édition. En adoptant cette syntaxe pour [[Hypertext Markup Language|HTML]], [[Tim Berners-Lee]] confrontait une technologie complexe à de plus en plus d'utilisateurs. L'objectif d'XML était de définir un langage aussi générique, mais plus simple que SGML<ref>{{Lien web|langue=anglais|titre=Extensible Markup Language (XML) 1.0|url=https://www.w3.org/TR/1998/REC-xml-19980210|site=w3.org|date=10 février 1998}}.</ref>. De fait, XML est un sous-ensemble de SGML.


À la lumière des années passées, cette spécification a rempli l'objectif qu'elle se fixait, XML a été largement suivi et favorise l'[[Interopérabilité en informatique|interopérabilité]]. La disponibilité d'une syntaxe standard et d'outils de manipulation réduit significativement le coût du [[Cycle de développement (logiciel)|cycle de développement]], permettant à des logiciels de modifier et de valider, sans connaissances préalables, des documents écrits dans ces langages. En effet, avant l'avènement du populaire langage généraliste de description de données qu'est XML, les concepteurs de logiciels avaient pour habitude de définir leurs propres formats de fichiers ou leurs propres langages pour partager les données entre programmes (à l'exception de quelques standards professionnels tels qu'[[EDIFACT]]), ce qui exigeait de concevoir et de programmer chaque fois des analyseurs syntaxiques spécialisés. XML a permis d'effectuer ces tâches avec des outils standards.
À la lumière des années passées, cette spécification a rempli l'objectif qu'elle se fixait, XML a été largement suivi et favorise l'[[Interopérabilité en informatique|interopérabilité]]. La disponibilité d'une syntaxe standard et d'outils de manipulation réduit significativement le coût du [[Cycle de développement (logiciel)|cycle de développement]], permettant à des logiciels de modifier et de valider, sans connaissances préalables, des documents écrits dans ces langages. En effet, avant l'avènement du populaire langage généraliste de description de données qu'est XML, les concepteurs de logiciels avaient pour habitude de définir leurs propres formats de fichiers ou leurs propres langages pour partager les données entre programmes (à l'exception de quelques standards professionnels tels qu'[[EDIFACT]]), ce qui exigeait de concevoir et de programmer chaque fois des analyseurs syntaxiques spécialisés. XML a permis d'effectuer ces tâches avec des outils standards.
Ligne 36 : Ligne 36 :


==== Grammaire plus simple ====
==== Grammaire plus simple ====
SGML est orienté pour la saisie humaine de texte structuré, et autorise beaucoup de raccourcis. Ainsi, les versions de HTML fondées sur SGML permettent d'omettre certaines balises de fermeture, de raccourcir des attributs, et de mélanger minuscules et majuscules.
SGML est orienté pour la saisie humaine de texte structuré et autorise beaucoup de raccourcis. Ainsi, les versions de HTML fondées sur SGML permettent d'omettre certaines balises de fermeture, de raccourcir des attributs et de mélanger minuscules et majuscules.
<source lang="html">
<syntaxhighlight lang="html">
<!-- Exemple d'HTML 4, application de SGML, avec attribut minimisé,
<!-- Exemple d'HTML 4, application de SGML, avec attribut minimisé,
balises en minuscules et majuscules, balises fermantes optionnelles. -->
balises en minuscules et majuscules, balises fermantes optionnelles. -->
Ligne 44 : Ligne 44 :
<li>Item<br>2</Li>
<li>Item<br>2</Li>
</ul>
</ul>
</syntaxhighlight>
</source>
Ces possibilités compliquent le traitement automatique et sont interdites pour les applications de XML.
Ces possibilités compliquent le traitement automatique et sont interdites pour les applications de XML.
<source lang="html">
<syntaxhighlight lang="html">
<!-- Exemple d'XHTML, application de XML. -->
<!-- Exemple d'XHTML, application de XML. -->
<ul compact="compact">
<ul compact="compact">
Ligne 52 : Ligne 52 :
<li>Item<br/>2</li>
<li>Item<br/>2</li>
</ul>
</ul>
</syntaxhighlight>
</source>


==== Espace de noms ====
==== Espace de noms ====
SGML insiste surtout sur la validation, sur la conformité à un modèle contraignant. XML prévoit un usage plus souple de l'information structurée. Il spécifie un moyen de faire cohabiter plusieurs vocabulaires de balises dans un même document grâce à la définition d'[[espace de noms|espaces de noms]].
SGML insiste surtout sur la validation, sur la conformité à un modèle contraignant. XML prévoit un usage plus souple de l'information structurée. Il spécifie un moyen de faire cohabiter plusieurs vocabulaires de balises dans un même document grâce à la définition d'[[espace de noms|espaces de noms]].
<source lang="xml">
<syntaxhighlight lang="xml">
<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" encoding="UTF-8"?>
<xsl:transform
<xsl:transform
Ligne 73 : Ligne 73 :
</xsl:template>
</xsl:template>
</xsl:transform>
</xsl:transform>
</syntaxhighlight>
</source>


==== Bilan ====
==== Bilan ====
Ligne 79 : Ligne 79 :
XML a été largement adopté en informatique dès sa normalisation en 1998. Par la suite, des formats de données moins verbeux comme [[YAML]] et [[JSON]] ont commencé à le concurrencer sérieusement.
XML a été largement adopté en informatique dès sa normalisation en 1998. Par la suite, des formats de données moins verbeux comme [[YAML]] et [[JSON]] ont commencé à le concurrencer sérieusement.


Paradoxalement, XML n'a pas réussi à remplacer SGML pour la grammaire de HTML. Les premières versions de HTML (2, 3.2 et 4) sont formellement des applications de SGML. Suite à l'apparition de XML, HTML 4 a été reformulé en application de XML sous le nom de [[XHTML]] 1.0. Mais bien que XHTML a été dans un premier temps largement adopté par les concepteurs de [[pages Web]], il a ensuite perdu du terrain face à [[HTML5]], qui n'est pas une application de XML ni de SGML. En fait, en application du [[principe de robustesse]], les [[navigateurs Web]] ont toujours interprêté le HTML avec des algorithmes maison sans tenir compte de SGML ni de XML. Et HTML5 a enteriné cet état de fait<ref>{{en}} [http://www.ibm.com/developerworks/xml/library/x-think45/index.html Thinking XML: The XML flavor of HTML5]</ref>.
Paradoxalement, XML n'a pas réussi à remplacer SGML pour la grammaire de HTML. Les premières versions de HTML (2, 3.2 et 4) sont formellement des applications de SGML. À la suite de l'apparition de XML, HTML 4 a été reformulé en application de XML sous le nom de [[XHTML]] 1.0. Mais bien que XHTML ait été dans un premier temps largement adopté par les concepteurs de [[pages Web]], il a ensuite perdu du terrain face à [[HTML5]], qui n'est pas une application de XML ni de SGML. En fait, en application du [[principe de robustesse]], les [[navigateurs Web]] ont toujours interprété le HTML avec des algorithmes maison sans tenir compte de SGML ni de XML. Et HTML5 a entériné cet état de fait<ref>{{en}} [http://www.ibm.com/developerworks/xml/library/x-think45/index.html Thinking XML: The XML flavor of HTML5].</ref>.


=== Versions ===
=== Versions ===
La version 1.0 d'XML a été publiée le {{date|10|février|1998|en informatique}}.
La version 1.0 d'XML a été publiée le {{date|10|février|1998|en informatique}}.


La version 1.1 d'XML a été publiée le {{date|4|février|2004|en informatique}}. Elle apporte des améliorations dans le support des différentes versions d'Unicode, permet l'usage de caractères de contrôle dans le texte (à l'exception du caractère 0), et organise les fins de ligne de façon compatible avec les technologies IBM<ref>[http://www.w3.org/TR/2006/REC-xml11-20060816/#sec-xml11 Rationale and list of changes for XML 1.1]</ref>.
La version 1.1 d'XML a été publiée le {{date|4|février|2004|en informatique}}. Elle apporte des améliorations dans le support des différentes versions d'Unicode, permet l'usage de caractères de contrôle dans le texte (à l'exception du caractère 0), et organise les fins de ligne de façon compatible avec les technologies IBM<ref>[http://www.w3.org/TR/2006/REC-xml11-20060816/#sec-xml11 Rationale and list of changes for XML 1.1].</ref>.


Le W3C recommande aux interpréteurs XML de reconnaître les deux versions, bien que la première version soit beaucoup plus répandue que la seconde.
Le W3C recommande aux interpréteurs XML de reconnaître les deux versions, bien que la première version soit beaucoup plus répandue que la seconde.
Ligne 91 : Ligne 91 :
XML est doté d'une syntaxe générique et extensible qui lui permet de structurer une grande variété de contenus, car son « langage » (vocabulaire et grammaire) peut être redéfini.
XML est doté d'une syntaxe générique et extensible qui lui permet de structurer une grande variété de contenus, car son « langage » (vocabulaire et grammaire) peut être redéfini.


Si le début de cet article était encodé en XML, il pourrait ressembler à ceci.
Si le début de cet article était écrit en XML, il pourrait ressembler à ceci.
<source lang="xml">
<syntaxhighlight lang="xml">
<article xmlns="http://docbook.org/ns/docbook">
<article xmlns="http://docbook.org/ns/docbook">
<title>Extensible Markup Language</title>
<title>Extensible Markup Language</title>
Ligne 100 : Ligne 100 :
</para>
</para>
</article>
</article>
</syntaxhighlight>
</source>


Dans ce code, chacun peut identifier des portions de texte (exemple : Extensible, XML…) et des mots clés encadrés de chevrons (<code><</code>, <code>></code>) : <code><article></code>, <code><title></code>, <code><para></code>… Ces mots sont définis dans l'espace de noms [[Docbook]]. Le document est ouvert par le mot-clé <code><article></code>, et clos par <code></article></code>. Notez la barre oblique, qui caractérise les balises de fermeture. En XML, une balise doit toujours être ''fermée''. À l'intérieur de cet article, il y a un titre <code>&lt;title&gt;</code>, un paragraphe <code>&lt;para&gt;</code>, et un acronyme <code>&lt;acronym&gt;</code>.
Dans ce code, chacun peut identifier des portions de texte (exemple : Extensible, XML…) et des mots clés encadrés de chevrons (<code><</code>, <code>></code>) : <code><article></code>, <code><title></code>, <code><para></code>… Ces mots sont définis dans l'espace de noms [[Docbook]]. Le document est ouvert par le mot-clé <code><article></code> et clos par <code></article></code>. Notez la barre oblique, qui caractérise les balises de fermeture. En XML, une balise doit toujours être ''fermée''. À l'intérieur de cet article, il y a un titre <code>&lt;title&gt;</code>, un paragraphe <code>&lt;para&gt;</code> et un acronyme <code>&lt;acronym&gt;</code>.


Ce qui est spécifique à XML, c'est le choix des chevrons pour identifier les balises, et l'obligation de les fermer. Les mots clés ne sont pas définis par la norme XML, mais par le vocabulaire choisi. En [[XHTML]], l'élément racine aurait été <code>html</code>, en [[Extensible Stylesheet Language Transformations|XSLT]], cela peut être <code>xsl:stylesheet</code> ou <code>xsl:transform</code>. Ceci illustre la nature extensible d'XML. Ce n'est pas un jeu de noms réservés (exemple : {{langue|en|echo, for, public, function, class}}…), mais plutôt des caractères réservés permettant de définir un « langage ».
Ce qui est spécifique à XML, c'est le choix des chevrons pour identifier les balises et l'obligation de les fermer. Les mots clés ne sont pas définis par la norme XML mais par le vocabulaire choisi. En [[XHTML]], l'élément racine aurait été <code>html</code> ; en [[Extensible Stylesheet Language Transformations|XSLT]], cela peut être <code>xsl:stylesheet</code> ou <code>xsl:transform</code>. Ceci illustre la nature extensible d'XML. Ce n'est pas un jeu de noms réservés (exemple : {{langue|en|echo, for, public, function, class}}…), mais plutôt des caractères réservés permettant de définir un « langage ».


Cet exemple illustre une autre spécificité de ce format. À part SGML, peu d'autres syntaxes permettent de séparer la définition sémantique de l'information (qu'est-ce qui est titre, lien, section…), de l'apparence qu'on souhaite lui donner (aujourd'hui un titre est souligné, demain on le voudra peut-être en bleu). Cela fait d'XML un excellent format pour conserver des textes ou des données, comme la comparaison ci-après à d'autres formats le montre.
Cet exemple illustre une autre spécificité de ce format. À part SGML, peu d'autres syntaxes permettent de séparer la définition sémantique de l'information (qu'est-ce qui est titre, lien, section…), de l'apparence qu'on souhaite lui donner (aujourd'hui un titre est souligné, demain on le voudra peut-être en bleu). Cela fait d'XML un excellent format pour conserver des textes ou des données, comme la comparaison ci-après à d'autres formats le montre.
Ligne 131 : Ligne 131 :
}
}


On retrouve le besoin d'encadrer du contenu avec un marqueur (ici les accolades {}), d'attacher des propriétés à ces groupes. Ainsi, {\b XML} indique que les lettres XML sont en gras, ''bold'' : \b. Pour le titre, humains comme logiciels ne peuvent pas l'identifier par "\f2\fs36\b", ce code indique en fait l'apparence du paragraphe (gras, gros…). Ce format a montré qu'il pouvait fonctionner dans des logiciels, mais sa complexité croissante a montré ses limites. Il est difficilement extensible, et inutilisable pour structurer la sémantique d'un texte.
On retrouve le besoin d'encadrer du contenu avec un marqueur (ici les accolades {}), d'attacher des propriétés à ces groupes. Ainsi, {\b XML} indique que les lettres XML sont en gras, ''bold'' : \b. Pour le titre, humains comme logiciels ne peuvent pas l'identifier par "\f2\fs36\b", ce code indique en fait l'apparence du paragraphe (gras, gros…). Ce format a montré qu'il pouvait fonctionner dans des logiciels, mais sa complexité croissante a montré ses limites. Il est difficilement extensible et inutilisable pour structurer la sémantique d'un texte.


=== TeX ===
=== TeX ===

[[Donald Knuth]], auteur de {{langue|en|''[[The Art of Computer Programming]]''}} (« l'Art de la programmation »), s'est un jour (de 1977) indigné de la qualité d'impression de ses ouvrages. Il a alors développé [[TeX]], une syntaxe très élaborée destinée à l'écriture humaine, spécialement puissante pour les équations mathématiques. RTF lui a repris ses séparateurs (\, {, }), mais pas son système de [[Macro-définition|macros]] pour factoriser les commandes.
TeX reste le standard de l'édition scientifique de qualité, en particulier pour la mise en forme des équations complexes. Toutefois, cela reste un langage de programmation destiné à la mise en forme, davantage conçu pour l'apparence des documents que pour stocker ou transférer des données.
<source lang="latex">
<syntaxhighlight lang="latex">
\documentclass[a4paper, 11pt]{article}
\documentclass[a4paper, 11pt]{article}
\title{Extensible Markup Language}
\title{Extensible Markup Language}
Ligne 141 : Ligne 142 :
\maketitle
\maketitle
\end{document}
\end{document}
</syntaxhighlight>
</source>

TeX reste le standard de l'édition scientifique de qualité, en particulier pour la mise en forme des équations complexes. Toutefois, cela reste un langage de programmation destiné à la mise en forme, davantage conçu pour l'apparence des documents que pour stocker ou transférer des données.

=== Wiki ===
Une syntaxe [[wiki]] sait aussi séparer le contenu de la présentation.

<pre>
=={{lang|en|Extensible Markup Language}}==
'''XML''' ({{lang|en|Extensible Markup Language}},
« langage de balisage extensible »)…
</pre>

Cependant, cette structuration repose ici sur des séquences de caractères particulières (<code><nowiki> ==, '''</nowiki></code>). Or, le nombre de caractères sans signification n'est pas indéfini. Un tel format peut être approprié pour un seul type de document, mais ce n'est pas une syntaxe générique et facilement extensible.
<!--
TODO : csv


=== Éléments et attributs ===
=== Éléments et attributs ===
La structuration XML repose sur un modèle d'arbre permettant beaucoup plus de finesse de balisage que toutes les syntaxes plus haut, en particulier les ''attributs''. Les liens (X)HTML en sont certainement l'exemple le plus déployé.
La structuration XML repose sur un modèle d'arbre permettant beaucoup plus de finesse de balisage que toutes les syntaxes plus haut, en particulier les ''attributs''. Les liens (X)HTML en sont certainement l'exemple le plus déployé.
<source lang="xml">
<syntaxhighlight lang="xml">
<-- Un lien lien en xhtml - ->
<-- Un lien lien en xhtml - ->
<a href="http://www.w3.org/" title="World Wide Web Consortium">W3C</a>
<a href="http://www.w3.org/" title="World Wide Web Consortium">W3C</a>
</syntaxhighlight>
</source>


Une portion de texte, ''W3C'', est ici muni de deux informations plus longues :
Une portion de texte, ''W3C'', est ici muni de deux informations plus longues :
Ligne 170 : Ligne 156 :


Si le balisage devait être encore plus précis, les milieux académiques ont élaboré un vocabulaire très raffiné pour encoder les textes, [[Text Encoding Initiative|TEI]].
Si le balisage devait être encore plus précis, les milieux académiques ont élaboré un vocabulaire très raffiné pour encoder les textes, [[Text Encoding Initiative|TEI]].
<source lang="xml">
<syntaxhighlight lang="xml">
<-- ''exemples d'attributs XML, en TEI ''- ->
<-- ''exemples d'attributs XML, en TEI ''- ->
<p>'''... est une spécification du '''
<p>'''... est une spécification du '''
<orgName key="org0405" type="fondation" reg="World Wide Web Consortium">'''W3C'''</orgName> ...
<orgName key="org0405" type="fondation" reg="World Wide Web Consortium">'''W3C'''</orgName> ...
</p>
</p>
</syntaxhighlight>
</source>


L'élément <[http://www.tei-c.org/release/doc/tei-p5-doc/html/ref-orgName.html orgName]> balise le nom d'une organisation. De plus, il porte les attributs :
L'élément <[http://www.tei-c.org/release/doc/tei-p5-doc/html/ref-orgName.html orgName]> balise le nom d'une organisation. De plus, il porte les attributs :
Ligne 188 : Ligne 174 :


== Composants et syntaxe ==
== Composants et syntaxe ==
XML se présente en général comme un texte, séparant deux niveaux : du texte à destination des humains, et des balises à destination des machines. La structuration de ce texte par les balises produit un modèle informatique. D'un point de vue formel, un document XML est un [[Arbre (informatique)|arbre]], articulant différents types de nœuds (texte, éléments, attributs, commentaires…). Il n'est pas indispensable de pénétrer le détail théorique de cette structure arborescente pour écrire du XML bien formé, toutefois, il est intéressant d'en comprendre le principe général, car c'est ce modèle qui explique les erreurs de syntaxe. Cette section présentera les différents composants du modèle XML, en insistant sur les contraintes imposées par leur définition, et en présentant différents types d'erreurs (malformations) qui produisent un document mal formé. Un document mal formé n'est plus du XML. Il casse toute la chaîne de traitement. Cette absence de rattrapage des erreurs peut parfois surprendre et décourager les débutants, mais c'est cette rigueur qui assure la qualité du format XML (notamment comparé au SGML). Heureusement, comme pour tout autre langage informatique, des logiciels d'édition assistent les utilisateurs pour éviter ces erreurs.
XML se présente en général comme un texte, séparant deux niveaux : du texte à destination des humains et des balises à destination des machines. La structuration de ce texte par les balises produit un modèle informatique. D'un point de vue formel, un document XML est un [[Arbre (informatique)|arbre]], articulant différents types de nœuds (texte, éléments, attributs, commentaires…). Il n'est pas indispensable de pénétrer le détail théorique de cette structure arborescente pour écrire du XML bien formé. Toutefois, il est intéressant d'en comprendre le principe général, car c'est ce modèle qui explique les erreurs de syntaxe. Cette section présentera les différents composants du modèle XML, en insistant sur les contraintes imposées par leur définition et en présentant différents types d'erreurs (malformations) qui produisent un document mal formé. Un document mal formé n'est plus du XML. Il casse toute la chaîne de traitement. Cette absence de rattrapage des erreurs peut parfois surprendre et décourager les débutants, mais c'est cette rigueur qui assure la qualité du format XML (notamment comparé au SGML). Heureusement, comme pour tout autre langage informatique, des logiciels d'édition assistent les utilisateurs pour éviter ces erreurs.


<source lang="xml">
<syntaxhighlight lang="xml">
<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="transformation.xsl" type="text/xsl"?>
<?xml-stylesheet href="transformation.xsl" type="text/xsl"?>
Ligne 218 : Ligne 204 :
</dc:description>
</dc:description>
</ex:livre>
</ex:livre>
</ex:collection> </source>
</ex:collection> </syntaxhighlight>


{{Ancre|document}}
{{Ancre|document}}
Ligne 225 : Ligne 211 :
Un document XML a toujours une et une seule racine, le ''nœud document''. Dans la syntaxe d'exploration d'un arbre XML, [[XPath]], le nœud document est abrégé avec la barre oblique <code>/</code>, comme la racine de l'arborescence d'un [[système de fichiers]] Unix. La racine peut éventuellement comporter des enfants de type commentaire ou instruction de traitement, elle doit obligatoirement comporter un et un seul élément.
Un document XML a toujours une et une seule racine, le ''nœud document''. Dans la syntaxe d'exploration d'un arbre XML, [[XPath]], le nœud document est abrégé avec la barre oblique <code>/</code>, comme la racine de l'arborescence d'un [[système de fichiers]] Unix. La racine peut éventuellement comporter des enfants de type commentaire ou instruction de traitement, elle doit obligatoirement comporter un et un seul élément.


<source lang="xml">
<syntaxhighlight lang="xml">
<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" encoding="UTF-8"?>
<item>Premier élément racine</item>
<item>Premier élément racine</item>
<item>Deuxième élément racine = malformation</item>
<item>Deuxième élément racine = malformation</item>
</syntaxhighlight>
</source>
; Malformation: Le fichier ci-dessus n'est pas un document XML bien formé car il comporte plus d'un élément racine.
; Malformation: Le fichier ci-dessus n'est pas un document XML bien formé car il comporte plus d'un élément racine.
{{Ancre|element}}
{{Ancre|element}}


=== Nœud élément ===
=== Nœud élément ===
Un ''nœud élément'' est désigné par un nom qualifié au sein d'un [[espace de noms XML|espace de noms]] (<small><code><espace:élément/></code></small>). Ce nom ne peut pas contenir <code>!"#$%&'()*+,/;<=>?@[\]^`{|}~</code> ou un [[Espace typographique|espace]] et ne peut pas commencer par <code>-.</code> ou un chiffre. Un élément peut contenir des attributs et la plupart des autres nœuds : texte, éléments, (à l'exception du nœud document). Des éléments peuvent être imbriqués, mais pas entrecroisés. Cette définition formelle est à l'origine des particularités de XML comparé à d'autres formats :
Un ''nœud élément'' est désigné par un nom qualifié au sein d'un [[espace de noms XML|espace de noms]] (<small><code><espace:élément/></code></small>). Ce nom ne peut pas contenir <code>!"#$%&'()*+,/;<=>?@[\]^`{|}~</code> ou une [[Espace typographique|espace]] et ne peut pas commencer par <code>-.</code> ou un chiffre. Un élément peut contenir des attributs et la plupart des autres nœuds : texte, éléments, etc. (à l'exception du nœud document). Des éléments peuvent être imbriqués, mais pas entrecroisés. Cette définition formelle est à l'origine des particularités de XML comparé à d'autres formats :


; Répétable: Une même propriété peut être répétée. L'exemple montre comment indiquer qu'un livre a plusieurs auteurs &lt;dc:creator&gt;. Dans un format tabulaire, avec un nombre de colonnes défini, ce n'est pas impossible, mais moins spécifié.
; Répétable:Une même propriété peut être répétée. L'exemple montre comment indiquer qu'un livre a plusieurs auteurs <code><dc:creator></code>. Dans un format tabulaire, avec un nombre de colonnes défini, ce n'est pas impossible, mais moins spécifié.
; Ordonné: L'ordre des éléments est conservé. Quel que soit le langage employé, un outil XML doit permettre de distinguer le premier auteur du second (exemple : en [[XPath]], <code>/ex:collection/ex:livre/dc:creator[1] = "René Goscinny"</code>, <code>/ex:collection/ex:livre/dc:creator[2] = "Albert Uderzo"</code>).
; Ordonné: L'ordre des éléments est conservé. Quel que soit le langage employé, un outil XML doit permettre de distinguer le premier auteur du second (exemple : en [[XPath]], <code>/ex:collection/ex:livre/dc:creator[1] = "René Goscinny"</code>, <code>/ex:collection/ex:livre/dc:creator[2] = "Albert Uderzo"</code>).
; Hiérarchique: Les éléments XML sont imbriqués. Ceci rend ce format particulièrement adapté à représenter des arbres. L'exemple est limité à 2 niveaux (<code>/ex:collection/ex:livre</code>), une collection avec un titre (''Astérix le Gaulois''), et un exemple d'ouvrage de cette collection (''Astérix chez les Belges''). XML permet une récursivité complète. Par exemple, un livre, ou une thèse, peut être formaté très économiquement avec un élément <code><nowiki><section></nowiki></code>. La partie 2.3.5 correspondra à une structure d'imbrication XML <code>/section[2]/section[3]/section[5]</code>.
; Hiérarchique:Les éléments XML sont imbriqués. Ceci rend ce format particulièrement adapté à représenter des arbres. L'exemple est limité à deux niveaux (<code>/ex:collection/ex:livre</code>), une collection avec un titre (''Astérix le Gaulois'') et un exemple d'ouvrage de cette collection (''Astérix chez les Belges''). XML permet une récursivité complète. Par exemple, un livre, ou une thèse, peut être formaté très économiquement avec un élément <code><nowiki><section></nowiki></code>. La partie 2.3.5 correspondra à une structure d'imbrication XML <code>/section[2]/section[3]/section[5]</code>.
; Mélangeable: XML est plus qu'un [[format de données]], c'est un format de document, permettant de ''mélanger'' du texte et des éléments, pour par exemple représenter du texte riche. Dans l'exemple, le texte de la description <code>&lt;dc:description&gt;</code> est enrichi avec des balises [[XHTML]] (gras <code>&lt;b&gt;</code>, lien <code>&lt;a&gt;</code>).
; Mélangeable: XML est plus qu'un [[format de données]], c'est un format de document, permettant de ''mélanger'' du texte et des éléments, pour par exemple représenter du texte riche. Dans l'exemple, le texte de la description <code>&lt;dc:description&gt;</code> est enrichi avec des balises [[XHTML]] (gras <code>&lt;b&gt;</code>, lien <code>&lt;a&gt;</code>).
; Qualifié: La qualification des noms contribue à la précision sémantique des contenus balisés. La notation <code>xmlns="URI"</code>, ou <code>xmlns:prefix="autre/URI"</code>, avec héritage hiérarchique, permet de rattacher tous les noms à une [[Uniform Resource Identifier|URI]], et donc potentiellement à une documentation.
; Qualifié:La qualification des noms contribue à la précision sémantique des contenus balisés. La notation <code>xmlns="URI"</code> ou <code>xmlns:prefix="autre/URI"</code>, avec héritage hiérarchique, permet de rattacher tous les noms à une [[Uniform Resource Identifier|URI]], et donc potentiellement à une documentation.
; Malformations : Quelques exemples d'XML mal formé :
; Malformations : Quelques exemples d'XML mal formé :
:* <code><auteur><nom>Bon</nom>, <prénom>Jean</auteur></prénom></code> (la balise <code></prénom></code> est fermée après la balise <code></auteur></code> alors que cette dernière a été ouverte avant. Le prénom doit être logiquement à l'intérieur de la balise auteur, comme le nom.
:* <code><auteur><nom>Bon</nom>, <prénom>Jean</auteur></prénom></code> (la balise <code></prénom></code> est fermée après la balise <code></auteur></code> alors que cette dernière a été ouverte avant. Le prénom doit être logiquement à l'intérieur de la balise auteur, comme le nom.
:* <code><siècle>XX<exposant>e</siècle>, <para>Malformations</label> (paragraphe avec titre)</para></code> La balise <code><exposant></code> doit être fermée à l'intérieur de l'élément <code><siècle></code>, la balise <code></label></code> doit être ouverte avant d'être fermée à l'intérieur de l'élément <code><para></code>.
:* <code><siècle>XX<exposant>e</siècle>, <para>Malformations</label> (paragraphe avec titre)</para></code> La balise <code><exposant></code> doit être fermée à l'intérieur de l'élément <code><siècle></code>, la balise <code></label></code> doit être ouverte avant d'être fermée à l'intérieur de l'élément <code><para></code>.
Ligne 252 : Ligne 238 :


=== Nœud texte ===
=== Nœud texte ===
Un ''nœud texte''<ref group="XML">[http://www.w3.org/TR/REC-xml/#syntax le texte]</ref> n'a pas d'enfants, il est toujours contenu dans un élément. Ainsi dans le cas de texte mêlé (exemple : <code>&lt;p>du texte en &lt;b>gras&lt;/b> dans un paragraphe&lt;/p></code>), ce n'est pas le texte qui contient le gras, mais plutôt l'élément parent <code>&lt;p&gt;</code> qui contient plusieurs enfants : un nœud texte, un nœud élément <code>&lt;b&gt;</code> et un nœud texte (exemple : <code>p/node()[3]=" dans un paragraphe"</code>, <code>p/b/node() = "gras"</code>).
Un ''nœud texte''<ref group="XML">[http://www.w3.org/TR/REC-xml/#syntax le texte].</ref> n'a pas d'enfants, il est toujours contenu dans un élément. Ainsi, dans le cas de texte mêlé (exemple : <code>&lt;p>du texte en &lt;b>gras&lt;/b> dans un paragraphe&lt;/p></code>), ce n'est pas le texte qui contient le gras, mais plutôt l'élément parent <code>&lt;p&gt;</code> qui contient plusieurs enfants : un nœud texte, un nœud élément <code>&lt;b&gt;</code> et un nœud texte (exemple : <code>p/node()[3]=" dans un paragraphe"</code>, <code>p/b/node() = "gras"</code>).


; Encodage: Par défaut, le texte est traité comme de l'[[Unicode]] ([[UTF-8]]). XML permet de spécifier d'autres encodages dans le prologue pour des raisons historiques.
; Encodage: Par défaut, le texte est traité comme de l'[[Unicode]] ([[UTF-8]]). XML permet de spécifier d'autres encodages dans le prologue pour des raisons historiques.
; Espaces: En XML, espaces et sauts de lignes sont équivalents<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-white-space espaces vides]</ref>, autrement dit, un document peut perdre son indentation en restant identique pour les traitements, sauf instructions particulières (exemple : bloc préformaté avec l'attribut <code>@xml:space="preserve"</code>).
; Espaces: En XML, espaces et sauts de lignes sont équivalents<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-white-space espaces vides].</ref>, autrement dit, un document peut perdre son indentation en restant identique pour les traitements, sauf instructions particulières (exemple : bloc préformaté avec l'attribut <code>@xml:space="preserve"</code>).
; Malformations: Comme tout langage informatique, XML est fondé sur des caractères qui ont un sens particulier pour la machine. La force de XML est d'avoir réduit le nombre de ces caractères au minimum, afin que le texte prime sur le métatexte (priorité des données sur les instructions). Dès qu'un analyseur XML (ex : navigateur Web) rencontre un chevron ouvrant (<code>&lt;</code>), les caractères qui suivent sont interprétés comme une balise. Ceci pose évidemment des problèmes dans une inéquation mathématique <code>if (a < 10) print("Unité")</code>. La balise <code>< 10)…</code> n'ayant pas un nom d'élément correct (présence d'une espace, commence par un chiffre), un analyseur XML lèvera une erreur et s'arrêtera sans essayer d'être plus intelligent. C'est un problème pour tous les langages informatiques, qui introduisent alors des [[Caractère d'échappement|caractères d'échappement]]. Il faut au moins un caractère pour signaler que les caractères qui suivent doivent être interprétés autrement. En XML, c'est le rôle de l'[[esperluette]] (<code>&amp;</code>) qui introduit des ''entités''. Une entité est un nom XML encadré d'une esperluette et d'un point virgule. Ce nom a les mêmes contraintes que pour les éléments (pas d'espaces, surtout des lettres…). Dans un nœud texte, le signe inférieur doit être remplacé par <code>&amp;lt;</code> (''lesser than'', « inférieur » en français). Du coup, l'esperluette acquiert elle aussi un statut particulier, et doit aussi être échappée. <code>&lt;sujet>Montaigne & La Boétie&lt;/sujet></code>, ce texte produira une erreur XML, car <code>&amp; La Boétie</code> n'est pas une entité bien formée. Les esperluettes d'un nœud texte doivent être remplacées par l'entité <code>&amp;amp;</code> (''ampersand'', « esperluette » en français). Mentionnons ici 3 autres entités nécessaires à XML, <code>&amp;gt;</code> (''greater than'', « supérieur » en français) pour <code>></code>, <code>&amp;quot;</code> (''quote'', « guillemet » en français) pour <code>"</code>, <code>&amp;apos;</code> (''apostrophe'') pour <code>'</code>.
; Malformations:Comme tout langage informatique, XML est fondé sur des caractères qui ont un sens particulier pour la machine. La force de XML est d'avoir réduit le nombre de ces caractères au minimum, afin que le texte prime sur le métatexte (priorité des données sur les instructions). Dès qu'un analyseur XML (ex : navigateur Web) rencontre un chevron ouvrant (<code>&lt;</code>), les caractères qui suivent sont interprétés comme une balise. Ceci pose évidemment des problèmes dans une inéquation mathématique <code>if (a < 10) print("Unité")</code>. La balise <code>< 10)…</code> n'ayant pas un nom d'élément correct (présence d'une espace, commence par un chiffre), un analyseur XML lèvera une erreur et s'arrêtera sans essayer d'être plus intelligent. C'est un problème pour tous les langages informatiques, qui introduisent alors des [[Caractère d'échappement|caractères d'échappement]]. Il faut au moins un caractère pour signaler que les caractères qui suivent doivent être interprétés autrement. En XML, c'est le rôle de l'[[esperluette]] (<code>&amp;</code>) qui introduit des ''entités''. Une entité est un nom XML encadré d'une esperluette et d'un point virgule. Ce nom a les mêmes contraintes que pour les éléments (pas d'espaces, surtout des lettres…). Dans un nœud texte, le signe inférieur doit être remplacé par <code>&amp;lt;</code> (''lesser than'', « inférieur » en français). Du coup, l'esperluette acquiert elle aussi un statut particulier et doit aussi être échappée. <code>&lt;sujet>Montaigne & La Boétie&lt;/sujet></code>, ce texte produira une erreur XML, car <code>&amp; La Boétie</code> n'est pas une entité bien formée. Les esperluettes d'un nœud texte doivent être remplacées par l'entité <code>&amp;amp;</code> (''ampersand'', « esperluette » en français). Mentionnons ici trois autres entités nécessaires à XML, <code>&amp;gt;</code> (''greater than'', « supérieur » en français) pour <code>></code>, <code>&amp;quot;</code> (''quote'', « guillemet » en français) pour <code>"</code>, <code>&amp;apos;</code> (''apostrophe'') pour <code>'</code>.


=== Attributs ===
=== Attributs ===
Un ''attribut'' est un nom et une valeur. Un nom d'attribut a les mêmes contraintes et possibilités de qualification qu'un nom d'élément. La valeur est un texte sans élément (ni autres nœuds). Un attribut est toujours porté par un élément (balise ouvrante). La valeur peut être vide <code><element attribut=""/></code>, mais pas nulle <code><s><element attribut></s></code> (cette écriture était permise en [[Standard Generalized Markup Language|SGML]], on la rencontre encore parfois en [[Hypertext Markup Language|HTML]], mais elle n'est pas acceptée en XML).
Un ''attribut'' est un nom et une valeur. Un nom d'attribut a les mêmes contraintes et possibilités de qualification qu'un nom d'élément. La valeur est un texte sans élément (ou autres nœuds). Un attribut est toujours porté par un élément (balise ouvrante). La valeur peut être vide <code><element attribut=""/></code>, mais pas nulle <code><s><element attribut></s></code> (cette écriture était permise en [[Standard Generalized Markup Language|SGML]], on la rencontre encore parfois en [[Hypertext Markup Language|HTML]], mais elle n'est pas acceptée en XML).


Un attribut est unique. La répétition d'un attribut de même nom sur le même élément provoquera une erreur de l'interpréteur XML. L'ordre des attributs n'est pas significatif, et peut ne pas être conservé dans certains traitements. <code>&lt;element attribut1="valeur1" attribut2="valeur2"/></code> et <code>&lt;element attribut2="valeur2" attribut1="valeur1"/></code> sont équivalents pour un interpréteur XML, même s'ils sont écrits différemment.
Un attribut est unique. La répétition d'un attribut de même nom sur le même élément provoquera une erreur de l'interpréteur XML. L'ordre des attributs n'est pas significatif et peut ne pas être conservé dans certains traitements. <code>&lt;element attribut1="valeur1" attribut2="valeur2"/></code> et <code>&lt;element attribut2="valeur2" attribut1="valeur1"/></code> sont équivalents pour un interpréteur XML, même s'ils sont écrits différemment.


; Malformations: <code><élément onclick="if (this.length > 10) alert("Pourquoi ça marche pas ?")">Valeurs d'attributs contenant des guillemets ou le signe supérieur</élément></code> À l'intérieur d'une balise (entre les chevrons ouvrants et fermants), le chevron fermant et les guillemets ont une signification particulière dans la délimitation des valeurs d'attribut, et la fin de la balise ouvrante. Ces caractères doivent donc être échappés. À cette fin, XML prévoit les entités <code>&amp;quot;</code> pour <code>"</code> et <code>&amp;gt;</code> pour <code>></code>. <br /><code><élément répète-après-moi="après moi" répète-après-moi="parser error: attribute répète-après-moi redefined"/></code> Les attributs ne sont pas répétables.
; Malformations: <code><élément onclick="if (this.length > 10) alert("Pourquoi ça marche pas ?")">Valeurs d'attributs contenant des guillemets ou le signe supérieur</élément></code> À l'intérieur d'une balise (entre les chevrons ouvrants et fermants), le chevron fermant et les guillemets ont une signification particulière dans la délimitation des valeurs d'attribut, et la fin de la balise ouvrante. Ces caractères doivent donc être échappés. À cette fin, XML prévoit les entités <code>&amp;quot;</code> pour <code>"</code> et <code>&amp;gt;</code> pour <code>></code>. <br /><code><élément répète-après-moi="après moi" répète-après-moi="parser error: attribute répète-après-moi redefined"/></code> Les attributs ne sont pas répétables.


{{Ancre|comment}}
{{Ancre|comment}}


=== Commentaires ===
=== Commentaires ===
En XML, les commentaires<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-comments commentaires]</ref> sont délimités par <code>&lt;!--</code> et <code>--&gt;</code>. Le contenu d'un commentaire ne sera pas interprété.
En XML, les commentaires<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-comments commentaires].</ref> sont délimités par <code>&lt;!--</code> et <code>--&gt;</code>. Le contenu d'un commentaire ne sera pas interprété.


<code>&lt;!-- Cet <élément> n'est pas fermé mais cela est autorisé dans un commentaire --&gt;</code>.
<code>&lt;!-- Cet <élément> n'est pas fermé mais cela est autorisé dans un commentaire --&gt;</code>.
Ligne 277 : Ligne 263 :


=== Prologue ===
=== Prologue ===
En XML, le ''prologue''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-prolog-dtd prologue]</ref> est constitué de la déclaration XML <code>&lt;?xml version="1.0" encoding="UTF-8"?></code>, et de la déclaration de type de document (DOCTYPE). La déclaration XML est obligatoire à partir de la version 1.1. La déclaration DOCTYPE avait une grande importance en SGML. Elle attache le document traité par un interpréteur à son schéma ([[Document Type Definition|DTD]], {{langue|en|''Document Type Definition''}}, « Définition de type de document ») afin de le valider et d'interpréter certains raccourcis (les entités). Désormais, il existe plusieurs langages de validation, et parfois plusieurs manières de les attacher. La déclaration DOCTYPE n'a plus la même importance.
En XML, le ''prologue''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-prolog-dtd prologue].</ref> est constitué de la déclaration XML <code>&lt;?xml version="1.0" encoding="UTF-8"?></code>, et de la déclaration de type de document (DOCTYPE). La déclaration XML est obligatoire à partir de la version 1.1. La déclaration DOCTYPE avait une grande importance en SGML. Elle attache le document traité par un interpréteur à son schéma ([[Document Type Definition|DTD]], {{langue|en|''Document Type Definition''}}, « Définition de type de document ») afin de le valider et d'interpréter certains raccourcis (les entités). Désormais, il existe plusieurs langages de validation, et parfois plusieurs manières de les attacher. La déclaration DOCTYPE n'a plus la même importance.


=== Instruction de traitement ===
=== Instruction de traitement ===
Une ''instruction de traitement''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-pi Instructions de traitement]</ref> est une possibilité un peu moins employée en XML que du temps de SGML. C'est une balise particulière qui s'ouvre par un chevron ouvrant et un point d'interrogation, et qui se ferme avec un point d'interrogation et un chevron fermant <code>&lt;?clé valeur?></code>. Les lettres accolées au chevron ouvrant forment la clé jusqu'au premier espace. La suite peut contenir des espaces, de la ponctuation et forme la valeur. Cette valeur n'a pas de syntaxe imposée par XML, ce sont les applications qui les interprètent pour leur besoin. Le W3C a cependant standardisé l'usage des instructions de traitement pour associer une feuille de style à un document XML<ref group="XML">[http://www.w3.org/TR/xml-stylesheet/ Associating Style Sheets with XML documents]</ref>, mais d'autres usages sont possibles. Elles peuvent être insérées à tout endroit entre les balises (mais pas dans une valeur d'attribut, ni entre chevrons au milieu d'une balise). Elles peuvent communiquer des instructions à destination des machines qui vont utiliser ce XML, sans que ce contenu soit considéré comme de l'information structurée par les balises. Ainsi par exemple, les instructions de traitements ne seront pas affichées par un navigateur, par contre, elles vont modifier leur comportement dans le traitement (et l'affichage) de cette information XML. Un éditeur XML peut aussi employer ce moyen pour associer un fichier XML à son schéma.
Une ''instruction de traitement''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-pi Instructions de traitement].</ref> est une possibilité un peu moins employée en XML que du temps de SGML. C'est une balise particulière qui s'ouvre par un chevron ouvrant et un point d'interrogation, et qui se ferme avec un point d'interrogation et un chevron fermant <code>&lt;?clé valeur?></code>. Les lettres accolées au chevron ouvrant forment la clé jusqu'au premier espace. La suite peut contenir des espaces, de la ponctuation et forme la valeur. Cette valeur n'a pas de syntaxe imposée par XML, ce sont les applications qui les interprètent pour leur besoin. Le W3C a cependant standardisé l'usage des instructions de traitement pour associer une feuille de style à un document XML<ref group="XML">[http://www.w3.org/TR/xml-stylesheet/ Associating Style Sheets with XML documents].</ref>, mais d'autres usages sont possibles. Elles peuvent être insérées à tout endroit entre les balises (mais pas dans une valeur d'attribut, ni entre chevrons au milieu d'une balise). Elles peuvent communiquer des instructions à destination des machines qui vont utiliser ce XML, sans que ce contenu soit considéré comme de l'information structurée par les balises. Ainsi par exemple, les instructions de traitements ne seront pas affichées par un navigateur, par contre, elles vont modifier leur comportement dans le traitement (et l'affichage) de cette information XML. Un éditeur XML peut aussi employer ce moyen pour associer un fichier XML à son schéma.


<source lang="xml">
<syntaxhighlight lang="xml">
<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="tei2html.xsl" type="text/xsl"?>
<?xml-stylesheet href="tei2html.xsl" type="text/xsl"?>
Ligne 294 : Ligne 280 :
<!-- … -->
<!-- … -->
</TEI>
</TEI>
</syntaxhighlight>
</source>


=== Sections d'échappement ===
=== Sections d'échappement ===
Une ''section d'échappement''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-cdata-sect sections d'échappement]</ref> <code><![CDATA[…]]></code> permet de contenir n'importe quel texte, avec tous les caractères spéciaux XML <code>&lt;&gt;&amp;</code>, sans qu'il soit nécessaire d'échapper ces caractères avec des entités. Elles sont souvent utilisées dans des documents qui contiennent des syntaxes informatiques avec de nombreux chevrons et esperluettes (ex : [[JavaScript]]). Ces sections d'échappement permettent de garder le texte original, en gardant conforme le flux XML.
Une ''section d'échappement''<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-cdata-sect sections d'échappement].</ref> <code><![CDATA[…]]></code> permet de contenir n'importe quel texte, avec tous les caractères spéciaux XML <code>&lt;&gt;&amp;</code>, sans qu'il soit nécessaire d'échapper ces caractères avec des entités. Elles sont souvent utilisées dans des documents qui contiennent des syntaxes informatiques avec de nombreux chevrons et esperluettes (ex : [[JavaScript]]). Ces sections d'échappement permettent de garder le texte original, en gardant conforme le flux XML.


<source lang="xml">
<syntaxhighlight lang="xml">
<script><![CDATA[
<script><![CDATA[
if (chars > 140 && mode == tweet) {
if (chars > 140 && mode == tweet) {
div.innerHTML = '<b>Attention !</b>, le {{140e}} caractère est dépassé !';
div.innerHTML = '<b>Attention !</b>, le {{140e}} caractère est dépassé !';
}
}
]]></script>
]]></script>
</syntaxhighlight>
</source>


=== Document bien formé et valide ===
=== Document bien formé et valide ===
Un document bien formé respecte les contraintes formelles définies ci-dessus, il n'a pas de malformations. À ce stade, XML n'est pas un langage, car il n'a pas de vocabulaire et très peu de grammaire, ce serait plutôt une ponctuation, ou mieux, un métalangage. Les spécifications ci-dessus n'interdisent pas de constituer des structures absurdes et inutilisables par des applications.
Un document bien formé respecte les contraintes formelles définies ci-dessus, il n'a pas de malformations. À ce stade, XML n'est pas un langage, car il n'a pas de vocabulaire et très peu de grammaire, ce serait plutôt une ponctuation, ou mieux, un métalangage. Les spécifications ci-dessus n'interdisent pas de constituer des structures absurdes et inutilisables par des applications.


<source lang="xml">
<syntaxhighlight lang="xml">
<phrase titre-livre="XML idiot">
<phrase titre-livre="XML idiot">
<paragraphe>
<paragraphe>
Ligne 323 : Ligne 309 :
</paragraphe>
</paragraphe>
</phrase>
</phrase>
</syntaxhighlight>
</source>


En général, les balises XML ne sont pas inventées librement, mais selon les prescriptions d'un schéma dans une syntaxe informatique ([[Document type definition|DTD]], [[Relax NG|Relax-NG]], [[Schematron]]…) qui définit le dictionnaire des noms d'éléments et d'attributs, ainsi que la grammaire de leurs articulations. Lorsqu'un document XML déclare suivre un schéma et être en accord avec celui-ci, il est dit ''valide''. On dit aussi « valider contre un schéma ». « Rendre valide » signifie la correction des erreurs dans un document XML qu'un schéma a repéré. C'est l'objet de la section suivante de montrer la quantité de langages pouvant employer la ponctuation XML, selon des schémas différents.
En général, les balises XML ne sont pas inventées librement, mais selon les prescriptions d'un schéma dans une syntaxe informatique ([[Document type definition|DTD]], [[Relax NG|Relax-NG]], [[Schematron]]…) qui définit le dictionnaire des noms d'éléments et d'attributs, ainsi que la grammaire de leurs articulations. Lorsqu'un document XML déclare suivre un schéma et être en accord avec celui-ci, il est dit ''valide''. On dit aussi « valider contre un schéma ». « Rendre valide » signifie la correction des erreurs dans un document XML qu'un schéma a repéré. C'est l'objet de la section suivante de montrer la quantité de langages pouvant employer la ponctuation XML, selon des schémas différents.


== Utilisations et langages dérivés ==
== Utilisations et langages dérivés ==
{{Article détaillé|:catégorie:XML}}
{{Article détaillé|:catégorie:XML}}


[[Standard Generalized Markup Language|SGML]] était une syntaxe générique, permettant de définir des langages spécialisés (ex : [[Hypertext Markup Language|HTML]]), mais il était surtout destiné au [[langage de balisage|balisage]] de documents. En simplifiant SGML, les concepteurs d'XML prévoyaient d'élargir l'usage des chevrons (&lt; &gt;) à bien d'autres emplois, par exemple, la programmation. Les premiers langages basés sur XML par le [[World Wide Web Consortium|W3C]] dessinent plusieurs directions d'utilisation.
[[Standard Generalized Markup Language|SGML]] était une syntaxe générique, permettant de définir des langages spécialisés (ex : [[Hypertext Markup Language|HTML]]), mais il était surtout destiné au [[langage de balisage|balisage]] de documents. En simplifiant SGML, les concepteurs d'XML prévoyaient d'élargir l'usage des chevrons (&lt; &gt;) à bien d'autres emplois, par exemple, la programmation. Les premiers langages basés sur XML par le [[World Wide Web Consortium|W3C]] dessinent plusieurs directions d'utilisation.


* [[1999 en informatique|1999]], [[Resource Description Framework|RDF]] ({{langue|en|''Resource Description Framework''}}, « Cadre de description de ressource »). Ce modèle abstrait vise à définir un réseau de [[métadonnée]]s adapté au web, représentable en XML.
* [[1999 en informatique|1999]], [[Resource Description Framework|RDF]] ({{langue|en|''Resource Description Framework''}}, « Cadre de description de ressource »). Ce modèle abstrait vise à définir un réseau de [[métadonnée]]s adapté au web, représentable en XML.
Ligne 359 : Ligne 345 :


=== Langages de balisage ===
=== Langages de balisage ===
Le [[Langage de balisage|balisage de document]] est le métier initial d'XML. Les [[Document Type Definition|DTD]] [[Standard Generalized Markup Language|SGML]] publiques comme [[Text Encoding Initiative|TEI]] et [[Docbook]] l'ont adopté. XML aurait pu permettre l'apparition de nombreux autres schémas. On assiste plutôt à l'apparition de vocabulaires spécialisés, et combinables à l'exemple de la modularisation XHTML<ref>{{en}} [http://www.w3.org/TR/xhtml-modularization/ {{langue|en|''XHTML Modularization 1.1''}}], {{langue|en|''W3C Working Draft 5 July 2006''}}</ref> :
Le [[Langage de balisage|balisage de document]] est le métier initial d'XML. Les [[Document Type Definition|DTD]] [[Standard Generalized Markup Language|SGML]] publiques comme [[Text Encoding Initiative|TEI]] et [[Docbook]] l'ont adopté. XML aurait pu permettre l'apparition de nombreux autres schémas. On assiste plutôt à l'apparition de vocabulaires spécialisés, et combinables à l'exemple de la modularisation XHTML<ref>{{en}} [http://www.w3.org/TR/xhtml-modularization/ {{langue|en|''XHTML Modularization 1.1''}}], {{langue|en|''W3C Working Draft 5 July 2006''}}.</ref> :


* [[XHTML]] ({{langue|en|''eXtensible HyperText Markup Language''}}), langage de balisage [[hypertexte]] ;
* [[XHTML]] ({{langue|en|''eXtensible HyperText Markup Language''}}), langage de balisage [[hypertexte]] ;
Ligne 371 : Ligne 357 :
XML s'est imposé comme format de référence pour l'échange de [[Donnée (informatique)|données]], notamment de [[métadonnées]]. L'exemple d'un transfert d'informations entre [[base de données relationnelles|bases de données relationnelles]] permettra d'illustrer les avantages et limites de ce format pour cet usage.
XML s'est imposé comme format de référence pour l'échange de [[Donnée (informatique)|données]], notamment de [[métadonnées]]. L'exemple d'un transfert d'informations entre [[base de données relationnelles|bases de données relationnelles]] permettra d'illustrer les avantages et limites de ce format pour cet usage.


L'exportation d'une [[Table (algèbre relationnelle)|table]] peut se faire au format [[Comma-separated values|CSV]]. Mais ce format comporte vite des limites à grande échelle (Internet). Il n'est pas auto-documenté (encodage du texte, séparateurs, ordre et nom des colonnes). Il demande une documentation externe rarement automatisée entre les partenaires. Que faire lorsque les tables source et destination n'ont pas des structures identiques ? Pour cette raison, on peut préférer des échanges en [[Structured Query Language|SQL]] (à la fois [[langage de définition de données]], [[langage de manipulation de données]] et [[langage de contrôle de données]]). Cependant, malgré de nombreux efforts de normalisation, SQL comporte beaucoup de risques d'incompatibilité entre les implémentations<ref>http://sqlzoo.net/</ref>. XML est une solution plus robuste. On peut en constater l'efficacité sur Internet avec la [[syndication de contenu]]. Il n'y a pas d'exemple connu d'échange de [[métadonnées]] réparties sur autant de clients et de serveurs.
L'exportation d'une [[Table (algèbre relationnelle)|table]] peut se faire au format [[Comma-separated values|CSV]]. Mais ce format comporte vite des limites à grande échelle (Internet). Il n'est pas auto-documenté (encodage du texte, séparateurs, ordre et nom des colonnes). Il demande une documentation externe rarement automatisée entre les partenaires. Que faire lorsque les tables source et destination n'ont pas des structures identiques ? Pour cette raison, on peut préférer des échanges en [[Structured Query Language|SQL]] (à la fois [[langage de définition de données]], [[langage de manipulation de données]] et [[langage de contrôle de données]]). Cependant, malgré de nombreux efforts de normalisation, SQL comporte beaucoup de risques d'incompatibilité entre les implémentations<ref>{{lien web |langue=en |titre=SQLZOO |url=http://sqlzoo.net/ |site=sqlzoo.net |consulté le=24-04-2023}}.</ref>. XML est une solution plus robuste. On peut en constater l'efficacité sur Internet avec la [[syndication de contenu]]. Il n'y a pas d'exemple connu d'échange de [[métadonnées]] réparties sur autant de clients et de serveurs.


'''Verbosité ?''' – Comparé à l'export CSV d'une table, XML réplique le ''nom de la colonne'' pour chaque ''cellule'' (une fois pour un attribut, deux fois pour un élément). Le poids du fichier généré est supérieur à celui d'un fichier CSV. Dans des contextes où la bande passante est coûteuse (exemple : [[téléphonie mobile]]) cela n'a pas semblé poser de problème ([[Wireless Markup Language|WML]]) car ces répétitions se compressent très bien ([[ZIP (format de fichier)|ZIP]]).
'''Verbosité ?''' – Comparé à l'export CSV d'une table, XML réplique le ''nom de la colonne'' pour chaque ''cellule'' (une fois pour un attribut, deux fois pour un élément). Le poids du fichier généré est supérieur à celui d'un fichier CSV. Dans des contextes où la bande passante est coûteuse (exemple : [[téléphonie mobile]]) cela n'a pas semblé poser de problème ([[Wireless Markup Language|WML]]) car ces répétitions se compressent très bien ([[ZIP (format de fichier)|ZIP]]).
Ligne 397 : Ligne 383 :
Ces communautés ont attendu avec impatience ce que donnerait [[XML Schema]]. Les nombreux outils de documentation automatiques qui sont apparus, avec un simple jeu d'[[Extensible Stylesheet Language Transformations|XSLT]], prouvent l'intérêt d'XML comme [[langage de description de format de document]]. Cependant, pour des choses simples, XML Schema s'est avéré difficile. Est-ce l'effet de trop de concessions ? Toujours est-il que malgré le nombre d'éditeurs derrière le [[World Wide Web Consortium|W3C]], la communauté est très intéressée par [[Relax NG]], de [[James Clark (informatique)|James Clark]]. Ce modèle accepte une syntaxe XML, et depuis 2003, propose aussi une forme compacte, textuelle, qui n'est pas XML.
Ces communautés ont attendu avec impatience ce que donnerait [[XML Schema]]. Les nombreux outils de documentation automatiques qui sont apparus, avec un simple jeu d'[[Extensible Stylesheet Language Transformations|XSLT]], prouvent l'intérêt d'XML comme [[langage de description de format de document]]. Cependant, pour des choses simples, XML Schema s'est avéré difficile. Est-ce l'effet de trop de concessions ? Toujours est-il que malgré le nombre d'éditeurs derrière le [[World Wide Web Consortium|W3C]], la communauté est très intéressée par [[Relax NG]], de [[James Clark (informatique)|James Clark]]. Ce modèle accepte une syntaxe XML, et depuis 2003, propose aussi une forme compacte, textuelle, qui n'est pas XML.


Autrement dit, il n'y a plus de réponse unique. Un schéma XML peut se définir dans un vocabulaire XML, ou autrement. L'évolution actuelle est de pouvoir combiner plusieurs langages de schémas, notamment le [[typage fort]] d'[http://www.w3.org/TR/xmlschema-2/ XML Schema], avec des motifs [[XPath]] pour [[Schematron]], dans du [[Relax NG]]<ref>{{en}} Eric van der Vlist, ''RELAX NG'', « {{langue|en|''W3C XML Schema Type Library''}} », O'Reilly & Associates, 2003 {{ISBN|978-0-596-00421-7}} {{lire en ligne|lien=http://books.xmlschemata.org/relaxng/relax-CHP-8-SECT-1.html}}</ref>.
Autrement dit, il n'y a plus de réponse unique. Un schéma XML peut se définir dans un vocabulaire XML, ou autrement. L'évolution actuelle est de pouvoir combiner plusieurs langages de schémas, notamment le [[typage fort]] d'[http://www.w3.org/TR/xmlschema-2/ XML Schema], avec des motifs [[XPath]] pour [[Schematron]], dans du [[Relax NG]]<ref>{{en}} Eric van der Vlist, ''RELAX NG'', « {{langue|en|''W3C XML Schema Type Library''}} », O'Reilly & Associates, 2003 {{ISBN|978-0-596-00421-7}} {{lire en ligne|lien=http://books.xmlschemata.org/relaxng/relax-CHP-8-SECT-1.html}}.</ref>.


* [[Document Type Definition|DTD]] ({{langue|en|''Document Type Definition''}}), description du modèle de document XML, [[Organisation internationale de normalisation|ISO]] ;
* [[Document Type Definition|DTD]] ({{langue|en|''Document Type Definition''}}), description du modèle de document XML, [[Organisation internationale de normalisation|ISO]] ;
Ligne 411 : Ligne 397 :
* [[Office Open XML]], documents bureautiques, [[Microsoft Office]] versions 2007 et 2008 ;
* [[Office Open XML]], documents bureautiques, [[Microsoft Office]] versions 2007 et 2008 ;
* [[OpenDocument]], documents bureautiques ;
* [[OpenDocument]], documents bureautiques ;
* [[Akoma Ntoso|LegalDocML / Akoma Ntoso]] (Legal Document Markup Language), documents juridiques ;
* [[Scalable Vector Graphics|SVG]] ({{langue|en|''Scalable Vector Graphics''}}), graphiques vectoriels 2D, 2003, [[World Wide Web Consortium|W3C]] ;
* [[Scalable Vector Graphics|SVG]] ({{langue|en|''Scalable Vector Graphics''}}), graphiques vectoriels 2D, 2003, [[World Wide Web Consortium|W3C]] ;
* [[Synchronized Multimedia Integration Language|SMIL]] ({{langue|en|''Synchronized Multimedia Integration Language''}}), intégration multimédia, 1998, 2005, [[World Wide Web Consortium|W3C]] ;
* [[Synchronized Multimedia Integration Language|SMIL]] ({{langue|en|''Synchronized Multimedia Integration Language''}}), intégration multimédia, 1998, 2005, [[World Wide Web Consortium|W3C]] ;
Ligne 419 : Ligne 406 :
Dans de nombreuses applications, il est parfois pratique de développer un langage spécialisé, à usage local. Avec un [[Document Schema Definition Languages|schéma]], un dialecte XML dispose d'une [[Grammaire formelle|grammaire]] (un peu comme [[Forme de Backus-Naur|BNF]]). En guise de [[compilateur]], il suffit par exemple d'une transformation [[Extensible Stylesheet Language Transformations|XSLT]] qui génère du code [[Java (langage)|Java]], comme pour une bibliothèque de balises (''taglibs''). Cet exemple montre comment la syntaxe XML permet de définir des langages de programmation.
Dans de nombreuses applications, il est parfois pratique de développer un langage spécialisé, à usage local. Avec un [[Document Schema Definition Languages|schéma]], un dialecte XML dispose d'une [[Grammaire formelle|grammaire]] (un peu comme [[Forme de Backus-Naur|BNF]]). En guise de [[compilateur]], il suffit par exemple d'une transformation [[Extensible Stylesheet Language Transformations|XSLT]] qui génère du code [[Java (langage)|Java]], comme pour une bibliothèque de balises (''taglibs''). Cet exemple montre comment la syntaxe XML permet de définir des langages de programmation.


En théorie, la structure en arbre d'XML permet de représenter la hiérarchie d'un [[Programmation orientée objet|programme objets]], ou l'imbrication des instructions d'un [[Programmation impérative|langage impératif]]. En pratique, les boucles sont le cas limite à partir duquel XML devient trop verbeux. Par contre, cette écriture est remarquablement adaptée aux [[Programmation déclarative|syntaxes déclaratives]] (configuration, définition d'[[interface de programmation|interface]]), et même, popularise les [[Programmation fonctionnelle|algorithmes fonctionnels]] ([[Extensible Stylesheet Language Transformations|XSLT]], logique d'une application web).
En théorie, la structure en arbre d'XML permet de représenter la hiérarchie d'un [[Programmation orientée objet|programme objets]] ou l'imbrication des instructions d'un [[Programmation impérative|langage impératif]]. En pratique, les boucles sont le cas limite à partir duquel XML devient trop verbeux. Par contre, cette écriture est remarquablement adaptée aux [[Programmation déclarative|syntaxes déclaratives]] (configuration, définition d'[[interface de programmation|interface]]), et même, popularise les [[Programmation fonctionnelle|algorithmes fonctionnels]] ([[Extensible Stylesheet Language Transformations|XSLT]], logique d'une application web).


Il en résulte que l'on trouve de plus en plus d'XML dans les logiciels. Dans certains [[framework]]s de développement web, il est possible de monter une application complète et complexe, en n'éditant que du XML :
Il en résulte que l'on trouve de plus en plus d'XML dans les logiciels. Dans certains [[framework]]s de développement web, il est possible de monter une application complète et complexe, en n'éditant que du XML :
Ligne 431 : Ligne 418 :
* [[XUL]] ({{langue|en|''XML-based User interface Language''}}), définition d'interface, 2000, [[Mozilla Application Suite|Mozilla]] ;
* [[XUL]] ({{langue|en|''XML-based User interface Language''}}), définition d'interface, 2000, [[Mozilla Application Suite|Mozilla]] ;
* [[XAML]], définition d'interface, 2006, [[Microsoft Windows Vista|Windows Vista]] ;
* [[XAML]], définition d'interface, 2006, [[Microsoft Windows Vista|Windows Vista]] ;
* [[MXML]], [[Flex (logiciel)|Flex]], définition d'interface, [[Macromedia]] ;
* [[MXML]], [[Flex (logiciel)|Flex]], définition d'interface, [[Macromedia]].
* Apache XSP ({{langue|en|''eXtensible Server Pages''}}), génération de documents XML côté serveur.


=== Protocoles d'échanges ===
=== Protocoles d'échanges ===
Ligne 452 : Ligne 438 :


== Outils et processus ==
== Outils et processus ==
XML a prouvé qu'il était une syntaxe très générique de balisage, propre à de nombreux usages. Cette réussite s'explique par des implémentations concurrentes de nombreuses [[interfaces de programmation]] (API) précisément spécifiées. Un processus XML est essentiellement une chaîne de transmission de l'information. Pour l'édition XML de document, on peut isoler les étapes suivantes, presque canoniques :
XML a prouvé qu'il était une syntaxe très générique de balisage, propre à de nombreux usages. Cette réussite s'explique par des implémentations concurrentes de nombreuses [[interfaces de programmation]] (API) précisément spécifiées. Un processus XML est essentiellement une chaîne de transmission de l'information. Pour l'édition XML de document, on peut isoler les étapes suivantes, presque canoniques :
# '''Production''' – un document XML peut être produit par un humain ou résulter d'un export d'une source de données dans un autre format.
# '''Production''' – un document XML peut être produit par un humain ou résulter d'un export d'une source de données dans un autre format.
# '''Analyse''' – un {{langue|en|''[[analyseur syntaxique|parser]]''}} lit le fichier XML pour construire un objet informatique, et vérifie que le document est bien formé.
# '''Analyse''' – un {{langue|en|''[[analyseur syntaxique|parser]]''}} lit le fichier XML pour construire un objet informatique, et vérifie que le document est bien formé.
Ligne 469 : Ligne 455 :
=== Analyse ===
=== Analyse ===
Pour entrer dans un processus, un document XML doit rentrer dans un interpréteur dédié. Les parsers les plus répandus sont :
Pour entrer dans un processus, un document XML doit rentrer dans un interpréteur dédié. Les parsers les plus répandus sont :
* [http://xmlsoft.org/ libxml2], l'interpréter XML libre du [[système d'exploitation]] [[linux]], accessible en [[C (langage)|C]], [[Python (langage)|Python]]<ref>http://xmlsoft.org/python.html</ref>, [[PHP]]<ref>http://fr.php.net/libxml</ref> et en [[Ruby]]<ref>http://libxml.rubyforge.org/</ref> ;
* [http://xmlsoft.org/ libxml2], l'interpréteur XML libre du [[système d'exploitation]] [[linux]], accessible en [[C (langage)|C]], [[Python (langage)|Python]]<ref>{{lien web |langue=en |titre=Python bindings · Wiki · GNOME |url=http://xmlsoft.org/python.html |site=GitLab |consulté le=24-04-2023}}.</ref>, [[PHP]]<ref>{{lien web |langue=en |titre=Libxml |url=http://fr.php.net/libxml |site=php.net |consulté le=24-04-2023}}.</ref> et en [[Ruby]]<ref>http://libxml.rubyforge.org/.</ref> ;
* [http://xerces.apache.org/xerces2-j/ Xerces], XML [[Java (langage)|Java]] Parser, le parseur XML par défaut d'une [[machine virtuelle Java]], accessible en [[Java (langage)|Java]] ;
* [http://xerces.apache.org/xerces2-j/ Xerces], XML [[Java (langage)|Java]] Parser, le parseur XML par défaut d'une [[machine virtuelle Java]], accessible en [[Java (langage)|Java]] ;
* [http://expat.sourceforge.net/ Expat], le parseur XML de [[James Clark (informatique)|James Clark]], notamment embarqué par le navigateur [[Mozilla Firefox]]) ;
* [http://expat.sourceforge.net/ Expat], le parseur XML de [[James Clark (informatique)|James Clark]], notamment embarqué par le navigateur [[Mozilla Firefox]]) ;
Ligne 478 : Ligne 464 :
Une fois « xmlisé », un document est accessible à différents langages, selon des API standardisées. On distingue généralement l'approche en mémoire, comme le [[Document Object Model|DOM]], et l'approche en flux (génération d'événements), comme [[Simple API for XML|SAX]].
Une fois « xmlisé », un document est accessible à différents langages, selon des API standardisées. On distingue généralement l'approche en mémoire, comme le [[Document Object Model|DOM]], et l'approche en flux (génération d'événements), comme [[Simple API for XML|SAX]].


* [[Document Object Model|DOM]], {{langue|en|''Document Object Model''}}, constitue un objet en mémoire de la totalité d'un document XML. Cette API permet l'accès direct à tous les nœuds de l'arbre (éléments, texte, attributs), pour les lire, ou les modifier. Il est par exemple très utilisé sur les [[Navigateur web|navigateurs web]] avec [[JavaScript]]. Cette norme est écrite par le [[World Wide Web Consortium|W3C]].
* [[Document Object Model|DOM]], {{langue|en|''Document Object Model''}}, constitue un objet en mémoire de la totalité d'un document XML. Cette API permet l'accès direct à tous les nœuds de l'arbre (éléments, texte, attributs), pour les lire ou les modifier. Il est par exemple très utilisé sur les [[Navigateur web|navigateurs web]] avec [[JavaScript]]. Cette norme est écrite par le [[World Wide Web Consortium|W3C]].
* [[Simple API for XML|SAX]], {{langue|en|''Simple API for XML''}}, est une alternative intéressante à DOM pour le traitement de documents longs. Quand un document entre dans un interpréteur XML, du code SAX peut capturer des événements, comme l'ouverture et la fermeture d'une balise, afin par exemple, d'écrire dans une base de données. À l'inverse, il est possible de générer des événements SAX, par exemple à partir de la lecture d'une base de données, afin de produire un document consommé par une autre étape d'un processus XML.
* [[Simple API for XML|SAX]], {{langue|en|''Simple API for XML''}}, est une alternative intéressante à DOM pour le traitement de documents longs. Quand un document entre dans un interpréteur XML, du code SAX peut capturer des événements, comme l'ouverture et la fermeture d'une balise, afin par exemple, d'écrire dans une base de données. À l'inverse, il est possible de générer des événements SAX, par exemple à partir de la lecture d'une base de données, afin de produire un document consommé par une autre étape d'un processus XML.


Ligne 485 : Ligne 471 :
=== Inclusion ===
=== Inclusion ===
Un document XML peut être constitué de plusieurs fichiers, qui sont rassemblés au moment de l'analyse ci-dessus. Il y a deux normes actuellement concurrentes :
Un document XML peut être constitué de plusieurs fichiers, qui sont rassemblés au moment de l'analyse ci-dessus. Il y a deux normes actuellement concurrentes :
* les entités externes<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-external-ent entités externes]</ref>, issues de [[Standard Generalized Markup Language|SGML]], résolues ''a priori'' par un parseur validant, avant tout traitement du document ;
* les entités externes<ref group="XML">[http://www.w3.org/TR/REC-xml/#sec-external-ent entités externes].</ref>, issues de [[Standard Generalized Markup Language|SGML]], résolues ''a priori'' par un parseur validant, avant tout traitement du document ;
* <code>xinclude</code><ref>{{en}} [http://www.w3.org/TR/xinclude/ xinclude]</ref>, un élément XML spécial, pouvant être traité comme une étape séparée.
* <code>xinclude</code><ref>{{en}} [http://www.w3.org/TR/xinclude/ xinclude].</ref>, un élément XML spécial, pouvant être traité comme une étape séparée.


Les spécifications et les implémentations privilégient maintenant <code>xinclude</code>, bien que son adoption ait pu être discutée<ref>{{en}} [http://norman.walsh.name/ Norman Walsh], [http://norman.walsh.name/2005/04/01/xinclude {{langue|en|''XInclude, xml:base, and validation''}}].</ref>.
Les spécifications et les implémentations privilégient maintenant <code>xinclude</code>, bien que son adoption ait pu être discutée<ref>{{en}} [http://norman.walsh.name/ Norman Walsh], [http://norman.walsh.name/2005/04/01/xinclude {{langue|en|''XInclude, xml:base, and validation''}}].</ref>.


Considérons l'exemple d'un catalogue de produits pour voir les effets de l'un et de l'autre. On aura chaque produit sous la forme d'un document XML, et un document maître qui assemble toutes les références. En entités, cela s'explique ainsi.
Considérons l'exemple d'un catalogue de produits pour voir les effets de l'un et de l'autre. On aura chaque produit sous la forme d'un document XML, et un document maître qui assemble toutes les références. En entités, cela s'explique ainsi.
<source lang="xml">
<syntaxhighlight lang="xml">
<!DOCTYPE catalogue [
<!DOCTYPE catalogue [
<!ENTITY article001 SYSTEM "articles/article001.xml">
<!ENTITY article001 SYSTEM "articles/article001.xml">
Ligne 501 : Ligne 487 :
&article001;
&article001;
&article002;
&article002;
</catalogue> </source>
</catalogue> </syntaxhighlight>


On remarquera que les entités sont déclarées en entête de document, puis appelées par une écriture du type <code>&amp;entité;</code>. Cette syntaxe est initialement prévue pour des raccourcis, afin de factoriser l'écriture de variables comme un nom de produit ou une société. Ce mécanisme a été étendu pour résoudre les problèmes d'encodage en ASCII avant l'[[Unicode]]. Ce sont les entités caractère comme <code>&amp;eacute;</code> = <code>&amp;#E9;</code> = <code>é</code>. Pour le cas d'une inclusion d'un fichier, cela demande deux déclarations, celle du lien, celle de son appel.
On remarquera que les entités sont déclarées en entête de document, puis appelées par une écriture du type <code>&amp;entité;</code>. Cette syntaxe est initialement prévue pour des raccourcis, afin de factoriser l'écriture de variables comme un nom de produit ou une société. Ce mécanisme a été étendu pour résoudre les problèmes d'encodage en ASCII avant l'[[Unicode]]. Ce sont les entités caractère comme <code>&amp;eacute;</code> = <code>&amp;#E9;</code> = <code>é</code>. Pour le cas d'une inclusion d'un fichier, cela demande deux déclarations, celle du lien, celle de son appel.


La résolution ''a priori'' des inclusions peut avoir des inconvénients, en particulier pour des documents maître très lourds que l'on peut vouloir travailler sans leur dépendances. [http://www.w3.org/TR/xinclude/ Xinclude] permet cela, ainsi que de générer ces relations automatiquement ([[Extensible Stylesheet Language Transformations|XSLT]]).
La résolution ''a priori'' des inclusions peut avoir des inconvénients, en particulier pour des documents maître très lourds que l'on peut vouloir travailler sans leur dépendances. [http://www.w3.org/TR/xinclude/ Xinclude] permet cela, ainsi que de générer ces relations automatiquement ([[Extensible Stylesheet Language Transformations|XSLT]]).
<source lang="xml">
<syntaxhighlight lang="xml">
<!-- Un exemple d'inclusion par xinclude -->
<!-- Un exemple d'inclusion par xinclude -->
<catalogue
<catalogue
Ligne 514 : Ligne 500 :
<titre>catalogue</titre>
<titre>catalogue</titre>
<xi:include href="articles/article001.xml"/>
<xi:include href="articles/article001.xml"/>
</catalogue> </source>
</catalogue> </syntaxhighlight>


XML peut se présenter sous d'autres formes qu'un fichier, par exemple à l'intérieur d'une [[base XML native]]. La nature purement arborescente du format permet potentiellement de constituer des structures très importantes, non pas seulement chaînées comme un tableau très long, mais articulées, avec branches et sous-branches.
XML peut se présenter sous d'autres formes qu'un fichier, par exemple à l'intérieur d'une [[base XML native]]. La nature purement arborescente du format permet potentiellement de constituer des structures très importantes, non pas seulement chaînées comme un tableau très long, mais articulées, avec branches et sous-branches.
Ligne 536 : Ligne 522 :


== Conclusion ==
== Conclusion ==
En 2001, on demandait à [[James Clark (informatique)|James Clark]], un expert XML et SGML : {{langue|en|''What's the next step for XML?''}}<ref>[http://www.ddj.com/184404686 {{langue|en|''What's the next step for XML?''}}].</ref> « Quelle est l'étape suivante pour XML » ? Il répondit d'abord que cela revenait à demander quelle est l'étape suivante pour le texte ou pour les fichiers à lignes délimitées. Selon lui, à peine {{Nobr|3 ans}} après, la nouveauté ne viendrait plus du format, mais des applications. En effet en 2015, on ne constate aucun changement de fond dans la spécification XML. C'est devenu un format aussi universel qu'[[Unicode]], comme un [[espéranto]] de l'[[informatique]] pour structurer des contenus.
En 2001, on demandait à [[James Clark (informatique)|James Clark]], un expert XML et SGML : {{langue|en|''What's the next step for XML?''}}<ref>[http://www.ddj.com/184404686 {{langue|en|''What's the next step for XML?''}}].</ref> « Quelle est l'étape suivante pour XML » ? Il répondit d'abord que cela revenait à demander quelle est l'étape suivante pour le texte ou pour les fichiers à lignes délimitées. Selon lui, à peine {{Nobr|3 ans}} après, la nouveauté ne viendrait plus du format, mais des applications. En effet en 2015, on ne constate aucun changement de fond dans la spécification XML.


XML permet en effet de représenter beaucoup de structures différentes, il a par exemple contribué à généraliser et normaliser les structures en arbre, si bien qu'elles sont considérées aussi informatisables que les tables ([[SQL]]). Toutefois, les balises n'ont pas effacé toutes les syntaxes textuelles. On a par exemple vu se généraliser [[JSON]], qui permet la représentation et l'échange de données hiérarchiques, comme des [[Objet (informatique)|objets (au sens informatique)]]. La vogue de JSON, qui n'en doutons pas restera longtemps, permet de mieux définir les spécificités de XML. JSON sépare strictement la structure arborescente, et les données contenues dans des feuilles. Ce modèle représente difficilement le texte riche, où par exemple un nom de personne indexé apparaît en plein milieu d'une phrase. JSON ne propose pas de syntaxe standardisée pour la validation et la documentation, ce sont souvent des structures ''ad hoc''. La force de XML, qui n'est pas la plus sollicitée hors de l'informatique du document, est dans la validation, ce qui contribue à standardiser des types de documents à grande échelle, ne serait-ce que le Web et HTML.
XML permet en effet de représenter beaucoup de structures différentes. Il a par exemple contribué à généraliser et normaliser les structures en arbre, si bien qu'elles sont considérées aussi informatisables que les tables ([[SQL]]). Toutefois, les balises n'ont pas effacé toutes les syntaxes textuelles. On a par exemple vu se généraliser [[JSON]], qui permet la représentation et l'échange de données hiérarchiques, comme des [[Objet (informatique)|objets (au sens informatique)]]. La vogue de JSON, qui n'en doutons pas restera longtemps, permet de mieux définir les spécificités de XML. JSON sépare strictement la structure arborescente, et les données contenues dans des feuilles. Ce modèle représente difficilement le texte riche, où par exemple un nom de personne indexé apparaît en plein milieu d'une phrase. JSON ne propose pas de syntaxe standardisée pour la validation et la documentation, ce sont souvent des structures ''ad hoc''. La force de XML, qui n'est pas la plus sollicitée hors de l'informatique du document, est dans la validation, ce qui contribue à standardiser des types de documents à grande échelle, ne serait-ce que le Web et HTML.


== Notes et références ==
== Notes et références ==
Ligne 560 : Ligne 546 :


Autres technologies et théories intéressant XML :
Autres technologies et théories intéressant XML :
* [[Langages de balisage]]
* [[Langage de balisage]]
* [[Standard Generalized Markup Language|SGML]]
* [[Standard Generalized Markup Language|SGML]]
* [[Identificateur de fragment]]
* [[Identificateur de fragment]]
Ligne 582 : Ligne 568 :
* ''Spécification XML 1.1'' [http://www.yoyodesign.org/doc/w3c/xml11/ {{fr}}] [http://www.w3.org/TR/xml11/ {{en}}]
* ''Spécification XML 1.1'' [http://www.yoyodesign.org/doc/w3c/xml11/ {{fr}}] [http://www.w3.org/TR/xml11/ {{en}}]
* ''Spécification XML 1.0'' [http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html {{fr}}] [http://www.w3.org/TR/REC-xml/ {{en}}]
* ''Spécification XML 1.0'' [http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html {{fr}}] [http://www.w3.org/TR/REC-xml/ {{en}}]
* TEI Consortium, « v. A Gentle Introduction to XML », ''TEI P5: Guidelines for Electronic Text Encoding and Interchange'', [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html {{en}}]
* TEI Consortium, « v. A Gentle Introduction to XML », ''TEI P5: Guidelines for Electronic Text Encoding and Interchange'', [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html {{en}}]
* Norman Walsh and Leonard Muellner, « Getting Started with SGML/XML », ''DocBook: The Definitive Guide'' [http://www.docbook.org/tdg/en/html/ch01.html {{en}}]
* Norman Walsh and Leonard Muellner, « Getting Started with SGML/XML », ''DocBook: The Definitive Guide'' [http://www.docbook.org/tdg/en/html/ch01.html {{en}}]


{{Palette|Web sémantique|Échange de données}}
{{Palette|Web sémantique|Échange de données}}
{{Portail|informatique|Édition numérique|Web sémantique|écriture}}
{{Portail|informatique|Édition numérique}}


[[Catégorie:XML|*]]
[[Catégorie:XML|*]]

Version du 28 mai 2024 à 11:11

XML
EXtensible Markup Language
Caractéristiques
Extension
.xmlVoir et modifier les données sur Wikidata
Type MIME
application/xml, text/xmlVoir et modifier les données sur Wikidata
PUID
Développé par
Version initiale
Type de format
Basé sur
Norme
Spécification
Site web

L'Extensible Markup Language, généralement appelé XML[note 1], « langage de balisage extensible[1] » en français, est un métalangage informatique de balisage générique qui est un sous-ensemble du Standard Generalized Markup Language (SGML). Sa syntaxe est dite « extensible » car elle permet de définir différents langages avec pour chacun son vocabulaire et sa grammaire, comme XHTML, XSLT, RSS, SVG… Elle est reconnaissable par son usage des chevrons (<, >) encadrant les noms des balises. L'objectif initial de XML est de faciliter l'échange automatisé de contenus complexes (arbres, texte enrichi, etc.) entre systèmes d'informations hétérogènes (interopérabilité). Avec ses outils et langages associés, une application XML respecte généralement certains principes :

  • la structure d'un document XML est définie et validable par un schéma ;
  • un document XML est entièrement transformable dans un autre document XML.

Historique

Dan Connolly ajoute le Standard Generalized Markup Language à la liste des activités du World Wide Web Consortium lorsqu'il s'y joint en 1995. Les travaux débutent à la mi-1996 lorsque l'ingénieur Jon Bosak (en) de Sun Microsystems élabore une charte et recrute des collaborateurs. Bosak se fait connaître dans la petite communauté de personnes ayant de l'expérience à la fois dans le SGML et dans le Web.

XML est compilé par un groupe de travail de onze membres[note 2], soutenu par environ 150 membres de divers groupes d'intérêt. Le débat technique a eu lieu sur la liste de diffusion commune et les questions ont été résolues par consensus ou, lorsque cela a échoué, à la majorité des voix du groupe de travail. Les corédacteurs du cahier des charges étaient à l'origine Tim Bray (en), qui a notamment conduit l'informatisation du Oxford English Dictionary, et Michael Sperberg-McQueen (en), de l'Université de l'Illinois, qui était éditeur en chef de la DTD TEI ; accompagnés ensuite de Jean Paoli, de Microsoft, comme troisième coéditeur[2]. James Clark servit comme responsable technique du groupe de travail, notamment en contribuant à l'élément vide « <empty/> » et au nom « XML ». Tim Bray, dans son Annotated XML Specification[3] « la spécification XML annotée », explique plus longuement le contexte qui a rendu possible ce standard. Plusieurs autres noms furent envisagés avant XML, ils faisaient référence à une version allégée du SGML : MGML (Minimal Generalized Markup Language), SLIM (Structured Language for Internet Markup) et MAGMA (Minimal Architecture for Generalized Markup Applications)[4]. Un compte rendu des décisions de conception et de leurs justifications ont été compilées par Michael Sperberg-McQueen, le 4 décembre 1997[5].

Le groupe de travail XML ne s'est jamais rencontré face-à-face, la conception a été réalisée via des courriers électroniques et des téléconférences hebdomadaires. Les principales décisions de conception ont été prises en une vingtaine de semaines de travail intense entre juillet et novembre 1996, lorsque le premier travail de spécification XML a été publié[6]. D'autres travaux de conception sont poursuivis jusqu'en 1997, puis le XML 1.0 est devenu une recommandation W3C le .

XML et SGML

L'objectif d'XML est expliqué dès le début de la spécification du [7] avec une phrase toujours d'actualité : « Son but est de permettre au SGML générique d'être transmis, reçu et traité sur le Web de la même manière que l'est HTML aujourd'hui[8] ». SGML est un langage de balisage, employé dans les industries de la documentation et de l'édition. En adoptant cette syntaxe pour HTML, Tim Berners-Lee confrontait une technologie complexe à de plus en plus d'utilisateurs. L'objectif d'XML était de définir un langage aussi générique, mais plus simple que SGML[9]. De fait, XML est un sous-ensemble de SGML.

À la lumière des années passées, cette spécification a rempli l'objectif qu'elle se fixait, XML a été largement suivi et favorise l'interopérabilité. La disponibilité d'une syntaxe standard et d'outils de manipulation réduit significativement le coût du cycle de développement, permettant à des logiciels de modifier et de valider, sans connaissances préalables, des documents écrits dans ces langages. En effet, avant l'avènement du populaire langage généraliste de description de données qu'est XML, les concepteurs de logiciels avaient pour habitude de définir leurs propres formats de fichiers ou leurs propres langages pour partager les données entre programmes (à l'exception de quelques standards professionnels tels qu'EDIFACT), ce qui exigeait de concevoir et de programmer chaque fois des analyseurs syntaxiques spécialisés. XML a permis d'effectuer ces tâches avec des outils standards.

Plusieurs décisions ont contribué au succès du XML.

Adoption de l'Unicode

La norme XML stipule que tous les outils de traitement du XML doivent accepter les codages des caractères UTF-8 et UTF-16 de ISO 10646, c'est-à-dire Unicode. Cela donne une base commune permettant de représenter pratiquement toutes les langues du monde. SGML ne fournissait pas une telle base, rendant plus probable des problèmes de conversion de codage des caractères.

Grammaire plus simple

SGML est orienté pour la saisie humaine de texte structuré et autorise beaucoup de raccourcis. Ainsi, les versions de HTML fondées sur SGML permettent d'omettre certaines balises de fermeture, de raccourcir des attributs et de mélanger minuscules et majuscules.

<!-- Exemple d'HTML 4, application de SGML, avec attribut minimisé,
balises en minuscules et majuscules, balises fermantes optionnelles. -->
<UL compact>
    <LI>Item 1
    <li>Item<br>2</Li>
</ul>

Ces possibilités compliquent le traitement automatique et sont interdites pour les applications de XML.

<!-- Exemple d'XHTML, application de XML. -->
<ul compact="compact">
    <li>Item 1</li>
    <li>Item<br/>2</li>
</ul>

Espace de noms

SGML insiste surtout sur la validation, sur la conformité à un modèle contraignant. XML prévoit un usage plus souple de l'information structurée. Il spécifie un moyen de faire cohabiter plusieurs vocabulaires de balises dans un même document grâce à la définition d'espaces de noms.

<?xml version="1.0" encoding="UTF-8"?>
<xsl:transform
    version="1.0"
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns="http://www.w3.org/1999/xhtml"
    xmlns:tei="http://www.tei-c.org/ns/1.0"
>
    <!-- Transformation XSLT (instructions XML avec le préfixe “xsl:”) qui prend
en entrée du TEI (noms avec préfixe “tei:”) et donne en sortie du HTML (noms
sans préfixe). -->
    <xsl:template match="tei:abbr">
        <abbr>
            <xsl:apply-templates/>
        </abbr>
    </xsl:template>
</xsl:transform>

Bilan

XML a été largement adopté en informatique dès sa normalisation en 1998. Par la suite, des formats de données moins verbeux comme YAML et JSON ont commencé à le concurrencer sérieusement.

Paradoxalement, XML n'a pas réussi à remplacer SGML pour la grammaire de HTML. Les premières versions de HTML (2, 3.2 et 4) sont formellement des applications de SGML. À la suite de l'apparition de XML, HTML 4 a été reformulé en application de XML sous le nom de XHTML 1.0. Mais bien que XHTML ait été dans un premier temps largement adopté par les concepteurs de pages Web, il a ensuite perdu du terrain face à HTML5, qui n'est pas une application de XML ni de SGML. En fait, en application du principe de robustesse, les navigateurs Web ont toujours interprété le HTML avec des algorithmes maison sans tenir compte de SGML ni de XML. Et HTML5 a entériné cet état de fait[10].

Versions

La version 1.0 d'XML a été publiée le .

La version 1.1 d'XML a été publiée le . Elle apporte des améliorations dans le support des différentes versions d'Unicode, permet l'usage de caractères de contrôle dans le texte (à l'exception du caractère 0), et organise les fins de ligne de façon compatible avec les technologies IBM[11].

Le W3C recommande aux interpréteurs XML de reconnaître les deux versions, bien que la première version soit beaucoup plus répandue que la seconde.

Comparaison avec d'autres formats

XML est doté d'une syntaxe générique et extensible qui lui permet de structurer une grande variété de contenus, car son « langage » (vocabulaire et grammaire) peut être redéfini.

Si le début de cet article était écrit en XML, il pourrait ressembler à ceci.

<article xmlns="http://docbook.org/ns/docbook">
    <title>Extensible Markup Language</title>
    <para>
        <acronym>XML</acronym> (Extensible Markup Language, « langage de
balisage extensible »)…
    </para>
</article>

Dans ce code, chacun peut identifier des portions de texte (exemple : Extensible, XML…) et des mots clés encadrés de chevrons (<, >) : <article>, <title>, <para>… Ces mots sont définis dans l'espace de noms Docbook. Le document est ouvert par le mot-clé <article> et clos par </article>. Notez la barre oblique, qui caractérise les balises de fermeture. En XML, une balise doit toujours être fermée. À l'intérieur de cet article, il y a un titre <title>, un paragraphe <para> et un acronyme <acronym>.

Ce qui est spécifique à XML, c'est le choix des chevrons pour identifier les balises et l'obligation de les fermer. Les mots clés ne sont pas définis par la norme XML mais par le vocabulaire choisi. En XHTML, l'élément racine aurait été html ; en XSLT, cela peut être xsl:stylesheet ou xsl:transform. Ceci illustre la nature extensible d'XML. Ce n'est pas un jeu de noms réservés (exemple : echo, for, public, function, class…), mais plutôt des caractères réservés permettant de définir un « langage ».

Cet exemple illustre une autre spécificité de ce format. À part SGML, peu d'autres syntaxes permettent de séparer la définition sémantique de l'information (qu'est-ce qui est titre, lien, section…), de l'apparence qu'on souhaite lui donner (aujourd'hui un titre est souligné, demain on le voudra peut-être en bleu). Cela fait d'XML un excellent format pour conserver des textes ou des données, comme la comparaison ci-après à d'autres formats le montre.

Formats binaires

Les logiciels, surtout pour le grand public, aboutissent généralement à des fichiers. L'interopérabilité et la pérennité de ces fichiers est une préoccupation qui passe souvent après la performance. Par exemple, le format historique d'enregistrement du traitement de texte Microsoft Word (*.doc) n'est pas lisible par l'humain, le texte est difficile à extraire, le lien avec sa structuration (gras, italique…) est difficile à reconstruire. Théoriquement, seul le logiciel qui le produit est capable de le lire.

ÐÏ à¡± á    >   þÿ !  #       þÿÿÿ  ÿÿ%    ð ¿      a     bjbj%ç%ç                  
Extensible Markup Language
XML (Extensible Markup Language, « langage de balisage extensible »)
  i      8  @ñÿ  8     N o r m a l      
 CJ  _H  aJ  mH  sH  tH  N  @    N     T i t r e   1       
ÿ
[beaucoup d'informations binaires supprimées]
ÿ
ÿÿÿÿ 	   À  F    Document Microsoft Word  MSWordDoc     Word.Document.8 ô9²q

RTF

Afin de favoriser l'échange avec d'autres traitements de texte, Microsoft a proposé le format RTF (Rich Text Format « format texte riche ») en 1987. Ce n'est pas un format binaire, les commandes sont inscrites en texte lisible, mais elles ne sont pas destinées à être écrites par un humain.

{\rtf
{\f2\fs36\b Extensible Markup Language}\par
{\b XML} (Extensible Markup Language, 
« langage de balisage extensible »)...
\par
}

On retrouve le besoin d'encadrer du contenu avec un marqueur (ici les accolades {}), d'attacher des propriétés à ces groupes. Ainsi, {\b XML} indique que les lettres XML sont en gras, bold : \b. Pour le titre, humains comme logiciels ne peuvent pas l'identifier par "\f2\fs36\b", ce code indique en fait l'apparence du paragraphe (gras, gros…). Ce format a montré qu'il pouvait fonctionner dans des logiciels, mais sa complexité croissante a montré ses limites. Il est difficilement extensible et inutilisable pour structurer la sémantique d'un texte.

TeX

TeX reste le standard de l'édition scientifique de qualité, en particulier pour la mise en forme des équations complexes. Toutefois, cela reste un langage de programmation destiné à la mise en forme, davantage conçu pour l'apparence des documents que pour stocker ou transférer des données.

\documentclass[a4paper, 11pt]{article}
\title{Extensible Markup Language}
\begin{document}
    \maketitle
\end{document}

Éléments et attributs

La structuration XML repose sur un modèle d'arbre permettant beaucoup plus de finesse de balisage que toutes les syntaxes plus haut, en particulier les attributs. Les liens (X)HTML en sont certainement l'exemple le plus déployé.

   <-- Un lien lien en xhtml - ->
   <a href="http://www.w3.org/" title="World Wide Web Consortium">W3C</a>

Une portion de texte, W3C, est ici muni de deux informations plus longues :

Si le balisage devait être encore plus précis, les milieux académiques ont élaboré un vocabulaire très raffiné pour encoder les textes, TEI.

  <-- ''exemples d'attributs XML, en TEI ''- ->
  <p>'''... est une spécification du '''
     <orgName key="org0405" type="fondation" reg="World Wide Web Consortium">'''W3C'''</orgName> ...
  </p>

L'élément <orgName> balise le nom d'une organisation. De plus, il porte les attributs :

  • @key : le code de l'organisation dans un annuaire auquel le document peut être relié
  • @type : une catégorie de classification
  • @reg : la forme « régulière » du nom de l'organisation

Pour un système d'informations souhaitant maintenir cette rigueur, XML est irremplaçable. Non seulement il structure un contenu, mais il permet de lui ajouter des informations supplémentaires.

Cette première approche par l'exemple permet d'illustrer l'aspect extensible d'XML, la séparation du contenu et de la présentation. Ont aussi été introduites les notions de texte, éléments et attributs qui sont détaillées plus bas. -->

Composants et syntaxe

XML se présente en général comme un texte, séparant deux niveaux : du texte à destination des humains et des balises à destination des machines. La structuration de ce texte par les balises produit un modèle informatique. D'un point de vue formel, un document XML est un arbre, articulant différents types de nœuds (texte, éléments, attributs, commentaires…). Il n'est pas indispensable de pénétrer le détail théorique de cette structure arborescente pour écrire du XML bien formé. Toutefois, il est intéressant d'en comprendre le principe général, car c'est ce modèle qui explique les erreurs de syntaxe. Cette section présentera les différents composants du modèle XML, en insistant sur les contraintes imposées par leur définition et en présentant différents types d'erreurs (malformations) qui produisent un document mal formé. Un document mal formé n'est plus du XML. Il casse toute la chaîne de traitement. Cette absence de rattrapage des erreurs peut parfois surprendre et décourager les débutants, mais c'est cette rigueur qui assure la qualité du format XML (notamment comparé au SGML). Heureusement, comme pour tout autre langage informatique, des logiciels d'édition assistent les utilisateurs pour éviter ces erreurs.

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="transformation.xsl" type="text/xsl"?>
<?mode ecran?>
<?instruction pour le traitement?>
<!-- Commentaire -->
<ex:collection
    xml:lang="fr"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns="http://www.w3.org/1999/xhtml"
    xmlns:ex="http://exemple.org"
>
    <élément>Texte</élément>
    <dc:title>Astérix le Gaulois</dc:title>
    <ex:livre attribut="valeur" type="BD">
        <dc:title>Astérix chez les Belges</dc:title>
        <!-- élément répété -->
        <dc:creator>René Goscinny</dc:creator>
        <dc:creator>Albert Uderzo</dc:creator>
        <dc:description>
            <b>Astérix chez les Belges</b> est un album de 
<a href="http://fr.wikipedia.org/wiki/Bande_dessinée">bande dessinée</a> de la
série Astérix le Gaulois créée par René Goscinny et Albert Uderzo.
<br /><!-- élément vide -->
            Cet album publié en 1979 est le dernier de la série écrite par René 
Goscinny.
        </dc:description>
    </ex:livre>
</ex:collection>

Nœud document

Un document XML a toujours une et une seule racine, le nœud document. Dans la syntaxe d'exploration d'un arbre XML, XPath, le nœud document est abrégé avec la barre oblique /, comme la racine de l'arborescence d'un système de fichiers Unix. La racine peut éventuellement comporter des enfants de type commentaire ou instruction de traitement, elle doit obligatoirement comporter un et un seul élément.

<?xml version="1.0" encoding="UTF-8"?>
<item>Premier élément racine</item>
<item>Deuxième élément racine = malformation</item>
Malformation
Le fichier ci-dessus n'est pas un document XML bien formé car il comporte plus d'un élément racine.

Nœud élément

Un nœud élément est désigné par un nom qualifié au sein d'un espace de noms (<espace:élément/>). Ce nom ne peut pas contenir !"#$%&'()*+,/;<=>?@[\]^`{|}~ ou une espace et ne peut pas commencer par -. ou un chiffre. Un élément peut contenir des attributs et la plupart des autres nœuds : texte, éléments, etc. (à l'exception du nœud document). Des éléments peuvent être imbriqués, mais pas entrecroisés. Cette définition formelle est à l'origine des particularités de XML comparé à d'autres formats :

Répétable
Une même propriété peut être répétée. L'exemple montre comment indiquer qu'un livre a plusieurs auteurs <dc:creator>. Dans un format tabulaire, avec un nombre de colonnes défini, ce n'est pas impossible, mais moins spécifié.
Ordonné
L'ordre des éléments est conservé. Quel que soit le langage employé, un outil XML doit permettre de distinguer le premier auteur du second (exemple : en XPath, /ex:collection/ex:livre/dc:creator[1] = "René Goscinny", /ex:collection/ex:livre/dc:creator[2] = "Albert Uderzo").
Hiérarchique
Les éléments XML sont imbriqués. Ceci rend ce format particulièrement adapté à représenter des arbres. L'exemple est limité à deux niveaux (/ex:collection/ex:livre), une collection avec un titre (Astérix le Gaulois) et un exemple d'ouvrage de cette collection (Astérix chez les Belges). XML permet une récursivité complète. Par exemple, un livre, ou une thèse, peut être formaté très économiquement avec un élément <section>. La partie 2.3.5 correspondra à une structure d'imbrication XML /section[2]/section[3]/section[5].
Mélangeable
XML est plus qu'un format de données, c'est un format de document, permettant de mélanger du texte et des éléments, pour par exemple représenter du texte riche. Dans l'exemple, le texte de la description <dc:description> est enrichi avec des balises XHTML (gras <b>, lien <a>).
Qualifié
La qualification des noms contribue à la précision sémantique des contenus balisés. La notation xmlns="URI" ou xmlns:prefix="autre/URI", avec héritage hiérarchique, permet de rattacher tous les noms à une URI, et donc potentiellement à une documentation.
Malformations
Quelques exemples d'XML mal formé :
  • <auteur><nom>Bon</nom>, <prénom>Jean</auteur></prénom> (la balise </prénom> est fermée après la balise </auteur> alors que cette dernière a été ouverte avant. Le prénom doit être logiquement à l'intérieur de la balise auteur, comme le nom.
  • <siècle>XX<exposant>e</siècle>, <para>Malformations</label> (paragraphe avec titre)</para> La balise <exposant> doit être fermée à l'intérieur de l'élément <siècle>, la balise </label> doit être ouverte avant d'être fermée à l'intérieur de l'élément <para>.
  • <1-balise/>, <.balise/> , <balise!/>, <autre/balise,mal,nommée/>, <pas d'espace> Ces noms d'éléments comportent des caractères interdits, en première position ou ailleurs.

Balise

Une balise est un nom commode pour désigner les constructions entre deux chevrons (<, >) dans un fichier XML. On distinguera les balises ouvrantes <élément attribut="valeur">, les balises fermantes </élément> (sans attributs et commençant par une barre oblique) et les balises vides <élément attribut="valeur"/> (avec attributs possibles et terminant par une barre oblique). Il ne faut pas confondre les balises avec les éléments. Ces notations permettent de délimiter des éléments (ainsi que leurs attributs), mais les balises ne sont pas des nœuds dans le modèle abstrait du document.

Nœud texte

Un nœud texte[XML 1] n'a pas d'enfants, il est toujours contenu dans un élément. Ainsi, dans le cas de texte mêlé (exemple : <p>du texte en <b>gras</b> dans un paragraphe</p>), ce n'est pas le texte qui contient le gras, mais plutôt l'élément parent <p> qui contient plusieurs enfants : un nœud texte, un nœud élément <b> et un nœud texte (exemple : p/node()[3]=" dans un paragraphe", p/b/node() = "gras").

Encodage
Par défaut, le texte est traité comme de l'Unicode (UTF-8). XML permet de spécifier d'autres encodages dans le prologue pour des raisons historiques.
Espaces
En XML, espaces et sauts de lignes sont équivalents[XML 2], autrement dit, un document peut perdre son indentation en restant identique pour les traitements, sauf instructions particulières (exemple : bloc préformaté avec l'attribut @xml:space="preserve").
Malformations
Comme tout langage informatique, XML est fondé sur des caractères qui ont un sens particulier pour la machine. La force de XML est d'avoir réduit le nombre de ces caractères au minimum, afin que le texte prime sur le métatexte (priorité des données sur les instructions). Dès qu'un analyseur XML (ex : navigateur Web) rencontre un chevron ouvrant (<), les caractères qui suivent sont interprétés comme une balise. Ceci pose évidemment des problèmes dans une inéquation mathématique if (a < 10) print("Unité"). La balise < 10)… n'ayant pas un nom d'élément correct (présence d'une espace, commence par un chiffre), un analyseur XML lèvera une erreur et s'arrêtera sans essayer d'être plus intelligent. C'est un problème pour tous les langages informatiques, qui introduisent alors des caractères d'échappement. Il faut au moins un caractère pour signaler que les caractères qui suivent doivent être interprétés autrement. En XML, c'est le rôle de l'esperluette (&) qui introduit des entités. Une entité est un nom XML encadré d'une esperluette et d'un point virgule. Ce nom a les mêmes contraintes que pour les éléments (pas d'espaces, surtout des lettres…). Dans un nœud texte, le signe inférieur doit être remplacé par &lt; (lesser than, « inférieur » en français). Du coup, l'esperluette acquiert elle aussi un statut particulier et doit aussi être échappée. <sujet>Montaigne & La Boétie</sujet>, ce texte produira une erreur XML, car & La Boétie n'est pas une entité bien formée. Les esperluettes d'un nœud texte doivent être remplacées par l'entité &amp; (ampersand, « esperluette » en français). Mentionnons ici trois autres entités nécessaires à XML, &gt; (greater than, « supérieur » en français) pour >, &quot; (quote, « guillemet » en français) pour ", &apos; (apostrophe) pour '.

Attributs

Un attribut est un nom et une valeur. Un nom d'attribut a les mêmes contraintes et possibilités de qualification qu'un nom d'élément. La valeur est un texte sans élément (ou autres nœuds). Un attribut est toujours porté par un élément (balise ouvrante). La valeur peut être vide <element attribut=""/>, mais pas nulle <element attribut> (cette écriture était permise en SGML, on la rencontre encore parfois en HTML, mais elle n'est pas acceptée en XML).

Un attribut est unique. La répétition d'un attribut de même nom sur le même élément provoquera une erreur de l'interpréteur XML. L'ordre des attributs n'est pas significatif et peut ne pas être conservé dans certains traitements. <element attribut1="valeur1" attribut2="valeur2"/> et <element attribut2="valeur2" attribut1="valeur1"/> sont équivalents pour un interpréteur XML, même s'ils sont écrits différemment.

Malformations
<élément onclick="if (this.length > 10) alert("Pourquoi ça marche pas ?")">Valeurs d'attributs contenant des guillemets ou le signe supérieur</élément> À l'intérieur d'une balise (entre les chevrons ouvrants et fermants), le chevron fermant et les guillemets ont une signification particulière dans la délimitation des valeurs d'attribut, et la fin de la balise ouvrante. Ces caractères doivent donc être échappés. À cette fin, XML prévoit les entités &quot; pour " et &gt; pour >.
<élément répète-après-moi="après moi" répète-après-moi="parser error: attribute répète-après-moi redefined"/> Les attributs ne sont pas répétables.

Commentaires

En XML, les commentaires[XML 3] sont délimités par <!-- et -->. Le contenu d'un commentaire ne sera pas interprété.

<!-- Cet <élément> n'est pas fermé mais cela est autorisé dans un commentaire -->.

Malformations
La chaîne de caractères -- ne peut apparaître dans le contenu d'un commentaire (un interpréteur XML considère que ce signal annonce la fin d'un commentaire).

Prologue

En XML, le prologue[XML 4] est constitué de la déclaration XML <?xml version="1.0" encoding="UTF-8"?>, et de la déclaration de type de document (DOCTYPE). La déclaration XML est obligatoire à partir de la version 1.1. La déclaration DOCTYPE avait une grande importance en SGML. Elle attache le document traité par un interpréteur à son schéma (DTD, Document Type Definition, « Définition de type de document ») afin de le valider et d'interpréter certains raccourcis (les entités). Désormais, il existe plusieurs langages de validation, et parfois plusieurs manières de les attacher. La déclaration DOCTYPE n'a plus la même importance.

Instruction de traitement

Une instruction de traitement[XML 5] est une possibilité un peu moins employée en XML que du temps de SGML. C'est une balise particulière qui s'ouvre par un chevron ouvrant et un point d'interrogation, et qui se ferme avec un point d'interrogation et un chevron fermant <?clé valeur?>. Les lettres accolées au chevron ouvrant forment la clé jusqu'au premier espace. La suite peut contenir des espaces, de la ponctuation et forme la valeur. Cette valeur n'a pas de syntaxe imposée par XML, ce sont les applications qui les interprètent pour leur besoin. Le W3C a cependant standardisé l'usage des instructions de traitement pour associer une feuille de style à un document XML[XML 6], mais d'autres usages sont possibles. Elles peuvent être insérées à tout endroit entre les balises (mais pas dans une valeur d'attribut, ni entre chevrons au milieu d'une balise). Elles peuvent communiquer des instructions à destination des machines qui vont utiliser ce XML, sans que ce contenu soit considéré comme de l'information structurée par les balises. Ainsi par exemple, les instructions de traitements ne seront pas affichées par un navigateur, par contre, elles vont modifier leur comportement dans le traitement (et l'affichage) de cette information XML. Un éditeur XML peut aussi employer ce moyen pour associer un fichier XML à son schéma.

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="tei2html.xsl" type="text/xsl"?>
<?xml-model
    href="tei.rng"
    type="application/xml"
    schematypens="http://relaxng.org/ns/structure/1.0"?
>
<?erreur?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
    <!-- … -->
</TEI>

Sections d'échappement

Une section d'échappement[XML 7] <![CDATA[…]]> permet de contenir n'importe quel texte, avec tous les caractères spéciaux XML <>&, sans qu'il soit nécessaire d'échapper ces caractères avec des entités. Elles sont souvent utilisées dans des documents qui contiennent des syntaxes informatiques avec de nombreux chevrons et esperluettes (ex : JavaScript). Ces sections d'échappement permettent de garder le texte original, en gardant conforme le flux XML.

<script><![CDATA[
if (chars > 140 && mode == tweet) {
    div.innerHTML = '<b>Attention !</b>, le {{140e}} caractère est dépassé !';
}
]]></script>

Document bien formé et valide

Un document bien formé respecte les contraintes formelles définies ci-dessus, il n'a pas de malformations. À ce stade, XML n'est pas un langage, car il n'a pas de vocabulaire et très peu de grammaire, ce serait plutôt une ponctuation, ou mieux, un métalangage. Les spécifications ci-dessus n'interdisent pas de constituer des structures absurdes et inutilisables par des applications.

<phrase titre-livre="XML idiot">
    <paragraphe>
        <chapitre>
            <toto>
                <livre>
                    <titi>Informatique sans bon sens n’est que ruine de l'âme et
perte de temps.</titi>
                </livre>
            </toto>
        </chapitre>
    </paragraphe>
</phrase>

En général, les balises XML ne sont pas inventées librement, mais selon les prescriptions d'un schéma dans une syntaxe informatique (DTD, Relax-NG, Schematron…) qui définit le dictionnaire des noms d'éléments et d'attributs, ainsi que la grammaire de leurs articulations. Lorsqu'un document XML déclare suivre un schéma et être en accord avec celui-ci, il est dit valide. On dit aussi « valider contre un schéma ». « Rendre valide » signifie la correction des erreurs dans un document XML qu'un schéma a repéré. C'est l'objet de la section suivante de montrer la quantité de langages pouvant employer la ponctuation XML, selon des schémas différents.

Utilisations et langages dérivés

SGML était une syntaxe générique, permettant de définir des langages spécialisés (ex : HTML), mais il était surtout destiné au balisage de documents. En simplifiant SGML, les concepteurs d'XML prévoyaient d'élargir l'usage des chevrons (< >) à bien d'autres emplois, par exemple, la programmation. Les premiers langages basés sur XML par le W3C dessinent plusieurs directions d'utilisation.

  • 1999, RDF (Resource Description Framework, « Cadre de description de ressource »). Ce modèle abstrait vise à définir un réseau de métadonnées adapté au web, représentable en XML.
  • 1999, XSLT (eXtended Stylesheet Language Transformations, « Transformations par langage XML de feuilles de style »). Afin d'employer XML, il faut pouvoir le transformer. James Clark avait écrit un langage équivalent pour SGML (DSSSL, 1996). Avec XSLT, il propose une syntaxe XML, permettant par exemple de transformer un contenu XML vers HTML, ou XSL-FO.
  • 2000, XSL-FO (eXtended Stylesheet Language Formatting Object, « Formatage d'objet par langage XML de feuilles de style »). XSL-FO est un langage de description de document permettant de composer un livre, ou un document PDF. C'était un complément indispensable à XML pour les industries de l'édition.
  • Enfin, il fallait une nouvelle syntaxe schéma tenant compte des espaces de noms pour remplacer les DTD (ce qui deviendra XML Schema).

Quelques mois après sa sortie, XML est donc utilisé pour encoder des données, programmer des transformations, représenter un objet imprimable et définir le schéma d'un document XML. Ceci annonce la variété des utilisations de cette syntaxe. Quelques années après, le catalogue est beaucoup plus important, couvrant des usages comme :

Ces catégories permettent une classification approximative des langages à base XML (ou acceptant une expression XML). La liste des langages ci-après repère quelques spécifications importantes dans le monde XML. Les succès et les critiques permettent aussi de montrer à quoi XML est bon, et là où il est moins adapté.

Langages de balisage

Le balisage de document est le métier initial d'XML. Les DTD SGML publiques comme TEI et Docbook l'ont adopté. XML aurait pu permettre l'apparition de nombreux autres schémas. On assiste plutôt à l'apparition de vocabulaires spécialisés, et combinables à l'exemple de la modularisation XHTML[12] :

  • XHTML (eXtensible HyperText Markup Language), langage de balisage hypertexte ;
  • Docbook, documentation technique, 1991 à 1997 O'Reilly, 1998 à … OASIS ;
  • TEI (Text Encoding Initiative), balisage de textes académiques, 1987, 1994, 1999, 2002 ;
  • EAD (Encoded Archival Description), description archivistique, 1993, 2002, Bibliothèque du Congrès ;
  • NITF (News Interchange Text Format), échange d'articles de presse, 2000, 2002, IPTC ;
  • NewsML (News Markup Language), balisage de dépêche de presse, 2000, 2002, IPTC.

Formats de données

XML s'est imposé comme format de référence pour l'échange de données, notamment de métadonnées. L'exemple d'un transfert d'informations entre bases de données relationnelles permettra d'illustrer les avantages et limites de ce format pour cet usage.

L'exportation d'une table peut se faire au format CSV. Mais ce format comporte vite des limites à grande échelle (Internet). Il n'est pas auto-documenté (encodage du texte, séparateurs, ordre et nom des colonnes). Il demande une documentation externe rarement automatisée entre les partenaires. Que faire lorsque les tables source et destination n'ont pas des structures identiques ? Pour cette raison, on peut préférer des échanges en SQL (à la fois langage de définition de données, langage de manipulation de données et langage de contrôle de données). Cependant, malgré de nombreux efforts de normalisation, SQL comporte beaucoup de risques d'incompatibilité entre les implémentations[13]. XML est une solution plus robuste. On peut en constater l'efficacité sur Internet avec la syndication de contenu. Il n'y a pas d'exemple connu d'échange de métadonnées réparties sur autant de clients et de serveurs.

Verbosité ? – Comparé à l'export CSV d'une table, XML réplique le nom de la colonne pour chaque cellule (une fois pour un attribut, deux fois pour un élément). Le poids du fichier généré est supérieur à celui d'un fichier CSV. Dans des contextes où la bande passante est coûteuse (exemple : téléphonie mobile) cela n'a pas semblé poser de problème (WML) car ces répétitions se compressent très bien (ZIP).

Traitement lourd ? – Traiter du XML demande des bibliothèques spécialisées (interpréteur XML). Cela n'ajoute pas vraiment du temps de développement supplémentaire, du moins pour des équipes formées. Pour des petites tâches, un parseur ligne à ligne est parfois plus simple. Mais si la donnée se destine à se complexifier, à s'échanger plus largement, il vaut mieux choisir XML dès le départ.

XML : données ou document ? – Cette section est l'occasion de marquer la distinction entre XML données et XML document. Il ne s'agit pas d'une différence dans la syntaxe, mais dans ses usages, ses outils et ses communautés d'utilisateurs. Par SGML, XML vient du document. On lui a reproché par exemple ne pas avoir (nativement) de typage fort. On rencontre un mouvement analogue mais contraire en SQL. C'est originellement un format de données, on lui demande de plus en plus de traiter du texte. (CMS LAMP). En ce qui concerne XML, cette opposition se traduit dans la direction des efforts de spécification (types de données XML Schema, XPath 2.0, XSLT 2.0) avec des réactions du monde documentaire (Relax NG).

Langages de description de format de document

Un processus XML complet comporte une étape de validation des documents. C'est le rôle d'un schéma de définir ces règles de validité. Faut-il que ce schéma soit en XML ? La question ne se posait pas en SGML, qui connaissait surtout les DTD, une syntaxe texte. Les limites rencontrées alors concernaient surtout la documentation des éléments et attributs déclarés (en). La documentation est très importante pour la réussite d'un standard XML. Celles de Docbook ou TEI constituent des livres complets, avec même des versions imprimées.

Ces communautés ont attendu avec impatience ce que donnerait XML Schema. Les nombreux outils de documentation automatiques qui sont apparus, avec un simple jeu d'XSLT, prouvent l'intérêt d'XML comme langage de description de format de document. Cependant, pour des choses simples, XML Schema s'est avéré difficile. Est-ce l'effet de trop de concessions ? Toujours est-il que malgré le nombre d'éditeurs derrière le W3C, la communauté est très intéressée par Relax NG, de James Clark. Ce modèle accepte une syntaxe XML, et depuis 2003, propose aussi une forme compacte, textuelle, qui n'est pas XML.

Autrement dit, il n'y a plus de réponse unique. Un schéma XML peut se définir dans un vocabulaire XML, ou autrement. L'évolution actuelle est de pouvoir combiner plusieurs langages de schémas, notamment le typage fort d'XML Schema, avec des motifs XPath pour Schematron, dans du Relax NG[14].

  • DTD (Document Type Definition), description du modèle de document XML, ISO ;
  • XML Schema, langage de schéma XML, 2001, W3C ;
  • Relax NG (Regular Language for XML Next Generation), DSDL acceptant une forme XML et une syntaxe compacte, 2001, ISO ;
  • Schematron, validation par motifs, 2001, ISO ;
  • LOM (Learning Object Metadata), scorm 2004 spécifie que son fichier xml manifest doit être compatible avec le modèle de donnée SCORM LOM et le schéma XML.

Langages de représentation

Organisation d'un document au format OpenDocument : content.xml (contenu), styles.xml (apparence), meta.xml (à propos du document)

On vante souvent XML pour sa faculté de séparer contenu, présentation et traitement. Attention, XML rend cette séparation possible, mais il n'interdit pas de tout mélanger, comme dans certaines pages XHTML sur Internet. En tous cas, ce format extensible a prouvé qu'il pouvait conserver la présentation des documents pour les applications les plus exigeantes. La variété des applications l'utilisant en est la preuve.

  • MathML, formules mathématiques, 1999, 2001, 2003, W3C;
  • Office Open XML, documents bureautiques, Microsoft Office versions 2007 et 2008 ;
  • OpenDocument, documents bureautiques ;
  • LegalDocML / Akoma Ntoso (Legal Document Markup Language), documents juridiques ;
  • SVG (Scalable Vector Graphics), graphiques vectoriels 2D, 2003, W3C ;
  • SMIL (Synchronized Multimedia Integration Language), intégration multimédia, 1998, 2005, W3C ;
  • XSL-FO (eXtensible Stylesheet Language - Formatting Objects), langage extensible de feuille de style-formatage d'objets, 2001, W3C ;
  • X3D, 3D multimédia, consortium Web3D.

Langages de programmation

Dans de nombreuses applications, il est parfois pratique de développer un langage spécialisé, à usage local. Avec un schéma, un dialecte XML dispose d'une grammaire (un peu comme BNF). En guise de compilateur, il suffit par exemple d'une transformation XSLT qui génère du code Java, comme pour une bibliothèque de balises (taglibs). Cet exemple montre comment la syntaxe XML permet de définir des langages de programmation.

En théorie, la structure en arbre d'XML permet de représenter la hiérarchie d'un programme objets ou l'imbrication des instructions d'un langage impératif. En pratique, les boucles sont le cas limite à partir duquel XML devient trop verbeux. Par contre, cette écriture est remarquablement adaptée aux syntaxes déclaratives (configuration, définition d'interface), et même, popularise les algorithmes fonctionnels (XSLT, logique d'une application web).

Il en résulte que l'on trouve de plus en plus d'XML dans les logiciels. Dans certains frameworks de développement web, il est possible de monter une application complète et complexe, en n'éditant que du XML :

Protocoles d'échanges

Un protocole spécifie l'échange de contenus et d'instructions, entre un client et un serveur. HTTP est un modèle de protocole (qui n'est pas XML mais textuel). XML permet de baliser des contenus et d'écrire des instructions de programmation. L'universalisation de la connexion HTTP comme des interpréter XML explique pourquoi XML devient une solution courante pour créer un nouveau protocole.

  • XForms, formulaires web, W3C ;
  • OAI (Open Archive Initiative), protocole d'archives ouvertes, 2000, 2002, OAI ;
  • SOAP, RPC par HTTP, W3C ;
  • WSDL, services web, W3C ;
  • WebDAV, lecture-écriture distante par HTTP, IETF ;
  • XMPP (Extensible Messaging and Presence Protocol), messagerie instantanée et présence, multimédia, IETF.

Langages associés

Les langages associés à XML sont des syntaxes qui ne sont pas en XML mais très attachées à XML. CSS illustrera bien la notion. Il peut être contenu dans un attribut (@xhtml:style), dans un élément (<xhtml:style>), ou relié à un document XML par une instruction de traitement (<?xml-stylesheet href="common.css" type="text/css"?>). XPath fournit un autre exemple de spécification entièrement destinée à XML, mais qui est justement sans éléments ou attributs, afin d'être associé à un langage XML (XSLT).

  • CSS (Cascading Style Sheets) ;
  • DTD (Document Type Definition) ;
  • Espace de noms (Namespace) ;
  • SGML ;
  • XPath et XQuery, langages de requête. XQuery possède aussi une syntaxe XML, XQueryX.

Outils et processus

XML a prouvé qu'il était une syntaxe très générique de balisage, propre à de nombreux usages. Cette réussite s'explique par des implémentations concurrentes de nombreuses interfaces de programmation (API) précisément spécifiées. Un processus XML est essentiellement une chaîne de transmission de l'information. Pour l'édition XML de document, on peut isoler les étapes suivantes, presque canoniques :

  1. Production – un document XML peut être produit par un humain ou résulter d'un export d'une source de données dans un autre format.
  2. Analyse – un parser lit le fichier XML pour construire un objet informatique, et vérifie que le document est bien formé.
  3. Inclusion – dans certains contextes, il est possible d'inclure des fichiers qui deviendront des nœuds.
  4. Validation – le document peut ensuite être validé, pour vérifier que sa structure est conforme à son schéma.
  5. Transformation – le document peut être enfin transformé dans un autre format, par exemple à destination d'un navigateur, un traitement de textes, ou un tableur.

Cette succession canonique d'étapes illustre ce que peut être le tuyau (pipe) d'un processus XML standard.

Production

Une organisation qui a déjà son système d'informations, non basé sur XML, peut se demander comment produire du XML. Il existe de nombreuses manières de produire du XML :

  • le traitement de texte – la plupart des logiciels bureautiques proposent un export XML, quand ils ne sont pas nativement XML (LibreOffice, Apache OpenOffice, Microsoft Word). Le plus simple est parfois d'enregistrer en HTML, récupérable moyennant un petit traitement. Il suffit de regarder les formats disponibles avec la fonctionnalité Enregistrer sous de son logiciel habituel ;
  • le SQL – la plupart des SGBD proposent un export XML ;
  • un éditeur XML est le meilleur moyen de faire produire par un humain un document correspondant exactement au schéma attendu.

Analyse

Pour entrer dans un processus, un document XML doit rentrer dans un interpréteur dédié. Les parsers les plus répandus sont :

Il en existe beaucoup d'autres, en particulier en Java, adaptés à différents cas particuliers : ouvrir une API plus simple, accepter des documents mal formés comme HTML, traitements plus simples (notamment pour les documents longs).

Une fois « xmlisé », un document est accessible à différents langages, selon des API standardisées. On distingue généralement l'approche en mémoire, comme le DOM, et l'approche en flux (génération d'événements), comme SAX.

  • DOM, Document Object Model, constitue un objet en mémoire de la totalité d'un document XML. Cette API permet l'accès direct à tous les nœuds de l'arbre (éléments, texte, attributs), pour les lire ou les modifier. Il est par exemple très utilisé sur les navigateurs web avec JavaScript. Cette norme est écrite par le W3C.
  • SAX, Simple API for XML, est une alternative intéressante à DOM pour le traitement de documents longs. Quand un document entre dans un interpréteur XML, du code SAX peut capturer des événements, comme l'ouverture et la fermeture d'une balise, afin par exemple, d'écrire dans une base de données. À l'inverse, il est possible de générer des événements SAX, par exemple à partir de la lecture d'une base de données, afin de produire un document consommé par une autre étape d'un processus XML.

D'autres API existent, comme JDOM, dom4J (Java), ou StAX.

Inclusion

Un document XML peut être constitué de plusieurs fichiers, qui sont rassemblés au moment de l'analyse ci-dessus. Il y a deux normes actuellement concurrentes :

  • les entités externes[XML 8], issues de SGML, résolues a priori par un parseur validant, avant tout traitement du document ;
  • xinclude[18], un élément XML spécial, pouvant être traité comme une étape séparée.

Les spécifications et les implémentations privilégient maintenant xinclude, bien que son adoption ait pu être discutée[19].

Considérons l'exemple d'un catalogue de produits pour voir les effets de l'un et de l'autre. On aura chaque produit sous la forme d'un document XML, et un document maître qui assemble toutes les références. En entités, cela s'explique ainsi.

<!DOCTYPE catalogue [
    <!ENTITY article001 SYSTEM "articles/article001.xml">
    <!ENTITY article002 SYSTEM "articles/article002.xml">
]>
<!-- Un exemple d'inclusion par résolution d'entité externe -->
<catalogue xmlns="http://exemple.net/ns">
    <titre>catalogue</titre>
    &article001;
    &article002;
</catalogue>

On remarquera que les entités sont déclarées en entête de document, puis appelées par une écriture du type &entité;. Cette syntaxe est initialement prévue pour des raccourcis, afin de factoriser l'écriture de variables comme un nom de produit ou une société. Ce mécanisme a été étendu pour résoudre les problèmes d'encodage en ASCII avant l'Unicode. Ce sont les entités caractère comme &eacute; = &#E9; = é. Pour le cas d'une inclusion d'un fichier, cela demande deux déclarations, celle du lien, celle de son appel.

La résolution a priori des inclusions peut avoir des inconvénients, en particulier pour des documents maître très lourds que l'on peut vouloir travailler sans leur dépendances. Xinclude permet cela, ainsi que de générer ces relations automatiquement (XSLT).

<!-- Un exemple d'inclusion par xinclude -->
<catalogue
    xmlns="http://exemple.net/ns"
    xmlns:xi="http://www.w3.org/2001/XInclude"
>
    <titre>catalogue</titre>
    <xi:include href="articles/article001.xml"/>
</catalogue>

XML peut se présenter sous d'autres formes qu'un fichier, par exemple à l'intérieur d'une base XML native. La nature purement arborescente du format permet potentiellement de constituer des structures très importantes, non pas seulement chaînées comme un tableau très long, mais articulées, avec branches et sous-branches.

Validation

La validation est l'opération automatique qui vérifie la conformité d'un document XML à son schéma. Elle a pour but de délivrer des messages comme il n'y a pas de titre au chapitre 5, ou bien, la date de fabrication est dans le futur. La précision et la convivialité de cette vérification dépendent de la syntaxe utilisée.

En SGML, la validation s'effectuait toujours avant l'entrée d'un document XML dans un processus. On parlait de parser validant. Il n'y avait alors qu'un seul langage de validation (les DTDs) déclarés d'une seule manière à l'intérieur du document XML (la déclaration DOCTYPE, Type de document). La pratique a montré que la validation n'est pas toujours nécessaire, et même, contre performante. Dans d'autres cas, plusieurs étapes de validation peuvent être utiles, par exemple, une pour vérifier la structure de l'arbre XML, une autre pour vérifier les liens. L'évolution va vers une étape de validation distincte, déclarée à l'extérieur du document, et gérée selon les besoins du logiciel.

Le déploiement actuel des librairies rend la validation XML nativement accessible à la plupart des systèmes, et dans la plupart des langages de programmation :

  • libxml2, validation DTD et Relax NG (le support XML Schema est partiel, surtout pour le typage de données au sein de Relax NG) ;
  • Jing, un validateur qui n'est pas un parseur pour Relax NG et Schematron ;
  • MSXML (Microsoft Core XML Services), validation DTD et XML Schema ;
  • Xerces, validation DTD et XML Schema ;
  • XSLT, une transformation permettant une validation très précise sur un type de document, c'est couramment utilisé dans une application web pour rendre à l'utilisateur des messages plus conviviaux, cet outil suffit aussi pour utiliser une implémentation Schematron.

Transformation

La transformation est l'étape d'un processus XML qui prend un document dans un certain schéma pour le transposer dans un autre espace de noms. Soit un document textuel qui ne comporte que du contenu. Il sera nécessaire de lui ajouter au moins de la navigation avant de le diffuser sur Internet ; on en voudra aussi une version imprimée (PDF). La facilité de transformer un document XML, notamment avec XSLT, est une raison importante pour choisir ce format.

Conclusion

En 2001, on demandait à James Clark, un expert XML et SGML : What's the next step for XML?[20] « Quelle est l'étape suivante pour XML » ? Il répondit d'abord que cela revenait à demander quelle est l'étape suivante pour le texte ou pour les fichiers à lignes délimitées. Selon lui, à peine 3 ans après, la nouveauté ne viendrait plus du format, mais des applications. En effet en 2015, on ne constate aucun changement de fond dans la spécification XML.

XML permet en effet de représenter beaucoup de structures différentes. Il a par exemple contribué à généraliser et normaliser les structures en arbre, si bien qu'elles sont considérées aussi informatisables que les tables (SQL). Toutefois, les balises n'ont pas effacé toutes les syntaxes textuelles. On a par exemple vu se généraliser JSON, qui permet la représentation et l'échange de données hiérarchiques, comme des objets (au sens informatique). La vogue de JSON, qui n'en doutons pas restera longtemps, permet de mieux définir les spécificités de XML. JSON sépare strictement la structure arborescente, et les données contenues dans des feuilles. Ce modèle représente difficilement le texte riche, où par exemple un nom de personne indexé apparaît en plein milieu d'une phrase. JSON ne propose pas de syntaxe standardisée pour la validation et la documentation, ce sont souvent des structures ad hoc. La force de XML, qui n'est pas la plus sollicitée hors de l'informatique du document, est dans la validation, ce qui contribue à standardiser des types de documents à grande échelle, ne serait-ce que le Web et HTML.

Notes et références

Notes :

  1. Ce nom est une idée de James Clark, elle est expliquée par Tim Bray (en) dans sa spécification annotée. Comme en anglais la lettre X se prononce « eks », elle peut être utilisée dans les sigles pour abréger un ou plusieurs mots commençant par ce même son comme eXtensible ou eXperience (XP). Plusieurs langages ont ainsi affiché leur parenté avec XML en s'adjoignant un X, comme XHTML.
  2. Le groupe de travail a été à l'origine appelé le « Editorial Review Board ». Les membres à la première édition sont énumérés à la fin de la première recommandation XML, W3C 1998.

Références :

  • (mul) Autres :
  1. Government of Canada, Public Works and Government Services Canada, Translation Bureau, TERMIUM®, « xml [1 record] - TERMIUM Plus® — Search - TERMIUM Plus® », sur btb.termiumplus.gc.ca (consulté le ).
  2. (fr) Jean Paoli, interview, Journal du net, septembre 2004.
  3. (en) Extensible Markup Language (XML) 1.0.
  4. Thierry Boulanger, XML par la pratique, CNI, p. 15.
  5. (en) C. M. Sperberg-McQueen, Rapports du W3C SGML ERB pour le SGML WG Et du W3C XML au XML ERB SIG, .
  6. (en) W3C Working Draft 14-Nov-96.
  7. Langage de balisage extensible (XML) 1.0, Recommandation du W3C, 10 février 1998.
  8. (en) « Its goal is to enable generic SGML to be served, received, and processed on the Web in the way that is now possible with HTML. () »(en).
  9. (en) « Extensible Markup Language (XML) 1.0 », sur w3.org, .
  10. (en) Thinking XML: The XML flavor of HTML5.
  11. Rationale and list of changes for XML 1.1.
  12. (en) XHTML Modularization 1.1, W3C Working Draft 5 July 2006.
  13. (en) « SQLZOO », sur sqlzoo.net (consulté le ).
  14. (en) Eric van der Vlist, RELAX NG, « W3C XML Schema Type Library », O'Reilly & Associates, 2003 (ISBN 978-0-596-00421-7) [lire en ligne].
  15. (en) « Python bindings · Wiki · GNOME », sur GitLab (consulté le ).
  16. (en) « Libxml », sur php.net (consulté le ).
  17. http://libxml.rubyforge.org/.
  18. (en) xinclude.
  19. (en) Norman Walsh, XInclude, xml:base, and validation.
  20. What's the next step for XML?.

Voir aussi

Articles connexes

Sur les autres projets Wikimedia :

Autres technologies et théories intéressant XML :

Liens externes

Références

Divers

  • Spécification XML 1.1 (fr) (en)
  • Spécification XML 1.0 (fr) (en)
  • TEI Consortium, « v. A Gentle Introduction to XML », TEI P5: Guidelines for Electronic Text Encoding and Interchange, (en)
  • Norman Walsh and Leonard Muellner, « Getting Started with SGML/XML », DocBook: The Definitive Guide (en)