On utilise plutôt DOM pour les applications qui doivent disposer en mémoire de l’ensemble de la représentation d’un document, comme par exemple un éditeur XML, un processeur de transform
Trang 1Le modèle DOM s’appuie sur une représentation arborescente Chaque nœud de l’arbre est un objet, doté de méthodes propres au type du nœud, et de pointeurs vers le
ou les sous-arbres, le père du nœud, les attributs, etc On utilise plutôt DOM pour les applications qui doivent disposer en mémoire de l’ensemble de la représentation d’un document, comme par exemple un éditeur XML, un processeur de transformations XSLT, le langage de requête XQuery, etc DOM est connu pour être gourmand en mémoire et parfois lent, et il est préférable d’éviter d’y recourir quand c’est possible Pour en savoir plus sur DOM, vous pouvez consulter la recommandation du W3C,
disponible sur le site http://www.w3c.org/dom.
PHP propose de plus une interface de manipulation de données XML, dite
SimpleXML, qui fournit quelques fonctions très simples pour accéder au contenu d’un document L’arborescence XML est représentée par SimpleXML comme une
imbrication de tableaux PHP, accompagnée de quelques fonctions pour rechercher
des éléments ou des attributs SimpleXML peut être vue comme une version très
basique de DOM (PHP fournit d’ailleurs une conversion depuis un objet DOM vers
un objet SimpleXML)
La présentation qui suit montre successivement comment traiter un document XML avec SimpleXML, puis SAX, à chaque fois dans l’optique d’extraire des données
du document pour les insérer dans MySQL L’annexe C, page 500 récapitule les fonctions utilisées
8.3.1 SimpleXML
Le fonctionnement de SimpleXML est comparable à celui d’une fonction comme mysql_fetch_object() : on crée un objet PHP (instance de la classe prédéfinie SimpleXMLElement) contenant une représentation de la source de données externe Dans le cas de mysql_fetch_object(), la source de données est une ligne d’une table relationnelle, ce qui se représente simplement par une liste d’attributs de l’objet Dans le cas de SimpleXML, l’objet créé a une structure nettement plus complexe Elle s’appuie sur une représentation arborescente constituée d’une hiérarchie d’éléments dotée d’un unique élément racine Voici les règles de construction qui aident à comprendre la représentation :
• l’objet instancié par SimpleXML correspond à l’élément racine du document ;
• les attributs publics de cet objet sont les éléments-fils de l’élément racine ; eux-mêmes sont des objets PHP de la classe SimpleXMLElement, ou un tableau d’objets s’il y a plusieurs occurrences d’un élément de même nom ;
• les attributs sont stockés dans une propriété privée de l’objet, accessible grâce
à la méthode attributes()
Ces règles s’appliquent, récursivement, aux éléments-fils de l’élément racine
et à tous ses descendants Prenons le cas du document XML KillBill.xml, page 331 Après analyse par SimpleXML, on obtiendra un objet référençant l’élément
racine (correspondant à la balise <Films> du document) Les propriétés
de cet objet sont les fils de l’élément racine, soit titre, annee, code_pays, genre, resume, id_realisateur, Realisateur et Acteur Ce dernier est
Trang 2un tableau indicé d’objets puisqu’on trouve plusieurs occurrences de l’élément
<Acteur> Voici un exemple de code SimpleXML extrayant des informations
de cette structure
Exemple 8.11 exemples/ExSimpleXML.php:Application de l’API SimpleXML
<? xml v e r s i o n = " 1 0 " e n c o d i n g = " i s o−8959−1 " ? >
<!DOCTYPE html PUBLIC "−//W3C/ / DTD XHTML 1 0 S t r i c t / / EN"
" h t t p : / / www w3 o r g / TR / xhtml1 /DTD/ xhtml1−s t r i c t dtd ">
<html xmlns= " h t t p : / / www w3 o r g / 1 9 9 9 / xhtml " xml : l a n g = " f r " >
<head >
< t i t l e > C r é a t i o n d ’ un f o r m u l a i r e < / t i t l e >
< l i n k r e l = ’ s t y l e s h e e t ’ h r e f =" f i l m s c s s " t y p e =" t e x t / c s s " / >
</ head >
<body >
<? php
/ / A p p l i c a t i o n d e s f o n c t i o n s SimpleXML
/ / A n a l y s e du document K i l l B i l l xml
$doc = S i m p l e X M L _ l o a d _ f i l e ( " K i l l B i l l xml " ) ;
/ / Accès à un é l é m e n t : l e t i t r e
echo " F i l m : " $doc−>Film [0] − > t i t r e "< br > " ;
/ / Accès aux a t t r i b u t s de l ’ é l é m e n t < R e a l i s a t e u r >
$ a t t r _ r e a l = $doc−>Film −>R e a l i s a t e u r −> a t t r i b u t e s ( ) ;
echo " R é a l i s é p a r " $ a t t r _ r e a l [ ’ prenom ’ ] " " $ a t t r _ r e a l [ ’ nom ’ ] ;
/ / A f f i c h a g e d e l a l i s t e d e s a c t e u r s
echo " <p>Avec : < o l >\n " ;
/ / B o u c l e s u r l ’ e n s e m b l e d e s a c t e u r s
f o r e a c h ( $doc−>Film −>Acteur a s $ a c t e u r ) {
/ / On p r e n d l e s a t t r i b u t s du n o e u d c o u r a n t
$ a t t r i b u t s = $ a c t e u r−> a t t r i b u t e s ( ) ;
/ / On l e s a f f i c h e
echo " < l i > " $ a t t r i b u t s [ ’ prenom ’ ] " " $ a t t r i b u t s [ ’ nom ’ ] " d a n s l e r ô l e de "
u t f 8 _ d e c o d e ( $ a t t r i b u t s [ ’ n o m _ r o l e ’ ] ) " </ l i > " ;
}
echo " </ o l > " ;
? >
</ body >
</ html >
On accède donc aux éléments du document XML par une simple navigation dans une hiérarchie d’objets PHP La variable $doc représentant l’élément racine, on obtient le titre avec $doc->Film->titre, le réalisateur avec
Trang 3$doc->Film->Realisateur, et les acteurs avec $doc->Film->Acteur Pour ce dernier on effectue une boucle avec for each La méthode attributes() renvoie
un tableau associatif contenant les attributs d’un élément Noter que SimpleXML
traite les chaînes de caractères en les codant en UTF-8, ce qui oblige parfois à les transférer en ISO-8859-1 quand elles contiennent des caractères accentués
En résumé, SimpleXML offre une interface simple et pratique, quoique limitée,
à un document XML de petite taille Pour une exploitation généralisable à de gros documents, il reste préférable de recourir à l’API SAX, présentée ci-dessous
8.3.2 L’API SAX
Les fonctions proposées par PHP s’appuient sur le parseur expat développé par James Clark (voir le site http://www.jclark.com) Elles sont disponibles systématiquement
dans le cas d’une configuration de PHP avec Apache, ou peuvent être incluses avec l’option with-xml sinon L’analyse d’un document XML s’effectue en trois phases :
1 on initialise un parseur avec la fonction xml_parser_create() ;
2 on indique au parseur les fonctions à associer aux différents types de marquage rencontrés dans le document ;
3 enfin on lance l’analyse avec la fonction xml_parse()
La seconde étape doit être adaptée à chaque type de document traité Pour être concret voici un premier exemple d’un module d’analyse de documents XML, s’appliquant à n’importe quel document
Exemple 8.12 exemples/SAX.php:Un exemple simple de traitement d’un document XML
<? php
/ ∗ ∗ A n a l y s e a v e c l e p a r s e u r SAX d ’ un document XML.
∗ La f o n c t i o n r e n v o i e un t a b l e a u a s s o c i a t i f c o n t e n a n t t o u t e s
l e s
∗ i n f o r m a t i o n s t r o u v é e s
∗ /
$ t a b _ e l e m e n t s = a r r a y ( ) ;
$ e l e m e n t _ c o u r a n t = " " ;
/ ∗ ∗
∗ F o n c t i o n d é c l e n c h é e s u r une b a l i s e o u v r a n t e
∗ /
f u n c t i o n d e b u t E l e m e n t ( $ p a r s e r , $nom , $ a t t r s )
{
g l o b a l $ e l e m e n t _ c o u r a n t ;
$ e l e m e n t _ c o u r a n t = $nom ;
$ t a b _ e l e m e n t s [ $ e l e m e n t _ c o u r a n t ] = " " ;
echo " b a l i s e o u v r a n t e de $nom\n " ;
}
Trang 4/ ∗ ∗
∗ F o n c t i o n d é c l e n c h é e s u r une b a l i s e f e r m a n t e
∗ /
f u n c t i o n f i n E l e m e n t ( $ p a r s e r , $nom )
{
echo " b a l i s e f e r m a n t e de $nom\n " ;
}
/ ∗ ∗
∗ F o n c t i o n d é c l e n c h é e s u r du t e x t e
∗ /
f u n c t i o n d o n n e e s C a r a c t e r e s ( $ p a r s e r , $ c h a i n e )
{
g l o b a l $ t a b _ e l e m e n t s , $ e l e m e n t _ c o u r a n t ;
i f ( t r i m ( $ c h a i n e ) != " " )
$ t a b _ e l e m e n t s [ $ e l e m e n t _ c o u r a n t ] = $ c h a i n e ;
}
/∗ ∗
∗ C e t t e f o n c t i o n p r e n d un nom de f i c h i e r c o n t e n a n t
∗ un document XML e t en e x t r a i t d e s i n f o r m a t i o n s
∗ /
f u n c t i o n p a r s e F i l m ( $ n o m _ f i c h i e r )
{
g l o b a l $ t a b _ e l e m e n t s ;
i f ( ! ( $ f = f o p e n ( $ n o m _ f i c h i e r , " r " ) ) ) {
echo " I m p o s s i b l e d ’ o u v r i r l e f i c h i e r $ n o m _ f i c h i e r ! ! \ n " ;
r e t u r n 0 ;
}
$ p a r s e u r = x m l _ p a r s e r _ c r e a t e ( ) ;
/ / D é c l e n c h e u r s p o u r l e s é l é m e n t s
x m l _ s e t _ e l e m e n t _ h a n d l e r ( $ p a r s e u r , " d e b u t E l e m e n t " , " f i n E l e m e n t "
) ;
/ / D é c l e n c h e u r s p o u r l e s n o e u d s t e x t e
x m l _ s e t _ c h a r a c t e r _ d a t a _ h a n d l e r ( $ p a r s e u r , " d o n n e e s C a r a c t e r e s " ) ;
/ / L e c t u r e du d o c u m e n t
$document = f r e a d ( $ f , 1 0 0 0 0 0 ) ;
x m l _ p a r s e ( $ p a r s e u r , $document , f e o f ( $ f ) ) ;
x m l _ p a r s e r _ f r e e ( $ p a r s e u r ) ;
r e t u r n $ t a b _ e l e m e n t s ;
}
Trang 5La fonction la plus importante est xml_parse()1 Elle prend en argument le parseur, le nom d’un fichier contenant un document XML à analyser, et un Booléen indiquant si le document est passé en totalité ou par fragments L’analyse se résume à afficher au fur et à mesure les balises ouvrante et fermante rencontrées, et à stocker dans un tableau associatif le contenu des éléments
Après la création du parseur, on utilise xml_set_element_handler() pour indiquer les fonctions qui doivent être déclenchées quand le parseur rencontre les balises ouvrante et fermante des éléments, soit ici debutElement() et finElement() La fonction associée à une balise ouvrante doit accepter trois paramètres :
1 le parseur ;
2 le nom de l’élément rencontré ;
3 un tableau associatif contenant la liste des attributs XML contenus dans la balise ouvrante
Quand on écrit cette fonction, on doit donc implanter l’action appropriée en tenant compte du nom de l’élément et des attributs Dans notre cas, on affiche un message et on mémorise dans une variable globale le nom de l’élément rencontré
f u n c t i o n d e b u t E l e m e n t ( $ p a r s e r , $nom , $ a t t r s )
{
g l o b a l $ e l e m e n t _ c o u r a n t ;
$ e l e m e n t _ c o u r a n t = $nom ;
echo " b a l i s e o u v r a n t e de $nom\n " ;
}
L’inconvénient de cette fonction est que l’on ne peut pas étendre la liste des para-mètres ou renvoyer une valeur Le seul moyen de communiquer avec l’application est donc d’utiliser une variable globale (voir page 437) ce qui n’est pas très satisfaisant : nous verrons plus loin comment faire mieux avec la programmation objet
La fonction déclenchée sur la balise fermante n’a pas de troisième argument (il n’y a pas d’attributs dans ces balises) Notre implantation se contente d’afficher un message rendant compte de l’événement rencontré
f u n c t i o n f i n E l e m e n t ( $ p a r s e r , $nom )
{
echo " b a l i s e f e r m a n t e de $nom\n " ;
}
Le troisième type d’événement pris en compte dans ce module est la rencontre d’un nœud de texte La fonction déclenchée est déclarée avec xml_set_character_data_handler() La voici :
1 La liste complète des fonctions de cette API est donnée dans l’annexe C, page 500.