Par exemple celles de Harley, Wiener, Burg,… Dans le domaine de l'intelligence artificielle, l'entropie conditionnelle est utilisée en apprentissage inductif [10, 18, 19, 20, 22, 26, 30]
Trang 1Institut de la Francophonie pour
l'Informatique
Équipe LOFTI Laboratoire d'Informatique de Paris 6
Réalisé par :
DANG Thanh Ha Promotion 7 - IFI
RAPPORT DE STAGE
ENTROPIES CONDITIONNELLES ET LEURS APPLICATIONS EN APPRENTISSAGE
Soutenu le 15 octobre 2003 devant le jury composé de
M Alain BOUCHER (IFI, président)
M HO Thuan (Institut de la technologie d’information, examinateur)
M HO Tuong Vinh(IFI, examinateur)
M NGUYEN Thanh Thuy (Institut Polytechnique de Hanọ, rapporteur)
Résultat de la soutenance : 18/20
Paris, septembre 2003
Trang 2REMERCIEMENTS
En premier lieu, je tiens à exprimer ma plus grande reconnaissance envers mon responsable de stage, Madame B Bouchon-Meunier qui a accepté de m'accueillir en stage dans son équipe de recherche, de m'avoir permis de mener à bien ce travail par ses conseils, ses remarques et ses suggestions Je la remercie aussi pour son soutien, l’encouragement qu'elle m'a donné pour faciliter mes conditions de vie à Paris, pour me familiariser avec la vie
de l'équipe, …
Je tiens à remercier énormément Christophe Marsala, qui a accepté de co-encadrer mon stage Je le remercie ainsi pour ses conseils, ses suggestions ainsi que son soutien tout au long de mon stage
Je remercie également Madame Giulianella Coletti, Université de Perugia - Italie, pour les discussions que nous avons eues C'est à l'issue de ses claires explications que j'ai pu comprendre mieux le domaine de recherche
Je remercie tous les membres de l'équipe LOFTI pour leurs encouragements, leurs conseils, leurs aides et la sympathie qu'ils m'ont donnée J'aime bien l'ambiance familière qu'ils créent au sein de l'équipe
Depuis le début de mon stage en France, j'ai reçu beaucoup d'aides et d'encouragements de mes amis Tout cela me permet de mieux compléter le stage Je les remercie !
Je voudrais également remercier mes parents, ma petite sœur et mon petit frère qui m'encouragent énormément depuis le début de mes études en France
Trang 3Résumé
Il existe plusieurs entropies et entropies conditionnelles associées définies par les différentes approches suivantes: approche combinatoire, approche probabiliste, approche algorithmique et approche axiomatique L'entropie la plus classique est celle de Shannon et l'entropie conditionnelle associée, basée sur des probabilités conditionnelles, est couramment employée en apprentissage Néanmoins, d'autres entropies et entropies conditionnelles qui ont été définies dans la littérature, ne sont pas étudiées en apprentissage De plus, des travaux récents ont mis en évidence le conditionnement de mesures différentes, telles que des mesures
de possibilité, qui peuvent conduire à la définition d'entropies conditionnelles généralisées Celles-ci peuvent servir de mesures de discrimination pour les méthodes d'apprentissage inductif
Dans ce rapport, nous présentons nos études sur l’entropie conditionnelle et ses applications en apprentissage
D’abord, un état de l'art sur les entropies conditionnelles et sur l’apprentissage inductif est établi Ensuite, les différentes approches pour définir des entropies conditionnelles sont considérées, particulièrement l’approche probabiliste et l’approche axiomatique Nous avons mis en évidence certaines différences ainsi que des points communs entre des entropies conditionnelles existant Enfin, nous comparons les capacités des entropies conditionnelles dans la construction d’arbre de décision à partir de données selon l’algorithme ID3 Parmi les étapes de cet algorithme, le choix du meilleur attribut et la discrétisation des attributs prenant ses valeurs dans un domaine continu sont effectuées à l’aide d’entropies conditionnelles Des expérimentations sont menées sur certaines bases de données avec les outils informatiques que nous avons développés
Mots clés : arbre de décision, apprentissage inductif, théorie de l'information, entropie
conditionnelle
Trang 4Abstract
Several entropies and associated conditional entropies are defined by the following approaches: the combinatorial approach, the probabilistic approach, the algorithmic approach and the axiomatic approach The most traditional entropy is Shannon’s entropy and the associated conditional entropy, based on conditional probabilities, is usually employed in machine learning Nevertheless, other entropies and conditional entropies which have been defined in the literature are not studied in machine learning Moreover, recent work has shown the conditioning of different measures, such as the possibility measure, which can lead
to the definition of generalized conditional entropies Those can be used as measures of discrimination for the methods of inductive learning
In this report, we present our studies on conditional entropies and their applications in inductive learning
Firstly, a state of the art on the conditional entropies and inductive learning is established Then, the various approaches to define conditional entropies are considered, particularly the probabilistic approach and the axiomatic approach We point out some differences as well as common points between these existing conditional entropies Finally,
we compare the capacities of the conditional entropies in the construction of decision tree by the algorithm ID3 Among the stages of this algorithm, the choice of the best attribute and the discretization of the attributes taking values in a continuous domain use conditional entropies These experiments are carried on some databases with the tools which we developed to compare the capabilities of conditional entropy
Key words: decision tree, inductive learning, information theory, conditional entropy
Trang 5Table des matières
REMERCIEMENTS 1
RESUME 2
ABSTRACT 3
TABLE DES MATIERES 4
CHAPITRE 1 : INTRODUCTION 6
CHAPITRE 2 : ETAT DE L’ART 9
I Apprentissage inductif et arbre de décision 9
1 Introduction 9
2 Choix du meilleur attribut 12
3 Discrétisation des attributs numériques 13
4 Condition d’arrêt 14
5 Conclusion 14
II Entropies et entropies conditionnelles 15
1 Approche combinatoire 15
2 Approche probabiliste 16
3 Approche algorithmique 19
4 Approche axiomatique 20
CHAPITRE 3 : COMPARAISON DES ENTROPIES CONDITIONNELLES 27
I Étude des particularités entre les entropies conditionnelles de Shannon, Rényi, Daroczy et le système d’axiomes proposé par Coletti 27
1 Première approche 27
2 Deuxième approche 28
II Comparaison des systèmes d’axiomes 35
1 Définition de Kampé de Fériet 36
2 Définition de Benvenuti 36
Trang 63 Définition de Coletti 37
4 Remarque 37
III Conclusion 37
CHAPITRE 4 : EXPÉRIMENTATION 38
I Choix du meilleur attribut 39
1 Expérimentation sur des bases artificielles 39
2 Expérimentation sur des bases réelles 42
II Discrétisation des attributs numériques 44
III Conclusion 48
CHAPITRE 5 : CONCLUSION 49
ANNEXES 51
I Système DTGen 51
1 Contexte général et description du système existant 51
2 Conception 52
3 Implémentation 52
4 Résultats 54
II Système COMPARAISON 56
1 Contexte général 56
2 Présentation du système et de ses caractéristiques principales 57
3 Conception 60
4 Implémentation 62
5 Résultats 63
RÉFÉRENCES 66
Trang 7Chapitre 1 : INTRODUCTION
La notion d'entropie est fondamentale en physique statistique D’abord, elle apparaît dans la deuxième loi de la thermodynamique, et en mécanique statistique En informatique, elle intervient dans la théorie de l'information, sous la forme célèbre de l’entropie de Shannon entre autres Parmi les premières études sur l’entropie en informatique, on peut citer celles de
H Nyquist et R Harley Mais la vraie naissance de la théorie d’information est marquée par les études de Shannon En fait, la formule de Shannon est similaire à celle de Boltzmann en mécanique statistique mais Shannon a montré la signification de la formule comme une mesure d’information Depuis, la notion d’entropie est devenue très importante en informatique théorique et appliquée : transmission d'information (codage de source, codage de chaîne, détecteur d’erreur), inférence statistique, cryptographie, algorithmique,…[29] L'entropie est utilisée pour mesurer la quantité d'information ou comme mesure d'incertitude
Il existe plusieurs approches pour définir l'entropie : approche combinatoire, approche probabiliste, approche algorithmique, approche axiomatique
Associée à la notion d'entropie, la notion d'entropie conditionnelle représente l’entropie d’un événement sous certaines conditions Cependant, toutes les entropies n’ont pas
de formule conditionnelle correspondante Par exemple celles de Harley, Wiener, Burg,… Dans le domaine de l'intelligence artificielle, l'entropie conditionnelle est utilisée en apprentissage inductif [10, 18, 19, 20, 22, 26, 30]: par exemple pour la construction d’un arbre
de décision à partir d’une base d'apprentissage Dans ce processus, elle sert à sélectionner le meilleur attribut parmi un ensemble d’attributs possibles ; à établir les critères d’arrêt de l’algorithme; à optimiser la discrétisation des attributs prenant leurs valeurs dans un domaine continu L'entropie et l'entropie conditionnelle de Shannon, basées sur des probabilités conditionnelles sont couramment employées Cependant, il existe d’autres entropies conditionnelles dans la littérature comme celle de Rényi, celle de Daroczy, qui n’ont pas encore été étudiées pour le problème d'apprentissage Un des buts de ce stage est de mener des recherches sur l’utilisation des entropies conditionnelles existantes en apprentissage
Traditionnellement, l'entropie conditionnelle est définie à partir de l'entropie Plus récemment, on a étudié le conditionnement de mesures différentes telles que la probabilité, la possibilité [7, 8, 11, 12] On trouve alors que l'on peut définir la probabilité conditionnelle, possibilité conditionnelle comme des notions primitives et en déduire la probabilité, la
Trang 8possibilité comme cas particuliers Cette approche nous semble plus raisonnable, plus naturelle et plus prometteuse Ceci nous suggère des définitions d'entropies conditionnelles généralisées et des méthodes d’application en apprentissage Pour aller plus loin, nous avons l’intention d’étudier des formes généralisées d’entropies conditionnelles : l’entropie conditionnelle est directement définie sur l’ensemble des événements conditionnels
Le stage consiste en une étude des entropies conditionnelles Nous visons d’abord à caractériser les différentes entropies conditionnelles existantes dans la littérature Ensuite, nous étudions leurs applications en apprentissage, plus concrètement pour la construction d’arbres de décision Enfin, nous avons l’intention de rechercher de nouvelles entropies conditionnelles Dans cette voie, nous nous intéressons essentiellement à l'approche axiomatique pour définir les entropies conditionnelles, ainsi que la prise en compte des entropies sans condition comme cas particuliers
Sur le plan théorique, nous avons étudié la particularité de l’entropie conditionnelle de Rényi, de Daroczy par rapport à l’entropie de Coletti et les relations entre l’entropie de Kampé de Fériet, celle de Benvenutti et celle de Coletti
Sur le plan pratique, nous avons développé des outils informatiques : une extension de DTGen (Decision Tree Generation), COMPARAISON, pour étudier les comportements de chacune des entropies conditionnelles en apprentissage
En dehors des résultats scientifiques, j’ai pu bénéficier d’une formation au métier de chercheur J'ai pu acquérir des méthodes de travail ainsi qu’une expérience de recherche grâce à mes responsables de stage et mes collèges dans l'équipe
Les résultats obtenus nous engagent à continuer les recherches sur les entropies conditionnelles généralisées Ils nous permettent également de développer des outils pour aider les utilisateurs à choisir l'entropie conditionnelle utilisée dans leurs problèmes d'apprentissage inductif pour avoir de meilleurs résultats Dans ce but, nous essayons d’étudier les comportements de chaque entropie avec des bases d’apprentissage artificielles et réelles
Ce rapport de stage décrit les travaux que j’ai réalisés au cours de mon stage de fin d’études Il est organisé comme suit : nous présentons dans le deuxième chapitre un état de l'art sur les problèmes étudiés dans le stage : le problème d’apprentissage inductif (plus concrètement la construction d’arbres de décision à partir d’une base d’apprentissage) ; les approches d’études d’entropies et d’entropies conditionnelles Le troisième chapitre décrit des
Trang 9études effectuées sur le plan théorique : la particularité des entropies conditionnelles existantes dans la littérature par rapport à l’approche axiomatique de Coletti ainsi que la comparaison entre cette approche et d’autres approches axiomatiques : celle de Kampé de Fériet et celle de Benvenuti Les résultats d’expérimentation avec des outils que nous avons développés sont décrits dans le chapitre 4 Enfin, nous concluons par les résultats obtenus ainsi que les perspectives qu’ouvre ce stage Les documents techniques des logiciels développés sont mis en annexe
Quelques mots sur l'environnement de stage :
Ce stage a duré 6 mois (à partir du premier Avril 2003) dans l'équipe LOgique Floue et Traitement d'Incertitudes - LOFTI - du Laboratoire d'Informatique de Paris 6 - LIP6 Cette équipe est dirigée par Madame Bernadette Bouchon-Meunier, Directeur de recherche au CNRS Les travaux de l'équipe LOFTI portent sur l'apprentissage, la représentation et l'exploitation de connaissances imparfaites, c'est-à-dire imprécises et/ou incertaines Les mots clés de recherche de l’équipe sont : des méthodes d'apprentissage à partir d'exemples, la représentation des connaissances (formalisme général pour les relations de ressemblance ou
de dissemblance), l'exploitation de connaissances imparfaites (développement de diverses méthodes floues ou possibilistes d'optimisation, de commande, de traitement d'images, d'agrégation d'informations, de comparaison d'objets, de déduction) Les membres de l'équipe LOFTI se sont investis dans la logique floue très tôt (dès 1974) et ont développé des applications dans ce domaine depuis 1987 Des informations plus détaillées sur l'équipe se trouvent sur son site Web http://www-apa.lip6.fr/LOFTI/
Trang 10Chapitre 2 : ETAT DE L’ART
Ce chapitre est consacré à un état de l’art dans le domaine d’étude Les problèmes d’apprentissage, des entropies et des entropies conditionnelles sont présentés On considère dans ce rapport que les notions de base de la théorie des sous-ensembles flous et de la théorie
de l’information sont connues par le lecteur Pour plus de détails, voir [9, 25]
I Apprentissage inductif et arbre de décision
La différence essentielle entre l’apprentissage inductif et apprentissage déductif est la façon de construire des règles En apprentissage déductif, les règles d’affectation sont déterminées a priori par interaction avec des experts Tandis qu’en apprentissage inductif, on essaye de trouver des règles à partir d’un ensemble d’exemples, selon une méthode dite du particulier au général À partir de ces règles, on détermine les classes d’affectation des objets
En pratique, pour résoudre certains problèmes de classification on a besoin de méthodes qui peuvent combiner les deux types d’apprentissage
Une méthode de représentation des règles dans ce cas est l’utilisation d’un arbre de décision Ce dernier est un arbre dont les nœuds non terminaux sont associés à une question Les réponses sont associées aux branches menant aux fils d’un nœud non terminal Un chemin
de la racine à une feuille correspond à une série de questions et réponses Les données stockées en feuille sont celles qui correspondent à la série de questions et réponses sur le
Trang 11chemin de la racine à ce nœud La structure arborescente d’un arbre est équivalente à un
ensemble de règles si – alors ce qui justifie une décision prise en suivant l’un de ses chemins
Cette structure de connaissances est très proche de celle manipulée naturellement par un être humain
Nous considérons l’apprentissage inductif supervisé : à partir d’une base d’apprentissage B, on essaie de construire un arbre de décision Chaque exemple de la base est décrit par un ensemble d’attributs A={A , A , , A1 2 N} et associé à une classe de l’ensemble C={c1, c2, , c } Chaque attribut A peut prendre sa valeur vn j jl dans l’ensemble{v j1,v j2, ,v jm j} La tâche est de construire un arbre de décision à partir de cette base d’apprentissage pour classifier des exemples dans une autre base (base de test) Ici, les questions portent sur les attributs et les réponses sur leurs valeurs Les questions et réponses sur le chemin de la racine à un nœud déterminent une conjonction d'attributs définissant une classe de l'ensemble des exemples
Il est ensuite indispensable d’évaluer le résultat Pour l’évaluation des arbres, on peut
se baser sur différents critères :
• la taille de l’arbre (le nombre de nœuds, nombre d’arcs, …)
• la profondeur moyenne (qui est calculée indépendamment de la base d’apprentissage) et la profondeur moyenne pondérée (prendre compte du poids
de la base d’apprentissage associée au nœud) de l’arbre
• la longueur du chemin le plus long et le plus court de la racine vers les feuilles
• l’équilibre de l’arbre
• le taux de bonnes classifications des exemples dans la base de tests, …
En fait, il n’existe pas de critère unique pour dire qu’un arbre est meilleur qu’un autre Mais, une suggestion est de faire une agrégation des critères avec une pondération pour établir
un critère général Cette agrégation pourrait être exprimée sous une forme floue par exemple :
« un petit arbre avec un taux de classification moyen »
La méthode de construction d’arbre la plus utilisée est la méthode dite Top Down Induction of Decision Tree (TDIDT), elle consiste à construire un arbre de sa racine vers ses feuilles On peut citer des algorithmes de ce type : ID3 (Quinlan 1979), CART (Breiman et al 1984), Assistant (Cestnik et al 1987), C4.5 (Quinlan 1993), See5 (Quinlan 97), Orange (Demsar, Zupan 1998-2003) Voici le principe général de la méthode TDIDT :
Trang 121 Condition d’arrêt : Si tous les éléments du nœud sont dans la même classe, alors le nœud est une feuille étiquetée par cette classe
2 Sinon, faire les étapes suivantes :
i) Choisir un attribut et l'assigner au nœud courrant
ii) Partitionner les exemples dans des sous-ensembles selon les valeurs de cet
attribut
iii) Créer des nouveaux nœuds pour chaque sous-ensemble non vide de la
partition La liste de nouveaux nœuds est ajoutée les fils du nœud
iv) Appliquer la procédure récursivement sur les nouveaux nœuds
Choix du meilleur attribut
Partition
Fin ?
Mesure de discrimination
Stratégie de Partitionnement
Critère d’arrêt
Cette méthode a d’abord été proposée pour le traitement d’une base dont les valeurs d’attribut sont toutes symboliques Elle a ensuite été adaptée pour des valeurs numériques et symboliques - numériques Comme il y a certains problèmes que nous présentons dans II.3 avec les bases d’apprentissage ayant des attributs numériques, il faut dans certains cas une étape supplémentaire pour discrétiser les attributs numériques avant le choix du meilleur attribut Plus récemment, cette méthode a été étendue pour des bases décrites par des attributs flous [22]
Fig.1 : Constructeur d’un arbre de décision
Les entropies conditionnelles sont en fait utilisées dans les étapes suivantes de cette méthode :
i) Discrétisation des valeurs d’attributs (si nécessaire)
Trang 13ii) Choix d’un attribut de décision
iii) Condition d’arrêt
L’entropie conditionnelle est aussi utilisée pour le partitionnement de la base d’apprentissage dans le cas de base d’apprentissage ayant des attributs flous
Dans la suite, nous présentons les applications des entropies conditionnelles dans ces étapes Nous nous s’intéressons actuellement au choix d’attribut de décision et à la discrétisation des attributs numériques
2 Choix du meilleur attribut
Considérons une étape difficile de cet algorithme : choisir un attribut En général, la taille de l'arbre dépend de l'ordre dans lequel les attributs sont traités En classant les éléments, on veut rejoindre une feuille contenant un ou des exemples en posant le minimum
de questions; on veut donc l'arbre le plus petit possible Puisque trouver l'arbre le plus petit parmi tous les arbres possibles est difficile, on construit l'arbre, de bas en haut, en utilisant une heuristique Le principe est de choisir l’attribut le plus déterminant ou bien l’attribut le plus informatif à l’étape courante du développement de l’arbre Pour cela, plusieurs techniques ont été développées : utiliser l’entropie conditionnelle de Shannon, utiliser une mesure de discrimination [18], utiliser la mesure d’ambigụté [33],… Les méthodes de construction d’arbres de décision se différencient principalement par la mesure qu’elles utilisent
L’algorithme ID3 de Quinlan est l’algorithme le plus connu et plus utilisé en IA Pour choisir l’attribut à décomposer, il utilise l’entropie de Shannon L’entropie dans ce cas est utilisée comme une mesure du degré de prédictibilité : quelle est la difficulté que l’on a à prédire la classe de l’un des ses éléments ? L’attribut choisi est celui dont la connaissance diminue le plus l’entropie globale
L’entropie de la sous-base d’apprentissage B associée à un nœud avant de le partitionner est la suivante:
( ) ( ) p( )ci
n i
c p B
ó est la probabilité qu’un élément de la sous-base se trouve dans la classe cp( )c i i
Si on partitionne ce sous-ensemble selon l’attribut Aj, alors l’entropie du ensemble des exemples ayant v comme valeur pour A est :
Trang 14sous-( j jk) n ( i j jk) p(c i A j v jk)
i
v A c p v
A B
j i jk
j m
k
jk j jk
j
n i
v A c p v
A p v
A B I v A p A
B
I
1 1
log1
La quantité d’entropie diminuée ou le gain d’information apporté par la connaissance
de Aj est : I( )B −I(B A j) L’attribut choisi est celui qui permet le gain d’information le plus important, c'est-à-dire celui qui minimise l’entropie conditionnelleI(B A j)
3 Discrétisation des attributs numériques
La discrétisation des attributs prenant leurs valeurs dans un domaine continu est indispensable dans le cas ó il y a des attributs numériques parce que :
- Certaines mesures de discrimination favorisent les attributs qui ont un grand nombre
de valeurs Dans ce cas, sans adaptation de l’algorithme, des attributs numériques sont favorisés Lorsque l'on choisit un attribut numérique, comme le nombre de valeurs est grand, alors la taille de l'arbre décision augmente énormément
- Les valeurs numériques ne sont pas typiques au sens que deux valeurs numériques sont proches l’une de l’autre, peut-être qu’elles ne portent pas des significations différentes, mais elles sont tout à fait différentes lorsque l’on partitionne la base Si l’on discrétise les valeurs, des valeurs proches sera considérées comme une seule valeur symbolique Dans ce cas, on peut extraire de la signification de l’attribut et éliminer une partie des erreurs lors de la collection des données
L’entropie conditionnelle peut être utilisée dans la discrétisation d’attribut numérique
Le principe de discrétisation est :
Considérons une base d’apprentissage B dont les exemples sont classés dans n classes
c1, c , , c2 n On souhaite discrétiser l’attribut numérique A par une discrétisation H en k intervalles disjoints h1, h , , h Les intervalles h2 k 1, h , , h2 k doivent couvrir totalement le domaine de A L’entropie de l’ensemble des exemples ayant A ∈ h est I(B|hi i) qui exprime le désordre de la sous-base selon les classes I(B|hi) est calculé selon une formule d’entropie choisie, par exemple l’entropie de Shannon, Rényi ou Daroczy On évalue ensuite l’entropie conditionnelle de la base sachant une discrétisation H : I(B|H) I(B|H) est calculée à partir de
Trang 15I(B|hi) selon un des trois types que nous allons présenter dans la partie suivante (II.2) du chapitre On vise à choisir la discrétisation qui:
• caractérise bien l’attribut
• minimise I(B|H)
• utilise le moins possible d’intervalles
• les intervalles sont plus les équilibrés possibles selon le nombre de valeurs dans chaque intervalle
Parmi les critères d’évaluation d’un arbre de décision, on souhaite souvent un arbre le plus équilibré possible Alors, une heuristique est que dans la phase de discrétisation on doit essayer de discrétiser un attribut en des intervalles dont les nombres de valeurs numériques dans chaque intervalle sont les plus similaires possibles Cela pourrait être réalisé par un choix convenable du nombre d’intervalles et par l’algorithme de discrétisation (l’entropie conditionnelle utilisée par exemple)
4 Condition d’arrêt
L’entropie de Shannon sert aussi dans la condition d’arrêt : on peut fixer un seuil d’entropie pour arrêter l’algorithme Dans le cas ó le seuil est 0, l’algorithme s’arrête si tous les éléments de l’ensemble associé au nœud ont la même classe Dans le cas ó ce seuil est strictement positif, l’algorithme s’arrête si l’entropie de tous les éléments de l’ensemble est inférieure au seuil donné, ainsi l’algorithme est capable de tolérer des données bruitées Il est aussi possible d’arrêter la construction en fonction d’autres critères que la discrimination relative aux classes, comme la taille de la base On rappelle que cet algorithme n’entraỵne pas obligatoirement un arbre optimal au niveau de la taille, l’utilisation de l’entropie de Shannon
ou d’autres entropies n’est qu’une heuristique
Trang 16Comme il existe plusieurs mesures à utiliser, face au problème d’apprentissage inductif, une question qui se pose naturellement est : quelles sont les mesures recommandées
à utiliser connaissant les propriétés de la base d’apprentissage ? Cette question est vraiment difficile Nous essayons de résoudre au fur à mesure ce problème dans ce stage et au-delà en étudiant des propriétés des entropies conditionnelles et en développant un système pour aider l’utilisateur à choisir des entropies conditionnelles convenables
II Entropies et entropies conditionnelles
Dans cette partie, nous présentons un bref état de l’art sur les différentes approches de définitions des entropies conditionnelles Nous présentons aussi les efforts réalisés pour étendre ces définitions aux cas flous
On considère deux ensembles finis d’événements X={x1, x2, , nx } et Y={ y , y1 2, , my } Chaque événement x est associé à une probabilité p(x ) Chaque événement yi i i est associé à une probabilité p(y ) i
1 Approche combinatoire
Cette approche fournit une définition de la quantité d'information d'un événement de façon contextuelle, c'est-à-dire dépendant du contexte dans lequel cet événement a lieu ou est considéré Mais le poids (la contribution) de chaque événement au contexte n'est pas pris en compte
La définition de R Hartley (1928) est un cas particulier Elle mesure la quantité d'information obtenue en sachant quel événement s'est réalisé parmi n événements de l’ensemble X Soit x un élément de X (dans ce cas, X est le contexte), alors la quantité d'information apportée par x est : I( )x =log2n L'entropie de l'ensemble X (quantité d'information moyenne des éléments de X) est aussi :I( )X =log2n (comme il ne cause pas d’ambiguïté, dans ce cas, on utilise la même notation I pour l’entropie d’un événement ainsi que l’entropie d’un ensemble)
Higachi et Klir (1982) ont proposé une extension de l'entropie de Hartley aux ensembles flous L'entropie de l’ensemble flou F qu'ils définissent, est la moyenne des
sous-entropies de Harley de ses α-coupes F I ( )F =1∫ ( )Fα dα
0log2
*
α
Trang 17définition n’est valable que pour les sous-ensembles flous dont le support est un ensemble fini
Cette approche est la plus simple et plus ou moins nạve Il n'y a pas de définition d'entropie conditionnelle associée Cette approche est rarement utilisée
L'entropie de Shannon devient celle de R.Hartley dans le cas équiprobabilité (chaque
événement a une probabilité
n
1)
On peut citer d’autres définitions appartenant à cette approche Ce sont celle de Daroczy (c'est aussi la définition de Tsallis) [13, 31], celle de Rényi [3, 23],… Cependant, Daroczy et Rényi n'ont pas défini la quantité d'information d'un événement mais ils ont défini l'entropie d'un ensemble des événements en connaissant les probabilités de chaque événement
β
β β
)
i n
i R
x p X
Entropie de Rényi :
))(1
(12
2)(
1 1
1
i n i
β β
β β
β
−
−+
1
ln)
X
I R
et
Trang 18( ) ( )
β
β β
β β
β β
1 1
1 1 2
1 1
1
11
12
21
12
2)
β
−
−+
=
1
1ln
)
f R
Voici quelques propriétés des deux fonctions :
(correspondant à l’entropie de Rényi) et ( β ( )β)
β
β β
x x
2)
1
(correspondant à l’entropie de Daroczy) ó x∈[ ]0,1
Fig.2 : Entropie de Rényi (normalisée par ln(2)-à gauche) et celle de Daroczy (à droite) dans le cas n=2
avec les différents coefficients β :0.1, 0.3 , 0.5, 0.8, 1, 2, 3, 10, 50, 100 )
1
x 0 lnlimβ 0 f Rβ x si
2ln
1log1
log)
(
1
x x
x x x
=
β
la normalisation par ln2 s’approche de l’entropie de Shannon lorsque β tend vers 1
1 ln
2
1x0 )1ln(
lim
si x
si x x
f Rβ
β
•
• f Rβ 1( )x ≤ f Rβ 2( )x si β1 >β2
Trang 19x 0si1limβ 0 f Dβ x
tend vers l’entropie de Shannon lorsque β tend vers 1 L’entropie de Daroczy lorsque
β = 2 est l’index de Gini à un facteur près
)1(log)1(log)
(lim →1 f Dβ x =−x 2 x− −x 2 −x
x si
1x0si1limβ f Dβ x
• f D2(x)= f D3(x)
• limx→0 f Dβ( )x =limx→1 f Dβ( )x =0
b) Définition de l’entropie conditionnelle
À partir des entropies définies ci-dessus, on peut définir l’entropie conditionnelle selon l’une des trois formules suivantes :
1
j)y
|X()()
Y
|X
1
j)y
|X()()
Y
|X
j
j
I y p
y p I
1
j
1
)y
|X()(
)()
Y
|X
β
β β
Type 3 :
En fait, dans la littérature, il existe des formes de type 1[31], de type 2[13], de type 3[1] pour l’entropie conditionnelle de Daroczy et seulement de type 1 pour l’entropie conditionnelle de Rényi [3, 23] Remarquons que dans son article originel [13], Daroczy n’a introduit que la forme de type 2 pour le conditionnement Nous trouvons qu’on peut combiner chacune des entropies de Rényi ou Daroczy avec un des trois types d’entropies conditionnelles définies ci-dessus En principe, on peut aussi combiner l’entropie de Shannon avec les trois types d’entropie conditionnelle ci-dessus
Trang 20On va considérer cette approche dans les parties suivantes
c) Définition de l’entropie d’événements flous
L’entropie de Shannon peut être étendue aux événements flous [22] :
Soit A et B des sous-ensembles flous ayant les fonctions d’appartenance fA(x) et fB(x)
On définit ∏(A;B)=supminx∈X(f A( ) ( )x,f B x )
)
le degré de possibilité de A relativement à B et
le degré de nécessité de A relativement à B
La mesure de satisfiabilité est définie comme :
Soit v1, v , , v sont des événements flous, c'est-à-dire chaque v2 m i (i=1 m) est un ensemble flou défini sur X
La probabilité floue de l’événement flou v est : ( ) ∑ ( { } ) ( ó
=
= n
j
j i j
i sat x v P x v
p est estimé par la fréquence de xj dans l’ensemble d’événements
L’entropie de Shannon des événements représentés par des sous-ensembles flous v1,
P P v
v v I
1
*
* 2
1
log, ,
On retourne à l’entropie de Shannon si la partition est ordinaire ou les sous-ensembles
Xi sont ordinaires L’entropie I* définie comme ci-dessus satisfait les propriétés de symétrie, d’expansibilité, de maximalité et d’additivité
3 Approche algorithmique
Cette approche a été introduite par Kolmogorov Il avait eu l'intention de chercher la nature de la quantité d'information traitée à travers un ordinateur Il nous semble que cette approche est plus « informatique » parce qu'il se base sur une machine (ordinateur) concrète
et un algorithme pour cette machine, alors que les définitions précédentes sont à d'origine physique
Trang 21Kolmogorov définit (voir [24] pour plus de détails) la quantité d'information d'un événement x par rapport à une machine C comme étant la longueur du plus court programme
P, exécuté sur C qui permet de calculer (c'est-à-dire de décrire de façon algorithmique) x L'indépendance de cette définition vis-à-vis d’une machine concrète est établie par l'auteur en prouvant le théorème qui certifie l'existence d'une machine dite "optimale" C'est-à-dire, pour un événement fixé, cette machine correspond à l’algorithme optimal (algorithme
le plus court sur cette machine) plus court que celui des autres machines
Cette approche est poursuivie actuellement par plusieurs chercheurs Mais aucune définition d'entropie conditionnelle n’a encore été proposée
4 Approche axiomatique
Le principe est le suivant: on établit des axiomes désirés (ou propriétés désirées) pour
la fonction mesurant la quantité d'information puis on cherche une fonction qui vérifie ces axiomes
On peut distinguer deux sous-approches :
Pour la première approche, on considère a priori que la quantité d'information d'un événement est une fonction de sa probabilité Alors, le système d'axiomes est constitué des contraintes imposées à une fonction définie sur des probabilités
Avec cette approche, on peut reconstruire les définitions des entropies de Shannon, Daroczy, Rényi, … [2] On montre qu’il existe des systèmes d'axiomes qui conduisent à ces définitions Le système d'axiomes qui correspond à la définition de Shannon [2] est le suivant:
Définition II.1 : Supposons que nous avons un ensemble d’événements possibles dont
les probabilités sont p , p , …, p Appelons H(p , p , …, p1 2 n 1 2 n) la mesure de l'incertitude qui est levée lorsqu'un événement se réalise Il est raisonnable que H satisfasse les axiomes suivants :
1 H est une fonction continue par rapport à p i
2 Si tous les p sont égaux, H est strictement croissante par rapport à n i
+++
1 , , 1 2
k k k k
k
k k
k n k
k k k
p p
p p p
p H p p p p
p p p p
p
Et Shannon a démontré le théorème suivant [2] :
Trang 22Théorème de Shannon : La seule fonction H satisfaisant les trois axiomes ci-dessus est
de la forme : ∑ ó K est une constante appartenant à R
1
log
Pour la deuxième approche, on vise à construire une fonction d'entropie sur l'ensemble des événements (sans considérer les probabilités) Cette approche pourrait donner une forme généralisée des fonctions d'entropies On pourrait définir une entropie conditionnelle de la même façon Les définitions d'entropies conditionnelles de ce type existant dans la littérature sont celle de Benvenuti [6], celle de Kampé de Fériet [21], et celle suggérée par Coletti que nous sommes en train d'étudier
d) Définition de Kampé de Fériet [21]
Définition II.2 : Soit Ω un ensemble des événements élémentaires et S une algèbre des sous-ensembles de Ω telle que Ω ∈ S et φ∈ S et S est fermée pour l’union (∪) et la différence (\) Une fonction de mesure d'information est une fonction I:S →R+ telle que :
f : + × +→ +
W : Il existe une fonction continue 4 qui définit un semi-groupe topologique sur R + telle que I est une fonction composable sur des sous-ensembles et la règle
de composition de I est f
On définit l’indépendance entre deux événements comme suite :
W5 : Si deux événements E et F sont indépendants l'un par rapport à l'autre pour une mesure d'information I, alors : I(E ∩ F) = I(E) + I(F)
Exemple : Un exemple de mesure composable d'information est celle de Shannon que
nous avons décrite précédemment, pour laquelle la règle de composition est :
1,
0,log
,
c y c c
y c
e e si c e e c y
x
f
Trang 23La définition ci-dessus a été étendue par Kampé de Fériet (1969) pour la mesure d'information conditionnelle de la façon suivante [21] :
Définition II.3 : Soit A, B deux ensembles d’événements Une fonction de mesure
d'information conditionnelle est une fonction I:A*B→R+ telle que :
K : Il existe une fonction continue 4 qui définit un semi-groupe topologique sur R + telle que pour tout H ∈ B, I est une fonction composable sur des sous-ensembles par rapport à son premier argument et la règle de composition de I est f
L’axiome K pourrait être remplacé par les trois axiomes K4 4a, K4b, K4c :
• K4a : Pour tout E∈A et pour tout H ∈ B : I(E∩F|H) = [I(E), +∞]
• K4b : Pour tout E∈A, H∈ B: I(E|H) ≥ 0
• K4c : Il existe une fonction continue f : Γ → [0, +∞]
× [0,+∞] | il existe des événements E et F ∈ A tels que
ó Γ = {(x,y) ∈ [0,+∞]
(E H)
I
x= y =I(F H)φ
=
∩ F
E , et } donc pour tout H∈ B, A et A1 2 sont des ensembles disjoints appartenant à S on a:I(E∪F H)= f[I(E H) (,I F H) ] ó
f est une règle de composition régulière de type inf
On définit l’indépendance entre deux événements comme suite :
K5 : Si deux événements E et F sont indépendants l’un par rapport à l’autre pour une mesure d’information conditionnelle I, alors : I(E∩F H) (=I E H) (+I F H) pour tout H∈B
e) Définition de Benvenuti [6] :
La définition suivante ne considère que les informations composables avec une loi de composition régulière F donnée
Trang 24Définition II.4 : Etant donné un espace d’information (Ω, S, I), soit S0 ={E∈ S : I(E)<∞} L’information conditionnelle est une application de S x S0 dans R dont la valeur +
sur le couple (E,H) sera noté par I(E/H) Les axiomes suivants doivent être satisfaits :
A : Pour tout H∈1 S0 fixé, I(E/H) est une information composable avec la loi de composition régulière f :
(Ω H)= I( H)= +∞
(E F H) f(I(E H) (I F H) )
I F
×+∞
×+∞
Ψ:]0, ] ]0, ] R R R
couple d'événements conditionnants disjoints entre eux, on a :
1 2
1 3
2 1
,,
,
,,
,,,
,
,,,,,
,
,
H H H E I H E I H H E I H I H
H
I
H E I H E I H E I H I H I H I H
H
I
w v u y x z
,,
,,
,
,,,,,
,
,
H H H E I H H E I H E I H H
I
H
I
H E I H E I H I H I H E I H I H I f
H
I
w v z y u
ψψ
(x,y,u,v) ψ(y,x,v,u)
ii)
Trang 25,,,,,,y u v x y u v x y f u u f v v x
iv)
, 1 ,
2 1
2
1 ,y I H ,u I E H ,v I E H ,u I F H ,v I F H H
,,
,,,,
,
,
H H
F
E
I
H H F I H H E I f v u y x v
2 1 ,
,
,,
,,
,,
,
,
H H
F
E
I
H F E I H F E I H I H I v
v f u
f) Définition de Coletti
Traditionnellement, on explique l’entropie comme une mesure de l’incertitude qui sert
à mesurer la quantité d’information d’un événement L’entropie conditionnelle I(B A) est expliquée comme la quantité d’information (l’incertitude) de B lors de la connaissance de A
ou bien l’information de B sachant A Mais, il peut arriver dans certains cas que I(B A)
> C'est-à-dire que l’incertitude sur l’événement B peut augmenter lorsque l’on apprend l’occurrence de l’événement A Ce n’est pas naturel
( )B
I
En plus, les connaissances que l’on a sont souvent exprimées sous la forme d’une proposition logique : « si A alors B » Il est indispensable de mesurer la quantité
d’information de cette proposition Lorsque l’on exprime I(B A) comme une mesure
d’information de la proposition logique « si A alors B », on arrive à une incompatibilité de la
théorie de l’information avec la logique classique On a : (A→B)⇔(A∨B) dans la logique
Trang 26… (voir [11] pour une synthèse plus précise) On a introduit la notion d’objet conditionnel, autrement dit d’événement conditionnel En fait, il s’agit d’un type d’objet mathématique noté
[B A] Ensuite, on définit directement une fonction de probabilité P sur cet ensemble des événements conditionnels La contrainte de compatibilité entre la nouvelle probabilité et la probabilité au sens traditionnel est : ( [ ] ) ( ) ( ) ( )
A p
AB p A B p A B
définie sur un ensemble des événements conditionnels et p est la probabilité au sens ordinaire
Dans la théorie de l’information, on veut développer la même idée On souhaite définir directement une entropie conditionnelle comme une notion primitive L’entropie conditionnelle est introduite comme une fonction dont le domaine est un ensemble d’événements conditionnels Donc, on n’a plus besoin de la connaissance de l’entropie inconditionnelle pour définir l’entropie conditionnelle comme d’habitude C’est un point différent essentiel par rapport aux autres définitions L’entropie conditionnelle définie doit être compatible avec les entropies conditionnelles existantes C'est-à-dire : I( [B A] ) (=I B A)
ó le cơté gauche est l’entropie d’un événement conditionnel [B A] et le cơté droit est l’entropie conditionnelle de B sachant A selon le sens normal
L’approche de Coletti que nous allons présenter ci-dessous se trouve dans cette voie
de recherche Nous nous intéressons bien à cette approche en espérant qu’elle conduit à une définition d’entropie conditionnelle généralisée Comme Coletti a proposé un système d’axiomes, dans le cadre du stage, nous continuons les recherches sur cette idée en vérifiant la compatibilité entre l’entropie conditionnelle de Coletti et les différentes entropies conditionnelles existantes dans la littérature Surtout, il faut étudier si : I( [B A] ) (=I B A) Les résultats de comparaisons sont présentés dans le chapitre 3 du rapport Dans la suite, pour
la simplification de notation, on écritI(B A) au lieu de I( [B A] ) lorsque l’on parle de l’entropie conditionnelle de Coletti
Trang 27Définition II.5 : Soit A une algèbre d’événements et B un ensemble additif avec B⊆A
et B ne contient pas φ Une fonction I : A*B → [0,∞] est une ⊗-mesure d'information conditionnelle si elle satisfait les 3 conditions suivantes :
C : I(E|H) = I(E∧H|H), ∀E∈A, H∈B 1
C2 : I(.|H) est une ⊗-mesure d'information des événements pour tout H∈B, dire :
c'est-à-a) I(Ω|H) = 0, I(φ|H) = +∞
b) ∀E, F∈A avec E∧F∧H = φ: I(E∨F|H) = I(E|H) ⊗ I(F|H) ó est un opérateur associatif, symétrique, croissant, et ayant +∞ pour élément neutre
⊗
C : ∀E∈A, H, K, HK∈B: I(E∧H|K) = I(E|HK) + I(H|K) 3
Extension aux sous-ensembles flous :
Nous terminons ce chapitre d’état de l’art en présentant une extension aux ensembles flous de la mesure d’information selon l’approche axiomatique
La restriction de au cas ordinaire (non flou) est la mesure d’information de Kampé
de Fériet que nous avons décrite au début de cette partie (correspondant aux axiomes W1,
W ,W ) 2 3
Trang 28Chapitre 3 : COMPARAISON DES ENTROPIES
CONDITIONNELLES
I Étude des particularités entre les entropies conditionnelles de Shannon, Rényi, Daroczy et le système d’axiomes proposé par Coletti
Cette partie présente les résultats de la comparaison des entropies conditionnelles de Rényi, Daroczy et de Shannon avec la définition de Coletti Ces entropies ont été présentées dans le deuxième chapitre du rapport Les résultats montrent que pour satisfaire le système d’axiomes de Coletti, l’entropie d’un événement doit avoir la même forme que celle de Shannon si l’on exprime l’entropie d’un événement sous la forme d’une fonction de sa probabilité Nous remarquons les incompatibilités du deuxième axiome de Coletti avec les entropies conditionnelles de Rényi et de Daroczy Nous allons démontrer que parmi les formes d’entropies conditionnelles de Rényi et Daroczy, il n’y a que l’entropie conditionnelle
de Daroczy de type 2 qui vérifie le troisième axiome
La notion d’entropie conditionnelle de Coletti se définit sur un ensemble d’événements conditionnels tandis que Rényi et Daroczy définissent l'entropie et l'entropie conditionnelle d’une distribution probabiliste Alors, pour étudier la différence entre ces approches, il faudrait soit essayer de mettre les définitions de Rényi et de Daroczy sous la forme d’une entropie d’événements, soit essayer de mettre celle de Coletti sous la forme d’une entropie de distribution probabiliste
Dans le cas ó K est un événement sûr, on a : I(E∧H) = I(E |H) + I(H)
Si E et H sont indépendants au sens ó I(E |H) = I(E) on a : I(E∧H) = I(E) + I(H)
Trang 29Si I(E) est une fonction de p(E), c'est à dire: I(E) = f(p(E)) on a:
u g v u g
On a : g( )u =ku, ce qui implique : f( )x =k.lnxó k est une constante C’est la forme
de l’entropie de Shannon Donc c’est la forme unique pour l’entropie d’un événement si elle vérifie le système d’axiomes proposé par Coletti Si l’on considère (*) comme les entropies de Rényi et Daroczy d'un événement, il faut trouver des liens entre l'entropie d'un événement et celle d'une distribution probabiliste
2 Deuxième approche
La deuxième approche est d’essayer de mettre l’entropie conditionnelle de Coletti sous
la forme d'une entropie de distribution probabiliste Dans ce cas, on considère que E, F, H sont des distributions de probabilité On peut interpréter la contrainte entre les événements E,
F, H : E∧F∧H =φ comme l’indépendance des distributions de probabilité
a) L’axiome 1 est vérifié : I(E | H) = I(E∧H | H)
La propriété 1 est vérifiée par l’entropie conditionnelle de Rényi et Daroczy : I(E | H)
= I(E∧H | H) ó E, H sont des distributions de probabilité
b) L’axiome 2 ne peut être vérifié
On rencontre les unpassibilités suivantes :
Trang 30• Comment peut-on expliquer I(Ω|H) = 0, I(φ|H) = +∞ sous forme de relation entre des distributions de probabilité ?
1
=
∑
i i
x p
10
ln1
n i i
01
12
2
1 1
pas un élément neutre pour l’opérateur ⊗
c) Propriété 3: I(E∧H|K) = I(E|HK) + I(H|K)
Nous allons vérifier cette propriété pour toutes les entropies conditionnelles Rappelons que E, F, H, K sont des distributions de probabilité La méthode utilisée fréquemment consiste à montrer que même dans des cas particuliers la propriété n’est pas satisfaite
Entropie conditionnelle de Rényi de type1 :
m j
n i
j i j
y p I
1
1 ) y
| E ( ) ( )
H
| E
β
Considérons le cas ó K est une distribution de probabilité ne contenant qu’un élément
de probabilité 1, dans ce cas au lieu de vérifier I(E∧H|K) = I(E|HK) + I(H|K), il nous faut
vérifier si :
I(E∧H) = I(E|H) + I(H)
On a :
Trang 31i y x p H
E
I
1 1
ln1
1)
j i
j p x y y
p H
E
I
ln1
1)
I
1
ln1
1)
β Donc :
I(E∧H) = I(E|H) + I(H)
j m
j
y p n
i
j i n
y n
i
j i m
p
y x
y p n
i
j i m
j i
y x p y
p
y x p y
=
=
n i
j i
j p x y M
y p j m
j
M y
p
M y p
1 1
1
β β
Si on fixe H et que l’on fait varier E alors Mj varie, on trouve que le cơté gauche de l’équation est une fonction de degré 1 en Mj tandis que le cơté droit est une fonction de degré p(y ) en Mj j Aussi l'équation ci-dessus ne se vérifie pas en général Elle n'est vérifiée que dans les cas ó :
• p(yj) = 1, c'est-à-dire H est une distribution de probabilité ne contenant que l’élément 1
Trang 32• Mj ne varie pas lorsqu’on fait varier E C'est le cas quand β = 1, mais on a supposé que β ≠ 1
Entropie conditionnelle de Rényi de type2 :
m j
j i n i j
y p I
1
1 ) y
| E ( ) ( )
Considérons le cas ó K est une distribution de probabilité ne contenant que l’élément
1 et E, H sont indépendantes l’une de l’autre, dans ce cas au lieu de vérifier I(E∧H|K) = I(E|HK) + I(H|K), il nous faut vérifier si :
I(E∧H) = I(E|H) + I(H)
j
n i
j i j
1
1 1
ln ln
) (
j
i n i j n
1
1 1
ln ) ( ln
) (
n i m
j
j n
1 1
1
1 1
ln ) ( ln ) (
i
i n
1 1
ln ln
Donc, on a :
)(ln
)(ln
)(
1 1
1
i n
i i
n i m
Trang 33n i
j i m
y p I
y p I
1
) (
) ( 1
1 ) y
| E ( ) ( )
β
Considérons le cas ó K est une distribution de probabilité ne contenant que l’élément
1, dans ce cas au lieu de vérifier I(E∧H|K) = I(E|HK) + I(H|K), il nous faut vérifier si :
I(E∧H) = I(E|H) + I(H)
j
n i
j i m
j
j
j n
y p y
x p
) (
) (
β β
β
5.05.0lnln
ln2
1)4.06.05
x p
β β β β
5.05.0ln6.04.0ln5.05.0ln2
1)4.06.05.0
β β
5.05.0ln2
36.04.0ln2
1)4.06.05.0
2
5.05.0ln2
36.04.0ln2
1)4.06.05
n i
j i j
y p I
1
12
2)y
|()()
Considérons le cas ó K est une distribution de probabilité ne contenant que l’élément
1 et E, H sont indépendantes l'une de l'autre, dans ce cas au lieu de vérifier I(E∧H|K) = I(E|HK) + I(H|K), il nous faut vérifier si :
I(E∧H) = I(E|H) + I(H)
Trang 341 ) ( )
y (
m i m
j
n i
j i j
x p y
p x
1 ) ( )
y (
m i m
j
n i
i j
m
j
i n
i
p x
p y
p x
) ( 1
1 1
1 1
m i i
n i m
i
p x
Cette équation n’est vérifiée que dans le cas ó ou dire soit β =1 (mais c’est impossible) soit E ou H est une distribution de probabilité ne contenant que l’élément 1
c'est-à-1 ) (
n i
i i j
j
y p I
1
1
*)(1
2
2)
()
k j i k
l
k
l k n i
k j i m
j
k k
l k
l k
n i
k j i m
j k
k k
z y x p z
p
z y x p z p z
p
z y x p z
p z
I z p I
)(1
2
2
)(
)()
(1
2
2
)(
1
*)(1
2
2)
|HE()()
β
β
β β
β β
β
β β
β
β β
k j i m
j
l k
k j
m j l k n i
k j i k j m
j
l k
k j
m j l k
n i
k j i k
j m
j
l k
k k
j
z y x p z
y p
z y x p z y p z
y p
z y x p z
y p z
I z y p I
2
2)y
|E()()
β
β
β β
β β
β
β β
β β β