Les résultats expérimentaux provent que l'on peut diminuer letaux d'erreur d'apprentissage améliorer la de représentation les hantillons d'apprentissaged'arbrede Cependant,sil'ongagnela
Trang 1SUR RECHERCHE À VOISIANGE VARIABLE
Le rapport de stage
Presenté à l'Institut de la F pour l'Informatique
en vue de l'obtention du grade de
Maîtrise de l'Ingénier en Informatique
par
DANG Cong Kien
June 2006
Trang 2ALLRIGHTS RESERVED
Trang 3RÉSUMÉ
deprévision.Onles manuellementàl'aidedesexp oubien
qui sont appelés aussi le système d'aide de l'arbre de
est un modèle le plus populaire.En réalité et aussi dans les hes, de nombreux
algorithmesde dumodèlequibasentsurl'apprentissagedes hinessontmis
enoeuvre,parexempleleID3,C4.5deQuinlann[9,11℄ouCARTdel'université
Stand-ford[4℄ Parrapport deux autres appro hes :la statistiqueet leréseau des neuronnes,
l'appro he d'apprentissage des hines est préférée [1℄ Du point de vue
mathéma-tique,surtoutl'optimisation,lepro de d'unarbreappartenant
appro he est essentiellementlepro d'optimisation binatoiredans lequelleles
règles de fr (règles de partition) sont hoisies selon l'algorthme glouton
Alors, pro n'assure pas quel'onobtientleoptimum global.Onespère qu'à
l'aide des novelles hniques d'optimisation globaleon peut améliorerla qualité d'un
arbre quiest par un algorithmetraditionnel
Basantla méta-heuristique he à VoisinagesVariables(RVV)[7℄qui permet
d'explorer systèmatiquement les voisinages d'un optimum lo on propose un
algo-rithmed'optimastiond'arbrede étant parunalgorithmetraditionnel
L'algorithmeque l'on propose se ose deux osants : une méthode
de re lo ale et une méthode d'exploirer les voisinages qui est souvent abordée
la e de voisinages Les résultats expérimentaux provent que l'on peut
diminuer letaux d'erreur d'apprentissage (améliorer la de représentation les
hantillons d'apprentissage)d'arbrede Cependant,sil'ongagnela
on doit au problème du surajustement (overtting) qui a grande sur
tauxd'erreur nal (l'estimationd'erreur) d'arbre
A partir de fait, on propose une pro de d'arbre de
danslaquellela d'adaptationauxnouvellesdonnéesetla de
Trang 4représen-lanouvellepro est une binaisonentre uneméthode de divisionde donnée et
notreméthoded'optimisation.Onlavérietla a des méthodesde
d'arbrede universellespardes testsde validation surdes donnéestrès
ues dans lemonde d'apprentissage des hines- les données d'UCI
Trang 51 Intro 9
1.1 10
1.2 Arbre de etMéthodes de 11
1.3 Optimization binatoireet he heuristique 13
1.4 Problématique et du Rapport 14
2 et Arbre de 16 2.1 Arbre de 17
2.2 d'Arbre de 18
2.2.1 Impureté 20
2.2.2 Choix de règle de t 21
2.2.3 de d'un noeud 22
2.3 Évaluationd'arbre de 24
3 Optimisation Combinatoire et he à Voisinage Variable 26 3.1 e de he à Voisinage Variable 26
3.2 Extensions de la he Lo 28
3.3 Extensions de d'examiner lesvoisinages 28
4 Algorithmesd'Optimisationd'Arbresde baséssur he à Voisinage Variable 31 4.1 Alogorithmed'Optimisationde base 32
4.2 he Lo 33
4.3 de Voisinages 36
4.4 d'arbrebasant l'Algorithmed'Optimisation 36
5 Résultats Expérimentaux 38 5.1 Exp de he Lo 39
5.1.1 Test d'Optimisationdes Seuils 39
5.1.2 Test d'Optimisationde F t 40
5.1.3 Observation de de struture d'arbre 41
5.1.4 Observation de de lasolutioninitiale 41
5.2 Optimisation des arbres de 45
5.3 des arbre basant l'optimisation 49
Trang 65.1 Résultatd'optimisationde seuil sur pima 39
5.2 Résultatd'optimisationde seuil sur 39
5.3 Résultatd'optimisationde seuil sur 40
5.4 Résultatd'optimisationde t sur pima 40
5.5 Résultatd'optimisationde t sur 40
5.6 Résultatd'optimisationde t sur iris 41
5.7 Observation de la d'arbresur pima-optimisation de seuil 42
5.8 Observation dela d'arbresur -optimisation de t 42
5.9 Observation de la d'arbresur pima-optimisation de t 43
5.10 Observation dela d'arbresur -optimisation de t 43
Trang 72.1 Exemple d'un arbre de 17
5.4 Distributionde 100 foisd'optimisation d'arbrealéatoire pima 43
5.1 Relationentre latailled'arbreet la d'optimisation 44
5.6 Distributionde 100 foisd'optimisation d'arbrealéatoire iris 44 5.2 Distributionde 100 foisd'optimisation d'arbrealéatoire 45
5.3 Distributionde 100 foisd'optimisation d'arbrealéatoiregini 46
5.5 Distributionde 100 foisd'optimisation d'arbrealéatoireginipima 47
5.8 Optimisationdes arbresde BLD- taillepar profondeur espèré 47
5.7 Optimisationdes arbresde BLD- taillepar nombre des observation 48
5.10 Optimisationdes arbresde pima -taillepar nombre des observations 48 5.9 Optimisationdes arbresde pima -taillepar nombre des observation 49 5.11 basantpartition3-1 sans hev hement - pima 50
5.12 basantpartition3-1 a hev hement - pima 50
5.13 basantpartition4-1 a hev hement - pima 51
5.14 Comparaisondes résultats 51
Trang 81 héma de base de d'arbrede - buildTree(S) 19
2 héma de base de he VoisinagesVariables 27
3 héma de he VoisinagesVariableRéduite -RVVR 28
4 héma de he Voisinages te -RVVD 29
5 héma de he VoisinagesVariablesde osition 29
6 héma de base de he Voisinagesasyméthique 30
7 héma de base d'alogorithmed'optimisationen basant sur RVV 32
8 héma de la optimizeSplitingRule(T ) 34
9 héma de la de Voisinage 36
10 héma de Construtiond'arbre basant l'Optimisation 37
Trang 9Dans le monde de notre jour, la est un des problèmes très universels
danslavie,onabesoinde danstouslesdomaines.Pourlefaireonemploie
plus us et utilisés le plus largement Cela est une des raisons pour lesquelles il
y a pleins d'algorithmes, de hniques de d'arbre de et jusqu'à
maintenant ils sont un sujet dé En général, les algorithmes de de
l'apprentissagedes hines (l'apprentissage automatique)etleréseaudes neuronnes
des Par exemple, en fait, le réseau des neuronnes et
l'ap-prentissage des hines employent ement des algorithmes d'apprentissage La
dans texteestque,lereseaudesneuronnesestlemodèleuninterprétble,
par tre,lesmodèlesbaséssurd'apprentissagedes hinessontinterprétable.Selon
la plupartdes algorithmesde d'arbrede sont
l'appro he d'apprentissage des hines
L'idée une des alogorithmes de d'arbrede est de
parti-tionnerl'ensemlbledesexemples hantillons)selon la d'unarbre telqueles
partitionsnales tiennent les de même Autrement dit, les impuretés de
partitionsont zero Chaquepartition ond à un noeud de l'arbre.Une partition
est dévisée en des sous-partitions selon une règle de t qui est
essentiel-lement une de deux variables retournant une valeur entiere représentant une
he ou un noeud d'enfant Le pro de est alors la
détermina-tion les de partition à haque noeud intérieur tel que la impureté d'arbre
étant totale statistique des impuretés des partitionsnales est minimisée L'impurité
Trang 10pour haque noeud on hoisitune quipermetde réduirele plus l'impuretéde
noeud Du point de vue d'optimisation, pro est minimisation d'impureté
basant sur la he gloutone on n'est pas sûre que les algorithmes nous
donnent les résultats les meilleurs à des résultats en étude d'optimisation, on
espère que la qualité d'arbrede soitaméliorée , par exemple,de diminuer de
taux d'erreur d'apprentissage, déminuer la taille et déminuer le taux d'erreur estimé
en appliquant une hnique de l'optimisation globale
Dans premièr hapitre, je vais er des mots généraux à introduire deux
domaines relatifs L'intro briève exprime aussi notre motivation de he
quinous aide de dénir t laproblématique.La problématiqueetla
du rapport sont représentées dans la dernière du hapitre
1.1
Selon le sens leplus large,le terme aborde un pro se
des informations disponibles et l'utilisation des règles à prendre de a les
nouvellesobservations.Dupointdevued'utilisateur,leterme implique
ladeuxièmeétape.Denotre - on tresurtoutsurlapremière
étape
Malgré que les modèles de sont diérents, on a essayé de proposer
des uns pour évaluer et les modèles Parmi plein des issues,
la vitesse, la ompréhensibilité et le temps d'apprentissage sont les issues
[1℄
• Distributionde probabilitéantérieure
• Critèrede séparation des
• Cỏt de mauv
théoriquement, osants peuvent être étudiés inviduellement et les résultats
sont binés en larègle de
Il y a plein des appro hes proposées pour de qui sont
Trang 11• Apprentissage des indique les méthodes qui t la règles de
basantdesobservationssurunensemledesexemplesou hantillons
• Lesappro hesstatistiques sont parutilisationd'unmodèledebilitiquequifournitlaprobabilitéde haque aulieud'indiquer tla
proba-denouvelleobservation.Lesmodèlestypiques sontle tlinéaire,
le tquadratique, le tlogistique etla règle de Bayess
• Réseaudesneuronnesqui,engénéral,estuntypedel'apprentissagedes hines
séparée à de l'interprétabilité
Enfait,l'arbrede est un modèled'analysede donnée qui
appartient dans ladeuxième de deux de développement d'apprentissagedes
hines t: lagénie des lo basé-règle et laméthode d'analysede donnée
Arbre de est un des modèles de quiest lagrment appliquéen
réalité.Pour domaines ilestessentieldeproduiredespro
au óle doit pouvoirinterpréter lesraisons du
Lesarbresde répondentà trainte ils représentent graphiquement
un ensemble de règles etsontaisémentinterprétables.Pour lesarbres de grandetaille,
lapro globale peut être àappréhender, endant, la d'un
élément est toujours
Essentiellement,un arbre de est un graphe d'arbre, danslequel les noeuds
internes sont appelés noeuds de dé et les feuilles sont appelés neouds de
onsé-e Un noeud de est étiqueté par un test qui peut être appliqué à toute
d'un individu de la population En général, haque test examine lavaleur
d'un unique attribut de des Les réponses possibles au test
respondent auxlabels des issus de noeud qui sontsouvent des nombres entiers
et sont omis dans le graphe Les feuilles sont étiquetées par une appelée
par défaut
on peut dire que un arbre de est la représentation graphique d'une
feuille de l'arbre de Cette asso est dénie en t à la
de l'arbre et en t dans l'arbre selon les réponses aux tests qui étiquettés
Trang 12feuille qui ond à la La pro de obtenue a une
immédiate en terme de règles de Les systèmes de règles obtenus
sont l'ordre dans lequel on examine les attributs est xé et les règles
Onpeut unarbredefaçonmanuelleparétiquetterdu noeudaunoeudàl'aide
desexperts ódefaçon automatiquepardes algorithmesd'apprentissage des hines
a un ensemble des hantillons Dans le monde informatique, on ne tre que
la deuxième Selon l'appro he d'apprentissage des hines, les algorithmes
existés t lesarbresde façon endante.Lorsqu'untestest hoisi,ondivise
l'ensemble d'apprentissage pour des hes et on réapplique ré
l'algorithme.À haque itération,onv répondre deux questions :
1 qu'on tinue à her un test pour déviser les hantillons
on-dant aunoeud t? Sinon quelle on v àla feuille?
2 Quel test qu'on v hoisir? ouCommentpeut-ontrouverle test optimal?
Pour répondrề questions,onsebase sur l'impureté qui est essentiellement une
permettantdemesurerledegrédemélangedes hantillonsentrelesdiérentes
Unetelle doit vérierles propriétés suivantes :
(i) elle doit prendre son minimum lorsque tous les hantillons sont dans une même
(lenoeud est pur)
(ii) et son maximum lorsque les hantillons sont équirépartis
Par exemple, si on dispose de 8 éléments de deux une telle devra
prendre son minimum pour les (0,8) et (8,0) et son maximum pour le
(4,4) Il existe diérentes qui satisfont propriétés par exemple
d'Entropie ou de Gini.Idéalement,on arrête de her un test et la
uniquepourlenoeud sison impuretéest zero.Sil'impuretéest supérieureque0
maiselleest susamentpetite,on la majoritaire.Dansle ól'on doit
tinuerà her untest,le de hoisirletestsebaseaussisur l'impureté.On
v hoisirletest qui réduitleplus l'impureté.La de l'impureté est exprimée
gain des informationqui est par l'Entropie
Touslesalgorithmesde d'arbreontlemême e,ilssontdiérents
par ladénition d'impureté etaussi la gain
Trang 13L'optimisation ombinatoire est une he de l'optimisation en mathématique
appliquées eten informatique, également liée à la he opérationnelle,
l'algorith-mique et la théorie de la [5, 2℄ Un problème d'optimisation binatoire
à trouverla meilleure solution dans un ensemble ditensemble des
so-lutions réalisables En général, ensemble est ni, mais de ardinalité très grande
et il est dé de manière par une liste, relativement de
traintes quedoivent satisfaire lessolutions réalisables
Trouver une solution optimale dans un ensemble et ni est une trivialité
d'un point de vue mathématique.Du pointde vue informatique etpratique, le temps
de he delasolutionoptimaleest un trèsimportantet à delui
que les problèmes d'optimisation binatoiresont réputés si La résolution
desproblèmesd'optimisation binatoireseheurte àlathéoriedela
Ainsi, l'ensemble des solutionsréalisables est déni de manière ilest
parfois très de trouverne qu'une solution réalisable
En pratique, on se tente très souvent d'avoir une solution appro hée, obtenue
parune heuristique ouunemétaheuristique Pour problèmes,onpeutprouver
une garantie de p que entre la solution obtenue et la
solutionoptimale est borné Jusqu'à maintenant un sujet dé malgré que
l'onapas maldes solutions "Lo h", "Simulatedannealing","Quantum
annealing","Tabu h", algorithmes" [10℄
Parmidesheuristiques, Re Lo ale (lo h)[3℄est tréeb
t.À partird'une solutioninitialeonpasse vers une autresolution parun
sé-de hangement lo qui permetd'améliorer la ob e fois
Les hangements sont réalisés jusqu'à l'optimum est trouvé En basant sur héma
de base, on a déjà développé pleins des métaheuristiques qui étend en
dif-férentes et évittent de tomber à optimum lo a pas une valeur qui est tellement
diérentede la valeuroptimalegloblement.Unedes idées de hangerle voisinage
pendant he Cetteidéeest utilisépour uneméta-heuristiquequi
s'ap-peleRe à Voisinages Variables- RVV (VariableNeighborhood h)[8,7,6℄
RVV peut être aisément misen oeuvre ettravaillera n'importe quelle sous-routine
de he lo Son est illustréepar la résolution de plusieurs problèmes
d'optimisation binatoire et aussi globale On a aussi déjà proposé
plu-sieurs extensions pour résoudre des problèmes de grandetaille
Trang 14Du point de vue t que la d'arbre est en fait de hoisir des
tests pour les noeuds d'ensemble ni des tests possibles ondant à un esemble
des hantillons, on peut examiner le problème de d'arbre de dé
ommeun promblèmed'optimisation ombinatoire.Alors,onespèrequeun algorithme
sebasant sur métaheuristiqueVRR aulieude l'appro he gloutonedes algorithmes
tra-ditionnelsv nous donnerdes arbresmeuilleurs
Par la première question de notre étude est : e que les
algo-rithmestraditionnelsnousdonnentl'optimumglobal?".Autrement-dit eque
l'ap-ation de RVV dans d'arbre peut éer les arbres plus pré en
l'ap-prentissagedesé lonsdonnés?".Dansle óonades résutatspossitifspourla
première hes,on ladeuxième he quiv répondrelaquestion eque
les arbres onstruits à l'aide RVV sont meuilleurs selonles es typiques omme le
testde validation oissée?" unarbreplus peutêtresouritsurajustement
la question nale est e qu'existe une bonne pro édure qui peut augmenter
la pré et déminuer le surajustement à la fois?"
Pour bien répondrề questions, notreétude suit les étape suivantes :
1 ProposerunalgorithmebasésurRVV.Les hes de étapeestde
epter un routine de re lo ale et déterminerla e de voisinage
2 Testera lesdonnéestypiquesàverier du nouveaualgorithme
d'op-timisation.Onv testerselonplusieurs nivaux tletest de he lo
letest de de voisinageetle test d'optimisation.Silesarbres
par des algorithmes traditionnelssont optimiséspar notre algorithme, onespère
qu'à l'aide du nouveau algorithme, on peut améliorer la qualité des arbres de
l'algorithme d'optimisation qui donne des arbres meuilleurs selon les tests de
validation
Lerestedurapportestoganiséen hapitresdanslesquelslesdeuxpremierssont
les hapitre lesdeux suivants présentent notre tributionet ledernière
pour la Avant de présenter notre solution pour le problème proposé, le
hapitre2etla hapitre3abordentles debasede deux relatifs:
l'arbre de et optimisation binatoire Le deuxième hapitre v parler à
Trang 15Dans le hapitre suivant hapitre 3), on reprend un autre sujet : l'optimisation
binatoire et des méthodes de he heuristique L'optimisation binatoire
reste un des probèmes de NP, alors lessolutions sebasent surtout sur la
des heuristiques ues est herhe Lo (Lo h) Cette heuristique et
des de trlle sont brièvement résumés dans hapitre
Notre tribution est présentée dans le hapitre 4 ó on propose un algorithme
d'arbre par un algorithmetraditionnel.Ensuite, un autre osantde
mé-taheuristiqueVRRquiestla devoisinagesest détaillement.Jereserve
ladernière de hapitrepour expliquer lanouvellepro de
d'arbrede qui est ajoutée une étape d'optimisation Lestests expérimentaux
etleurs résultats sont illustrés dans le hapitre5
À lan, le hapitrede dans lequel je rappellebrièvementrésultats
etdonne des des remarques et aussi des perp es
Trang 16CLASSIFICATION ET ARBRE DE
DÉCISION
Et parmi plein des modèles de on ne fo que modèle
d'arbre - l'arbre de Il y a deux asp qui sont trés dans tout les
études, sontlesméthodesde d'arbres etd'évaluationdemodèlesnaux
En réalité, des nombreux algorithmes ont été proposés, tous essayent de minimiserla
d'arbre en basant sur le hoix des attributs (des variables) importants,
et pertinent Les hoix sont pris selon des par exemple l'entropie
de Shannon, qui jouent la rle de mesure d'impurété Ces sont le tenu
de la présentant le problème de d'arbre Dans la
suivantede même hapitre,on v sur lestaux d'erreur etle surajutement qui
Après d'avoirbrièvementprésentédes tl'arbrede dans
lapremière le tenu du hapitreest dévisé endeux
pondant à deux asp importants La de l'arbre de
aborde des algorithmes t les à déterminer le test d'un noeud
intérieuroula d'unefeuille.Danslatroisième l'évaluationd'arbre
de est examinéeen deux manières :le tauxd'erreur d'apprentissage etle
sur-ajustement La première évalue t un arbre La deuxième n'indique pas le
résultat nal désiré mais il exprime plus généralementla qualité d'arbre Du point de
vue, la qualité d'arbre est montrée dans une somme des rapports t : le
tauxd'erreur d'apprentissage, le tauxd'erreur estimé etla d'arbre
Trang 17Engénéral,leterme "Arbrede t deux domaines :lathéoriede
(l'aidede etl'apprentissagedes hines.Dansle premierdomaine,
un arbre de est un graphe des exprimé sous forme des tests sur la
valeurd'un attribut(une variable)etses possiblesquisont ement
lesvaleursd'attribut (variable)de Dans graphe, lesnoeuds intérieurs
repré-sentent les et les feuilles réprésentent les L'ob d'abre de
est de prendre de Unexemple d'un arbre de est illustrépar
Fig.2.1 Exemple d'un arbre de
Dans ledomained'apprentissage des hines,il est essentiellementun modèlede
prévision,plus sp t un modèlede quirépartissentune
popula-tion d'individusen groupes homogènes,selon un ensemble de variables tes
en d'unob xéet u.Ces groupessontappelésdes feuillesde l'arbre
Danslemonde de l'apprentissagedes hines,lesétudes trent surtoutsur des
méthodes de des arbresau lieude l'utilisationdes arbres
En général, il n'y a pas d'une représentation formelle unique pour l'arbre de
sion Dépendant des asp trés, on peut donnerdes représentations formelles
sontla d'arbreetlesparamètresde haquenoeud.Sanspertedelagénéralité,
on peut xer la de l'arbre qui est tourjours sous forme binaire un arbre
peut être transforméà la formebinaire
Trang 18on représente t les tests sous forme des règles de t.Av un
arbrebinaire,larèglede testune binaire X ≤ xouplus général X ∈ S, dans laquelle S est un ensemble des valeurs possibles d'attribut
X.Souslaforme lestests sontreprésentés par lespartitionsde donnée ouunensemble des hatillons.Les partitionsdes neouds d'enfant sont sous-partitions de la
partitiondu noeud de parent
Enfait, ladeuxième est plus générale etest préférée quand onveut
pour bien montrer les algorithmes de on aime mieux la première
nisme
Il y ade nombreux algorithmesexistés Ils dièrent par les mathématiques
utilisés pour identier parmi toutes les variables disponibles elles qui sont les plus
intéressantes ou àbase de mesured'entropie,de tests du hi2,
de mesure d'impureté ), mais aussi par les types d'obje qu'ils sont de
traiter: variable(s)quantitative(s) (ex:un hired'aaire, une dépense, un revenu ),
variable(s)qualitative(s) (répondre favorablementou non à une marketing,
heter ou non un produit ) Ils se distinguent également, pour les ob de type
qualitatif, par le nombre de modalités qu'ils t de traiter (réponse de type
oui/non, ou réponse de type produit A, produit B, produit C ) Ils se distinguent
par lenombre de feuilles produites à étape de la e de l'arbre :
algorithmes génèrent deux feuilles, on parle alors d'arbres binaires (CART, C5 par
exemple),d'autressont degénérerplusdedeuxfeuilles(CHAIDparexemple)
Ilssedistinguentennparleur ap àgérerdes bases dedonnées omplètes,
à-direvaleursmanquantes Ce dernierpointest essentiel, en entreprise, ilest rare
de travaillera des bases de données parfaites
Pourprésentergénéralementl'idée unedesalgorithmes,onv examinerl'arbre
de du pointde vueó haque noeudreprésenteunepartitionde donnée ouun
sous-ensemble hantillons.Lenoeud ondàladonnée origine(latotale
d'ensemble des hatillonsd'apprentissage).Les sontréalisés sur lesensembles
des hantillons Larègle de t n'a que la symbolique
Informellement,lepro de d'arbre de est en fait un
Trang 19pro-tion a des hes : vérier la d'arrêt, hoisir une règle de
tionnement, lapartition ondante et la pour le noeud
Le héma général des algorithme de d'arbre de est illustré par
algorithme 1
Algorithme 1 héma de base de d'arbrede - buildTree(S)
Require: S est ensemble hantillons
Les algorithmes se dièrent t par trois : getImpurity(),
getBestT est() et setClass(S) Tous les trois t un ensemble deshantillons une des entrés
• La getImpurity(S)déterminel'impuretéd'unensemble des hantillons
S.En fait,l'impureté de haque algorithme est une mesure inventée oumodiée
sp t sastifait des traints.Les mésures lesplus ues sontle Gini
quisebase sur lesprobabilités de et leGaind'information quise basesur
l'entropiede Sannon
• La getBestT est(S) demande aussil'entrée d'unensemble hantillons
et retourne un test qui maximiser la diminutiond'impureté Cela est équivalent
de minimiserl'impureté d'arbre selon la he gloutone
• La setClass(S) la pourunnoeudbasantsurladistributiondes d'ensemble des hantillons Dans le idéal ó l'impureté est 0,
est très simple.Par tre, vasutiliserdes à
la typiquement,le est lamajoritéquiest un sp
du de minimiserla mauv
Pourbienexpliquer lestrois osants onintroduitdesnotations
Sup-pose que l'on a un ensemble des hantillons S tenant N hantillons de J
Trang 20Etant donnée que, N j est le nombre de hantillons de j, on a la distributionprieusse {Π j = N j /N}.À un noeud t qui tenant N(t) hantillons, dansles quelles
la j a N j (t) hantillons La proposition de la j au noeud t
est N j (t)/N j Alors,on peut que :
• La mesure p(j, t) = Π j N j (t)/N j est l'estimation de probabilité de ó unehantillon étant j apparaỵtau noeud t
• L'estimationde probabilitéqu'une hantillon apparaitdans noeud t
est p(t) = P
j p(j, t)
• La probabilité qu'une hantillon du noeud t a j est p(j|t) = p(j, t)/p(t).Alors{p(j|t)} est la distribution des aunoeud t
En basant sur notations, on v présenter l'impureté, la règle de hoisir de
2.2.1 Impureté
Engénéral,onaborde l'impuretéd'un noeud quiest essentiellementimpureté d'un
ensemble des hantillons Et l'impureté d'un arbre est un somme
statistiquedes impuretésde noeud.Cettes mesures sont dénitesà partirde dénition
Une d'impureté est une φ dénite sur l'ensemble de N-tuple
(x 1 , , x N ) sastifait x i ≥ 0, i = 1, , N a lespropriété suivantes :
(i) φ est seulement maximaleau point ( N 1 , , N 1 )
(ii) φ est seulement minimaleauxpoints(1, 0, , 0),(0, 1, , 0), ,(0, 0, , 1)
(iii) φ est une symétrique
Par exemple,la Giniest dénite :
Trang 21Étant donné T est un arbre qui a ensemble des noeuds terminaux T ˜, l'impuretéd'arbreT est I(T )
Larèglede tà haquenoeudest hoisitenutilisantune deux
variable φ(t, r)qui mesurela qualitéde t Le tlemeilleurest quimaximiseφ(t, r).Naturellement,onveutquele t hoisitréduit
leplus l'estimation de mauv de l'arbre Cependant, n'a pas
est prouvé dans le [4℄) Alors, les de hoix de t
sontproposés suivant tla maximisationde diminutiond'impureté
A unnoeud t, unerègle de tr K noeudsd'enfantt 1, ,t K (selonnotre suppose, les arbres binaires, K = 2) Si N(t), N(t 1 ), ,N(t K ) sont les nombresdes hantillons des noeuds t, t 1, ,t K, la diminution d'impureté est selon leformule 2.3 :
Finalement
∆I(t∗, r) = p(t∗)∆i(t∗, r) (2.4)
Trang 22l'impuretéde haquenoeudterminal.C'est-à-dire,àunnoeudterminalt,onv her
(2.5) De plus, on a proposé un autre qui n'est pas du tout par la
d'impureté.C'est la qu'on appelle "twoing"
Le "twoing" est appliqué pour les problèmes de m et l'arbre
bi-naire À haque noeud, ondivise l'ensemle des C en deux sous-ensemble C 1 et
C 2 = C − C 1 Av un t hoisit, la diminution d'impureté est
le problème de Alors, la diminution est une de trois
va-riables ∆i(t, r, C 1 ) Av un t donné r, le C 1 (r) maximisant∆i(t, r, C 1 )
est
C 1 (r) = {j : p(j|t 1 ) ≥ p(j|t 2 )} (2.6)et
φ(t, r) = p 1 p 2
4
X
Leplussimplement,on la suivantlamojorité.Cependant,onn'utilise
que règlesiladistributionprieusse de πj estestiméeparNj/N.Danslegénéral,la est unfaittellementquelaprobabilitédemauv
Trang 23Siondénotequer(t) est l'estimationdeprobabilité de mauv àunnoeud t, selon (2.9), r(t) est déterminé
r(t) = 1 − max
j sont les-mêmes En réalité, est dénit par une C(i|j) qui adeux propriétés suivante
alors (2.10) et(2.11) sontles-mêmes
Un arbre T a l'ensemble des noeuds terminaux T ˜, l'estimation de probabilité de
Plus t, propriété est exprimée t au niveau du noeud par
2.14 Unnoeud t est auxdes noeuds t1, , tK
Trang 24L'évaluationun arbre est toujours une étapeimportantedans une pro
normalisés pour le faire.Au dépendents des problèmes, des buts et méme si des
h-niques de onpropose des diérents.Dansle général,
lièrementdans ledomaine d'apprentissage des hines, le premier abordé est
l'estimationde probabilité de mauv Mais tpeut-on
détermi-ner mesure? Les solutions sont diérentes La mesure la plus populaire
est l'estimation de taux d'erreur À de mesure, on tre toujours sur le
surajustement qui exprime bien larelation entre trois asp importantsd'un arbre :
l'estimationde tauxd'erreur; tauxd'erreur d'apprentissage etla tailled'arbre
Audébut,letauxd'erreurd'apprentissageest l'estimationdetaux
d'erreur il hitla d'apprentissage, de la des informationset
laréprésentationde donnée Cependant, un arbre est toujours utilisé
un pour des nouvelles données Alors, mesure n'est pas vraiment
utile.Naturellement,onestime letauxd'erreur en testant lesarbres a un ensemble
des hatilons séparées de l'ensemble d'apprentissage Toutefois, quand l'ensemble de
testn'a pas susamment hantillons, lerésultatn'estpas sûr.Dans là,onv
une hnique quis'appellevalidation oissée t, hnique
des itérations de et de test Le résultat nal est le moyen des
résultatsde haque itération
Lorsque l'on un arbre de on risque que l'on appelleun
surajustement du modèle : le modèle semble performant (son erreur moyenne est très
faible)maisilne l'estenréalitépasdutout!Passer d'unmodèle àun modèle
opérationd'élagage de l'arbre.Plusieurstypesd'algorithmesd'élagages sont possibles
Ils sontgénéralementdiérentsd'un type d'arbreà un autre
Latailled'arbreest souvent étudiée une mesure en
des arbres On préfère toujous lesmodèles simples.Un jugement qui dit "Unarbre A
est plus simple que un autre B" hit deux hoses Premièrement, on doit fournir
des informationsau A moins queB en utilisationmais obtientle même résultat.Bien
sûr quel'on doit supposer quedeux arbres ontlamême Deuxièment,l'arbre
Aest plusgénéralque B C'est-à-dire,l'arbreA est plus queB etpeut être
appliquéplus largementque B
Trang 25vés Parexemple,dansnotretravail,onadéniunemesurequis'appelle"P
des informationsdes arbres
Trang 26OPTIMISATION COMBINATOIRE ET
Denotrejour,lesrésultatsdesétudesen heOpérationnellenouspermettent
de resoudre plein de problèmes réels Cependant tous les solutions n'assurent qu'une
oudes deproblème lesappro hes oubiensont a des ts
sp ou biense basentsur les heuristiquesqui ne sontpas déterminées, pas
pro-vables En général, l'idée d'utilisation des heuristiques est toujours proposée Et pour
surmonterdesissues tomberdanslesoptimalo oninventedes
pour trller les heuristiques Ces s'appellent méta-heurisitques Dans
notre étude, on ne tre que la heuristique "Re Lo ale" qui he une
meuilleuresolutionàpartird'unesolutioninitialepardes hangementspetits
hange-mentslo Etonne treaussiquelamétaheuristique"Re àVoisinage
Variable"parmipleindesméta-heuristique,parexempleMulti-InitialesAdaptives,
Re-he à Profondeurs Variables, he de Tabu
Le edelaméta-heuristique he àVoisinageVariableest dansla
première Lesdeux restéesabordentlesextensionsde deux osants
la Re Lo ale etla e de Voisinages
he Lo est un des typesde heuristiquequi sontsouventutilisés.Le
prin-e de heurisitique est de visiter des solutions possibles à partir d'une solution
initiale par des lo aux qui peuvent améliorer la valeur de
d'ob-La s'arrêtesi l'on ne peut pas trouver un nouveau optimum lo Il
ya desméta-heuristiques proposéesàsurmonterdes issues de he
Trang 27nition de traje e d'exploitation, RVV augmente systèmatiquement le "rayon" de
Voisinage[7℄ Cette appro hes assure que l'on peut garder les valuers optimales des
variables (des osants) dans la solution optimal te Sp t, RVV
exploite systèmatiquement des observations suivante[8℄
• Unesolution est optimum lo dans un voisinage mais n'est pas dans un autre
• Un optimum global est l'optimum lo dans tous les voisinages
• Optimalo ondant à un ou plusieurs voisinages peuvent tenir desmêmes osants- lesvaleurs optimalesdes variables
Le hémade base de he Voisinages Variables est illustrédans l'algorithme
2
Algorithme 2 héma de base de he VoisinagesVariables
Require: N = {N 1 , , N K } est une de voisinage osant K
N k (x)déterminant lesvoisins d'une solutionx
Require: localSearch(x)estune de helo quiretourneunesolutionmeuilleusse qui est diérente de x si l'on lz trouve, si non elle retourne la mêmesolution x
Dans algorithme, il y a deux importants, sont la de
voi-sinage N et la de he lo localSearche Au depend des problèmes
sp ondénit diérentement deux Cependant, onaproposé aussi
des pourétendrede osantsenespèrantdebienappliquerdansdesgrande
des problèmes