OPTIMISATION DES ARBRES DE DECISION BASEE SUR RECHERCHE a VOISINAGE VARIABLE

Les résultats expérimentaux provent que l'on peut diminuer letaux d'erreur d'apprentissage améliorer la de représentation les hantillons d'apprentissaged'arbrede Cependant,sil'ongagnela

Trang 1

SUR RECHERCHE À VOISIANGE VARIABLE

Le rapport de stage

Presenté à l'Institut de la F pour l'Informatique

en vue de l'obtention du grade de

Maîtrise de l'Ingénier en Informatique

par

DANG Cong Kien

June 2006

Trang 2

ALLRIGHTS RESERVED

Trang 3

RÉSUMÉ

deprévision.Onles manuellementàl'aidedesexp oubien

qui sont appelés aussi le système d'aide de l'arbre de

est un modèle le plus populaire.En réalité et aussi dans les hes, de nombreux

algorithmesde dumodèlequibasentsurl'apprentissagedes hinessontmis

enoeuvre,parexempleleID3,C4.5deQuinlann[9,11℄ouCARTdel'université

Stand-ford[4℄ Parrapport deux autres appro hes :la statistiqueet leréseau des neuronnes,

l'appro he d'apprentissage des hines est préférée [1℄ Du point de vue

mathéma-tique,surtoutl'optimisation,lepro de d'unarbreappartenant

appro he est essentiellementlepro d'optimisation binatoiredans lequelleles

règles de fr (règles de partition) sont hoisies selon l'algorthme glouton

Alors, pro n'assure pas quel'onobtientleoptimum global.Onespère qu'à

l'aide des novelles hniques d'optimisation globaleon peut améliorerla qualité d'un

arbre quiest par un algorithmetraditionnel

Basantla méta-heuristique he à VoisinagesVariables(RVV)[7℄qui permet

d'explorer systèmatiquement les voisinages d'un optimum lo on propose un

algo-rithmed'optimastiond'arbrede étant parunalgorithmetraditionnel

L'algorithmeque l'on propose se ose deux osants : une méthode

de re lo ale et une méthode d'exploirer les voisinages qui est souvent abordée

la e de voisinages Les résultats expérimentaux provent que l'on peut

diminuer letaux d'erreur d'apprentissage (améliorer la de représentation les

hantillons d'apprentissage)d'arbrede Cependant,sil'ongagnela

on doit au problème du surajustement (overtting) qui a grande sur

tauxd'erreur nal (l'estimationd'erreur) d'arbre

A partir de fait, on propose une pro de d'arbre de

danslaquellela d'adaptationauxnouvellesdonnéesetla de

Trang 4

représen-lanouvellepro est une binaisonentre uneméthode de divisionde donnée et

notreméthoded'optimisation.Onlavérietla a des méthodesde

d'arbrede universellespardes testsde validation surdes donnéestrès

ues dans lemonde d'apprentissage des hines- les données d'UCI

Trang 5

1 Intro 9

1.1 10

1.2 Arbre de etMéthodes de 11

1.3 Optimization binatoireet he heuristique 13

1.4 Problématique et du Rapport 14

2 et Arbre de 16 2.1 Arbre de 17

2.2 d'Arbre de 18

2.2.1 Impureté 20

2.2.2 Choix de règle de t 21

2.2.3 de d'un noeud 22

2.3 Évaluationd'arbre de 24

3 Optimisation Combinatoire et he à Voisinage Variable 26 3.1 e de he à Voisinage Variable 26

3.2 Extensions de la he Lo 28

3.3 Extensions de d'examiner lesvoisinages 28

4 Algorithmesd'Optimisationd'Arbresde baséssur he à Voisinage Variable 31 4.1 Alogorithmed'Optimisationde base 32

4.2 he Lo 33

4.3 de Voisinages 36

4.4 d'arbrebasant l'Algorithmed'Optimisation 36

5 Résultats Expérimentaux 38 5.1 Exp de he Lo 39

5.1.1 Test d'Optimisationdes Seuils 39

5.1.2 Test d'Optimisationde F t 40

5.1.3 Observation de de struture d'arbre 41

5.1.4 Observation de de lasolutioninitiale 41

5.2 Optimisation des arbres de 45

5.3 des arbre basant l'optimisation 49

Trang 6

5.1 Résultatd'optimisationde seuil sur pima 39

5.2 Résultatd'optimisationde seuil sur 39

5.3 Résultatd'optimisationde seuil sur 40

5.4 Résultatd'optimisationde t sur pima 40

5.5 Résultatd'optimisationde t sur 40

5.6 Résultatd'optimisationde t sur iris 41

5.7 Observation de la d'arbresur pima-optimisation de seuil 42

5.8 Observation dela d'arbresur -optimisation de t 42

5.9 Observation de la d'arbresur pima-optimisation de t 43

5.10 Observation dela d'arbresur -optimisation de t 43

Trang 7

2.1 Exemple d'un arbre de 17

5.4 Distributionde 100 foisd'optimisation d'arbrealéatoire pima 43

5.1 Relationentre latailled'arbreet la d'optimisation 44

5.6 Distributionde 100 foisd'optimisation d'arbrealéatoire iris 44 5.2 Distributionde 100 foisd'optimisation d'arbrealéatoire 45

5.3 Distributionde 100 foisd'optimisation d'arbrealéatoiregini 46

5.5 Distributionde 100 foisd'optimisation d'arbrealéatoireginipima 47

5.8 Optimisationdes arbresde BLD- taillepar profondeur espèré 47

5.7 Optimisationdes arbresde BLD- taillepar nombre des observation 48

5.10 Optimisationdes arbresde pima -taillepar nombre des observations 48 5.9 Optimisationdes arbresde pima -taillepar nombre des observation 49 5.11 basantpartition3-1 sans hev hement - pima 50

5.12 basantpartition3-1 a hev hement - pima 50

5.13 basantpartition4-1 a hev hement - pima 51

5.14 Comparaisondes résultats 51

Trang 8

1 héma de base de d'arbrede - buildTree(S) 19

2 héma de base de he VoisinagesVariables 27

3 héma de he VoisinagesVariableRéduite -RVVR 28

4 héma de he Voisinages te -RVVD 29

5 héma de he VoisinagesVariablesde osition 29

6 héma de base de he Voisinagesasyméthique 30

7 héma de base d'alogorithmed'optimisationen basant sur RVV 32

8 héma de la optimizeSplitingRule(T ) 34

9 héma de la de Voisinage 36

10 héma de Construtiond'arbre basant l'Optimisation 37

Trang 9

Dans le monde de notre jour, la est un des problèmes très universels

danslavie,onabesoinde danstouslesdomaines.Pourlefaireonemploie

plus us et utilisés le plus largement Cela est une des raisons pour lesquelles il

y a pleins d'algorithmes, de hniques de d'arbre de et jusqu'à

maintenant ils sont un sujet dé En général, les algorithmes de de

l'apprentissagedes hines (l'apprentissage automatique)etleréseaudes neuronnes

des Par exemple, en fait, le réseau des neuronnes et

l'ap-prentissage des hines employent ement des algorithmes d'apprentissage La

dans texteestque,lereseaudesneuronnesestlemodèleuninterprétble,

par tre,lesmodèlesbaséssurd'apprentissagedes hinessontinterprétable.Selon

la plupartdes algorithmesde d'arbrede sont

l'appro he d'apprentissage des hines

L'idée une des alogorithmes de d'arbrede est de

parti-tionnerl'ensemlbledesexemples hantillons)selon la d'unarbre telqueles

partitionsnales tiennent les de même Autrement dit, les impuretés de

partitionsont zero Chaquepartition ond à un noeud de l'arbre.Une partition

est dévisée en des sous-partitions selon une règle de t qui est

essentiel-lement une de deux variables retournant une valeur entiere représentant une

he ou un noeud d'enfant Le pro de est alors la

détermina-tion les de partition à haque noeud intérieur tel que la impureté d'arbre

étant totale statistique des impuretés des partitionsnales est minimisée L'impurité

Trang 10

pour haque noeud on hoisitune quipermetde réduirele plus l'impuretéde

noeud Du point de vue d'optimisation, pro est minimisation d'impureté

basant sur la he gloutone on n'est pas sûre que les algorithmes nous

donnent les résultats les meilleurs à des résultats en étude d'optimisation, on

espère que la qualité d'arbrede soitaméliorée , par exemple,de diminuer de

taux d'erreur d'apprentissage, déminuer la taille et déminuer le taux d'erreur estimé

en appliquant une hnique de l'optimisation globale

Dans premièr hapitre, je vais er des mots généraux à introduire deux

domaines relatifs L'intro briève exprime aussi notre motivation de he

quinous aide de dénir t laproblématique.La problématiqueetla

du rapport sont représentées dans la dernière du hapitre

1.1

Selon le sens leplus large,le terme aborde un pro se

des informations disponibles et l'utilisation des règles à prendre de a les

nouvellesobservations.Dupointdevued'utilisateur,leterme implique

ladeuxièmeétape.Denotre - on tresurtoutsurlapremière

étape

Malgré que les modèles de sont diérents, on a essayé de proposer

des uns pour évaluer et les modèles Parmi plein des issues,

la vitesse, la ompréhensibilité et le temps d'apprentissage sont les issues

[1℄

• Distributionde probabilitéantérieure

• Critèrede séparation des

• Cỏt de mauv

théoriquement, osants peuvent être étudiés inviduellement et les résultats

sont binés en larègle de

Il y a plein des appro hes proposées pour de qui sont

Trang 11

• Apprentissage des indique les méthodes qui t la règles de

basantdesobservationssurunensemledesexemplesou hantillons

• Lesappro hesstatistiques sont parutilisationd'unmodèledebilitiquequifournitlaprobabilitéde haque aulieud'indiquer tla

proba-denouvelleobservation.Lesmodèlestypiques sontle tlinéaire,

le tquadratique, le tlogistique etla règle de Bayess

• Réseaudesneuronnesqui,engénéral,estuntypedel'apprentissagedes hines

séparée à de l'interprétabilité

Enfait,l'arbrede est un modèled'analysede donnée qui

appartient dans ladeuxième de deux de développement d'apprentissagedes

hines t: lagénie des lo basé-règle et laméthode d'analysede donnée

Arbre de est un des modèles de quiest lagrment appliquéen

réalité.Pour domaines ilestessentieldeproduiredespro

au óle doit pouvoirinterpréter lesraisons du

Lesarbresde répondentà trainte ils représentent graphiquement

un ensemble de règles etsontaisémentinterprétables.Pour lesarbres de grandetaille,

lapro globale peut être àappréhender, endant, la d'un

élément est toujours

Essentiellement,un arbre de est un graphe d'arbre, danslequel les noeuds

internes sont appelés noeuds de dé et les feuilles sont appelés neouds de

onsé-e Un noeud de est étiqueté par un test qui peut être appliqué à toute

d'un individu de la population En général, haque test examine lavaleur

d'un unique attribut de des Les réponses possibles au test

respondent auxlabels des issus de noeud qui sontsouvent des nombres entiers

et sont omis dans le graphe Les feuilles sont étiquetées par une appelée

par défaut

on peut dire que un arbre de est la représentation graphique d'une

feuille de l'arbre de Cette asso est dénie en t à la

de l'arbre et en t dans l'arbre selon les réponses aux tests qui étiquettés

Trang 12

feuille qui ond à la La pro de obtenue a une

immédiate en terme de règles de Les systèmes de règles obtenus

sont l'ordre dans lequel on examine les attributs est xé et les règles

Onpeut unarbredefaçonmanuelleparétiquetterdu noeudaunoeudàl'aide

desexperts ódefaçon automatiquepardes algorithmesd'apprentissage des hines

a un ensemble des hantillons Dans le monde informatique, on ne tre que

la deuxième Selon l'appro he d'apprentissage des hines, les algorithmes

existés t lesarbresde façon endante.Lorsqu'untestest hoisi,ondivise

l'ensemble d'apprentissage pour des hes et on réapplique ré

l'algorithme.À haque itération,onv répondre deux questions :

1 qu'on tinue à her un test pour déviser les hantillons

on-dant aunoeud t? Sinon quelle on v àla feuille?

2 Quel test qu'on v hoisir? ouCommentpeut-ontrouverle test optimal?

Pour répondrề questions,onsebase sur l'impureté qui est essentiellement une

permettantdemesurerledegrédemélangedes hantillonsentrelesdiérentes

Unetelle doit vérierles propriétés suivantes :

(i) elle doit prendre son minimum lorsque tous les hantillons sont dans une même

(lenoeud est pur)

(ii) et son maximum lorsque les hantillons sont équirépartis

Par exemple, si on dispose de 8 éléments de deux une telle devra

prendre son minimum pour les (0,8) et (8,0) et son maximum pour le

(4,4) Il existe diérentes qui satisfont propriétés par exemple

d'Entropie ou de Gini.Idéalement,on arrête de her un test et la

uniquepourlenoeud sison impuretéest zero.Sil'impuretéest supérieureque0

maiselleest susamentpetite,on la majoritaire.Dansle ól'on doit

tinuerà her untest,le de hoisirletestsebaseaussisur l'impureté.On

v hoisirletest qui réduitleplus l'impureté.La de l'impureté est exprimée

gain des informationqui est par l'Entropie

Touslesalgorithmesde d'arbreontlemême e,ilssontdiérents

par ladénition d'impureté etaussi la gain

Trang 13

L'optimisation ombinatoire est une he de l'optimisation en mathématique

appliquées eten informatique, également liée à la he opérationnelle,

l'algorith-mique et la théorie de la [5, 2℄ Un problème d'optimisation binatoire

à trouverla meilleure solution dans un ensemble ditensemble des

so-lutions réalisables En général, ensemble est ni, mais de ardinalité très grande

et il est dé de manière par une liste, relativement de

traintes quedoivent satisfaire lessolutions réalisables

Trouver une solution optimale dans un ensemble et ni est une trivialité

d'un point de vue mathématique.Du pointde vue informatique etpratique, le temps

de he delasolutionoptimaleest un trèsimportantet à delui

que les problèmes d'optimisation binatoiresont réputés si La résolution

desproblèmesd'optimisation binatoireseheurte àlathéoriedela

Ainsi, l'ensemble des solutionsréalisables est déni de manière ilest

parfois très de trouverne qu'une solution réalisable

En pratique, on se tente très souvent d'avoir une solution appro hée, obtenue

parune heuristique ouunemétaheuristique Pour problèmes,onpeutprouver

une garantie de p que entre la solution obtenue et la

solutionoptimale est borné Jusqu'à maintenant un sujet dé malgré que

l'onapas maldes solutions "Lo h", "Simulatedannealing","Quantum

annealing","Tabu h", algorithmes" [10℄

Parmidesheuristiques, Re Lo ale (lo h)[3℄est tréeb

t.À partird'une solutioninitialeonpasse vers une autresolution parun

sé-de hangement lo qui permetd'améliorer la ob e fois

Les hangements sont réalisés jusqu'à l'optimum est trouvé En basant sur héma

de base, on a déjà développé pleins des métaheuristiques qui étend en

dif-férentes et évittent de tomber à optimum lo a pas une valeur qui est tellement

diérentede la valeuroptimalegloblement.Unedes idées de hangerle voisinage

pendant he Cetteidéeest utilisépour uneméta-heuristiquequi

s'ap-peleRe à Voisinages Variables- RVV (VariableNeighborhood h)[8,7,6℄

RVV peut être aisément misen oeuvre ettravaillera n'importe quelle sous-routine

de he lo Son est illustréepar la résolution de plusieurs problèmes

d'optimisation binatoire et aussi globale On a aussi déjà proposé

plu-sieurs extensions pour résoudre des problèmes de grandetaille

Trang 14

Du point de vue t que la d'arbre est en fait de hoisir des

tests pour les noeuds d'ensemble ni des tests possibles ondant à un esemble

des hantillons, on peut examiner le problème de d'arbre de dé

ommeun promblèmed'optimisation ombinatoire.Alors,onespèrequeun algorithme

sebasant sur métaheuristiqueVRR aulieude l'appro he gloutonedes algorithmes

tra-ditionnelsv nous donnerdes arbresmeuilleurs

Par la première question de notre étude est : e que les

algo-rithmestraditionnelsnousdonnentl'optimumglobal?".Autrement-dit eque

l'ap-ation de RVV dans d'arbre peut éer les arbres plus pré en

l'ap-prentissagedesé lonsdonnés?".Dansle óonades résutatspossitifspourla

première hes,on ladeuxième he quiv répondrelaquestion eque

les arbres onstruits à l'aide RVV sont meuilleurs selonles es typiques omme le

testde validation oissée?" unarbreplus peutêtresouritsurajustement

la question nale est e qu'existe une bonne pro édure qui peut augmenter

la pré et déminuer le surajustement à la fois?"

Pour bien répondrề questions, notreétude suit les étape suivantes :

1 ProposerunalgorithmebasésurRVV.Les hes de étapeestde

epter un routine de re lo ale et déterminerla e de voisinage

2 Testera lesdonnéestypiquesàverier du nouveaualgorithme

d'op-timisation.Onv testerselonplusieurs nivaux tletest de he lo

letest de de voisinageetle test d'optimisation.Silesarbres

par des algorithmes traditionnelssont optimiséspar notre algorithme, onespère

qu'à l'aide du nouveau algorithme, on peut améliorer la qualité des arbres de

l'algorithme d'optimisation qui donne des arbres meuilleurs selon les tests de

validation

Lerestedurapportestoganiséen hapitresdanslesquelslesdeuxpremierssont

les hapitre lesdeux suivants présentent notre tributionet ledernière

pour la Avant de présenter notre solution pour le problème proposé, le

hapitre2etla hapitre3abordentles debasede deux relatifs:

l'arbre de et optimisation binatoire Le deuxième hapitre v parler à

Trang 15

Dans le hapitre suivant hapitre 3), on reprend un autre sujet : l'optimisation

binatoire et des méthodes de he heuristique L'optimisation binatoire

reste un des probèmes de NP, alors lessolutions sebasent surtout sur la

des heuristiques ues est herhe Lo (Lo h) Cette heuristique et

des de trlle sont brièvement résumés dans hapitre

Notre tribution est présentée dans le hapitre 4 ó on propose un algorithme

d'arbre par un algorithmetraditionnel.Ensuite, un autre osantde

mé-taheuristiqueVRRquiestla devoisinagesest détaillement.Jereserve

ladernière de hapitrepour expliquer lanouvellepro de

d'arbrede qui est ajoutée une étape d'optimisation Lestests expérimentaux

etleurs résultats sont illustrés dans le hapitre5

À lan, le hapitrede dans lequel je rappellebrièvementrésultats

etdonne des des remarques et aussi des perp es

Trang 16

CLASSIFICATION ET ARBRE DE

DÉCISION

Et parmi plein des modèles de on ne fo que modèle

d'arbre - l'arbre de Il y a deux asp qui sont trés dans tout les

études, sontlesméthodesde d'arbres etd'évaluationdemodèlesnaux

En réalité, des nombreux algorithmes ont été proposés, tous essayent de minimiserla

d'arbre en basant sur le hoix des attributs (des variables) importants,

et pertinent Les hoix sont pris selon des par exemple l'entropie

de Shannon, qui jouent la rle de mesure d'impurété Ces sont le tenu

de la présentant le problème de d'arbre Dans la

suivantede même hapitre,on v sur lestaux d'erreur etle surajutement qui

Après d'avoirbrièvementprésentédes tl'arbrede dans

lapremière le tenu du hapitreest dévisé endeux

pondant à deux asp importants La de l'arbre de

aborde des algorithmes t les à déterminer le test d'un noeud

intérieuroula d'unefeuille.Danslatroisième l'évaluationd'arbre

de est examinéeen deux manières :le tauxd'erreur d'apprentissage etle

sur-ajustement La première évalue t un arbre La deuxième n'indique pas le

résultat nal désiré mais il exprime plus généralementla qualité d'arbre Du point de

vue, la qualité d'arbre est montrée dans une somme des rapports t : le

tauxd'erreur d'apprentissage, le tauxd'erreur estimé etla d'arbre

Trang 17

Engénéral,leterme "Arbrede t deux domaines :lathéoriede

(l'aidede etl'apprentissagedes hines.Dansle premierdomaine,

un arbre de est un graphe des exprimé sous forme des tests sur la

valeurd'un attribut(une variable)etses possiblesquisont ement

lesvaleursd'attribut (variable)de Dans graphe, lesnoeuds intérieurs

repré-sentent les et les feuilles réprésentent les L'ob d'abre de

est de prendre de Unexemple d'un arbre de est illustrépar

Fig.2.1 Exemple d'un arbre de

Dans ledomained'apprentissage des hines,il est essentiellementun modèlede

prévision,plus sp t un modèlede quirépartissentune

popula-tion d'individusen groupes homogènes,selon un ensemble de variables tes

en d'unob xéet u.Ces groupessontappelésdes feuillesde l'arbre

Danslemonde de l'apprentissagedes hines,lesétudes trent surtoutsur des

méthodes de des arbresau lieude l'utilisationdes arbres

En général, il n'y a pas d'une représentation formelle unique pour l'arbre de

sion Dépendant des asp trés, on peut donnerdes représentations formelles

sontla d'arbreetlesparamètresde haquenoeud.Sanspertedelagénéralité,

on peut xer la de l'arbre qui est tourjours sous forme binaire un arbre

peut être transforméà la formebinaire

Trang 18

on représente t les tests sous forme des règles de t.Av un

arbrebinaire,larèglede testune binaire X ≤ xouplus général X ∈ S, dans laquelle S est un ensemble des valeurs possibles d'attribut

X.Souslaforme lestests sontreprésentés par lespartitionsde donnée ouunensemble des hatillons.Les partitionsdes neouds d'enfant sont sous-partitions de la

partitiondu noeud de parent

Enfait, ladeuxième est plus générale etest préférée quand onveut

pour bien montrer les algorithmes de on aime mieux la première

nisme

Il y ade nombreux algorithmesexistés Ils dièrent par les mathématiques

utilisés pour identier parmi toutes les variables disponibles elles qui sont les plus

intéressantes ou àbase de mesured'entropie,de tests du hi2,

de mesure d'impureté ), mais aussi par les types d'obje qu'ils sont de

traiter: variable(s)quantitative(s) (ex:un hired'aaire, une dépense, un revenu ),

variable(s)qualitative(s) (répondre favorablementou non à une marketing,

heter ou non un produit ) Ils se distinguent également, pour les ob de type

qualitatif, par le nombre de modalités qu'ils t de traiter (réponse de type

oui/non, ou réponse de type produit A, produit B, produit C ) Ils se distinguent

par lenombre de feuilles produites à étape de la e de l'arbre :

algorithmes génèrent deux feuilles, on parle alors d'arbres binaires (CART, C5 par

exemple),d'autressont degénérerplusdedeuxfeuilles(CHAIDparexemple)

Ilssedistinguentennparleur ap àgérerdes bases dedonnées omplètes,

à-direvaleursmanquantes Ce dernierpointest essentiel, en entreprise, ilest rare

de travaillera des bases de données parfaites

Pourprésentergénéralementl'idée unedesalgorithmes,onv examinerl'arbre

de du pointde vueó haque noeudreprésenteunepartitionde donnée ouun

sous-ensemble hantillons.Lenoeud ondàladonnée origine(latotale

d'ensemble des hatillonsd'apprentissage).Les sontréalisés sur lesensembles

des hantillons Larègle de t n'a que la symbolique

Informellement,lepro de d'arbre de est en fait un

Trang 19

pro-tion a des hes : vérier la d'arrêt, hoisir une règle de

tionnement, lapartition ondante et la pour le noeud

Le héma général des algorithme de d'arbre de est illustré par

algorithme 1

Algorithme 1 héma de base de d'arbrede - buildTree(S)

Require: S est ensemble hantillons

Les algorithmes se dièrent t par trois : getImpurity(),

getBestT est() et setClass(S) Tous les trois t un ensemble deshantillons une des entrés

• La getImpurity(S)déterminel'impuretéd'unensemble des hantillons

S.En fait,l'impureté de haque algorithme est une mesure inventée oumodiée

sp t sastifait des traints.Les mésures lesplus ues sontle Gini

quisebase sur lesprobabilités de et leGaind'information quise basesur

l'entropiede Sannon

• La getBestT est(S) demande aussil'entrée d'unensemble hantillons

et retourne un test qui maximiser la diminutiond'impureté Cela est équivalent

de minimiserl'impureté d'arbre selon la he gloutone

• La setClass(S) la pourunnoeudbasantsurladistributiondes d'ensemble des hantillons Dans le idéal ó l'impureté est 0,

est très simple.Par tre, vasutiliserdes à

la typiquement,le est lamajoritéquiest un sp

du de minimiserla mauv

Pourbienexpliquer lestrois osants onintroduitdesnotations

Sup-pose que l'on a un ensemble des hantillons S tenant N hantillons de J

Trang 20

Etant donnée que, N j est le nombre de hantillons de j, on a la distributionprieusse {Π j = N j /N}.À un noeud t qui tenant N(t) hantillons, dansles quelles

la j a N j (t) hantillons La proposition de la j au noeud t

est N j (t)/N j Alors,on peut que :

• La mesure p(j, t) = Π j N j (t)/N j est l'estimation de probabilité de ó unehantillon étant j apparaỵtau noeud t

• L'estimationde probabilitéqu'une hantillon apparaitdans noeud t

est p(t) = P

j p(j, t)

• La probabilité qu'une hantillon du noeud t a j est p(j|t) = p(j, t)/p(t).Alors{p(j|t)} est la distribution des aunoeud t

En basant sur notations, on v présenter l'impureté, la règle de hoisir de

2.2.1 Impureté

Engénéral,onaborde l'impuretéd'un noeud quiest essentiellementimpureté d'un

ensemble des hantillons Et l'impureté d'un arbre est un somme

statistiquedes impuretésde noeud.Cettes mesures sont dénitesà partirde dénition

Une d'impureté est une φ dénite sur l'ensemble de N-tuple

(x 1 , , x N ) sastifait x i ≥ 0, i = 1, , N a lespropriété suivantes :

(i) φ est seulement maximaleau point ( N 1 , , N 1 )

(ii) φ est seulement minimaleauxpoints(1, 0, , 0),(0, 1, , 0), ,(0, 0, , 1)

(iii) φ est une symétrique

Par exemple,la Giniest dénite :

Trang 21

Étant donné T est un arbre qui a ensemble des noeuds terminaux T ˜, l'impuretéd'arbreT est I(T )

Larèglede tà haquenoeudest hoisitenutilisantune deux

variable φ(t, r)qui mesurela qualitéde t Le tlemeilleurest quimaximiseφ(t, r).Naturellement,onveutquele t hoisitréduit

leplus l'estimation de mauv de l'arbre Cependant, n'a pas

est prouvé dans le [4℄) Alors, les de hoix de t

sontproposés suivant tla maximisationde diminutiond'impureté

A unnoeud t, unerègle de tr K noeudsd'enfantt 1, ,t K (selonnotre suppose, les arbres binaires, K = 2) Si N(t), N(t 1 ), ,N(t K ) sont les nombresdes hantillons des noeuds t, t 1, ,t K, la diminution d'impureté est selon leformule 2.3 :





Finalement

∆I(t∗, r) = p(t∗)∆i(t∗, r) (2.4)

Trang 22

l'impuretéde haquenoeudterminal.C'est-à-dire,àunnoeudterminalt,onv her

(2.5) De plus, on a proposé un autre qui n'est pas du tout par la

d'impureté.C'est la qu'on appelle "twoing"

Le "twoing" est appliqué pour les problèmes de m et l'arbre

bi-naire À haque noeud, ondivise l'ensemle des C en deux sous-ensemble C 1 et

C 2 = C − C 1 Av un t hoisit, la diminution d'impureté est

le problème de Alors, la diminution est une de trois

va-riables ∆i(t, r, C 1 ) Av un t donné r, le C 1 (r) maximisant∆i(t, r, C 1 )

est

C 1 (r) = {j : p(j|t 1 ) ≥ p(j|t 2 )} (2.6)et

φ(t, r) = p 1 p 2

4



 X

Leplussimplement,on la suivantlamojorité.Cependant,onn'utilise

que règlesiladistributionprieusse de πj estestiméeparNj/N.Danslegénéral,la est unfaittellementquelaprobabilitédemauv

Trang 23

Siondénotequer(t) est l'estimationdeprobabilité de mauv àunnoeud t, selon (2.9), r(t) est déterminé

r(t) = 1 − max

j sont les-mêmes En réalité, est dénit par une C(i|j) qui adeux propriétés suivante

alors (2.10) et(2.11) sontles-mêmes

Un arbre T a l'ensemble des noeuds terminaux T ˜, l'estimation de probabilité de

Plus t, propriété est exprimée t au niveau du noeud par

2.14 Unnoeud t est auxdes noeuds t1, , tK

Trang 24

L'évaluationun arbre est toujours une étapeimportantedans une pro

normalisés pour le faire.Au dépendents des problèmes, des buts et méme si des

h-niques de onpropose des diérents.Dansle général,

lièrementdans ledomaine d'apprentissage des hines, le premier abordé est

l'estimationde probabilité de mauv Mais tpeut-on

détermi-ner mesure? Les solutions sont diérentes La mesure la plus populaire

est l'estimation de taux d'erreur À de mesure, on tre toujours sur le

surajustement qui exprime bien larelation entre trois asp importantsd'un arbre :

l'estimationde tauxd'erreur; tauxd'erreur d'apprentissage etla tailled'arbre

Audébut,letauxd'erreurd'apprentissageest l'estimationdetaux

d'erreur il hitla d'apprentissage, de la des informationset

laréprésentationde donnée Cependant, un arbre est toujours utilisé

un pour des nouvelles données Alors, mesure n'est pas vraiment

utile.Naturellement,onestime letauxd'erreur en testant lesarbres a un ensemble

des hatilons séparées de l'ensemble d'apprentissage Toutefois, quand l'ensemble de

testn'a pas susamment hantillons, lerésultatn'estpas sûr.Dans là,onv

une hnique quis'appellevalidation oissée t, hnique

des itérations de et de test Le résultat nal est le moyen des

résultatsde haque itération

Lorsque l'on un arbre de on risque que l'on appelleun

surajustement du modèle : le modèle semble performant (son erreur moyenne est très

faible)maisilne l'estenréalitépasdutout!Passer d'unmodèle àun modèle

opérationd'élagage de l'arbre.Plusieurstypesd'algorithmesd'élagages sont possibles

Ils sontgénéralementdiérentsd'un type d'arbreà un autre

Latailled'arbreest souvent étudiée une mesure en

des arbres On préfère toujous lesmodèles simples.Un jugement qui dit "Unarbre A

est plus simple que un autre B" hit deux hoses Premièrement, on doit fournir

des informationsau A moins queB en utilisationmais obtientle même résultat.Bien

sûr quel'on doit supposer quedeux arbres ontlamême Deuxièment,l'arbre

Aest plusgénéralque B C'est-à-dire,l'arbreA est plus queB etpeut être

appliquéplus largementque B

Trang 25

vés Parexemple,dansnotretravail,onadéniunemesurequis'appelle"P

des informationsdes arbres

Trang 26

OPTIMISATION COMBINATOIRE ET

Denotrejour,lesrésultatsdesétudesen heOpérationnellenouspermettent

de resoudre plein de problèmes réels Cependant tous les solutions n'assurent qu'une

oudes deproblème lesappro hes oubiensont a des ts

sp ou biense basentsur les heuristiquesqui ne sontpas déterminées, pas

pro-vables En général, l'idée d'utilisation des heuristiques est toujours proposée Et pour

surmonterdesissues tomberdanslesoptimalo oninventedes

pour trller les heuristiques Ces s'appellent méta-heurisitques Dans

notre étude, on ne tre que la heuristique "Re Lo ale" qui he une

meuilleuresolutionàpartird'unesolutioninitialepardes hangementspetits

hange-mentslo Etonne treaussiquelamétaheuristique"Re àVoisinage

Variable"parmipleindesméta-heuristique,parexempleMulti-InitialesAdaptives,

Re-he à Profondeurs Variables, he de Tabu

Le edelaméta-heuristique he àVoisinageVariableest dansla

première Lesdeux restéesabordentlesextensionsde deux osants

la Re Lo ale etla e de Voisinages

he Lo est un des typesde heuristiquequi sontsouventutilisés.Le

prin-e de heurisitique est de visiter des solutions possibles à partir d'une solution

initiale par des lo aux qui peuvent améliorer la valeur de

d'ob-La s'arrêtesi l'on ne peut pas trouver un nouveau optimum lo Il

ya desméta-heuristiques proposéesàsurmonterdes issues de he

Trang 27

nition de traje e d'exploitation, RVV augmente systèmatiquement le "rayon" de

Voisinage[7℄ Cette appro hes assure que l'on peut garder les valuers optimales des

variables (des osants) dans la solution optimal te Sp t, RVV

exploite systèmatiquement des observations suivante[8℄

• Unesolution est optimum lo dans un voisinage mais n'est pas dans un autre

• Un optimum global est l'optimum lo dans tous les voisinages

• Optimalo ondant à un ou plusieurs voisinages peuvent tenir desmêmes osants- lesvaleurs optimalesdes variables

Le hémade base de he Voisinages Variables est illustrédans l'algorithme

2

Algorithme 2 héma de base de he VoisinagesVariables

Require: N = {N 1 , , N K } est une de voisinage osant K

N k (x)déterminant lesvoisins d'une solutionx

Require: localSearch(x)estune de helo quiretourneunesolutionmeuilleusse qui est diérente de x si l'on lz trouve, si non elle retourne la mêmesolution x

Dans algorithme, il y a deux importants, sont la de

voi-sinage N et la de he lo localSearche Au depend des problèmes

sp ondénit diérentement deux Cependant, onaproposé aussi

des pourétendrede osantsenespèrantdebienappliquerdansdesgrande

des problèmes

Định dạng
Số trang	54
Dung lượng	303,31 KB