classi cation djeffal arbres de d ecision · minimise la taille de l’arbre et maximise la pr...

ClassificationArbres dedecision

Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes

Extraction desregles

Avantages

Algorithmesscalables

ClassificationArbres de decision

Dr A. DJEFFAL

2eme annee Master Informatique Decisionnelle & Multimedia

2015-2016

www.abdelhamid-djeffal.net

1 / 29

http://www.abdelhamid-djeffal.net


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


PrincipeDefinition

Une methode tres efficace d’apprentissage supervise.

Partitionne un ensemble de donnees en des groupes lesplus homogenes possible du point de vue de la variable apredire.

On prend en entree un ensemble de donnees classees,

On fournit en sortie un arbre ou :

chaque nœud final (feuille) represente une decision (uneclasse)chaque nœud non final (interne) represente un test.Les branches representent les resultats des tests

Chaque feuille represente la decision d’appartenance a uneclasse des donnees verifiant tous les tests du cheminmenant de la racine a cette feuille.

2 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


PrincipeExemple

L’exemple suivant montre un ensemble de donnees avecquatre attributs : Ensoleillement, Temperature, Humidite,Vent et l’attribut a predire Jouer.

3 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


PrincipeExemple

L’arbre appris a partir de cet ensemble de donnee est lesuivant :

4 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


PrincipeExemple

En effet, toutes les donnees ayant l’attributEnsoleillement=”Soleil” et l’attribut Humidite>77.5appartiennent a la classe 1 (”oui”).

Toute nouvelle donnee peut etre classee en testant sesvaleurs d’attributs l’un apres l’autre en commencant de laracine jusqu’a atteindre une feuille c’est-a-dire unedecision.

5 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


ConstructionGeneralites

Pour construire un tel arbre, plusieurs algorithmesexistent : ID3, CART, C4.5,...etc.

On commence generalement par le choix d’un attribut puisle choix d’un nombre de criteres pour son nœud.

On cree pour chaque critere un nœud concernant lesdonnees verifiant ce critere.

L’algorithme continue d’une facon recursive jusqu’a obtenirdes nœuds concernant les donnees de chaque meme classe.

6 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


ConstructionAlgorithme de base

L’arbre est construit recursivement de haut en bas selon leprincipe ”diviser pour regner”

Au debut tous les exemples sont dans la racine

Les attributs sont categoriels (si continus, il doivent etrediscretises)

Les exemples sont partitionnes recursivement selon lesattributs selectionnes

7 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


ConstructionAlgorithme de base

Les attributs sont selectionnes selon des heuristiques oudes statistiques (gain d’informations) classe.

Conditions d’arret

Tous les exemples d’un nœud appartiennent a la memeclasseIl n y a plus d’attributs pour plus de partitionnement : lamajorite est employee pour classer une feuilleIl n y a plus d’exemples restants.

8 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


ConstructionAlgorithme CONSTRUIRE-ARBRE(D : ensemble de donnees)

Creer nœud N

Si tous les exemples de D sont de la meme classe C alorsRetourner N comme une feuille etiquetee par C ;

Si la liste des attributs est vide alorsRetourner N Comme une feuille etiquetee de la classe dela majorite dans D ;

Selectionner l’attribut A du meilleur Gain dans D ;

Etiqueter N par l’attribut selectionne ;

Liste d’attributs ← Liste d’attributs - A ;Pour chaque valeur Vi de A Faire

Soit Di l’ensemble d’exemples de D ayant la valeur deA = Vi ;Attacher a N le sous arbre genere par l’ensemble Di et laliste d’attributs

FinPour ;Fin ;

9 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


ConstructionProblemes a resoudre

En realite ce n’est pas si simple, plusieurs problemes doiventetre resolus :

Comment choisir l’attribut qui separe le mieux l’ensemblede donnees ? On parle souvent de la variable desegmentation.

Comment choisir les criteres de separation d’un ensembleselon l’attribut choisi, et comment ces criteres varientselon que l’attribut soit numerique ou symbolique ?

Quel est le nombre optimal du nombre de criteres quiminimise la taille de l’arbre et maximise la precision ?

Quels sont les criteres d’arret de ce partitionnement,sachant que souvent l’arbre et d’une taille gigantesque ?

10 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Choix d’attributGeneralite

Il s’agit de choisir parmi les attributs des donnees, celuiqui les separe le mieux du point de vue de leurs classesdeja connues.

Pour choisir le meilleur attribut, on calcule pour chacunune valeur appelee ”Gain” qui depend des differentesvaleurs prises par cet attribut.

Cette mesure est basee sur les recherches en theoried’informations menees par C.Shannon.

11 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Choix d’attributGeneralite

Par exemple :

Gain d’ information (ID3/C4.5)

Tous les attributs sont categorielsPeut etre modifie pour les attributs numeriques

Gini index (IBM IntelligentMiner)

Tous les attributs sont continusSupposons qu’il ya plusieurs splits possibles pour chaqueattributPeut etre modifie pour les valeurs categoriels.

12 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Gain d’informationPrincipe (1)

Selectionner l’attribut du gain le plus eleve

Supposons qu’il y a deux classes P et N

Soit l’ensemble d’exemples S contenant p exemples de laclasse P et n exemples de la classe N

La quantite d’information necessaire pour decider qu’unexemple dans S appartienne a P ou N est definie par :

H(S) = -p

p + nlog2(

p

p + n)-

n

p + nlog2(

n

p + n)

13 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages



Supposons qu’en utilisant l’attribut A un ensemble S seradivise en {S1, S2, ..., Sv}Si Si contient pi exemples de P et ni exemples de N,l’entropie, ou l’information attendus necessaire pourclassifier les objets dans le sous arbre Si est :

H(A) =v∑

i=1

pi + ni

p + nH(Si)

Le codage d’information qui peut etre gagne en sebranchant a A est

Gain(A) = H(S)−H(A)

14 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages



Soit un ensemble X d’exemples dont une proportion p+

sont positifs et une proportion p- sont negatifs.

Bien entendu, p+ + p- = 1L’entropie de X est :

H(X) = -p+log2(p+)-p-log2(p-)

Biensur0 ≤ H(X) ≤ 1

15 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages



Si p+ = 0 ou p- = 0, alors H(X) = 0.

Ainsi, si tous exemples sont soit tous positifs, soit tousnegatifs, l’entropie de la population est nulle.

Si p+ = p- = 0.5, alors H(X) = 1.

Ainsi, s’il y a autant de positifs que de negatifs, l’entropieest maximale.

Gain(X, aj) = H(X)-∑

v∈valeurs(aj)

|Xaj=v||X|

H(Xaj=v)

Xaj=v, est l’ensemble des exemples dont l’attributconsidere aj prend la valeur v,

la notation |X| indique le cardinal de l’ensemble X.

16 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Gain d’informationExemple

Le Gain du champs ”Vent” de la table precedente est calculecomme suit :

Gain(X, vent) = H(X)− 914H(Xa=oui)− 5

14H(Xa=non)On a :H(X) = − 5

14 ln2514 −

914 ln2

914 = 0.940

H(Xa=non) = −(68 ln2

68 + 2

8 ln228) = 0.811

EtH(Xa=oui) = −(3

6 ln236 + 3

6 ln236) = 1.0

D′ou :Gain(X, vent) = 0.940− 9

14 ∗ 0.811− 514 ∗ 1.0

= 0.048

17 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Gain d’informationExercice

Determiner l’arbre de decision deduit de la table suivante :

18 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Gain d’informationExercice

19 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Gini IndexGini Index (IBM IntelligentMiner)

Si une base T contient des exemples de n classes, giniindex, gini(T) est defini par :

Gini(T ) = 1-n∑

j=1

p2j

ou pj est la frequence de la classe j dans T .

Si la base T est partitionnee en deux bases T1 et T2 detailles N1 et N2 respectivement, le gini index gini(T ) dupartitionnement est defini par :

Ginisplit(T ) =N1

Ngini(T1) +

N2

Ngini(T2)

L’attribut de Ginisplit(T ) minimum est choisi pour diviserle nœud

20 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Taille de l’ADChoix de la bonne taille de l’arbre

AD construit peut etre d’une taille tres importanteepuisant les ressources de calcul et de stockage.

Solution ⇒ elagage :eliminer de l’AD les branches lesmoins significatives (deduisant d’un min d’exemples ou deappartenant a diff classes).

Elagage avant ou apres l’apprentissage (pre etpost-elagage)

21 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Taille de l’ADPre-elagage

Effectue lors de la construction de l’arbre,

lorsqu’on calcule les caracteristiques statistiques d’unepartie des donnees tel que le gain, on peut decider del’importance ou non de sa subdivision,

ainsi on coupe completement des branches qui peuventetre generee.

22 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Taille de l’ADPost-elagage

Effectue apres la construction de l’arbre en coupant dessous arbres entiers et en les remplacant par des feuillesrepresentant la classe la plus frequente dans l’ensemble desdonnees de cet arbre.

On commence de la racine et on descend,

pour chaque nœud interne (non feuille), on mesure sacomplexite avant et apres sa coupure (son remplacementpar une feuille),

si la difference est peu importante, on coupe le sous arbreet on le remplace par une feuille.

23 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


AlgorithmesLe algorithmes basiques : ID3

Algorithme ID3

ID3 construit l’arbre de decision recursivement.A chaque etape de la recursion, il calcule parmi lesattributs restant pour la branche en cours, celui quimaximisera le gain d’information.Le calcul ce fait a base de l’entropie de Shanon dejapresentee.L’algorithme suppose que tous les attributs sontcategoriels ;Si des attributs sont numeriques, ils doivent etre descritisespour pouvoir l’appliquer.

24 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


AlgorithmesLe algorithmes basiques : C4.5

Algorithme C4.5 (J48)C’est une amelioration de l’algorithme ID3,Prend en compte les attributs numerique ainsi que lesvaleurs manquantes.L’algorithme utilise la fonction du gain d’entropie combineavec une fonction SplitInfo pour evaluer les attributs achaque iteration.Attributs discrets : Gain et permet le regroupement,Attributs continus : Segmentes par un expert, sinon :

trier l’attributprendre les seuils ai + ai+1/2 (ai et ai+1 deux valeursconsecutives de l’attribut)prendre les compositions de meilleur gain

Valeurs manquante :pour le test : prendre la classe majoritairepour l’entrainement prendre la distribution des valeursconnues25 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


AlgorithmesLe algorithmes basiques : CART

Algorithme CART

”Classification And Regression Trees”,analogue a l’algorithme ID3 mais arbre binaire et l’indicede GiniA un attribut binaire correspond un test binaire.A un attribut qualitatif ayant n modalites, on peut associerautant de tests qu’il y a de partitions en deux classes, soit2n − 1 tests binaires possibles.Enfin, dans le cas d’attributs continus : discretiser puisrevenir au cas qualitatif

26 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Extraction des reglesPrincipe

Representer sous forme de regles IF-THEN

Une regle est cree pour chaque chemin de la racine versune feuille

Chaque paire de valeurs d’attributs forme une conjonction

Les feuilles representent les classes predites

Les regles sont faciles a comprendre pour les humainsExemple

IF age = ”630” AND student = ”no” THENbuys computer = ”no”IF age = ”6” AND student = ”yes” THENbuys computer = ”yes”IF age = ”31..40” THEN buys computer = ”yes”IF age = ”>40” AND credit rating = ”excellent” THENbuys computer = ”yes”IF age = ”>40” AND credit rating = ”fair” THENbuys computer = ”no”

27 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


AvantagesAvantages

Une bonne vitesse d’entrainement par rapport a d’autremethodes

Convertible a de simples et comprehensibles regles

Possibilite d’utilisation des requetes SQL pour acceder auxBDDs

Une precision comparable a d’autres methodes

28 / 29


Dr A.DJEFFAL

Principe

Construction

Choixd’attribut

Gaind’information

Gini Index

Taille de l’AD

Algorithmes


Avantages


Algorithmes scalables3

SLIQ (EDBT’96 - Mehta et al.)Construit un index pour chaque attribut et seulement laliste de la classe et la liste de l’attribut en cours enmemoire.

SPRINT (VLDB’96 - J. Shafer et al.)Consrtuit une structure de la liste d’un attribut

PUBLIC (VLDB’98 - Rastogi & Shim)Integre le partitionnement et l’elagage : arreter tot ledeveloppement de l’arbre

...

29 / 29

classi cation djeffal arbres de d ecision · minimise la taille de l’arbre et maximise la pr...

Documents