classi cation djeffal arbres de d ecision · minimise la taille de l’arbre et maximise la pr...
TRANSCRIPT
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ClassificationArbres de decision
Dr A. DJEFFAL
2eme annee Master Informatique Decisionnelle & Multimedia
2015-2016
www.abdelhamid-djeffal.net
1 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
PrincipeDefinition
Une methode tres efficace d’apprentissage supervise.
Partitionne un ensemble de donnees en des groupes lesplus homogenes possible du point de vue de la variable apredire.
On prend en entree un ensemble de donnees classees,
On fournit en sortie un arbre ou :
chaque nœud final (feuille) represente une decision (uneclasse)chaque nœud non final (interne) represente un test.Les branches representent les resultats des tests
Chaque feuille represente la decision d’appartenance a uneclasse des donnees verifiant tous les tests du cheminmenant de la racine a cette feuille.
2 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
PrincipeExemple
L’exemple suivant montre un ensemble de donnees avecquatre attributs : Ensoleillement, Temperature, Humidite,Vent et l’attribut a predire Jouer.
3 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
PrincipeExemple
L’arbre appris a partir de cet ensemble de donnee est lesuivant :
4 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
PrincipeExemple
En effet, toutes les donnees ayant l’attributEnsoleillement=”Soleil” et l’attribut Humidite>77.5appartiennent a la classe 1 (”oui”).
Toute nouvelle donnee peut etre classee en testant sesvaleurs d’attributs l’un apres l’autre en commencant de laracine jusqu’a atteindre une feuille c’est-a-dire unedecision.
5 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ConstructionGeneralites
Pour construire un tel arbre, plusieurs algorithmesexistent : ID3, CART, C4.5,...etc.
On commence generalement par le choix d’un attribut puisle choix d’un nombre de criteres pour son nœud.
On cree pour chaque critere un nœud concernant lesdonnees verifiant ce critere.
L’algorithme continue d’une facon recursive jusqu’a obtenirdes nœuds concernant les donnees de chaque meme classe.
6 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ConstructionAlgorithme de base
L’arbre est construit recursivement de haut en bas selon leprincipe ”diviser pour regner”
Au debut tous les exemples sont dans la racine
Les attributs sont categoriels (si continus, il doivent etrediscretises)
Les exemples sont partitionnes recursivement selon lesattributs selectionnes
7 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ConstructionAlgorithme de base
Les attributs sont selectionnes selon des heuristiques oudes statistiques (gain d’informations) classe.
Conditions d’arret
Tous les exemples d’un nœud appartiennent a la memeclasseIl n y a plus d’attributs pour plus de partitionnement : lamajorite est employee pour classer une feuilleIl n y a plus d’exemples restants.
8 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ConstructionAlgorithme CONSTRUIRE-ARBRE(D : ensemble de donnees)
Creer nœud N
Si tous les exemples de D sont de la meme classe C alorsRetourner N comme une feuille etiquetee par C ;
Si la liste des attributs est vide alorsRetourner N Comme une feuille etiquetee de la classe dela majorite dans D ;
Selectionner l’attribut A du meilleur Gain dans D ;
Etiqueter N par l’attribut selectionne ;
Liste d’attributs ← Liste d’attributs - A ;Pour chaque valeur Vi de A Faire
Soit Di l’ensemble d’exemples de D ayant la valeur deA = Vi ;Attacher a N le sous arbre genere par l’ensemble Di et laliste d’attributs
FinPour ;Fin ;
9 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
ConstructionProblemes a resoudre
En realite ce n’est pas si simple, plusieurs problemes doiventetre resolus :
Comment choisir l’attribut qui separe le mieux l’ensemblede donnees ? On parle souvent de la variable desegmentation.
Comment choisir les criteres de separation d’un ensembleselon l’attribut choisi, et comment ces criteres varientselon que l’attribut soit numerique ou symbolique ?
Quel est le nombre optimal du nombre de criteres quiminimise la taille de l’arbre et maximise la precision ?
Quels sont les criteres d’arret de ce partitionnement,sachant que souvent l’arbre et d’une taille gigantesque ?
10 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Choix d’attributGeneralite
Il s’agit de choisir parmi les attributs des donnees, celuiqui les separe le mieux du point de vue de leurs classesdeja connues.
Pour choisir le meilleur attribut, on calcule pour chacunune valeur appelee ”Gain” qui depend des differentesvaleurs prises par cet attribut.
Cette mesure est basee sur les recherches en theoried’informations menees par C.Shannon.
11 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Choix d’attributGeneralite
Par exemple :
Gain d’ information (ID3/C4.5)
Tous les attributs sont categorielsPeut etre modifie pour les attributs numeriques
Gini index (IBM IntelligentMiner)
Tous les attributs sont continusSupposons qu’il ya plusieurs splits possibles pour chaqueattributPeut etre modifie pour les valeurs categoriels.
12 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationPrincipe (1)
Selectionner l’attribut du gain le plus eleve
Supposons qu’il y a deux classes P et N
Soit l’ensemble d’exemples S contenant p exemples de laclasse P et n exemples de la classe N
La quantite d’information necessaire pour decider qu’unexemple dans S appartienne a P ou N est definie par :
H(S) = -p
p + nlog2(
p
p + n)-
n
p + nlog2(
n
p + n)
13 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationPrincipe (1)
Supposons qu’en utilisant l’attribut A un ensemble S seradivise en {S1, S2, ..., Sv}Si Si contient pi exemples de P et ni exemples de N,l’entropie, ou l’information attendus necessaire pourclassifier les objets dans le sous arbre Si est :
H(A) =v∑
i=1
pi + ni
p + nH(Si)
Le codage d’information qui peut etre gagne en sebranchant a A est
Gain(A) = H(S)−H(A)
14 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationPrincipe (2)
Soit un ensemble X d’exemples dont une proportion p+
sont positifs et une proportion p- sont negatifs.
Bien entendu, p+ + p- = 1L’entropie de X est :
H(X) = -p+log2(p+)-p-log2(p-)
Biensur0 ≤ H(X) ≤ 1
15 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationPrincipe (3)
Si p+ = 0 ou p- = 0, alors H(X) = 0.
Ainsi, si tous exemples sont soit tous positifs, soit tousnegatifs, l’entropie de la population est nulle.
Si p+ = p- = 0.5, alors H(X) = 1.
Ainsi, s’il y a autant de positifs que de negatifs, l’entropieest maximale.
Gain(X, aj) = H(X)-∑
v∈valeurs(aj)
|Xaj=v||X|
H(Xaj=v)
Xaj=v, est l’ensemble des exemples dont l’attributconsidere aj prend la valeur v,
la notation |X| indique le cardinal de l’ensemble X.
16 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationExemple
Le Gain du champs ”Vent” de la table precedente est calculecomme suit :
Gain(X, vent) = H(X)− 914H(Xa=oui)− 5
14H(Xa=non)On a :H(X) = − 5
14 ln2514 −
914 ln2
914 = 0.940
H(Xa=non) = −(68 ln2
68 + 2
8 ln228) = 0.811
EtH(Xa=oui) = −(3
6 ln236 + 3
6 ln236) = 1.0
D′ou :Gain(X, vent) = 0.940− 9
14 ∗ 0.811− 514 ∗ 1.0
= 0.048
17 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationExercice
Determiner l’arbre de decision deduit de la table suivante :
18 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gain d’informationExercice
19 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Gini IndexGini Index (IBM IntelligentMiner)
Si une base T contient des exemples de n classes, giniindex, gini(T) est defini par :
Gini(T ) = 1-n∑
j=1
p2j
ou pj est la frequence de la classe j dans T .
Si la base T est partitionnee en deux bases T1 et T2 detailles N1 et N2 respectivement, le gini index gini(T ) dupartitionnement est defini par :
Ginisplit(T ) =N1
Ngini(T1) +
N2
Ngini(T2)
L’attribut de Ginisplit(T ) minimum est choisi pour diviserle nœud
20 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Taille de l’ADChoix de la bonne taille de l’arbre
AD construit peut etre d’une taille tres importanteepuisant les ressources de calcul et de stockage.
Solution ⇒ elagage :eliminer de l’AD les branches lesmoins significatives (deduisant d’un min d’exemples ou deappartenant a diff classes).
Elagage avant ou apres l’apprentissage (pre etpost-elagage)
21 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Taille de l’ADPre-elagage
Effectue lors de la construction de l’arbre,
lorsqu’on calcule les caracteristiques statistiques d’unepartie des donnees tel que le gain, on peut decider del’importance ou non de sa subdivision,
ainsi on coupe completement des branches qui peuventetre generee.
22 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Taille de l’ADPost-elagage
Effectue apres la construction de l’arbre en coupant dessous arbres entiers et en les remplacant par des feuillesrepresentant la classe la plus frequente dans l’ensemble desdonnees de cet arbre.
On commence de la racine et on descend,
pour chaque nœud interne (non feuille), on mesure sacomplexite avant et apres sa coupure (son remplacementpar une feuille),
si la difference est peu importante, on coupe le sous arbreet on le remplace par une feuille.
23 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
AlgorithmesLe algorithmes basiques : ID3
Algorithme ID3
ID3 construit l’arbre de decision recursivement.A chaque etape de la recursion, il calcule parmi lesattributs restant pour la branche en cours, celui quimaximisera le gain d’information.Le calcul ce fait a base de l’entropie de Shanon dejapresentee.L’algorithme suppose que tous les attributs sontcategoriels ;Si des attributs sont numeriques, ils doivent etre descritisespour pouvoir l’appliquer.
24 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
AlgorithmesLe algorithmes basiques : C4.5
Algorithme C4.5 (J48)C’est une amelioration de l’algorithme ID3,Prend en compte les attributs numerique ainsi que lesvaleurs manquantes.L’algorithme utilise la fonction du gain d’entropie combineavec une fonction SplitInfo pour evaluer les attributs achaque iteration.Attributs discrets : Gain et permet le regroupement,Attributs continus : Segmentes par un expert, sinon :
trier l’attributprendre les seuils ai + ai+1/2 (ai et ai+1 deux valeursconsecutives de l’attribut)prendre les compositions de meilleur gain
Valeurs manquante :pour le test : prendre la classe majoritairepour l’entrainement prendre la distribution des valeursconnues25 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
AlgorithmesLe algorithmes basiques : CART
Algorithme CART
”Classification And Regression Trees”,analogue a l’algorithme ID3 mais arbre binaire et l’indicede GiniA un attribut binaire correspond un test binaire.A un attribut qualitatif ayant n modalites, on peut associerautant de tests qu’il y a de partitions en deux classes, soit2n − 1 tests binaires possibles.Enfin, dans le cas d’attributs continus : discretiser puisrevenir au cas qualitatif
26 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Extraction des reglesPrincipe
Representer sous forme de regles IF-THEN
Une regle est cree pour chaque chemin de la racine versune feuille
Chaque paire de valeurs d’attributs forme une conjonction
Les feuilles representent les classes predites
Les regles sont faciles a comprendre pour les humainsExemple
IF age = ”630” AND student = ”no” THENbuys computer = ”no”IF age = ”6” AND student = ”yes” THENbuys computer = ”yes”IF age = ”31..40” THEN buys computer = ”yes”IF age = ”>40” AND credit rating = ”excellent” THENbuys computer = ”yes”IF age = ”>40” AND credit rating = ”fair” THENbuys computer = ”no”
27 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
AvantagesAvantages
Une bonne vitesse d’entrainement par rapport a d’autremethodes
Convertible a de simples et comprehensibles regles
Possibilite d’utilisation des requetes SQL pour acceder auxBDDs
Une precision comparable a d’autres methodes
28 / 29
ClassificationArbres dedecision
Dr A.DJEFFAL
Principe
Construction
Choixd’attribut
Gaind’information
Gini Index
Taille de l’AD
Algorithmes
Extraction desregles
Avantages
Algorithmesscalables
Algorithmes scalables3
SLIQ (EDBT’96 - Mehta et al.)Construit un index pour chaque attribut et seulement laliste de la classe et la liste de l’attribut en cours enmemoire.
SPRINT (VLDB’96 - J. Shafer et al.)Consrtuit une structure de la liste d’un attribut
PUBLIC (VLDB’98 - Rastogi & Shim)Integre le partitionnement et l’elagage : arreter tot ledeveloppement de l’arbre
...
29 / 29