rym guibadj - lisic - laboratoire d’informatique signal ...guibadj/ia3/apprentissage.pdf · un...

..Introduction PPV Arbre de décision Perceptron Réseau de neurones

.

.Apprentissage automatique

Rym Guibadj

LISIC, EILCO

Rym Guibadj Apprentissage automatique 1 / 114


.Contenu..

.

IntroductionApprentissage superviséApprentissage non superviséApprentissage par renforcement

.Volume horaire..

.

6 x (1h30) Cours3 x 3h TD3 x 3h TP

.Evaluation..

.

TPExamenNote module = 0.3 x TP + 0.7 x Examen



Références

Apprentissage artificiel : Concepts et algorithmes, AntoineCornuéjols et Laurent MicletIntelligence Artificielle, Stuart Russel et Perter Norving, editionPearsonNotes du cours de Fabien Tytaud (Université du Littoral Côted’Opale)



Apprentissage automatique

.5 domaines de l’IA..

.

Déduction logiqueRésolution de problèmesApprentissage automatique (artificiel)Représentation des connaissancesSystèmes multiagents




.Définitions..

.

L’apprentissage automatique fait référence audéveloppement, à l’analyse et à l’implémentation de méthodesqui permettent à une machine d’évoluer et ainsi de remplirdes tâches qu’il est difficile ou impossible de remplir par desmoyens algorithmiques plus classiques.

"L’apprentissage dénote des changements dans un systèmequi ... lui permet de faire la même tâche plus efficacement laprochaine fois". Herbert Simon.




On dira qu’une machine apprend dès lors qu’elle change sastructure, son programme ou ses données en fonction dedonnées en entrée ou de réponses à son environnement de sorteà ce que ses performance futures deviennent meilleures

L’objectif de l’apprentissage automatique est de concevoirdes programmes pouvant s’améliorer automatiquementavec l’expérience



Pourquoi l’apprentissage automatique ?

Certaines tâches ne sont bien définies que via un ensembled’exemples

Pour découvrir des relations importantes dans des données(fouille de données)

Les machines peuvent ne pas fonctionner sur tous lesenvironnements

La quantité de connaissances disponibles à propos de certainessituations sont telles que le cerveau humain ne puisse lesexpliciter

L’environnement change constamment



Exemples de systèmes apprenant :

Un robot ayant la capacité de bouger ses membres mais nesachant initialement rien de la coordination des mouvementspermettant la marche, peut apprendre à marcher.

La reconnaissance de caractères manuscrits est une tâchecomplexe car deux caractères similaires ne sont jamaisexactement égaux



Des applications diverses :

Reconnaissance de la parole.Diagnostique médical.Moteurs de recherche.Les jeux.Conduite autonome....



Classification, classement, régression

Classification : Reconnaître des classes à partir de leursdescripteurs.Régression : Classification sur des valeurs numériques.Clustering : Regrouper des ensembles d’exemples nonsupervisés en classes.



Exemple d’apprentissage :

Imaginons un étang sur lequel nagent des oies et des cygnes(nous admettons qu’il n’y a pas d’autres oiseaux dans cetterégion).Deux personnes arrivent dont l’un est expert et l’autredébutant.Le débutant souhaite apprendre à distinguer une oie d’uncygne. Il doit se contenter de mesurer ce qui lui paraîtcaractéristique : le niveau de gris du plumage et la taille de labête.




Le premier graphique représente les mesures de chaque oiseauprise par l’amateurLe second graphique représente les mêmes oiseaux étiquetéspar l’expert




Il faut maintenant que l’amateur trouve une règle permettantde séparer les exemples en minimisant l’erreur.




Une règle de décision simple et une règle de décision complexepour séparer les oies des cygnes.




Le test de la règle simple sur d’autres oiseaux.



Types d’apprentissage :

Apprentissage superviséChaque exemple est associé à une étiquetteObjectif : prédire l’étiquette de chaque donnéeLe système apprend à classer les données

Apprentissage non superviséLes exemples ne sont pas étiquetésObjectif : trouver une structure aux donnéesLe système apprend une classification des données

Apprentissage par renforcementLes exemples sont (parfois) associés à une récompense ou unepunitionObjectif : trouver les actions qui maximisent les récompensesLe système apprend une politique de décision



Apprentissage supervisé

Aussi appelé analyse discriminante

Les données d’apprentissage sont etiquetéesUn expert ou oracle doit préalablement étiqueter desexemples.

Le processus se passe en deux phases :

La phase d’apprentissage (hors ligne ) : déterminer unmodèle de données étiquetéesLa phase de test (en ligne ) : prédire l’étiquette d’unenouvelle donnée, connaissant le modèle préalablement appris.



Définition formelle

Données d’apprentissageN couples entrée sortie (xn, yn)1<=n<=N avec xn ∈ X etyn ∈ YOn suppose que ces données sont tirées selon une loi (deprobablilité) inconnue

Objectif de l’apprentissagedéterminer une fonction de prédiction f : X → Y qui soit enaccord avec le données d’apprentissage

.Les différentes représentations..

.

Si f est une fonction continue on parle alors de régression.Si f est une fonction discrète on parle alors de classification.Si f est une fonction binaire on parle alors d’apprentissage deconcept.



Méthodes d’apprentissage supervisé

.Liste non exhaustive..

.

Les k plus proches voisins

Arbre de décision

Les réseaux de neurones

Les machines à vecteur support

etc.



Algorithme des K plus proches voisins.Comment classer le carré noir ?..

.Rym Guibadj Apprentissage automatique 20 / 114


Algorithme des K plus proches voisins.Comment classer le carré noir ?..

.Rym Guibadj Apprentissage automatique 21 / 114


Algorithme des K plus proches voisins

.Comment classer le carré noir ?..

.

On cherche le plus proche voisin.On tag le nouveau point avec la classe correspondante.

.Cas des points aberrants..

.

Un point aberrant change fortement la frontière apprise.Comportement non souhaité.

.Une solution..

.

Utiliser plus de 1 voisin.Compter les K plus proches voisins et prendre la classedominante.




Choix de K ?




Données :L’ensemble des points d’apprentissage (xi , yi ).Le nouveau point à classer x .

Algorithme :Toutes les distances D(xi , x).Sélection des K plus proches exemples x1...xk .Choix de la classe la plus présente parmi les y1...ykcorrespondants.



Arbres de décision

Exemple :

Température < 37,5

Gorge irritée

oui non

oui non

malade

malade

bien portant



Arbres de décision

Exemple :

Température < 37,5

Gorge irritée

oui non

oui non

malade

malade

bien portant

Remarque : un arbre code en fait un ensemble de régles(conjonctions, disjonctions)

SI Température < 37.5 ET gorge irritée ALORS maladeSI Température < 37.5 ET gorge non irritée ALORS maladeSI Température <= 37.5 ALORS malade



Arbres de décision

Un arbre de décision est un arbre au sens informatique

Les noeuds internes sont les noeuds de décision.

Un noeud de décision est étiqueté par un test qui peut êtreappliqué à chaque description d’un individu d’une population.

Chaque test examine la valeur d’un unique attribut.

Dans les arbres de décision binaires on omet les labels des arcs.

Les feuilles sont étiquetées par une classe.



Arbres de décision

.Construction d’un arbre :..

.

Noeuds internes : sélectionner un attribut comme étiquette,les arcs sont étiquetés par les valeurs de l’attributFeuilles : couper l’arbre avec une valeur de l’attribut cible

.On veut en général :..

.

Un taux d’erreur faibleUne bonne généralisationUn arbre de petite taille compréhensible pour un non expertetc.

Nombreux algos : ID3, C4.5, CART, CHAID, algo. évo., etc.



Exemple : Banque

client M A R E I1 moyen moyen village oui oui2 élevé moyen bourg non non3 faible âgé bourg non non4 faible moyen bourg oui oui5 moyen jeune ville oui oui6 élevé âgé ville oui non7 moyen âgé ville oui non8 faible moyen village non non

M : La moyenne des montants sur le compteA : Tranche d’âge du clientR : Localité de résidence du clientE : Etudes supérieuresI : Consultation du compte par Internet

On veut construire un arbre de décision pour savoir si un clientconsulte son compte par Internet.



Exemple : Banque

On construit l’arbre d’une façon descendante

On choisit un test, on divise l’ensemble d’apprentissage S eton réapplique récursivement l’algorithme.

On initialise avec l’arbre vide.

Des 8 éléments de S , 3 sont de classe oui et 5 de classe non.

S est caractérisée par (3, 5).

Si le noeud n’est pas déjà terminal on choisit un test.

Ici il y a 4 choix (M,A,R,E )



Les 4 choix

(1,2) (2,1) (0,2)

M

faible moyen élevé

(1,0) (2,2) (0,3)

A

jeune moyen âgé

(1,1) (1,2) (1,2)

R

village bourg ville

(3,2) (0,3)

E

oui non

Quel test choisir ?



Quel test choisir ?

Un test est intéressant s’il permet une bonne discrimination.

Une fonction qui mesure le degré de mélange des exemplesdoit :

prendre son maximum lorsque les exemples sont équirépartis(ici par exemple (4,4)).prendre son minimum lorsque les exemples sont dans unemême classe ((0,8) ou (8,0)).



Mesure d’entropie

.Entropie H..

.

Mesure de la quantité d’incertitude dans un ensemble (dispersion)

H(S) = −∑x∈X

p(x) log2 p(x)

S : ensemble des donnéesX : ensemble des classes de Sp(x) : proportion de la classe x ∈ X dans S

Lorsque H(S) = 0, S est parfaitement classé.



Mesure d’entropie

Voir exemple de calcul au tableau



Gain d’information

.Information gain (information mutuelle)..

.

Mesure de la différence d’entropie entre avant et après lepartitionnement selon un attribut

IG (S ,T ) = H(S)−i=t∑i=1

p(Si )H(Si )

T = {S1, . . . , St} sous-ensembles du partitionnement de S ,S = ∪i=t

i=1Si

p(Si ) = |Si |/|S |H(S), H(Si ) : entropies de S et de Si



Gain d’information

Voir exemple de calcul au tableau



Pseudo code

.

.

ID3(exemples, cible, attributs) :si tous les exemples sont positifs (resp. négatifs) alors

retourner une feuille avec l’étiquette positif (resp. négatif)si attributs est vide alors

retourner une feuille avec l’étiquette la plus fréquentesinon

A← attribut de plus grand gain d’informationconstruire un noeud avec l’étiquette Apour chaque valeurs vi de A

ajouter la branche vi au noeudsi exemples(A = vi ) est vide alors

ajouter à la branche la feuilleavec l’étiquette la plus fréquente

sinonajouter à la branche le sous-arbreID3(exemples(A = vi ), cible, attributs −A)



C4.5 (Ross Quinlan, 1993)

.Amélioration de ID3..

.

Le critère du gain avantage les attributs discrets ayantbeaucoup de valeurs distinctesUtilisation du ratio de gain d’information au lieu de IG :

ratioIG (S ,T ) = IG (S ,T )/SplitInfo(S ,T )

SplitInfo(S ,T ) =i=k∑i=1

−|Si ||S |∗ log2

|Si ||S |

S : ensemble d’exemples.Si : nombre d’exemples valant Ai pour l’attribut T .k : nombre de valeurs de l’attribut



C4.5 (Ross Quinlan, 1993)

.Amélioration de ID3..

.

Possibilité de valeur "null" :Exemple ignoré lors dans le calcul du noeud

Prise en compte des attributs à valeur continue :Discrétisation par P(A < ai )pour toutes les valeurs possibles de A, calcul de IG

Elagage (pruning) pour réduire la taille de l’arbre :Technique bottom-up : branches finales élaguéeslorsque taux d’erreur plus grand qu’en remplaçant par une feuille

Wind

StrongWeakNONOYES

3/5 1/5

avec classemajoritaire

3/10



Les erreurs.Relation entre erreurs..

.

Erreur d’apprentissage : taux d’erreur sur l’ensemble desexemples d’apprentissageErreur "vraie" : erreur sur l’ensemble de tous les exemplespossibles

taille ens. d'apprentissage

tx e

rreu

r erreur "vraie"erreur entrainement



Sur-apprentissage.Excès d’apprentissage..

.

Sur-spécialisation du modèle sur l’ensemble d’entrainement⇒ Perte de capacité de généralisation≈ Apprentissage "par coeur"

complexité du modèle

tx e

rreu

r erreur "vraie"erreur entrainement

sur-apprentissage

Mesure de complexité d’un arbre de décision : nombre de feuillesRym Guibadj Apprentissage automatique 41 / 114


Evaluation d’un modèle d’apprentissage.Technique..

.

Partitionner l’ensemble des exemples en :un ensemble d’apprentissage (≈ 70%)un ensemble indépendant de test (≈ 30%)

Le taux d’erreur est estimé (sans biais) sur l’ensemble de test.

.Inconvénient..

.

Requiert un nombre important d’exemplesDilemme :

Plus on met d’exemples dans le test, plus l’estimation estprécisePlus on met d’exemples dans l’apprentissage, meilleur est lemodèle (a priori)



Elagage des arbres de décisions

.Généralités..

.

La poursuite de l’algorithme de construction jusqu’à son termenaturel fabrique un arbre avec des feuilles correspondant à desclasses parfaitement homogènes.Il y a là un apprentissage par coeur et donc un risque desous-estimation de la probabilité d’erreur par le taux d’erreurapparent (qui vaut 0 ).Le nombre de noeuds de l’arbre de décision est un critère decomplexité simple et efficaceChercher la valeur "optimale" du nombre de noeuds revientdonc à trouver une technique pour contrôler la taille de l’arbre




.Le pré-élagage..

.

On cesse de diviser un noeud lorsque la pureté des points estsuffisantes (inférieure à un certain seuil).Utilisation de critères locaux (à une feuille)On peut manquer un très bon développement.

.Le post-élagage..

.

Elaguer l’arbre lorsqu’il est parfaitement développé.Utiliser un ensemble indépendant de l’ensembled’apprentissage (ensemble de validation).Mesurer l’erreur commise sur cet ensemble.




Soit T0 un arbre de décision à élaguerOn construit l’ensemble T de tous les arbres de décisionobtenus à partir de T0 en remplaçant certains noeuds internespar des feuilles : T = {T0,T1,T2, ...,Tn} tel que Tn estl’arbre constitué d’une seule feuille.L’idée est de comparer le coût de l’arbre élagué et de l’arbrenon élagué.On s’arrête si le coût du premier est supérieur.




.Choisir le noeud v qui minimise :..

.

Pour chaque noeud interne v d’un arbre Tk on calcule le coûtsuivant :

w(Tk , v) =∆RS

v ,k

n(k) ∗ (nt(v , k)− 1)

∆RSv ,k : le nombre d’erreurs supplémentaires que commet

l’arbre Tk sur S lorsqu’on élague à la position vn(k) : le nombre de feuilles de Tk

nt(v , k) : le nombre de feuilles du sous-arbre de Tk situéessous le noeud v . Il représente le nombre de feuilles supprimées

.Objectif...Trouver le meilleur compromis entre taille et taux d’erreur apparent.




.Processus itératif..

.

Tk+1 obtenu à partir de Tk auquel on coupe la branche quipermet un w minimal.Soit {T0, ....,Tk , .....,Tn} la suite obtenue où Tn est réduit àune feuille.Sélection de l’arbre Tk dont le nombre d’erreurs calculées surensemble de validation Sval est minimal



Un exemple d’élagage

.

.




.Arbre T0..

.



Un exemple d’élagage.Calcul des valeurs sur T0..

.

w(T0, v1) =∆RS

v1,0n(k)∗(nt(v1,0)−1) =

95∗(5−1) =

920

w(T0, v2) =1

5∗(3−1) =110

w(T0, v3) =2

5∗(2−1) =25

w(T0, v4) =1

5∗(2−1) =15




.Arbre T1..

.




.Calcul des valeurs sur T1..

.

w(T1, v1) =9−1

3∗(3−1) =43

w(T1, v2) =2−1

3∗(2−1) =13




.Arbre T2..

.




.Choix de l’arbre..

.

Le choix de l’arbre se fera sur un ensemble de validation parmiT0 , T1 et T2 .L’arbre qui aura la meilleure estimation du taux d’erreur declassification sera choisi.



Un exemple d’élagage.Par exemple, sur cet ensemble de validation..

.

Erreur T0 : 316

Erreur T1 : 116 ⇒ choisir T1

Erreur T2 : 216



Perceptron (Rosenblatt, 1957)

X1

X2

Xn

1

.

.

. hw(x)

Threshold

w1

w2

wn

b

.Définition..

.

Le perceptron est un classifieur linéaire.Il a une seule sortie à laquelle toutes les entrées sontconnectées.




X1

X2

Xn

1

.

.

. hw(x)

Threshold

w1

w2

wn

b.Principe..

.

Le vecteur de poids W correspond aux paramètres du modèle

On ajoute également un biais b, qui équivaut à ajouter une entréexn+1 = 1

A partir de l’échantillon d’apprentissage, il faut trouver le vecteur depoids W et le biais b, tel que :

W .X + biais{≥ 0≤ 0 ⇒ X ∈

{c1c2




X1

X2

Xn

1

.

.

. hw(x)

Threshold

w1

w2

wn

b

.Principe..

.

Idée : modéliser la décision à l’aide d’une fonction linéaire, suivid’un seuil :

hW (x) = Threshold(W .X )

où Threshold(z) = 1 si z ≥ 0, sinon Threshold(z) = 0



Algorithme du perceptron

...1 Pour chaque paire de l’ensemble d’apprentissage (xt , yt) ∈ DCalculer la réponse produite par le perceptronhw (xt) = Threshold(w .xt)Si yt = hw (xt) alors l’exemple est bien classé : ne rien faireSinon (yt ̸= hw (xt)) mettre à jour les poids et le biais selon larègle suivante :

wi ← wi + α(yt − hw (xt)) ∗ xt,i ∀i

...2 Retourner à 1 jusqu’à l’atteinte d’un critère d’arrêt : nombremaximal d’itérations atteint ou tous les exemples sont bienclassés

La mise à jour des poids est appelée la règle d’apprentissage duperceptron. Le multiplicateur α est appelé le taux d’apprentissage



Exemple de déroulement

Ensemble d’apprentissage D

xt yt

[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1

On initialise les poids et le biais aléatoirement : w ← [0, 0] ,b = 0.5On choisit le pas égal à 0.1 : α = 0.1On lit le prochain exemple.On calcule la sortie.On met à jour les poids si nécessairewi ← wi + α(yt − hw (xt)) ∗ xt,i

On ré-itère tant qu’on n’a pas convergé et qu’on a du temps





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1

Iteration Exemple b w1 w2∑

xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 1

Puisque h(x1) = y1, on ne fait pas de mise à jour w et b





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 0

Puisque h(x2) ̸= y2, on met à jour w et b :

w ← w + α ∗ (y2 − h(x2)) ∗ x2 = [0, 0] + 0.1 ∗ (0− 1)[0, 3] = [0,−0.3]

b ← b + α ∗ (y2 − h(x2)) = 0.5 + 0.1(0− 1) = 0.4





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 0

.Calcul de la séparatrice..

.

b + w1x1 + w2x2 = 0

x2 = −w1w2∗ x1 − b

w2

x2 = − 0−0.3 ∗ x1 − 0.4

−0.3

x2 = 0.12





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 0





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 0


w ← w + α ∗ (y3 − h(x3)) ∗ x2 = [0,−0.3] + 0.1 ∗ (0− 1)[3, 0] = [−0.3,−0.3]

b ← b + α ∗ (y3 − h(x3)) = 0.4 + 0.1(0− 1) = 0.3





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 04 [1, 1] 0.3 −0.3 −0.3 −0.3 0 1





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 04 [1, 1] 0.3 −0.3 −0.3 −0.3 0 1


w ← w +α ∗ (y4− h(x4)) ∗ x2 = [−0.3,−0.3] + 0.1 ∗ (1− 0)[1, 1] = [−0.2,−0.2]

b ← b + α ∗ (y4 − h(x4)) = 0.3 + 0.1(1− 0) = 0.4





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 04 [1, 1] 0.3 −0.3 −0.3 −0.3 0 15 [2, 0] 0.4 −0.2 −0.2 0 1 1





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 04 [1, 1] 0.3 −0.3 −0.3 −0.3 0 15 [2, 0] 0.4 −0.2 −0.2 0 1 1

Puisque h(x1) = y1, on ne met pas à jour w et b

Et ainsi de suite, jusqu’à l’atteinte d’un critère d’arrêt...





xt yt[2, 0] 1[0, 3] 0[3, 0] 0[1, 1] 1


xt,i ∗ wi hw (xt) yt1 [2, 0] 0.5 0 0 0.5 1 12 [0, 3] 0.5 0 0 0.5 1 03 [3, 0] 0.4 0 −0.3 0.4 1 04 [1, 1] 0.3 −0.3 −0.3 −0.3 0 15 [2, 0] 0.4 −0.2 −0.2 0 1 16 [0, 3] 0.4 −0.2 −0.2 −0.2 0 07 [3, 0] 0.4 −0.2 −0.2 −0.2 0 08 [1, 1] 0.4 −0.2 −0.2 0 1 1

Arrêt de l’algorithme car tous les exemples sont bien classés.



Exemple 2 de déroulement

Apprendre la fonction OU logique


xt yt

[0, 0] 0[0, 1] 1[1, 0] 1[1, 1] 1

On initialise les poids et le biais aléatoirement : w ← [0, 1] ,b = −1On choisit le pas égal à 1 : α = 1



Exemple 2 de déroulement


xt,i ∗ wi hw (xt) yt1 [0, 0] −1 0 1 −1 0 02 [0, 1] −1 0 1 0 1 13 [1, 0] −1 0 1 −1 0 14 [1, 1] 0 1 1 2 1 15 [0, 0] 0 1 1 0 1 06 [0, 1] −1 1 1 0 1 17 [1, 0] −1 1 1 0 1 18 [1, 1] −1 1 1 1 1 19 [0, 0] −1 1 1 −1 0 0



Surface de séparation

Le perceptron cherche un séparateur linéaire entre les deuxclasses

.La surface de décision d’un classifieur est la surface quisépare les deux régions classifiées dans les deux classesdifférentes



Convergence et séparabilité

Si les exemples sont linéairement séparables, le perceptrongaranti de converger à une solution avec une erreur nullesur l’ensemble d’entraînement, pour tout α

.Sinon, pour garantir la convergence à une solution ayant laplus petite erreur possible en entraînement, on doitdécroître le taux d’apprentissage, par ex. selon αk = α

1+βk



Courbe d’apprentissage

La courbe d’apprentissage est la courbe du taux d’erreur (ou desuccès) en fonction du nombre de mises à jour des paramètresUtile pour visualiser la progression de l’apprentissage

linéairement séparable pas linéairement séparable taux d’apprentissage

décroissant



Apprentissage vue comme la minimisation d’une perte

Le problème de l’apprentissage peut être formulé comme unproblème d’optimisation

pour chaque exemple d’entraînement, on souhaite minimiserune certaine distance Loss(yt , hw (xt)) entre la cible yt et laprédiction hw (xt)on appelle cette distance une perte :Loss(yt , hw (xt)) = (yt − hw (xt))

2

On peut dériver l’algorithme du perceptron de cette façon ...



Rappel : Dérivée

On peut obtenir de l’information sur la variation d’unefonction via sa dérivée

f ′(x) =∂f (x)∂x

= lim∆→0

f (x +∆)− f (x)∆

Le signe de la dérivée est la direction d’augmentation de fsigne positif indique que f (x) augmente lorsque x augmentesigne négatif indique que f (x) diminue lorsque x augmente

La valeur absolue de la dérivée est le taux d’augmentation de f



Rappel : Dérivée

Dérivées usuelles defonctions∂a∂x = 0

∂xn

∂x = nxn−1

∂log(x)∂x = 1

x

∂exp(x)∂x = exp(x)

Dérivées de composition defonctions∂af (x)∂x = a∂af (x)

∂x

∂f (x)n∂x = nf (x)n−1 ∂f (x)n

∂x

∂exp(f (x))∂x = exp(f (x))∂af (x)

∂x

∂log(f (x))∂x = 1

f (x)∂af (x)∂x

* a et n sont des constantes



Rappel : Dérivée partielle

Dans notre cas, la fonction à optimiser dépend de plus d’unevariable : elle dépend de tous nos paramètres.On va considérer alors les dérivées partielles, c.-à-d. ladérivée par rapport à chacune des variables en supposant queles autres sont constantes :

∂f (x , y)∂x

= lim∆→0

f (x +∆, y)− f (x , y)∆

∂f (x , y)∂y

= lim∆→0

f (x , y +∆)− f (x , y)∆



Rappel : Dérivée partielle

On va appeler gradient ∇f d’une fonction f le vecteurcontenant les dérivées partielles de f par rapport à toutes lesvariables

∇f (x , y) =[∂f (x , y)

∂x,∂f (x , y)

∂y

]Exemple f (x , y) = x2

y :

∇f (x , y) =[2xy,−x2

y2

]



Algorithme de descente de gradient




Le gradient donne la direction (vecteur) ayant le tauxd’accroissement de la fonction le plus élevé




En apprentissage automatique, on souhaite optimiser :

1|D|

∑(xt ,yt)∈D

Loss(yt , hw (xt))

Le gradient par rapport à la perte moyenne contient lesdérivées partielles :

1|D|

∑(xt ,yt)∈D

∂

∂wiLoss(yt , hw (xt)) ∀i

Devrait calculer la moyenne des dérivées sur tous les exemplesd’entraînement avant de faire une mise à jour des paramètres !



Descente de gradient stochastique

Descente de gradient stochastique : mettre à jour lesparamètres à partir du gradient d’un seul exemple, choisialéatoirement :Initialiser w aléatoirementPour T itérationsPour chaque exemple d’entraînement (xt , yt)

wi ← wi − α∂


Cette procédure est plus efficace lorsque l’ensembled’entraînement est grand



Retour sur le perceptron

On utilise le gradient pour déterminer une direction de mise àjour des paramètres :

∂

∂wiLoss(yt , hw (xt)) =

∂

∂wi(yt − hw (xt))

2 =

2(yt − hw (xt)) ∗∂

∂wi(yt − hw (xt)) ≃ −2(yt − hw (xt))xt,i

Pour mettre à jour les paramètres, on va dans la directionopposée de ce gradient :

wi ← wi − α∂


on obtient la règle d’apprentissage du perceptron

wi ← wi + α(yt − hw (xt))xt,i ∀iRym Guibadj Apprentissage automatique 86 / 114


Apprentissage vu comme la minimisation d’une perte

La procédure de descente de gradient stochastique estapplicable à n’importe quelle perte dérivable partoutDans le cas du perceptron, la dérivée de hw (x) n’est pascontinue lorsque w .x = 0

L’utilisation de la fonction Threshold fait que la courbed’entraînement peut être instable.



Régression logistique (sigmoid)

.Idée..

.

Plutôt que de prédire une classe, prédire une probabilitéd’appartenir à cette classe :hw (x) = p(y = classe1|x) = Logistic(w .x) = 1

1+e−w.x

Choisir la classe la plus probable selon lemodèle

Si hw (xt) >= 0.5 choisir la classe 1Sinon choisir la classe 2



Régression logistique (sigmoid)

Pour obtenir une règle d’apprentissage, on définit d’abord une perte :

∂

∂wiLoss(yt , hw (xt)) =

∂

∂wi(yt − hw (xt))

2 =∂

∂wi(yt − Logistic(w .xt))

2

On dérive la règle d’apprentissage :∂

∂wiLoss(yt , hw (xt)) = 2(yt − Logistic(w .xt))

∂∂wi

(yt − Logistic(w .xt))

= −2(yt − Logistic(w .xt)) ∗ Logistic ′(w .xt) ∗ ∂∂wi

(w .xt)

= −2(yt − Logistic(w .xt)) ∗ Logistic ′(w .xt) ∗ xt,i

La dérivée de la fonction logistique vérifie :

Logistic ′(z) = Logistic(z) ∗ (1− Logistic(z))

On a donc∂

∂wiLoss(yt , hw (xt)) = −2(yt − Logistic(w .xt)) ∗ Logistic(w .xt)

∗(1− Logistic(w .xt)) ∗ xt,i

On obtient la règle d’apprentissage suivante

wi ← wi +α(yt −Logistic(w .xt))∗Logistic(w .xt)∗ (1−Logistic(w .xt))∗ xt,i ∀i



Limitation des classifieurs linéaires

Si les données d’entraînement sont linéairement séparables, leperceptron va trouver cette séparation

L’algorithme des k plus proches voisins est non-linéaire, maiscoûteux en mémoires et temps de calcul




La majorité des problèmes de classification ne sont pas linaires

Un classifieur linéaire ne peut même pas apprendre la fonctionXOR !




On pourrait transformer l’entrée de façon à rendre le problèmelinéairement séparable.Dans le cas de XOR, on pourrait remplacer

x1 par AND(x1, x2)x2 par OR(x1, x2)



Réseau de neurones artificiel

.Principe..

.Apprentissage des poids afin d’entraîner le réseau à effectuer destâches de classification ou de régression



Réseau de neurones artificiel.Principe..

.

Un neurone d’entrée est une unité correspondant à unedonnée d’entrée.Un neurone de sortie est une unité qui fournit une hypothèsed’apprentissage.Un neurone caché est une unité interne du réseau, qui n’estni une entrée ni une sortie.



Réseau de neurones artificiel

Réseau de neurones avec 4 couches dont deux couches cachées

On note aj l’activité du jeme "neurone", incluant les neuronesd’entrée et de sortiePour les neurones d’entrée on aura aj = xi

Pour les autres neurones aj = Logistic(∑

i wi ,jai )



Visualisation de la rétropropagation

L’algorithme d’apprentissage commence par une propagationavant

aj = Logistic(∑

i

wi ,jai )




Ensuite, le gradient (le Delta) sur la sortie est calculé

∆[i ] = Logistic(ini ) ∗ (1− Logistic(ini )) ∗ (yi − ai )

ini =∑

k∈precedents(i)

wk,iak




Le gradient (le Delta) est rétropropagé

∆[i ]← Logistic(ini ) ∗ (1− Logistic(ini )) ∗∑

j∈suivants(i)

wi ,j∆[j ]

ini =∑

k∈precedents(i)

wk,iak




Mettre à jour les poids wi ,j de tous le réseau en appliquant la règled’apprentissage généralisée

wi ,j ← wi ,j + α ∗∆[j ] ∗ ai



Algorithme de rétropropagation.Algorithme de rétropropagation (exemples, réseau)..

.

initialiser les poids du réseau wi,j aléatoirementwhile le critère d’arrêt n’est pas atteint do

/* propagation des entrées pour le calcul des sorties */for chaque neurone j de la couche d’entrée doaj ← xiend forfor l = 2 to L do

for chaque neurone j de la couche l doaj ← Logistic(

∑i wi,jai )

end forend for/* rétropropagation des ∆ de la couche de sortie jusqu’à la couche d’entrée */for chaque neurone i de la couche de sortie do∆[i ]← Logistic(ini ) ∗ (1− Logistic(ini )) ∗ (yi − ai )end forfor l = L− 1 to 1 do

for chaque neurone i de la couche l doini ←

∑k∈precedents(i) wk,iak

∆[i ]← Logistic(ini ) ∗ (1− Logistic(ini )) ∗∑

j∈suivants(i) wi,j∆[j]endfor

endforRym Guibadj Apprentissage automatique 100 / 114


Algorithme de rétropropagation

.Algorithme de rétropropagation (suite)..

.

/* mise à jour des poids du réseau en utilisant les ∆ */for chaque poids wi,j dowi,j ← wi,j + α ∗∆[j] ∗ aiendfor

end while




Exemple : x=[2,-1], y=0

2

-1

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

Propagation avant

aj = Logistic(∑

i

wi ,jai )




Exemple : x=[2,-1], y=0

2 0.378

-1

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

Propagation avant

Logistic(0.5 ∗ 2 + 1.5 ∗ −1) = Logistic(−0.5) = 0.378




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

Propagation avant

Logistic(−1 ∗ 2 +−2 ∗ −1) = Logistic(0) = 0.5




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

Propagation avant




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

Rétropropagation

∆[i ] = Logistic(ini ) ∗ (1− Logistic(ini )) ∗ (yi − ai )




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

Rétropropagation

∆ = 0.648 ∗ (1− 0.648) ∗ (0− 0.648) = −0.148




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

Rétropropagation

∆[i ] = Logistic(ini ) ∗ (1− Logistic(ini )) ∗∑

j∈suivants(i)

wi ,j ∗∆[j ]




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

= -0,017

Rétropropagation

∆ = 0.867 ∗ (1− 0.867) ∗ (1 ∗ −0.148) = −0.017




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

= -0,017

= 0,035

Rétropropagation

∆ = 0.085 ∗ (1− 0.085) ∗ (−3 ∗ −0.148) = 0.035




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

= -0,017

= 0,035

= -0,012

Rétropropagation

∆ = 0.378 ∗ (1− 0.378) ∗ (1 ∗ −0.017 +−1 ∗ 0.035) = −0.012




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

= -0,148

= 0,035

= -0,017 = -0,012

= -0,048

Rétropropagation

∆ = 0.5 ∗ (1− 0.5) ∗ (3 ∗ −0.017 +−4 ∗ 0.035) = −0.048




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

=-0,012

= -0,048

= -0,017

= 0,035

= -0,148

Mise à jours des poids avec α = 1

wi ,j ← wi ,j + α ∗∆[j ] ∗ ai




Exemple : x=[2,-1], y=0

2 0.378

-1 0.5

0.867

0.085

0.648

0.5

1.5

-1

-2

1

-1

3

-4

1

-3

=-0,012

= -0,048

= -0,017

= 0,035

= -0,148

w1,3 ← 0.5+1∗−0, 012∗2 = 0, 48

w1,4 ← −1+1∗−0, 048∗2 = −1.10

w2,3 ← 1, 5+1∗−0, 012∗−1 = 1.51

w2,4 ← −2+1∗−0, 048∗−1 = −1.95

w3,5 ← 1+1∗−0, 017∗0, 378 = 0.99

w3,6 ← −1+1∗0, 035∗0, 378 = −0.99

w4,5 ← 3+1∗−0, 017∗0, 5 = 3

w4,6 ← −4+1∗0, 035∗0, 5 = −3.98

w5,7 ← 1+1∗−0, 148∗0, 867 = 0.87

w6,7 ← −3+1∗−0, 148∗0, 085 = −3.01


rym guibadj - lisic - laboratoire d’informatique signal ...guibadj/ia3/apprentissage.pdf · un...

Documents