donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...

8
Introduction ` a l’apprentissage automatique eance 3 Classification supervis´ ee lin´ eaire: egression logistique et perceptron Fr´ ed´ eric Sur https://members.loria.fr/FSur/enseignement/apprauto/ 1/23 Plan 1 Introduction : donn´ ees lin´ eairement s´ eparables 2 Retour sur la r´ egression logistique 3 Le perceptron 4 Cas multiclasse 5 Conclusion 2/23 Rappel : classification aux plus proches voisins 1-p.p.v. 5-p.p.v. Inconv´ enients : beaucoup trop de param` etres , algorithmiquement lourd, fronti` eres de s´ eparation trop complexes Objectif dans la suite du cours : classification robuste au bruit , n´ ecessitant peu de param` etres, algorithmiquement efficace 3/23 Donn´ ees lin´ eairement s´ eparables Donn´ ees : (x i , y i ) x i R d y i ∈ {-1, 1} Fonction discriminante : f (x )= β 0 + β 1 · x (β 0 R, β 1 R d ) autre notation : f (x )= β 0 + β T 1 x (= β 0 + d j =1 β 1,j x j ) R` egle de classification : f (x ) > 0 x ∈C 1 , et f (x ) < 0 x ∈C -1 , Question du jour : comment trouver un (hyper-)plan s´ eparateur ? c’est ` a dire β 0 et β 1 permettant de classer une nouvelle observation x selon le signe de β 0 + β 1 · x 4/23

Upload: others

Post on 03-Feb-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Introduction a l’apprentissage automatique

Seance 3

Classification supervisee lineaire:regression logistique et perceptron

Frederic Sur

https://members.loria.fr/FSur/enseignement/apprauto/

1/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

2/23

Rappel : classification aux plus proches voisins

1-p.p.v. 5-p.p.v.

Inconvenients : beaucoup trop de � parametres �,algorithmiquement lourd, frontieres de separation trop complexes

Objectif dans la suite du cours : classification robuste au� bruit �, necessitant peu de parametres, algorithmiquementefficace

3/23

Donnees lineairement separables

Donnees : (xi , yi )

xi ∈ Rd

yi ∈ {−1, 1}

Fonction discriminante : f (x) = β0 + β1 · x (β0 ∈ R, β1 ∈ Rd)autre notation : f (x) = β0 + βT

1 x (= β0 +∑d

j=1 β1,jxj)

Regle de classification :f (x) > 0⇒ x ∈ C1, et f (x) < 0⇒ x ∈ C−1,

Question du jour : comment trouver un (hyper-)plan separateur ?→ c’est a dire β0 et β1 permettant de classer une nouvelle observation x

selon le signe de β0 + β1 · x4/23

Page 2: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Separation lineaire et dimension

Illustration : https://en.wikipedia.org/wiki/VC_dimension

Propriete 1 : d + 1 points de Rd non alignes sont toujourslineairement separables (quelles que soient les classesd’appartenance).

Propriete 2 : aucun ensemble de d + 2 points n’est separable pourtoute affectation de classes.

→ plus � facile � de separer lineairement en grande dimension.

5/23

Moindres carres ?

(β0, β1) minimisantN∑

i=1

‖β0 + β1 · xi − yi‖2

→ pas une bonne idee. . .

Probleme : influence des observations “trop correctes”. . .

Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006

6/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

7/23

Classification bayesienne biclasse

Rappel : classification MAP

argmaxkp(Ck |x) = argmaxkp(Ck)p(x |Ck)

Dans le cas biclasse (formule de Bayes) :

p(C1|x) =p(C1)p(x |C1)

p(C1)p(x |C1) + p(C2)p(x |C2)=

1

1 + p(C2)p(x |C2)p(C1)p(x |C1)

Avec f (x) = log(p(x |C1)p(x |C2)

)+ log

(p(C1)p(C2)

)∈ ]−∞,+∞[ :

p(C1|x) =1

1 + e−f (x)et p(C2|x) = 1− p(C1|x) =

1

1 + ef (x)

Definition : fonction logistique (ou sigmoıde) : σ(t) = 11+e−t

8/23

Page 3: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

La regression logistique revisitee

Hypothese simplificatrice : f (x) = β0 + β1 · xRemarque : cas de classes gaussiennes de meme variance

si p(x |Ck) = 1(2π)d/2|Σ|1/2 e

− 12 (x−µk )T Σ−1(x−µk ),

f (x) = − 12 (x −µ1)TΣ−1(x −µ1) + 1

2 (x −µ2)TΣ−1(x −µ2) + log(

p(C1)p(C2)

)

→ d’ou f (x) = β0 + β1 · x avec :

β0 = 12µ

T2 Σ−1µ2 − 1

2µT1 Σ−1µ1 + log

(p(C1)p(C2)

)

β1 = Σ−1(µ1 − µ2)

Estimation de (β0, β1) :maximisation de la log-vraisemblance conditionnelle

`(xi ,yi )1≤i≤N(β0, β1) = log

n∏

i=1

((p(C1|xi ))yi

(1− p(C1|xi )

)1−yi)

=n∑

i=1

(−(1− yi )(β0 + β1xi )− log(1 + exp(β0 + β1xi ))

)

avec ici : yi = 1↔ xi ∈ C1, yi = 0↔ xi ∈ C2

→ fonction concave9/23

Classifieur de la regression logistiqueClassification MAP :x dans C1 ⇐⇒ p(C1|x) > 1/2 ⇐⇒ f (x) > 0→ il s’agit d’un classifieur lineaire(les deux classes sont separees par un plan)

Remarque : interpretation de la sortie de la regression logistique

p(C1|x) = σ(f (x))

Interpretation de la maximisation de la log-vraisemblance cond. :

`(xi ,yi )1≤i≤N(β0, β1) =

n∑

i=1

yi log(σ(f (xi ))) + (1− yi ) log(σ(−f (xi )))

si yi = 1 on a interet a avoir f (xi ) = β0 + β1 · xi > 0si yi = 0 on a interet a avoir f (xi ) = β0 + β1 · xi < 0la sigmoıde est peu sensible a l’eloignement de xi au plan [f = 0]

(cf. distance Euclidienne signee : d(x ,P) = (β0 + β1 · x)/||β1||)10/23

Illustration

Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006

11/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

12/23

Page 4: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Le perceptron (neurone artificiel)Rappel : classifieur lineairew0 + w1x1 + · · ·+ wnxn > 0 : x ∈ C1

w0 + w1x1 + · · ·+ wnxn < 0 : x ∈ C−1

Perceptron : Frank Rosenblatt 1950-1960→ naissance du machine learning et de l’IA

xn

x2

x1

1

wn

w2

w1

w0

entree

poids

seuilApprentissage :trouver les wi

Nouvelle observation :(x1, . . . , xn) ∈ C−1 ou C1 ?

13/23

Algorithme d’apprentissage du perceptronBase d’apprentissage : N observations (xi , yi ) ∈ Rd × {−1, 1}Remarque : quitte a considerer les xi ∈ Rd+1 avec premierecomposante = 1, on peut toujours se ramener a des hyperplansd’equation wT x .

Algorithme d’apprentissage (Rosenblatt 1957)

Initialisation : w = 0Tant qu’il y a des mises a jours :

Pour i = 1 a N :yi = signe(wT xi )Si yi 6= yi alors : w ← w + yixi

Retourner w

Remarque : w determine a une constante multiplicative pres

Raffinement : w ← w + θyixi , θ ∈]0, 1] (amortissement)14/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

Donnees15/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

Droite separatrice a l’etape n15/23

Page 5: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

yi = 1, yi = 1 : pas de mise a jour15/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

yi = −1, yi = −1 : pas de mise a jour15/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

yi = −1, yi = 1 : mise a jour de w15/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

w ← w + yixi15/23

Page 6: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

Droite separatrice a l’etape n + 115/23

Convergence de l’algorithme du perceptronTheoreme (Novikoff 1962) : si les donnees sont lineairementseparables, alors le perceptron converge en un nombre fini d’etapesvers un hyperplan separateur.

Remarque :vers un des hyperplans...

By Qwertyus - Own work, CC BY-SA 4.0

https://commons.wikimedia.org/w/index.php?curid=41351528

→ si donnees pas separables, pas de convergence→ il faut alors arreter apres un certain nombre de parcours desdonnees (epoch)

16/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

17/23

Cas de la classification multiclasseclasses : C1, C2, . . ., CK (K > 2)

� Nativement � multiclasse :Naive Bayes, plus proches voisins. . .

Algorithmes dedies :regression logistique multiclasse, perceptron multiclasse. . .

A partir d’un classifieur biclasse :

One-vs-all : entraınement de K classifieurs fk discriminant entre Cket l’ensemble des autres classes.Puis : f (x) = argmaxk fk(x)Probleme : echelle des fk ?

One-vs-one : K (K − 1)/2 classifieurs discriminant entre Ci et CjPuis : voteProbleme : complexite, ambiguıte ?

Algorithme exact dans scikit-learn a verifier :http://scikit-learn.org/stable/modules/multiclass.html

18/23

Page 7: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Le perceptron multiclasse

x1

x2

x3

x4

x5

argmax

Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006

19/23

Battage mediatique autour du perceptron

1957 : Perceptron - Frank Rosenblatt (1928-1971)

The New Yorker, 6 decembre 1958 :� Dr. Rosenblatt defined the perceptron as the first non-biological object

which will achieve an organization of its external environment in a

meaningful way. [...] It can tell the difference betwen a cat and a dog [...].

Right now it is of no practical use, Dr. Rosenblatt conceded, but he said

that one day it might be useful to send one into outer space to take in

impressions for us. �

20/23

� Critique � du perceptron

Perceptrons - 1969

Marvin Minsky (1927-2016), MITSeymour Papert (1928-2016), MIT (Logo)

→ AI winter

21/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

22/23

Page 8: Donnees lineairement sepa rables...Illustration de l'algorithme d'apprentissage jaune : 1 mauve : -1 Droite sepa ratricea l'etap e n +1 15/23 Convergence de l'algorithme du perceptron

Conclusion

Recherche de modeles de classification supervisee robustes, avecpeu de parametres et un algorithme d’apprentissage simple.

Suite du cours :

ambiguıte de l’hyperplan separateur ?quel est le “meilleur” hyperplan ?→ regression logistique→ Machines a Vecteurs Supports (SVM)

donnees non lineairement separables ?→ perceptron multicouche (reseaux de neurones)→ machines a noyau(k(x , y) = φ(x) · φ(y), avec φ plongement des observations dans un

espace de � plus grande dimension � ; generalise la notion de

produit scalaire)

23/23