donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...

Introduction a l’apprentissage automatique

Seance 3

Classification supervisee lineaire:regression logistique et perceptron

Frederic Sur

https://members.loria.fr/FSur/enseignement/apprauto/

1/23

Plan

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

2/23

Rappel : classification aux plus proches voisins

1-p.p.v. 5-p.p.v.

Inconvenients : beaucoup trop de � parametres �,algorithmiquement lourd, frontieres de separation trop complexes

Objectif dans la suite du cours : classification robuste au� bruit �, necessitant peu de parametres, algorithmiquementefficace

3/23

Donnees lineairement separables

Donnees : (xi , yi )

xi ∈ Rd

yi ∈ {−1, 1}

Fonction discriminante : f (x) = β0 + β1 · x (β0 ∈ R, β1 ∈ Rd)autre notation : f (x) = β0 + βT

1 x (= β0 +∑d

j=1 β1,jxj)

Regle de classification :f (x) > 0⇒ x ∈ C1, et f (x) < 0⇒ x ∈ C−1,

Question du jour : comment trouver un (hyper-)plan separateur ?→ c’est a dire β0 et β1 permettant de classer une nouvelle observation x

selon le signe de β0 + β1 · x4/23

Separation lineaire et dimension

Illustration : https://en.wikipedia.org/wiki/VC_dimension

Propriete 1 : d + 1 points de Rd non alignes sont toujourslineairement separables (quelles que soient les classesd’appartenance).

Propriete 2 : aucun ensemble de d + 2 points n’est separable pourtoute affectation de classes.

→ plus � facile � de separer lineairement en grande dimension.

5/23

Moindres carres ?

(β0, β1) minimisantN∑

i=1

‖β0 + β1 · xi − yi‖2

→ pas une bonne idee. . .

Probleme : influence des observations “trop correctes”. . .

Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006

6/23

Plan



3 Le perceptron

4 Cas multiclasse

5 Conclusion

7/23

Classification bayesienne biclasse

Rappel : classification MAP

argmaxkp(Ck |x) = argmaxkp(Ck)p(x |Ck)

Dans le cas biclasse (formule de Bayes) :

p(C1|x) =p(C1)p(x |C1)

p(C1)p(x |C1) + p(C2)p(x |C2)=

1

1 + p(C2)p(x |C2)p(C1)p(x |C1)

Avec f (x) = log(p(x |C1)p(x |C2)

)+ log

(p(C1)p(C2)

)∈ ]−∞,+∞[ :

p(C1|x) =1

1 + e−f (x)et p(C2|x) = 1− p(C1|x) =

1

1 + ef (x)

Definition : fonction logistique (ou sigmoıde) : σ(t) = 11+e−t

8/23

La regression logistique revisitee

Hypothese simplificatrice : f (x) = β0 + β1 · xRemarque : cas de classes gaussiennes de meme variance

si p(x |Ck) = 1(2π)d/2|Σ|1/2 e

− 12 (x−µk )T Σ−1(x−µk ),

f (x) = − 12 (x −µ1)TΣ−1(x −µ1) + 1

2 (x −µ2)TΣ−1(x −µ2) + log(

p(C1)p(C2)

)

→ d’ou f (x) = β0 + β1 · x avec :

β0 = 12µ

T2 Σ−1µ2 − 1

2µT1 Σ−1µ1 + log

(p(C1)p(C2)

)

β1 = Σ−1(µ1 − µ2)

Estimation de (β0, β1) :maximisation de la log-vraisemblance conditionnelle

`(xi ,yi )1≤i≤N(β0, β1) = log

n∏

i=1

((p(C1|xi ))yi

(1− p(C1|xi )

)1−yi)

=n∑

i=1

(−(1− yi )(β0 + β1xi )− log(1 + exp(β0 + β1xi ))

)

avec ici : yi = 1↔ xi ∈ C1, yi = 0↔ xi ∈ C2

→ fonction concave9/23

Classifieur de la regression logistiqueClassification MAP :x dans C1 ⇐⇒ p(C1|x) > 1/2 ⇐⇒ f (x) > 0→ il s’agit d’un classifieur lineaire(les deux classes sont separees par un plan)

Remarque : interpretation de la sortie de la regression logistique

p(C1|x) = σ(f (x))

Interpretation de la maximisation de la log-vraisemblance cond. :

`(xi ,yi )1≤i≤N(β0, β1) =

n∑

i=1

yi log(σ(f (xi ))) + (1− yi ) log(σ(−f (xi )))

si yi = 1 on a interet a avoir f (xi ) = β0 + β1 · xi > 0si yi = 0 on a interet a avoir f (xi ) = β0 + β1 · xi < 0la sigmoıde est peu sensible a l’eloignement de xi au plan [f = 0]

(cf. distance Euclidienne signee : d(x ,P) = (β0 + β1 · x)/||β1||)10/23

Illustration


11/23

Plan



3 Le perceptron

4 Cas multiclasse

5 Conclusion

12/23

Le perceptron (neurone artificiel)Rappel : classifieur lineairew0 + w1x1 + · · ·+ wnxn > 0 : x ∈ C1

w0 + w1x1 + · · ·+ wnxn < 0 : x ∈ C−1

Perceptron : Frank Rosenblatt 1950-1960→ naissance du machine learning et de l’IA

xn

x2

x1

1

∑

wn

w2

w1

w0

entree

poids

seuilApprentissage :trouver les wi

Nouvelle observation :(x1, . . . , xn) ∈ C−1 ou C1 ?

13/23

Algorithme d’apprentissage du perceptronBase d’apprentissage : N observations (xi , yi ) ∈ Rd × {−1, 1}Remarque : quitte a considerer les xi ∈ Rd+1 avec premierecomposante = 1, on peut toujours se ramener a des hyperplansd’equation wT x .

Algorithme d’apprentissage (Rosenblatt 1957)

Initialisation : w = 0Tant qu’il y a des mises a jours :

Pour i = 1 a N :yi = signe(wT xi )Si yi 6= yi alors : w ← w + yixi

Retourner w

Remarque : w determine a une constante multiplicative pres

Raffinement : w ← w + θyixi , θ ∈]0, 1] (amortissement)14/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

Donnees15/23


Droite separatrice a l’etape n15/23


yi = 1, yi = 1 : pas de mise a jour15/23


yi = −1, yi = −1 : pas de mise a jour15/23


yi = −1, yi = 1 : mise a jour de w15/23


w ← w + yixi15/23


Droite separatrice a l’etape n + 115/23

Convergence de l’algorithme du perceptronTheoreme (Novikoff 1962) : si les donnees sont lineairementseparables, alors le perceptron converge en un nombre fini d’etapesvers un hyperplan separateur.

Remarque :vers un des hyperplans...

By Qwertyus - Own work, CC BY-SA 4.0

https://commons.wikimedia.org/w/index.php?curid=41351528

→ si donnees pas separables, pas de convergence→ il faut alors arreter apres un certain nombre de parcours desdonnees (epoch)

16/23

Plan



3 Le perceptron

4 Cas multiclasse

5 Conclusion

17/23

Cas de la classification multiclasseclasses : C1, C2, . . ., CK (K > 2)

� Nativement � multiclasse :Naive Bayes, plus proches voisins. . .

Algorithmes dedies :regression logistique multiclasse, perceptron multiclasse. . .

A partir d’un classifieur biclasse :

One-vs-all : entraınement de K classifieurs fk discriminant entre Cket l’ensemble des autres classes.Puis : f (x) = argmaxk fk(x)Probleme : echelle des fk ?

One-vs-one : K (K − 1)/2 classifieurs discriminant entre Ci et CjPuis : voteProbleme : complexite, ambiguıte ?

Algorithme exact dans scikit-learn a verifier :http://scikit-learn.org/stable/modules/multiclass.html

18/23

Le perceptron multiclasse

x1

x2

x3

x4

x5

argmax


19/23

Battage mediatique autour du perceptron

1957 : Perceptron - Frank Rosenblatt (1928-1971)

The New Yorker, 6 decembre 1958 :� Dr. Rosenblatt defined the perceptron as the first non-biological object

which will achieve an organization of its external environment in a

meaningful way. [...] It can tell the difference betwen a cat and a dog [...].

Right now it is of no practical use, Dr. Rosenblatt conceded, but he said

that one day it might be useful to send one into outer space to take in

impressions for us. �

20/23

� Critique � du perceptron

Perceptrons - 1969

Marvin Minsky (1927-2016), MITSeymour Papert (1928-2016), MIT (Logo)

→ AI winter

21/23

Plan



3 Le perceptron

4 Cas multiclasse

5 Conclusion

22/23

Conclusion

Recherche de modeles de classification supervisee robustes, avecpeu de parametres et un algorithme d’apprentissage simple.

Suite du cours :

ambiguıte de l’hyperplan separateur ?quel est le “meilleur” hyperplan ?→ regression logistique→ Machines a Vecteurs Supports (SVM)

donnees non lineairement separables ?→ perceptron multicouche (reseaux de neurones)→ machines a noyau(k(x , y) = φ(x) · φ(y), avec φ plongement des observations dans un

espace de � plus grande dimension � ; generalise la notion de

produit scalaire)

23/23

donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...

Documents