fabrice rossi telecom paristech mai/juin 2009 · 8 / 122 f. rossi introduction et modélisation...

Apprentissage supervisé

Fabrice Rossi

TELECOM ParisTech

Mai/Juin 2009

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

2 / 122 F. Rossi






3 / 122 F. Rossi Introduction et modélisation mathématique

Apprentissage automatiqueDéfinition informelle

1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle

le tout automatiquement (sans intervention humaine)

Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :

1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.

2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y





Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Z

deux grandes catégories de données :1. cas non supervisé :

• pas de structure interne à z• classification, règles d’association, etc.






Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :

1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.



Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des

q classes• applications : diagnostic médical (malade/sain),

reconnaissance de caractères, etc.

ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens

de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet

• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble

ordonné)• applications : recherche d’informations (page rank de

Google), suggestions (amazon, netflix)


Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des

q classes• applications : diagnostic médical (malade/sain),

reconnaissance de caractères, etc.ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens

de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet

• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble

ordonné)• applications : recherche d’informations (page rank de

Google), suggestions (amazon, netflix)


Apprentissage supervisé

régression :• Y = R ou Y = Rp

• prévision : associer une valeur numérique à une nouvelleobservation

• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.

sortie structurée :• Y est un ensemble structuré complexe : ensemble de

fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une

nouvelle observation• application : inférence grammaticale (associer un arbre de

syntaxe à un texte), traduction automatique, etc.


Vocabulaire

x : variables explicatives (espace associé X )y : variable à expliquer (espace associé Y)un modèle g : une fonction de X dans Yg(x) est la prédiction/prévision du modèle pour l’entrée xl’ensemble des données à partir desquelles on construit lemodèle est l’ensemble d’apprentissagecollisions Français et Anglais :

Français AnglaisClassification ClusteringClassement Classification ou ranking

Discrimination Classification


Buts

buts principaux :• obtenir un « bon » modèle : la prévision obtenue est proche

de la vraie valeur• obtenir rapidement un modèle rapide : temps de

construction du modèle et temps nécessaire à l’obtentiond’une prévision

• pouvoir garantir les performances : avec une probabilité de1− r , la prévision sera bonne à ε près

buts annexes :• obtenir un modèle compréhensible : comment le modèle

prend il une décision ?• obtenir un modèle modifiable : pouvoir prendre en compte

de nouvelles données, s’adapter à un environnementchangeant, etc.


Erreur de prédictionQu’est-ce qu’une bonne prédiction ?

on considère une observation z = (x , y) et une prédictiong(x) faite par un modèlela qualité de g(x) peut être mesurée par une dissimilarité ldéfinie sur Y : l(g(x), y) doit être petitl est le critère d’erreur :• régression :

• distances classiques sur Rp

• en général ‖g(x)− y‖2 et parfois |g(x)− y | dans R pour lesméthodes de régression dites robustes

• discrimination :• décompte des erreurs : δg(x) 6=y• matrice des coûts de confusion : par ex. prédire g(x) = 1

alors que y = 0 peut être plus coûteux que prédire g(x) = 0quand y = 1 (diagnostic médical)


Erreur d’un modèleQu’est-ce qu’un bon modèle ?

Vision « naïve » :• données d’évaluation TM = (xi , yi )

Mi=1

• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par

L(g; TM) =1M

M∑i=1

l(g(xi ), yi )

• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique

interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs



modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par

une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P

l’erreur du modèle g est donnée par

L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue






L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des données

remarque : le calcul exact de L(g) est impossible car P estinconnue






L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue


Justifications

pourquoi de l’aléatoire ?• bruit dans les observations• données incomplètes• variabilité naturelle

pourquoi une distribution P fixée ?• stationnarité• condition nécessaire à l’inférence : si un phénomène

change constamment, on ne peut pas le prédire• extensions possibles aux variations lentes

pourquoi l’espérance ?• naturelle dans un cadre statistique• pour s’affranchir de la variabilité des nouvelles observations


Pratique vs statistiquela loi des grands nombres dit que

limN→∞

1N

N∑i=1

Ui = E(U)

quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)

Mi=1 sont

distribuées selon P et indépendantes, alors

limM→∞

L(g; TM) = L(g)

indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles

informations


Interprétation

comment interpréter L(g) ?• on considère M observations (xi , yi )

Mi=1

• on calcule

L(g; (xi , yi )Mi=1) =

1M

M∑i=1

l(g(xi ), yi )

• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)

remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité

L(g) = EP{l(g(x), y)} = P(g(x) 6= y)

correspond à la probabilité d’erreur de classement


Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se

trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité

est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5

observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne

on peut donner des intervalles de confiance surL(g; (xi , yi)

Mi=1) autour de L(g) en fonction de M de la forme

P{∣∣∣L(g; (xi , yi)

Mi=1)− L(g)

∣∣∣ > ε}< 1− δ


Généralisation

Définition informelleL’erreur en généralisation d’un modèle est celle des prédictionsobtenues sur des nouvelles observations

notion cruciale en apprentissage supervisémathématiquement, il s’agit simplement de L(g)

problème fondamental : comment estimer l’erreur engénéralisation alors qu’on ne connaît pas P ?loi des grands nombres ?


Problème d’estimation

processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )

Ni=1, distribuées selon P et indépendantes

• l’algorithme choisi construit un modèle g qui dépend de DN

que dire de

L(g; (xi , yi)Ni=1) =

1N

N∑i=1

l(g(xi), yi)

rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g


K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)

Ni=1 et un paramètre K

on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :

1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est

• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination

• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression

on a g1(xi) = yi et donc pour tout critère l raisonnable,

L(g1; (xi , yi)Ni=1) =

1N

N∑i=1

l(g1(xi), yi) = 0


Exemple

classement

frontière optimalelinéaire


Exemple

classement


grille d’évaluation


Exemple

classement


classement optimal


Exemple

classement


L(g) ' 0.0968

L(g) = 0

1 voisin


Exemple

classement


L(g) ' 0.0892

L(g) = 0.065

3 voisins


Exemple

classement


L(g) ' 0.0524

L(g) = 0.085

5 voisins


Exemple

classement


L(g) ' 0.0416

L(g) = 0.0875

11 voisins


Exemple

classement


L(g) ' 0.0404

L(g) = 0.085

15 voisins


Exemple

classement


L(g) ' 0.0456

L(g) = 0.095

21 voisins


Optimisme

l’exemple précédent est très représentatif :• on peut souvent construire g tel que g(xi ) = yi sur DN• pour un critère d’erreur raisonnable, on aura donc

L(g; (xi , yi )Ni=1) = 0

• mais en général, L(g) > 0

l’erreur empirique sur l’ensemble d’apprentissage estgénéralement (très) optimistec’est une mauvaise estimation de l’erreur en généralisation

Point à retenirobtenir une bonne estimation des performances d’un modèleest la principale difficulté de l’apprentissage automatique


Résumé

l’apprentissage supervisé• construit un modèle pour prédire y à partir de x• en s’appuyant sur un ensemble d’apprentissage constitué

d’exemples d’associations (x , y)

suite du cours :• quelques modèles et algorithmes associés• méthodologie :

• comment évaluer les performances d’un modèle ?• comment choisir un bon modèle ?







22 / 122 F. Rossi Régression

Régression linéaire

exemple le plus élémentaire d’apprentissage automatique :• on dispose de N couples de réels (xi , yi ) (l’ensemble

d’apprentissage)• on cherche deux réels a et b tels que yi ' axi + b pour tout

1 ≤ i ≤ N• le modèle est linéaire :

• la fonction qui aux paramètres associe le modèle est linéaire(a, b) 7→ (x 7→ ax + b)

• le modèle lui même est affine

stratégie de construction du modèle :• minimisation de l’erreur des moindres carrés

(a∗,b∗) = arg mina,b

N∑i=1

(axi + b − yi )2


ExempleAnalyse spectroscopique de vins

−20 −10 0 10 20 30

810

1214

spectre1

alco

ol


Résolution

si E(a,b) =∑N

i=1(axi + b − yi)2, on a

∇aE(a,b) = 2

(a

N∑i=1

x2i +

N∑i=1

xi(b − yi)

)

et

∇bE(a,b) = 2N

(b +

1N

N∑i=1

(axi − yi)

)∇E = 0 conduit à une unique solution (a∗,b∗)


Leçon générale

méthode de construction de la régression linéaire• choix d’une classe de modèles

F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}

• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage

f ∗ = arg minf∈F

L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste


Leçon générale


F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}



L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique

:• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste


Leçon générale


F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}



L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste


Régression linéaire multiple

extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés

F =

{f : Rp → R | f (x) = β0 +

p∑i=1

βixi

}

vision apprentissage : minimisation du risque empirique

vision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon

Y = β0 +

p∑i=1

βiXi + ε


Régression linéaire multiple

extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés

F =

{f : Rp → R | f (x) = β0 +

p∑i=1

βixi

}

vision apprentissage : minimisation du risque empiriquevision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon

Y = β0 +

p∑i=1

βiXi + ε


Moindres carrés

notations simplificatrices :• on ajoute une « variable » x0 toujours égale à 1• on note Y = (y1, . . . , yN)T et X la matrice dont les colonnes

sont les variables :

X =

1 x11 x12 . . . x1p...

. . ....

1 xN1 xN2 . . . xNp

• on cherche alors β = (β0, . . . , βp)T tel que Y ' Xβ

minimisation de l’erreur quadratique

β∗ = arg minβ‖Y − Xβ‖2 = arg min

β

N∑i=1

(Yi − (Xβ)i)2


Moindres carrés

∇β‖Y − Xβ‖2 = 0 conduit aux équations normales

(X T X )β∗ = X T Y

résolution (coût et stabilité croissants) :• approche directe en O

(p3 + Np2

)β∗ = (X T X )−1X T Y

• décomposition QR en O(Np2

)X = QR avec Q orthogonale et R triangulaire supérieure

• décomposition en valeurs singulières en O(Np2

)X = UDV T avec D diagonale, et U et V orthogonales)

en général, on utilise la décomposition QR


Maximum de vraisemblance

le modèle probabiliste s’écrit Y = Xβ + ε

hypothèses supplémentaires :• observations statistiquement indépendantes• bruit ε gaussien N (0, σ)

vraisemblance de (xi , yi)1≤i≤N(1√2πσ

)N N∏i=1

exp(− 1

2σ2 (yi − xiβ)2)

maximiser la log vraisemblance revient donc à minimiser

12σ2

N∑i=1

(yi − xiβ)2


Liens

moindres carrés = maximum de vraisemblance• pour des observations indépendantes• et pour un bruit gaussien

homoscédasticité :• la variance du bruit ne dépend ni de x , ni de y• hypothèse assez forte

modèle probabiliste :• donne plus d’information : distribution des poids,

significativité, etc.• plus souple que les moindres carrés (cf aussi le cas de la

classification)• par exemple : bruit hétéroscédastique (variance non

uniforme)• mais plus complexe à mettre en œuvre


Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

alcool

−20 0 20

810

1214

−20

020

spectre1

8 10 12 14 −20 0 10 30

−20

010

30

spectre2


Exemple


spectre1spectre2

alcool


Exemple


spectre1

spectre2

alcool


Exemple


prédiction vs réalitévisualisation classiquequand p ≥ 2L(g) = 0.54

8 10 12 148

1012

1416

Réalité

Pré

dict

ion

Modèle idéal


Exemple


prédiction vs réalitévisualisation classiquequand p ≥ 2une variable : L(g) = 0.92

8 10 12 148

1012

1416

Réalité

Pré

dict

ion

Modèle idéal


Prédictions simultanéesrégression avec y ∈ Rq :• Y est la matrice des variables à prédire (une ligne par

observation)

Y =

y11 . . . y1q...

...yN1 . . . yNq

• β est maintenant une matrice (p + 1)× q

minimisation de l’erreur quadratique (erreur gaussiennehétéroscédastique)

β∗ = arg minβ‖Y − Xβ‖2 = arg min

β

q∑j=1

N∑i=1

(Yij − (Xβ)ij)2

revient à réaliser q régressions linéaires multiples


En R

fonction lm du package stats :• modèle linéaire par moindres carrés (méthode QR)• interprétation statistique classique (significativité, etc.)• support des formules (au sens R) :

• données sous forme d’une data.frame• formules du type y∼a+b-1 pour préciser les variables

explicatives (ici a et b) et supprimer le terme constant -1• fonction predict pour les prédictions

nombreuses extensions :• modèles linéaires généralisés• séries temporelles• etc.


Limites

deux régimes « extrêmes » :• si N est grand devant p :

• beaucoup plus d’observations que de variables• le modèle linéaire n’est généralement pas assez complexe

• si N est petit devant p :• beaucoup plus de variables que d’observations• le modèle linéaire est généralement trop complexe

plage d’utilisation directe : quand N est de l’ordre de αptrois grandes questions :

1. comment augmenter la complexité ?2. comment réduire la complexité ?3. comment choisir la complexité adaptée aux données ?


Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne


Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne

régression linéaire


Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne

méthode non linéaire


Trop complexe

taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations


Trop complexe


prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14

910

1112

1314

Réalité

Pré

dict

ion

Modèle idéal

Modèle linéaire


Trop complexe


prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14

1011

1213

14Réalité

Pré

dict

ion

Modèle idéal

Modèle linéaire « réduit »


Complexité

Définition informellela complexité d’une classe de modèles se mesure par la qualitéprédictive qu’elle peut atteindre sur un ensembled’apprentissage

pas assez complexe :• aucun modèle de la classe ne prédit bien y à partir de x• par exemple y = x2 et régression linéaire• Ozone et température

trop complexe :• certains modèles de la classe ne font aucune erreur sur

l’ensemble d’apprentissage• en général, Y = Xβ a une infinité de solutions quand N est

petit devant p• Alcool et spectre



approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale

ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction

du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)

approche hiérarchique :• choix de plusieurs classes de modèles, de complexités

différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats

• comment ?



approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale

ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction

du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)

approche hiérarchique :• choix de plusieurs classes de modèles, de complexités

différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats• comment ?


Ensemble de validation

l’erreur empirique sur l’ensemble d’apprentissage est unmauvais choix car :• la loi des grands nombres ne s’applique pas (dépendance)• l’estimation des performances est optimiste

solution élémentaire (solutions plus sophistiquées dans lasuite du cours) :• utiliser d’autres données distribuées aussi selon P• VM = (xi , yi )

Mi=1 : ensemble de validation indépendant

• la loi des grands nombres s’applique : L(g;VM) ' L(g)• point crucial : le modèle doit être construit sans utiliser VM

méthode :• choix de plusieurs classes de modèles• minimisation de l’erreur empirique dans chaque classe• choix du modèle parmi les candidats par minimisation de

l’erreur de validation


Réduire la complexité

source du problème :• le système Y = Xβ a une infinité de solution quand Y est

dans l’image de X• quand p est grand devant N, c’est très probable :

• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )

attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :

FS =

{f : Rp → R | f (x) = β0 +

∑i∈S

βixi

}

• choisir un modèle revient à choisir les variables utilisées


Sélection de variables

recherche exhaustive :• faisable quand p est petit : 2p − 1 configurations• accélération par branch and bound : faisable jusqu’à p ' 30

heuristiques d’exploration :• croissante (forward) :

• on ajoute des variables progressivement• S1 = {j1} est la variable qui donne le meilleur modèle

linéaire à une variable• S2 = {j1, j2} est obtenu en trouvant la variable j2 qui donne

avec j1 (fixée) le meilleur modèle linéaire à deux variables• etc.

• décroissante (backward) :• même principe mais en enlevant des variables• on commence donc par considérer le modèle complet

• mélange des deux...


Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal


Exemple


8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

10 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

12 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

15 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

20 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

30 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

50 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

60 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

75 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

90 variables

Réalité

Pré

dict

ion



Choix du modèle

0 20 40 60 80

5e−

055e

−04

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique

apprentissagevalidation

12 variables


Choix du modèle

courbe classique dusur-apprentissage :

décroissance constante del’erreur empirique surl’ensemble d’apprentissagedécroissance puiscroissance sur l’ensemblede validation

0 20 40 60 80

5e−

055e

−04

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique


la bonne évaluation des performances est celle fournie parl’ensemble de validation


Projection

les variables d’origine ne sont pas nécessairement les plusadaptéestechnique de réduction de la complexité (régression surcomposantes principales) :• réaliser une ACP des données• construire des modèles linéaires sur 1, 2, ..., p

composantes principales• choisir le meilleur modèle, c’est-à-dire le bon nombre de

composantesextension :• choisir des composantes orthogonales et corrélées avec la

variable à prédire Y• c’est la régression PLS (Partial Least Squares)

les composantes sont ordonnées : sélection forward parnature


Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

10 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

20 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

27 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

30 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

40 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

60 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

80 variables

Réalité

Pré

dict

ion



Choix du modèle

0 20 40 60 80

2e−

041e

−03

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique


27 variables ACP


Régularisation

limitation de la sélection : tout ou rienapproche concurrente par contrainte de régularité :• idée sous-jacente :

• un bon modèle s’appuie sur la « continuité » de la nature• si u ' v alors g(u) ' g(v)

• dans le cas linéaire :• | 〈u, v〉 | ≤ ‖u‖‖v‖ (Cauchy-Schwarz)• donc | 〈x1, β〉 − 〈x2, β〉 | = | 〈x1 − x2, β〉 | ≤ ‖x1 − x2‖‖β‖• donc ‖β‖ donne une mesure de la régularité d’un modèle

linéaire

classe de modèles

FC =

{f : Rp → R | f (x) = β0 +

N∑i=1

βixi , ‖β‖ ≤ C

}


Optimisation

résoudreβ∗ = arg min

β, ‖β‖≤C‖Y − Xβ‖2

peut sembler plus complexe qu’en l’absence de lacontraintemais par dualité convexe, il existe un λ tel que β∗ soit aussisolution de

β∗ = arg minβ

(‖Y − Xβ‖2 + λ‖β‖2

)on parle de régression ridge


Résolution

la résolution est simple car le problème est toujoursquadratique en β∇β(‖Y − Xβ‖2 + λ‖β‖2

)= 0 conduit aux équations

normales modifiées

(X T X + λI)β∗ = X T Y

où I est la matrice identité (de taille p + 1)le conditionnement de X T X + λI s’améliore avec λ


Mise en œuvrealgorithme :

1. calculer la SVD de X , X = UDV T

2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale K (λ) définie par

K (λ)ii = Dii/(D2ii + λ)

3.2 calculerβ∗ = VK (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)

détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur

pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la

régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement


Mise en œuvrealgorithme :

1. calculer la SVD de X , X = UDV T

2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale K (λ) définie par

K (λ)ii = Dii/(D2ii + λ)

3.2 calculerβ∗ = VK (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur

pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la

régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement


Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 1e+05

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 7940

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 2510

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 794

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 79.4

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 7.94

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 2.51

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 0.794

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 0.251

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 0.0251

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 0.000794

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

λλ == 1e−05

Réalité

Pré

dict

ion



Choix du modèle

1e−05 1e−02 1e+01 1e+04

1e−

091e

−07

1e−

051e

−03

1e−

01

λλ

Err

eur

empi

rique


λ ' 0.794


Évolution des coefficients

1e−05 1e−02 1e+01 1e+04

−0.

050.

000.

050.

10

λλ

ββ


Comparaison

sélection forward/backward :+ sélection de variables+ très efficace avec une implémentation adaptée : O

(Nk2

)pour une procédure forward naïve jusqu’à k variables

- décisions binairesprojections :

+ sélection de variables+ efficace : O

(Np2

)(avec une implémentation à la forward)

- variables transforméesrégression ridge :

+ souple+ efficace : SVD en O

(Np2

)puis O

(p2 + Np

)par valeur de λ

- pas de sélection de variables


Régularisation L1

régression ridge : mesure de régularité ‖β‖2méthode « lasso » :• mesure de régularité ‖β‖1 =

∑pi=1 |βi |

• point de vue modèle

FC =

{f : Rp → R | f (x) = β0 +

N∑i=1

βixi ,

p∑i=1

|βi | ≤ C

}

• point de vue optimisation

β∗ = arg minβ

(‖Y − Xβ‖2 + λ

p∑i=1

|βi |

)

• intérêt : produit naturellement des coefficients nuls• résolution par programmation quadratique


Lasso/Lars

algorithme LARS : Least Angle Regressionidée :• ajout progressif des variables (avec sorties possibles)• mais sans prendre le coefficient optimal associé à la

nouvelle variable• sans sortie : lars ; avec sortie : lasso

même type de coût algorithmique qu’une procédureforward, mais avec plus d’itérationscalcule un chemin :• on montre que l’évolution des paramètres en fonction de λ

est affine par morceaux• l’algorithme trouve tous les points de jonction


Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

0 variable

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

8 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

9 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

12 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

29 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

68 variables

Réalité

Pré

dict

ion



Exemple


8 10 12 14 16

810

1214

89 variables

Réalité

Pré

dict

ion



Choix du modèle

0 50 100 150 200 250 300 350

1e−

091e

−07

1e−

051e

−03

1e−

01

Étape

Err

eur

empi

rique


étape 136, 29 variables actives



0 50 100 150 200 250 300 350

−40

−30

−20

−10

010

2030

Étape

ββ



0 10 20 30 40

−40

−30

−20

−10

010

2030

Étape

ββ


En R

sélection de variables dans le modèle linéaire :• package leaps• fonction regsubsets• propose la recherche exhaustive avec branch and bound et

les recherches heuristiques classiquesprojection :• package pls• fonction pcr pour la régression sur composantes

principales• fonction plsr pour la régression PLS

régression ridge : fonction lm.ridge du package MASS

lasso : fonction lars du package lars


Résumé

régression linéaire :• méthode simple et efficace pour la régression• à toujours tester en premier !

limitations :• données dans Rp seulement• x 7→ g(x) est affine : insuffisant dans certains cas• quand p est grand par rapport à N, le modèle linéaire peut

être trop puissantlimiter la puissance :• sélection de variables• régularisation

leçons générales :• contrôler la régularité d’un modèle par une pénalité• sélectionner un modèle grâce à un ensemble de validation


Non linéarité

en régression linéaire, x 7→ g(x) est affine etβ 7→ (x 7→ g(x)) est linéairecertains problèmes ne sont pas linéaires/affines :• non linéarité intrinsèque (emballement d’une réaction

chimique, par ex.)• variables manquantes (inconnues)

corriger le modèle en gardant la linéarité β 7→ g :• lever la limitation sur le modèle• conserver la simplicité du choix de β (optimisation

quadratique)

idée simple : transformer les données


Transformer les données

principe :• fonction de transformation φ : Rp → Rq

• régression linéaire sur (φ(xi ), yi )1≤i≤N• si φ est bien choisie, on obtient des variables linéairement

indépendantes dans Rq :• N équations à q inconnues pour φ(xi) ' yi

• si q est de l’ordre de N, on trouve toujours une solutionexacte

• x 7→ 〈φ(x), β〉 n’est plus affine !exemple :• φ(x) = (1, x , x2)T

• classe de modèles

F ={

f : R → R | f (x) = β0 + β1x + β2x2}• modèles quadratiques


Mise en œuvre

q fonctions de base φj : Rp → Rmatrice des prédicteurs

Φ(X ) =

1 φ1(x1) φ2(x1) . . . φq(x1)...

. . ....

1 φ1(xN) φ2(xN) . . . φq(xN)

problème d’optimisation

β∗ = arg minβ∈Rq+1

‖Y − Φ(X )β‖2

équations normales associées

(Φ(X )T Φ(X ))β∗ = Φ(X )T Y


Exemple

60 70 80 90

050

100

150

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 1

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 2

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 3

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 4

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 5

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 6

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 7

Temp

Ozo

ne


Exemple

60 70 80 90

050

100

150

degré : 25

Temp

Ozo

ne


Limitations

choix de φ :• quand x ∈ R pas de problème particulier : polynômes,

splines, ondelettes, séries de Fourier, etc.• quand x ∈ Rp, explosion combinatoire :

• (p+d)!p!d!

monômes de degré inférieur ou égal à d sur pvariables

• même type de problème pour les autres solutions• solutions par approches gloutonnes : on ajoute

progressivement des φj

coût algorithmique :• la régression linéaire est en O

(Np2

)• si p ' N ⇒ O

(N3)

: réduction du champ d’applicationcontrôle de la puissance :• régularisation• sélection de modèle


Équations normales

on remarque que si (Φ(X )T Φ(X )) est inversible

β∗ = Φ(X )Tα∗ =N∑

i=1

α∗i φ(xi)

et donc

g(x) = 〈φ(x), β∗〉 =N∑

i=1

α∗i 〈φ(x), φ(xi)〉

de plusα∗ = (Φ(X )Φ(X )T )−1Y


Transformation implicite

or (Φ(X )Φ(X )T )ij =⟨φ(xi), φ(xj)

⟩pour construire et utiliser le modèle linéaire sur les φ(xi) ilsuffit de connaître les produits scalaires

⟨φ(xi), φ(xj)

⟩impact algorithmique :• u = (u1,u2) and v = (v1, v2)• φ(u) = (1,

√2u1,√

2u2,√

2u1u2,u21 ,u

22) : 3 opérations

• 〈φ(u), φ(v)〉 : 11 opérations• total : 17 opérations

• mais on montre que 〈φ(u), φ(v)〉 =(

1 +∑2

i=1 uivi

)2:

5 opérations• plus généralement 〈φ(u), φ(v)〉 = (1 + 〈u, v〉)d pour une

transformation φ utilisant tous les monômes de degréinférieur à d : temps de calcul en O(p + d)


Non linéaire efficace

nouvelle version de l’approche :• choisir φ telle que 〈φ(u), φ(v)〉 se calcule efficacement• calculer α∗ = (Φ(X )Φ(X )T )−1Y• utiliser le modèle

x 7→N∑

i=1

α∗i 〈φ(x), φ(xi )〉

une fois Φ(X )Φ(X )T calculée, l’algorithme est en O(N3) :

• intéressant si φ envoie dans Rq avec q > N• mais dans ce cas le modèle est potentiellement trop

puissant• régularisation ridge


Régularisation ridge

on cherche à contrôler ‖β∗‖2

on a

‖β∗‖2 =N∑

i=1

N∑j=1

α∗i α∗j⟨φ(xi), φ(xj)

⟩on montre que

β∗ = arg minβ∈Rq+1

(‖Y − Φ(X )β‖2 + λ‖β‖2

)correspond à

α∗ =(

Φ(X )Φ(X )T + λI)−1

Y


Principe du noyau

en fait φ est inutile, seuls les 〈φ(u), φ(v)〉 entre en jeunoyau (kernel) :• fonction K de Rp × Rp → R• symétrique : K (u, v) = K (v ,u)• positive :

∑i,j λiλjK (ui , vj ) ≥ 0

on montre que pour tout noyau K , il existe une fonction φtelle que K (u, v) = 〈φ(u), φ(v)〉 dans un certain espace H :• H peut être très grand (de dimension infinie)• on n’a jamais besoin de calculer explicitement φ


Noyauxun noyau correspond à un produit scalaire :• peut être vue comme une similarité• peut être défini sur un espace quelconque :

• chaînes de caractères (dénombrement de co-occurrence)• graphes (chemins communs)• etc.

• ⇒ régression régularisée non linéaire sur des donnéesarbitraires

un noyau important dans Rp, le noyau Gaussien :• K (u, v) = exp

(−‖u−v‖2

2σ2

)• σ est un paramètre de sensibilité :

• grand σ : peu sensible, comportement proche du linéaire• petit σ : très sensible, comportement proche des k plus

proches voisins

la matrice noyau Kij = K (xi , xj) remplace Φ(X )Φ(X )T dansles formules


Kernel Ridge Regression

choisir un noyau et calculer la matrice Kij = K (xi , xj)

algorithme :1. diagonaliser K , K = UT DU2. calculer Z = UY3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale V (λ) définie par

V (λ)ii = 1/(Dii + λ)3.2 calculer

α∗ = UT V (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)

attention, il faut aussi choisir le noyau (ou ses paramètres)sur un ensemble de validation


Résuméla régression linéaire s’étend facilement au non linéaire :• soit par transformation directe (peu de variables

explicatives)• soit par le biais d’un noyau

l’accroissement de la puissance rend cruciales :• l’utilisation d’une forme de régularisation• une sélection de modèle

outil générique :• la régression ridge à noyau (Kernel Ridge Regression)• coût algorithmique acceptable O

(N3)

• champ d’application énorme grâce aux noyaux : donnéesnon numériques et modèles non linéaires

• implémentation indépendante du noyau

il existe de nombreuses autres méthodes non linéaires(par exemple les k plus proches voisins)







78 / 122 F. Rossi Discrimination

Discriminationrappels :• discrimination à deux classes : Y = {A,B}• critère d’erreur : l(g(x), y) = δg(x)6=y

modèle linéaire en discrimination :• g(x) = 〈x , β〉+ β0 n’est pas directement utilisable• solution simple :

• g(x) = signe(〈x , β〉+ β0)• −1⇒ classe A• 1⇒ classe B

minimisation du risque empirique

β∗ = arg minβ∈Rp

N∑i=1

δsigne(〈xi ,β〉+β0)6=yi

optimisation combinatoire : impossible en pratique


Moindres carrés

solution simple :• faire de la régression• en cherchant à prédire yi = −1 pour la classe A et yi = 1

pour la classe B• attention : l’opération signe n’est pas prise en compte pour

le choix de β

on a donc

β∗ = arg minβ∈Rp

∑xi∈A

(〈xi , β〉+ 1)2 +∑xi∈B

(〈xi , β〉 − 1)2

avec l’augmentation habituelle des x par une variableconstante


Interprétation

approximation convexedu coût

+ facile à optimiser- pénalise un trop bon

classement

−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1coût quadratique

Solution acceptable mais limitée


Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale


Plus de deux classes

très mauvaise solution :• numéroter les classes de 1 à K• faire une régression linéaire avec comme cible le numéro

de la classe• ne jamais faire ça :

• induit une fausse structure d’ordre sur les classes• rend la régression plus difficile qu’elle ne devrait l’être• etc.

solutions par combinaisons :• construire K − 1 modèles : 1 contre les autres classes• construire K (K − 1)/2 modèles : 1 contre 1

solution par codage :• représenter l’appartenance à la classe k par un vecteur de

RK contenant K − 1 zéros et un 1 dans la variable k• puis régression classique


Projection

x 7→ 〈x , β〉 est une projection de Rp dans Rcomment optimiser la projection pour bien répartir lesexemples en deux classes ?• bien regrouper les projetés d’une même classe (variance

intra petite)• bien éloigner les projetés de classes différences (variance

inter grande)

analyse discriminante de Fisher : maximisation du ratioentre les variancess’applique à plusieurs classes, C1, . . . ,CK


Variances

décomposition de la covariance :• covariance totale T = 1

N

∑Ni=1(xi − µ)(xi − µ)T (µ moyenne

des x)• covariances intraclasse Wk = 1

Nk

∑i∈Ck

(xi − µk )(xi − µk )T

(µk moyenne des x de la classe Ck )• covariance interclasse B = 1

N

∑Kk=1 Nk (µk − µ)(µk − µ)T

• T = B + W , avec W = 1N

∑Kk=1 Nk Wk

projection = « multiplication » par β• intraclasse : βT Wβ• interclasse : βT Bβ


Critère de Fisher

Critère de Fisher : maximiser βT BββT Wβ

si β maximise le critère, on montre qu’il existe λ tel queBβ = λWβ (problème de valeur propre généralisé)en général W est inversible et β est donc vecteur proprede W−1B (associé à la plus grande valeur propre)algorithme basique (méthode de la puissance itérée) :• β(0) aléatoire• β(t+1) = 1

‖W−1Bβ(t)‖W−1Bβ(t)

• converge vers un vecteur propre associé à la plus grandevaleur propre

puis on ajoute un seuil β0 optimal (sous une hypothèse dedistribution gaussienne)


Exemple

−3 −2 −1 0 1 2

−2

−1

01

23


Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3


Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−1 0 1 2 3

0.0

0.2

0.4

0.6


Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−4 −2 0 2 4

0.0

0.1

0.2

0.3


Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale


Discussion

cas à deux classes :• on montre facilement que l’analyse discriminante conduit

au même hyperplan séparateur que la régression mais àdes seuils (β0) différents

• les méthodes donnent des résultats strictement identiquessi les deux classes sont de mêmes tailles

cas à trois classes ou plus :• les résultats sont très différents• l’analyse discriminante fonctionne généralement mieux que

la régression


Choix d’un séparateur linéaire

Deux problèmes principaux :1. cas séparable : en général une infinité de solutions,

comment choisir ?• critère additionnel : choix parmi les solutions exactes (avec

aucune erreur)• critère alternatif : optimisation d’une autre grandeur (pas le

nombre d’erreurs)2. cas non séparable : comment minimiser le nombre

d’erreurs ?• algorithme de coût acceptable• critère alternatif (bis)

Question subsidiaire : le cas non linéaire est-il fréquent ?


Maximisation de la marge

Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport



Données linéairementséparables : une infinitéde choix possibles

Données proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport



Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesse

Un critère de choixpossible : maximiser lamargeMachine à vecteurs desupport



Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamarge

Machine à vecteurs desupport



Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport


Formulation du problèmemarge : distance entre le séparateur et l’observation laplus prochemarge (yi ∈ {−1,1}) :

mini

|〈β, xi〉+ β0|〈β, β〉

= mini

yi(〈β, xi〉+ β0)

〈β, β〉,

en l’absence d’erreur, c.-à-d., avec yi(〈β, xi〉+ β0) > 0normalisation par mini yi(〈β, xi〉+ β0) :

(P0) minβ,β012〈β, β〉,

sous les contraintes yi(〈β, xi〉+ β0) ≥ 1, 1 ≤ i ≤ N.

problème d’optimisation quadratique sous contrainteslinéairesformulation duale plus simple


Formulation duale

(P0) est équivalent à

(D0) maxα∑N

i=1 αi − 12∑N

i=1∑N

j=1 αiαjyiyj〈xi , xj〉sous les contraintes

∑Ni=1 αiyi = 0 et αi ≥ 0

problème plus facile à résoudre :• toujours quadratique• contraintes plus simples

on montre que (yi(〈β, xi〉+ β0)− 1) > 0⇒ αi = 0 :• les observations éloignées du séparateur n’interviennent

pas dans la solution• la solution dépend uniquement des observations « sur la

marge » : les vecteurs de support (contraintes saturées)• on a aussi 〈β, x〉 =

∑αi 6=0 αiyi〈xi , x〉


Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale


Cas non linéairement séparable

le problème P0 n’a pas de solution : pas de pointadmissibleassouplir les contraintes :• autoriser des erreurs de classement• conserver la notion de marge pour les points bien classés• yi (〈β, xi〉+ β0) ≥ 1− ξi avec ξi ≥ 0• les ξi sont les « variables ressort »

nouveau problème :

(PC) minβ,β0,ξ12〈β, β〉+ C

∑Ni=1 ξi ,

avec yi(〈β, xi〉+ β0) ≥ 1− ξi , 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.

variantes possibles (par exemple C∑N

i=1 ξ2i )


Interprétation(PC) s’écrit aussi

(PC) minβ,β0,ξ12〈β, β〉+ C

∑Ni=1 ξi ,

avec ξi ≥ 1− yi(〈β, xi〉+ β0), 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.

de façon équivalente :

(PC) minβ,β0

12〈β, β〉+ C

N∑i=1

max (1− yi(〈β, xi〉+ β0),0)

interprétation de C :• compromis entre erreurs et marge, régularisation• C grand : erreurs interdites, au détriment de la marge (le

modèle « colle » aux données)• C petit : marge maximisée, au détriment des erreurs• choix de C : choix de modèle


Autre interprétation

le coûtl(g(x), y) = max (1− yg(x),0)

est appelé le hinge losson remarque que

l(g(x), y) ≥ δsigne(g(x))6=y

le hinge loss est une majoration convexe du coût 0/1


Coût quadratique ou hinge


+ facile à optimiser

- pénalise un trop bon classe-ment

−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1coût quadratique

coût quadratique


Coût quadratique ou hinge


+ facile à optimiser

+ ne pénalise pas les bons clas-sements

+ n’explose pas−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1hinge loss

hinge loss


Problème dual

(PC) est équivalent à

(DC) maxα∑N

i=1 αi − 12∑N

i=1∑N

j=1 αiαjyiyj〈xi , xj〉sous les contraintes

∑Ni=1 αiyi = 0 et 0 ≤ αi ≤ C

seul changement : valeur maximale sur les multiplicateurscoût algorithmique :• algorithme « exact » en O

(N3)

• algorithme plus heuristique en O(N2)

en pratique


Exemple

−3 −2 −1 0 1 2

−1

01

2


Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.005, 18 erreurs


Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.0075, 8 erreurs


Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.01, 5 erreurs


Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.1, 5 erreurs


Exemple

−3 −2 −1 0 1 2

−1

01

2C=1, 6 erreurs


Exemple

−3 −2 −1 0 1 2

−1

01

2C=1e+06, 6 erreurs


Résumé

plusieurs choix pour la discriminationcoût quadratique :• simple à mettre en œuvre• relativement rapide• assez peu adapté au cas multi-classes• résultats mitigés

analyse discriminante :• meilleure justification que le coût quadratique• bien adapté au multi-classes• relativement rapide et simple

machines à vecteurs de support :• solution robuste• extensions complexes au multi-classes• algorithme efficace mais sophistiqué• excellent résultats en pratique


En R

régression :• fonction lm du package stats• nombreuses extensions associées

analyse discriminante : fonction lda du package MASS

machines à vecteurs de support :• fonction svm du package e1071• fonction ksvm du package kernlab


Linéarité et dimensionRésultats de Thomas Cover (1965)

la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1

2

distribution de plus en plus « piquée » :

6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Probabilité d'être linéairement séparable en dimension 5

N




2


15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0


N




2


100 150 200 250 300

0.0

0.2

0.4

0.6

0.8

1.0


N




2


1000 1500 2000 2500 3000

0.0

0.2

0.4

0.6

0.8

1.0


N


Conséquences

problèmes « simples » :• p

N � 2 : beaucoup de variables pour peu d’observations• classifieur linéaire :

• généralement une infinité de choix possibles• critère de choix très important• régularisation cruciale

problèmes « difficiles » :• N

p � 2• pas de séparateur linéaire• peu de variables et/ou beaucoup d’observations• données « contradictoires » (classes partiellement

superposées)

la situation est la même qu’en régression


Méthodes non linéaires

même principe d’extension que pour la régressiontransformation explicite des variablestransformation implicite :• passage par un noyau• régression ridge à noyau et erreur quadratique• analyse discriminante de Fisher à noyau• machines à vecteurs de support (MVS) à noyau :

• la formulation duale fait apparaître les 〈xi , xj〉• il suffit de remplacer par un noyau pour obtenir une MVS non

linéaire

comme en régression, la difficulté est le choix du modèle







106 / 122 F. Rossi Sélection de modèle

Le modèle parfaitsi les données d’apprentissage ne sont pascontradictoires, il existe un modèle parfaitdonnées contradictoires : xi = xj et yi 6= yjmodèle parfait :• algorithme des plus proches voisins• régression utilisant le noyau gaussien avec σ petit• etc.

le modèle parfait n’a aucun intérêt car il colle au bruit :• apprentissage par cœur• sur-apprentissage

principe du rasoir d’Occam : de deux modèles quiexpliquent aussi bien un phénomène, on choisit le plussimple

Les multiples ne doivent pas être utilisés sansnécessité


Estimation des performancesle problème fondamental est l’estimation de

L(g) = EP{l(g(x), y)}

alors qu’on ne connaît pas P, la distribution des donnéesla loi des grands nombres

limM→∞

1M

M∑i=1

l(g(xi), yi) = L(g)

nécessite des données indépendantes du modèled’où la méthode de l’ensemble de validation :• on découpe les données observées en un ensemble

d’apprentissage et un ensemble de validation• on construit de modèle sur l’apprentissage, on l’évalue sur

la validation


Validation

Avantages :• facile à mettre en œuvre• temps de calcul raisonnable

Inconvénients :• nécessite beaucoup de données :

• au moins deux ensembles• si on veut évaluer un modèle sélectionné sur l’ensemble de

validation, on doit utiliser un troisième ensemble : l’ensemblede test

• sensible au découpage• réduit les données utilisées pour construire le modèle :

résultats moins robustes


Validation croisée

idée principale• échanger les ensembles d’apprentissage et de validation• apprendre un modèle sur D = (xi , yi )1≤i≤N et l’évaluer surD′ = (xi , yi )N+1≤i≤N+M ...

• puis apprendre un modèle sur D′ et l’évaluer sur D ...• et enfin combiner les évaluations

solution générale :1. découpage des données en k sous-ensembles D1, . . . ,Dn2. pour tout i :

2.1 apprentissage sur l’union des Dj avec j 6= i2.2 évaluation sur Di

3. combinaison des évaluations

si k = N on parle de leave-one-out.


Validation croisée

Estimation desperformances

Test

Apprentissage

Test

Apprentissage


Validation croisée

procédure détaillée :• apprentissage sur

⋃j 6=i Dk ⇒ gi

• prédictions sur Di , y (i)l = gi (xl ) pour xl ∈ Di

• donc pour tout xl ∈ D, on a une prédiction y (i)l (pour un

certain i)• évaluation : 1

N

∑Nl=1 In

y (i)l 6=yl

opas de classifieur unique !applications :• évaluation de performances• sélection de modèle :

• évaluation des performances pour chaque configurationchoisie (degré du polynôme, etc.)

• choix de la meilleure configuration• construction d’un classifieur sur l’ensemble des données


Validation croisée

avantages :• facile à mettre en œuvre• utilise toutes les données pour évaluer le modèle

inconvénients :• sensible au découpage et au nombre de blocs• temps de calcul élevé• ne donne pas directement un modèle

solution la plus utilisée aujourd’huine dispense pas du découpage apprentissage/test


Le Bootstrap

Méthode générale d’estimation de la qualité d’un estimateur,basée sur un ré-échantillonnage :

on cherche à estimer θ, une statistique sur lesobservations (les x i )on se donne θ(x1, . . . , xN) un estimateur de θon cherche à déterminer :• le biais de θ• la variance de θ

solution :• fabriquer des échantillons bootstrap• un échantillon bootstrap : (x1

∗ , . . . , xN∗ ) obtenu par tirage

aléatoire uniforme avec remise dans l’échantillond’origine (x1, . . . , xN)

• simule des nouveaux tirages pour les (x1, . . . , xN)


Principe

Monde Réel

Echantillon Bootstrap


(x1∗ , . . . , xN

∗ )→ θ∗

(x1∗ , . . . , xN

∗ )→ θ∗(x1, . . . , xN)→ θ

Echantillon

Tirage Aléatoire

X → θ

Monde Réel


Principe

Tirage Aléatoire

Monde Réel

Echantillon

Monde Réel

(x1, . . . , xN)→ θ

X → θ



(x1∗ , . . . , xN

∗ )→ θ∗

(x1∗ , . . . , xN

∗ )→ θ∗


Estimation du biais

Algorithme :1. pour b allant de 1 à n

1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x

N∗b)

1.2 calculer θ∗b = θ(x1∗b, . . . , x

N∗b)

2. l’estimation du biais est

1n

n∑b=1

θ∗b − θ(x1, . . . , xN)

Idée, remplacer le monde réel par l’échantillon :le premier terme estime l’espérance de l’estimateurle second terme estime l’estimateur


Estimation de la variance



N∗b)

1.2 calculer θ∗b = θ(x1∗b, . . . , x

N∗b)

2. calculer

θ∗ =1b

n∑b=1

θ∗b

3. l’estimation de la variance est

1n − 1

n∑b=1

(θ∗b − θ∗

)2


Application à l’évaluation d’un modèle

Raisonnement :l’évaluation d’un modèle consiste à estimer sesperformancesl’erreur résiduelle sur l’ensemble d’apprentissagesous-estime l’erreur réelleidée, estimer l’ampleur de la sous-estimation parbootstrap :• calculer la sous-estimation pour un échantillon bootstrap• moyenner les sous-estimations pour beaucoup

d’échantillons bootstrap• corriger l’erreur résiduelle en ajoutant la moyenne


Évaluation d’un modèle



N∗b) (à partir

de l’ensemble d’apprentissage)1.2 estimer le modèle optimal pour l’échantillon bootstrap1.3 calculer B∗b comme la différence entre l’erreur résiduelle du

modèle sur l’échantillon d’apprentissage et l’erreurrésiduelle du modèle sur l’échantillon bootstrap

2. estimer l’erreur résiduelle E du modèle optimal surl’ensemble d’apprentissage

3. corriger cette erreur en lui ajoutant 1n∑n

b=1 B∗b


VariantesEstimation directe de l’erreur du modèle optimal

moyenne empirique de l’erreur commise sur l’ensembled’apprentissage par le modèle construit sur l’échantillonbootstrap (EB)moyenne empirique de l’erreur commise sur lecomplémentaire de l’échantillon bootstrap par le modèleconstruit sur l’échantillon (bootstrap out-of-bag, Eoob)bootstrap 632 : combinaison de l’estimation out-of-bag etde l’estimation naïve (sur l’ensemble d’apprentissage)

E632 = 0.632 Eoob + 0.368 E

Probabilité qu’une observation de l’ensembled’apprentissage soit dans un échantillon bootstrap : 0.632


Bootstrap

Points positifs :• facile à mettre en œuvre• utilise toutes les données• donne des intervalles de confiance

Points négatifs :• temps de calcul très élevé• nombreuses variantes• ne donne pas directement un modèle

ne dispense pas du découpage apprentissage/test


Résumé

l’erreur empirique ne donne pas une bonne idée desperformances en généralisationil faut toujours utiliser une méthode valide pour estimer lesperformancesdécoupage et rééchantillonnage :• méthodes classiques et éprouvées• rééchantillonnage (validation croisée et bootstrap) : lent

mais utilise toutes les données• validation (découpage) : rapide mais nécessite beaucoup

de données


fabrice rossi telecom paristech mai/juin 2009 · 8 / 122 f. rossi introduction et modélisation...

Documents