fabrice rossi telecom paristech mai/juin 2009 · 8 / 122 f. rossi introduction et modélisation...
TRANSCRIPT
Apprentissage supervisé
Fabrice Rossi
TELECOM ParisTech
Mai/Juin 2009
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
2 / 122 F. Rossi
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
3 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Z
deux grandes catégories de données :1. cas non supervisé :
• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des
q classes• applications : diagnostic médical (malade/sain),
reconnaissance de caractères, etc.
ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens
de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet
• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble
ordonné)• applications : recherche d’informations (page rank de
Google), suggestions (amazon, netflix)
5 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des
q classes• applications : diagnostic médical (malade/sain),
reconnaissance de caractères, etc.ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens
de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet
• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble
ordonné)• applications : recherche d’informations (page rank de
Google), suggestions (amazon, netflix)
5 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage supervisé
régression :• Y = R ou Y = Rp
• prévision : associer une valeur numérique à une nouvelleobservation
• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.
sortie structurée :• Y est un ensemble structuré complexe : ensemble de
fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une
nouvelle observation• application : inférence grammaticale (associer un arbre de
syntaxe à un texte), traduction automatique, etc.
6 / 122 F. Rossi Introduction et modélisation mathématique
Apprentissage supervisé
régression :• Y = R ou Y = Rp
• prévision : associer une valeur numérique à une nouvelleobservation
• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.
sortie structurée :• Y est un ensemble structuré complexe : ensemble de
fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une
nouvelle observation• application : inférence grammaticale (associer un arbre de
syntaxe à un texte), traduction automatique, etc.
6 / 122 F. Rossi Introduction et modélisation mathématique
Vocabulaire
x : variables explicatives (espace associé X )y : variable à expliquer (espace associé Y)un modèle g : une fonction de X dans Yg(x) est la prédiction/prévision du modèle pour l’entrée xl’ensemble des données à partir desquelles on construit lemodèle est l’ensemble d’apprentissagecollisions Français et Anglais :
Français AnglaisClassification ClusteringClassement Classification ou ranking
Discrimination Classification
7 / 122 F. Rossi Introduction et modélisation mathématique
Buts
buts principaux :• obtenir un « bon » modèle : la prévision obtenue est proche
de la vraie valeur• obtenir rapidement un modèle rapide : temps de
construction du modèle et temps nécessaire à l’obtentiond’une prévision
• pouvoir garantir les performances : avec une probabilité de1− r , la prévision sera bonne à ε près
buts annexes :• obtenir un modèle compréhensible : comment le modèle
prend il une décision ?• obtenir un modèle modifiable : pouvoir prendre en compte
de nouvelles données, s’adapter à un environnementchangeant, etc.
8 / 122 F. Rossi Introduction et modélisation mathématique
Erreur de prédictionQu’est-ce qu’une bonne prédiction ?
on considère une observation z = (x , y) et une prédictiong(x) faite par un modèlela qualité de g(x) peut être mesurée par une dissimilarité ldéfinie sur Y : l(g(x), y) doit être petitl est le critère d’erreur :• régression :
• distances classiques sur Rp
• en général ‖g(x)− y‖2 et parfois |g(x)− y | dans R pour lesméthodes de régression dites robustes
• discrimination :• décompte des erreurs : δg(x) 6=y• matrice des coûts de confusion : par ex. prédire g(x) = 1
alors que y = 0 peut être plus coûteux que prédire g(x) = 0quand y = 1 (diagnostic médical)
9 / 122 F. Rossi Introduction et modélisation mathématique
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
Vision « naïve » :• données d’évaluation TM = (xi , yi )
Mi=1
• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par
L(g; TM) =1M
M∑i=1
l(g(xi ), yi )
• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique
interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs
10 / 122 F. Rossi Introduction et modélisation mathématique
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
Vision « naïve » :• données d’évaluation TM = (xi , yi )
Mi=1
• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par
L(g; TM) =1M
M∑i=1
l(g(xi ), yi )
• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique
interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs
10 / 122 F. Rossi Introduction et modélisation mathématique
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des données
remarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
Justifications
pourquoi de l’aléatoire ?• bruit dans les observations• données incomplètes• variabilité naturelle
pourquoi une distribution P fixée ?• stationnarité• condition nécessaire à l’inférence : si un phénomène
change constamment, on ne peut pas le prédire• extensions possibles aux variations lentes
pourquoi l’espérance ?• naturelle dans un cadre statistique• pour s’affranchir de la variabilité des nouvelles observations
12 / 122 F. Rossi Introduction et modélisation mathématique
Pratique vs statistiquela loi des grands nombres dit que
limN→∞
1N
N∑i=1
Ui = E(U)
quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)
Mi=1 sont
distribuées selon P et indépendantes, alors
limM→∞
L(g; TM) = L(g)
indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles
informations
13 / 122 F. Rossi Introduction et modélisation mathématique
Pratique vs statistiquela loi des grands nombres dit que
limN→∞
1N
N∑i=1
Ui = E(U)
quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)
Mi=1 sont
distribuées selon P et indépendantes, alors
limM→∞
L(g; TM) = L(g)
indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles
informations
13 / 122 F. Rossi Introduction et modélisation mathématique
Interprétation
comment interpréter L(g) ?• on considère M observations (xi , yi )
Mi=1
• on calcule
L(g; (xi , yi )Mi=1) =
1M
M∑i=1
l(g(xi ), yi )
• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)
remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité
L(g) = EP{l(g(x), y)} = P(g(x) 6= y)
correspond à la probabilité d’erreur de classement
14 / 122 F. Rossi Introduction et modélisation mathématique
Interprétation
comment interpréter L(g) ?• on considère M observations (xi , yi )
Mi=1
• on calcule
L(g; (xi , yi )Mi=1) =
1M
M∑i=1
l(g(xi ), yi )
• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)
remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité
L(g) = EP{l(g(x), y)} = P(g(x) 6= y)
correspond à la probabilité d’erreur de classement
14 / 122 F. Rossi Introduction et modélisation mathématique
Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se
trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité
est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5
observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne
on peut donner des intervalles de confiance surL(g; (xi , yi)
Mi=1) autour de L(g) en fonction de M de la forme
P{∣∣∣L(g; (xi , yi)
Mi=1)− L(g)
∣∣∣ > ε}< 1− δ
15 / 122 F. Rossi Introduction et modélisation mathématique
Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se
trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité
est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5
observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne
on peut donner des intervalles de confiance surL(g; (xi , yi)
Mi=1) autour de L(g) en fonction de M de la forme
P{∣∣∣L(g; (xi , yi)
Mi=1)− L(g)
∣∣∣ > ε}< 1− δ
15 / 122 F. Rossi Introduction et modélisation mathématique
Généralisation
Définition informelleL’erreur en généralisation d’un modèle est celle des prédictionsobtenues sur des nouvelles observations
notion cruciale en apprentissage supervisémathématiquement, il s’agit simplement de L(g)
problème fondamental : comment estimer l’erreur engénéralisation alors qu’on ne connaît pas P ?loi des grands nombres ?
16 / 122 F. Rossi Introduction et modélisation mathématique
Problème d’estimation
processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )
Ni=1, distribuées selon P et indépendantes
• l’algorithme choisi construit un modèle g qui dépend de DN
que dire de
L(g; (xi , yi)Ni=1) =
1N
N∑i=1
l(g(xi), yi)
rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g
17 / 122 F. Rossi Introduction et modélisation mathématique
Problème d’estimation
processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )
Ni=1, distribuées selon P et indépendantes
• l’algorithme choisi construit un modèle g qui dépend de DN
que dire de
L(g; (xi , yi)Ni=1) =
1N
N∑i=1
l(g(xi), yi)
rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g
17 / 122 F. Rossi Introduction et modélisation mathématique
K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)
Ni=1 et un paramètre K
on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :
1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est
• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination
• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression
on a g1(xi) = yi et donc pour tout critère l raisonnable,
L(g1; (xi , yi)Ni=1) =
1N
N∑i=1
l(g1(xi), yi) = 0
18 / 122 F. Rossi Introduction et modélisation mathématique
K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)
Ni=1 et un paramètre K
on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :
1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est
• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination
• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression
on a g1(xi) = yi et donc pour tout critère l raisonnable,
L(g1; (xi , yi)Ni=1) =
1N
N∑i=1
l(g1(xi), yi) = 0
18 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
grille d’évaluation
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
classement optimal
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0968
L(g) = 0
1 voisin
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0892
L(g) = 0.065
3 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0524
L(g) = 0.085
5 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0416
L(g) = 0.0875
11 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0404
L(g) = 0.085
15 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0456
L(g) = 0.095
21 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
Optimisme
l’exemple précédent est très représentatif :• on peut souvent construire g tel que g(xi ) = yi sur DN• pour un critère d’erreur raisonnable, on aura donc
L(g; (xi , yi )Ni=1) = 0
• mais en général, L(g) > 0
l’erreur empirique sur l’ensemble d’apprentissage estgénéralement (très) optimistec’est une mauvaise estimation de l’erreur en généralisation
Point à retenirobtenir une bonne estimation des performances d’un modèleest la principale difficulté de l’apprentissage automatique
20 / 122 F. Rossi Introduction et modélisation mathématique
Résumé
l’apprentissage supervisé• construit un modèle pour prédire y à partir de x• en s’appuyant sur un ensemble d’apprentissage constitué
d’exemples d’associations (x , y)
suite du cours :• quelques modèles et algorithmes associés• méthodologie :
• comment évaluer les performances d’un modèle ?• comment choisir un bon modèle ?
21 / 122 F. Rossi Introduction et modélisation mathématique
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
22 / 122 F. Rossi Régression
Régression linéaire
exemple le plus élémentaire d’apprentissage automatique :• on dispose de N couples de réels (xi , yi ) (l’ensemble
d’apprentissage)• on cherche deux réels a et b tels que yi ' axi + b pour tout
1 ≤ i ≤ N• le modèle est linéaire :
• la fonction qui aux paramètres associe le modèle est linéaire(a, b) 7→ (x 7→ ax + b)
• le modèle lui même est affine
stratégie de construction du modèle :• minimisation de l’erreur des moindres carrés
(a∗,b∗) = arg mina,b
N∑i=1
(axi + b − yi )2
23 / 122 F. Rossi Régression
ExempleAnalyse spectroscopique de vins
−20 −10 0 10 20 30
810
1214
spectre1
alco
ol
24 / 122 F. Rossi Régression
ExempleAnalyse spectroscopique de vins
−20 −10 0 10 20 30
810
1214
spectre1
alco
ol
24 / 122 F. Rossi Régression
Résolution
si E(a,b) =∑N
i=1(axi + b − yi)2, on a
∇aE(a,b) = 2
(a
N∑i=1
x2i +
N∑i=1
xi(b − yi)
)
et
∇bE(a,b) = 2N
(b +
1N
N∑i=1
(axi − yi)
)∇E = 0 conduit à une unique solution (a∗,b∗)
25 / 122 F. Rossi Régression
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique
:• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
Régression linéaire multiple
extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés
F =
{f : Rp → R | f (x) = β0 +
p∑i=1
βixi
}
vision apprentissage : minimisation du risque empirique
vision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon
Y = β0 +
p∑i=1
βiXi + ε
27 / 122 F. Rossi Régression
Régression linéaire multiple
extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés
F =
{f : Rp → R | f (x) = β0 +
p∑i=1
βixi
}
vision apprentissage : minimisation du risque empiriquevision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon
Y = β0 +
p∑i=1
βiXi + ε
27 / 122 F. Rossi Régression
Moindres carrés
notations simplificatrices :• on ajoute une « variable » x0 toujours égale à 1• on note Y = (y1, . . . , yN)T et X la matrice dont les colonnes
sont les variables :
X =
1 x11 x12 . . . x1p...
. . ....
1 xN1 xN2 . . . xNp
• on cherche alors β = (β0, . . . , βp)T tel que Y ' Xβ
minimisation de l’erreur quadratique
β∗ = arg minβ‖Y − Xβ‖2 = arg min
β
N∑i=1
(Yi − (Xβ)i)2
28 / 122 F. Rossi Régression
Moindres carrés
∇β‖Y − Xβ‖2 = 0 conduit aux équations normales
(X T X )β∗ = X T Y
résolution (coût et stabilité croissants) :• approche directe en O
(p3 + Np2
)β∗ = (X T X )−1X T Y
• décomposition QR en O(Np2
)X = QR avec Q orthogonale et R triangulaire supérieure
• décomposition en valeurs singulières en O(Np2
)X = UDV T avec D diagonale, et U et V orthogonales)
en général, on utilise la décomposition QR
29 / 122 F. Rossi Régression
Maximum de vraisemblance
le modèle probabiliste s’écrit Y = Xβ + ε
hypothèses supplémentaires :• observations statistiquement indépendantes• bruit ε gaussien N (0, σ)
vraisemblance de (xi , yi)1≤i≤N(1√2πσ
)N N∏i=1
exp(− 1
2σ2 (yi − xiβ)2)
maximiser la log vraisemblance revient donc à minimiser
12σ2
N∑i=1
(yi − xiβ)2
30 / 122 F. Rossi Régression
Liens
moindres carrés = maximum de vraisemblance• pour des observations indépendantes• et pour un bruit gaussien
homoscédasticité :• la variance du bruit ne dépend ni de x , ni de y• hypothèse assez forte
modèle probabiliste :• donne plus d’information : distribution des poids,
significativité, etc.• plus souple que les moindres carrés (cf aussi le cas de la
classification)• par exemple : bruit hétéroscédastique (variance non
uniforme)• mais plus complexe à mettre en œuvre
31 / 122 F. Rossi Régression
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
alcool
−20 0 20
810
1214
−20
020
spectre1
8 10 12 14 −20 0 10 30
−20
010
30
spectre2
32 / 122 F. Rossi Régression
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
spectre1spectre2
alcool
32 / 122 F. Rossi Régression
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
spectre1
spectre2
alcool
32 / 122 F. Rossi Régression
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
prédiction vs réalitévisualisation classiquequand p ≥ 2L(g) = 0.54
8 10 12 148
1012
1416
Réalité
Pré
dict
ion
Modèle idéal
32 / 122 F. Rossi Régression
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
prédiction vs réalitévisualisation classiquequand p ≥ 2une variable : L(g) = 0.92
8 10 12 148
1012
1416
Réalité
Pré
dict
ion
Modèle idéal
32 / 122 F. Rossi Régression
Prédictions simultanéesrégression avec y ∈ Rq :• Y est la matrice des variables à prédire (une ligne par
observation)
Y =
y11 . . . y1q...
...yN1 . . . yNq
• β est maintenant une matrice (p + 1)× q
minimisation de l’erreur quadratique (erreur gaussiennehétéroscédastique)
β∗ = arg minβ‖Y − Xβ‖2 = arg min
β
q∑j=1
N∑i=1
(Yij − (Xβ)ij)2
revient à réaliser q régressions linéaires multiples
33 / 122 F. Rossi Régression
En R
fonction lm du package stats :• modèle linéaire par moindres carrés (méthode QR)• interprétation statistique classique (significativité, etc.)• support des formules (au sens R) :
• données sous forme d’une data.frame• formules du type y∼a+b-1 pour préciser les variables
explicatives (ici a et b) et supprimer le terme constant -1• fonction predict pour les prédictions
nombreuses extensions :• modèles linéaires généralisés• séries temporelles• etc.
34 / 122 F. Rossi Régression
Limites
deux régimes « extrêmes » :• si N est grand devant p :
• beaucoup plus d’observations que de variables• le modèle linéaire n’est généralement pas assez complexe
• si N est petit devant p :• beaucoup plus de variables que d’observations• le modèle linéaire est généralement trop complexe
plage d’utilisation directe : quand N est de l’ordre de αptrois grandes questions :
1. comment augmenter la complexité ?2. comment réduire la complexité ?3. comment choisir la complexité adaptée aux données ?
35 / 122 F. Rossi Régression
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
36 / 122 F. Rossi Régression
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
régression linéaire
36 / 122 F. Rossi Régression
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
méthode non linéaire
36 / 122 F. Rossi Régression
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
37 / 122 F. Rossi Régression
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14
910
1112
1314
Réalité
Pré
dict
ion
Modèle idéal
Modèle linéaire
37 / 122 F. Rossi Régression
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14
1011
1213
14Réalité
Pré
dict
ion
Modèle idéal
Modèle linéaire « réduit »
37 / 122 F. Rossi Régression
Complexité
Définition informellela complexité d’une classe de modèles se mesure par la qualitéprédictive qu’elle peut atteindre sur un ensembled’apprentissage
pas assez complexe :• aucun modèle de la classe ne prédit bien y à partir de x• par exemple y = x2 et régression linéaire• Ozone et température
trop complexe :• certains modèles de la classe ne font aucune erreur sur
l’ensemble d’apprentissage• en général, Y = Xβ a une infinité de solutions quand N est
petit devant p• Alcool et spectre
38 / 122 F. Rossi Régression
Sélection de modèle
approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale
ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction
du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)
approche hiérarchique :• choix de plusieurs classes de modèles, de complexités
différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats
• comment ?
39 / 122 F. Rossi Régression
Sélection de modèle
approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale
ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction
du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)
approche hiérarchique :• choix de plusieurs classes de modèles, de complexités
différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats• comment ?
39 / 122 F. Rossi Régression
Ensemble de validation
l’erreur empirique sur l’ensemble d’apprentissage est unmauvais choix car :• la loi des grands nombres ne s’applique pas (dépendance)• l’estimation des performances est optimiste
solution élémentaire (solutions plus sophistiquées dans lasuite du cours) :• utiliser d’autres données distribuées aussi selon P• VM = (xi , yi )
Mi=1 : ensemble de validation indépendant
• la loi des grands nombres s’applique : L(g;VM) ' L(g)• point crucial : le modèle doit être construit sans utiliser VM
méthode :• choix de plusieurs classes de modèles• minimisation de l’erreur empirique dans chaque classe• choix du modèle parmi les candidats par minimisation de
l’erreur de validation
40 / 122 F. Rossi Régression
Réduire la complexité
source du problème :• le système Y = Xβ a une infinité de solution quand Y est
dans l’image de X• quand p est grand devant N, c’est très probable :
• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )
attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :
FS =
{f : Rp → R | f (x) = β0 +
∑i∈S
βixi
}
• choisir un modèle revient à choisir les variables utilisées
41 / 122 F. Rossi Régression
Réduire la complexité
source du problème :• le système Y = Xβ a une infinité de solution quand Y est
dans l’image de X• quand p est grand devant N, c’est très probable :
• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )
attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :
FS =
{f : Rp → R | f (x) = β0 +
∑i∈S
βixi
}
• choisir un modèle revient à choisir les variables utilisées
41 / 122 F. Rossi Régression
Sélection de variables
recherche exhaustive :• faisable quand p est petit : 2p − 1 configurations• accélération par branch and bound : faisable jusqu’à p ' 30
heuristiques d’exploration :• croissante (forward) :
• on ajoute des variables progressivement• S1 = {j1} est la variable qui donne le meilleur modèle
linéaire à une variable• S2 = {j1, j2} est obtenu en trouvant la variable j2 qui donne
avec j1 (fixée) le meilleur modèle linéaire à deux variables• etc.
• décroissante (backward) :• même principe mais en enlevant des variables• on commence donc par considérer le modèle complet
• mélange des deux...
42 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
10 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
12 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
15 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
20 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
30 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
50 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
60 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
75 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
90 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
Choix du modèle
0 20 40 60 80
5e−
055e
−04
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
12 variables
44 / 122 F. Rossi Régression
Choix du modèle
courbe classique dusur-apprentissage :
décroissance constante del’erreur empirique surl’ensemble d’apprentissagedécroissance puiscroissance sur l’ensemblede validation
0 20 40 60 80
5e−
055e
−04
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
la bonne évaluation des performances est celle fournie parl’ensemble de validation
45 / 122 F. Rossi Régression
Projection
les variables d’origine ne sont pas nécessairement les plusadaptéestechnique de réduction de la complexité (régression surcomposantes principales) :• réaliser une ACP des données• construire des modèles linéaires sur 1, 2, ..., p
composantes principales• choisir le meilleur modèle, c’est-à-dire le bon nombre de
composantesextension :• choisir des composantes orthogonales et corrélées avec la
variable à prédire Y• c’est la régression PLS (Partial Least Squares)
les composantes sont ordonnées : sélection forward parnature
46 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
10 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
20 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
27 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
30 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
40 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
60 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
80 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
Choix du modèle
0 20 40 60 80
2e−
041e
−03
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
27 variables ACP
48 / 122 F. Rossi Régression
Régularisation
limitation de la sélection : tout ou rienapproche concurrente par contrainte de régularité :• idée sous-jacente :
• un bon modèle s’appuie sur la « continuité » de la nature• si u ' v alors g(u) ' g(v)
• dans le cas linéaire :• | 〈u, v〉 | ≤ ‖u‖‖v‖ (Cauchy-Schwarz)• donc | 〈x1, β〉 − 〈x2, β〉 | = | 〈x1 − x2, β〉 | ≤ ‖x1 − x2‖‖β‖• donc ‖β‖ donne une mesure de la régularité d’un modèle
linéaire
classe de modèles
FC =
{f : Rp → R | f (x) = β0 +
N∑i=1
βixi , ‖β‖ ≤ C
}
49 / 122 F. Rossi Régression
Optimisation
résoudreβ∗ = arg min
β, ‖β‖≤C‖Y − Xβ‖2
peut sembler plus complexe qu’en l’absence de lacontraintemais par dualité convexe, il existe un λ tel que β∗ soit aussisolution de
β∗ = arg minβ
(‖Y − Xβ‖2 + λ‖β‖2
)on parle de régression ridge
50 / 122 F. Rossi Régression
Résolution
la résolution est simple car le problème est toujoursquadratique en β∇β(‖Y − Xβ‖2 + λ‖β‖2
)= 0 conduit aux équations
normales modifiées
(X T X + λI)β∗ = X T Y
où I est la matrice identité (de taille p + 1)le conditionnement de X T X + λI s’améliore avec λ
51 / 122 F. Rossi Régression
Mise en œuvrealgorithme :
1. calculer la SVD de X , X = UDV T
2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale K (λ) définie par
K (λ)ii = Dii/(D2ii + λ)
3.2 calculerβ∗ = VK (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)
détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur
pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la
régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement
52 / 122 F. Rossi Régression
Mise en œuvrealgorithme :
1. calculer la SVD de X , X = UDV T
2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale K (λ) définie par
K (λ)ii = Dii/(D2ii + λ)
3.2 calculerβ∗ = VK (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur
pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la
régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement
52 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 1e+05
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 7940
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 2510
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 79.4
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 7.94
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 2.51
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.251
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.0251
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.000794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 1e−05
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
Choix du modèle
1e−05 1e−02 1e+01 1e+04
1e−
091e
−07
1e−
051e
−03
1e−
01
λλ
Err
eur
empi
rique
apprentissagevalidation
λ ' 0.794
54 / 122 F. Rossi Régression
Évolution des coefficients
1e−05 1e−02 1e+01 1e+04
−0.
050.
000.
050.
10
λλ
ββ
55 / 122 F. Rossi Régression
Comparaison
sélection forward/backward :+ sélection de variables+ très efficace avec une implémentation adaptée : O
(Nk2
)pour une procédure forward naïve jusqu’à k variables
- décisions binairesprojections :
+ sélection de variables+ efficace : O
(Np2
)(avec une implémentation à la forward)
- variables transforméesrégression ridge :
+ souple+ efficace : SVD en O
(Np2
)puis O
(p2 + Np
)par valeur de λ
- pas de sélection de variables
56 / 122 F. Rossi Régression
Régularisation L1
régression ridge : mesure de régularité ‖β‖2méthode « lasso » :• mesure de régularité ‖β‖1 =
∑pi=1 |βi |
• point de vue modèle
FC =
{f : Rp → R | f (x) = β0 +
N∑i=1
βixi ,
p∑i=1
|βi | ≤ C
}
• point de vue optimisation
β∗ = arg minβ
(‖Y − Xβ‖2 + λ
p∑i=1
|βi |
)
• intérêt : produit naturellement des coefficients nuls• résolution par programmation quadratique
57 / 122 F. Rossi Régression
Lasso/Lars
algorithme LARS : Least Angle Regressionidée :• ajout progressif des variables (avec sorties possibles)• mais sans prendre le coefficient optimal associé à la
nouvelle variable• sans sortie : lars ; avec sortie : lasso
même type de coût algorithmique qu’une procédureforward, mais avec plus d’itérationscalcule un chemin :• on montre que l’évolution des paramètres en fonction de λ
est affine par morceaux• l’algorithme trouve tous les points de jonction
58 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
0 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
8 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
9 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
12 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
29 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
68 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
89 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
Choix du modèle
0 50 100 150 200 250 300 350
1e−
091e
−07
1e−
051e
−03
1e−
01
Étape
Err
eur
empi
rique
apprentissagevalidation
étape 136, 29 variables actives
60 / 122 F. Rossi Régression
Évolution des coefficients
0 50 100 150 200 250 300 350
−40
−30
−20
−10
010
2030
Étape
ββ
61 / 122 F. Rossi Régression
Évolution des coefficients
0 10 20 30 40
−40
−30
−20
−10
010
2030
Étape
ββ
62 / 122 F. Rossi Régression
En R
sélection de variables dans le modèle linéaire :• package leaps• fonction regsubsets• propose la recherche exhaustive avec branch and bound et
les recherches heuristiques classiquesprojection :• package pls• fonction pcr pour la régression sur composantes
principales• fonction plsr pour la régression PLS
régression ridge : fonction lm.ridge du package MASS
lasso : fonction lars du package lars
63 / 122 F. Rossi Régression
Résumé
régression linéaire :• méthode simple et efficace pour la régression• à toujours tester en premier !
limitations :• données dans Rp seulement• x 7→ g(x) est affine : insuffisant dans certains cas• quand p est grand par rapport à N, le modèle linéaire peut
être trop puissantlimiter la puissance :• sélection de variables• régularisation
leçons générales :• contrôler la régularité d’un modèle par une pénalité• sélectionner un modèle grâce à un ensemble de validation
64 / 122 F. Rossi Régression
Non linéarité
en régression linéaire, x 7→ g(x) est affine etβ 7→ (x 7→ g(x)) est linéairecertains problèmes ne sont pas linéaires/affines :• non linéarité intrinsèque (emballement d’une réaction
chimique, par ex.)• variables manquantes (inconnues)
corriger le modèle en gardant la linéarité β 7→ g :• lever la limitation sur le modèle• conserver la simplicité du choix de β (optimisation
quadratique)
idée simple : transformer les données
65 / 122 F. Rossi Régression
Transformer les données
principe :• fonction de transformation φ : Rp → Rq
• régression linéaire sur (φ(xi ), yi )1≤i≤N• si φ est bien choisie, on obtient des variables linéairement
indépendantes dans Rq :• N équations à q inconnues pour φ(xi) ' yi
• si q est de l’ordre de N, on trouve toujours une solutionexacte
• x 7→ 〈φ(x), β〉 n’est plus affine !exemple :• φ(x) = (1, x , x2)T
• classe de modèles
F ={
f : R → R | f (x) = β0 + β1x + β2x2}• modèles quadratiques
66 / 122 F. Rossi Régression
Mise en œuvre
q fonctions de base φj : Rp → Rmatrice des prédicteurs
Φ(X ) =
1 φ1(x1) φ2(x1) . . . φq(x1)...
. . ....
1 φ1(xN) φ2(xN) . . . φq(xN)
problème d’optimisation
β∗ = arg minβ∈Rq+1
‖Y − Φ(X )β‖2
équations normales associées
(Φ(X )T Φ(X ))β∗ = Φ(X )T Y
67 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 1
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 2
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 3
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 4
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 5
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 6
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 7
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Exemple
60 70 80 90
050
100
150
degré : 25
Temp
Ozo
ne
68 / 122 F. Rossi Régression
Limitations
choix de φ :• quand x ∈ R pas de problème particulier : polynômes,
splines, ondelettes, séries de Fourier, etc.• quand x ∈ Rp, explosion combinatoire :
• (p+d)!p!d!
monômes de degré inférieur ou égal à d sur pvariables
• même type de problème pour les autres solutions• solutions par approches gloutonnes : on ajoute
progressivement des φj
coût algorithmique :• la régression linéaire est en O
(Np2
)• si p ' N ⇒ O
(N3)
: réduction du champ d’applicationcontrôle de la puissance :• régularisation• sélection de modèle
69 / 122 F. Rossi Régression
Équations normales
on remarque que si (Φ(X )T Φ(X )) est inversible
β∗ = Φ(X )Tα∗ =N∑
i=1
α∗i φ(xi)
et donc
g(x) = 〈φ(x), β∗〉 =N∑
i=1
α∗i 〈φ(x), φ(xi)〉
de plusα∗ = (Φ(X )Φ(X )T )−1Y
70 / 122 F. Rossi Régression
Transformation implicite
or (Φ(X )Φ(X )T )ij =⟨φ(xi), φ(xj)
⟩pour construire et utiliser le modèle linéaire sur les φ(xi) ilsuffit de connaître les produits scalaires
⟨φ(xi), φ(xj)
⟩impact algorithmique :• u = (u1,u2) and v = (v1, v2)• φ(u) = (1,
√2u1,√
2u2,√
2u1u2,u21 ,u
22) : 3 opérations
• 〈φ(u), φ(v)〉 : 11 opérations• total : 17 opérations
• mais on montre que 〈φ(u), φ(v)〉 =(
1 +∑2
i=1 uivi
)2:
5 opérations• plus généralement 〈φ(u), φ(v)〉 = (1 + 〈u, v〉)d pour une
transformation φ utilisant tous les monômes de degréinférieur à d : temps de calcul en O(p + d)
71 / 122 F. Rossi Régression
Non linéaire efficace
nouvelle version de l’approche :• choisir φ telle que 〈φ(u), φ(v)〉 se calcule efficacement• calculer α∗ = (Φ(X )Φ(X )T )−1Y• utiliser le modèle
x 7→N∑
i=1
α∗i 〈φ(x), φ(xi )〉
une fois Φ(X )Φ(X )T calculée, l’algorithme est en O(N3) :
• intéressant si φ envoie dans Rq avec q > N• mais dans ce cas le modèle est potentiellement trop
puissant• régularisation ridge
72 / 122 F. Rossi Régression
Régularisation ridge
on cherche à contrôler ‖β∗‖2
on a
‖β∗‖2 =N∑
i=1
N∑j=1
α∗i α∗j⟨φ(xi), φ(xj)
⟩on montre que
β∗ = arg minβ∈Rq+1
(‖Y − Φ(X )β‖2 + λ‖β‖2
)correspond à
α∗ =(
Φ(X )Φ(X )T + λI)−1
Y
73 / 122 F. Rossi Régression
Principe du noyau
en fait φ est inutile, seuls les 〈φ(u), φ(v)〉 entre en jeunoyau (kernel) :• fonction K de Rp × Rp → R• symétrique : K (u, v) = K (v ,u)• positive :
∑i,j λiλjK (ui , vj ) ≥ 0
on montre que pour tout noyau K , il existe une fonction φtelle que K (u, v) = 〈φ(u), φ(v)〉 dans un certain espace H :• H peut être très grand (de dimension infinie)• on n’a jamais besoin de calculer explicitement φ
74 / 122 F. Rossi Régression
Noyauxun noyau correspond à un produit scalaire :• peut être vue comme une similarité• peut être défini sur un espace quelconque :
• chaînes de caractères (dénombrement de co-occurrence)• graphes (chemins communs)• etc.
• ⇒ régression régularisée non linéaire sur des donnéesarbitraires
un noyau important dans Rp, le noyau Gaussien :• K (u, v) = exp
(−‖u−v‖2
2σ2
)• σ est un paramètre de sensibilité :
• grand σ : peu sensible, comportement proche du linéaire• petit σ : très sensible, comportement proche des k plus
proches voisins
la matrice noyau Kij = K (xi , xj) remplace Φ(X )Φ(X )T dansles formules
75 / 122 F. Rossi Régression
Kernel Ridge Regression
choisir un noyau et calculer la matrice Kij = K (xi , xj)
algorithme :1. diagonaliser K , K = UT DU2. calculer Z = UY3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale V (λ) définie par
V (λ)ii = 1/(Dii + λ)3.2 calculer
α∗ = UT V (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)
attention, il faut aussi choisir le noyau (ou ses paramètres)sur un ensemble de validation
76 / 122 F. Rossi Régression
Résuméla régression linéaire s’étend facilement au non linéaire :• soit par transformation directe (peu de variables
explicatives)• soit par le biais d’un noyau
l’accroissement de la puissance rend cruciales :• l’utilisation d’une forme de régularisation• une sélection de modèle
outil générique :• la régression ridge à noyau (Kernel Ridge Regression)• coût algorithmique acceptable O
(N3)
• champ d’application énorme grâce aux noyaux : donnéesnon numériques et modèles non linéaires
• implémentation indépendante du noyau
il existe de nombreuses autres méthodes non linéaires(par exemple les k plus proches voisins)
77 / 122 F. Rossi Régression
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
78 / 122 F. Rossi Discrimination
Discriminationrappels :• discrimination à deux classes : Y = {A,B}• critère d’erreur : l(g(x), y) = δg(x)6=y
modèle linéaire en discrimination :• g(x) = 〈x , β〉+ β0 n’est pas directement utilisable• solution simple :
• g(x) = signe(〈x , β〉+ β0)• −1⇒ classe A• 1⇒ classe B
minimisation du risque empirique
β∗ = arg minβ∈Rp
N∑i=1
δsigne(〈xi ,β〉+β0)6=yi
optimisation combinatoire : impossible en pratique
79 / 122 F. Rossi Discrimination
Moindres carrés
solution simple :• faire de la régression• en cherchant à prédire yi = −1 pour la classe A et yi = 1
pour la classe B• attention : l’opération signe n’est pas prise en compte pour
le choix de β
on a donc
β∗ = arg minβ∈Rp
∑xi∈A
(〈xi , β〉+ 1)2 +∑xi∈B
(〈xi , β〉 − 1)2
avec l’augmentation habituelle des x par une variableconstante
80 / 122 F. Rossi Discrimination
Interprétation
approximation convexedu coût
+ facile à optimiser- pénalise un trop bon
classement
−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1coût quadratique
Solution acceptable mais limitée
81 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
82 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
82 / 122 F. Rossi Discrimination
Plus de deux classes
très mauvaise solution :• numéroter les classes de 1 à K• faire une régression linéaire avec comme cible le numéro
de la classe• ne jamais faire ça :
• induit une fausse structure d’ordre sur les classes• rend la régression plus difficile qu’elle ne devrait l’être• etc.
solutions par combinaisons :• construire K − 1 modèles : 1 contre les autres classes• construire K (K − 1)/2 modèles : 1 contre 1
solution par codage :• représenter l’appartenance à la classe k par un vecteur de
RK contenant K − 1 zéros et un 1 dans la variable k• puis régression classique
83 / 122 F. Rossi Discrimination
Projection
x 7→ 〈x , β〉 est une projection de Rp dans Rcomment optimiser la projection pour bien répartir lesexemples en deux classes ?• bien regrouper les projetés d’une même classe (variance
intra petite)• bien éloigner les projetés de classes différences (variance
inter grande)
analyse discriminante de Fisher : maximisation du ratioentre les variancess’applique à plusieurs classes, C1, . . . ,CK
84 / 122 F. Rossi Discrimination
Variances
décomposition de la covariance :• covariance totale T = 1
N
∑Ni=1(xi − µ)(xi − µ)T (µ moyenne
des x)• covariances intraclasse Wk = 1
Nk
∑i∈Ck
(xi − µk )(xi − µk )T
(µk moyenne des x de la classe Ck )• covariance interclasse B = 1
N
∑Kk=1 Nk (µk − µ)(µk − µ)T
• T = B + W , avec W = 1N
∑Kk=1 Nk Wk
projection = « multiplication » par β• intraclasse : βT Wβ• interclasse : βT Bβ
85 / 122 F. Rossi Discrimination
Critère de Fisher
Critère de Fisher : maximiser βT BββT Wβ
si β maximise le critère, on montre qu’il existe λ tel queBβ = λWβ (problème de valeur propre généralisé)en général W est inversible et β est donc vecteur proprede W−1B (associé à la plus grande valeur propre)algorithme basique (méthode de la puissance itérée) :• β(0) aléatoire• β(t+1) = 1
‖W−1Bβ(t)‖W−1Bβ(t)
• converge vers un vecteur propre associé à la plus grandevaleur propre
puis on ajoute un seuil β0 optimal (sous une hypothèse dedistribution gaussienne)
86 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
87 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
87 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−1 0 1 2 3
0.0
0.2
0.4
0.6
87 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−4 −2 0 2 4
0.0
0.1
0.2
0.3
87 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
88 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
88 / 122 F. Rossi Discrimination
Discussion
cas à deux classes :• on montre facilement que l’analyse discriminante conduit
au même hyperplan séparateur que la régression mais àdes seuils (β0) différents
• les méthodes donnent des résultats strictement identiquessi les deux classes sont de mêmes tailles
cas à trois classes ou plus :• les résultats sont très différents• l’analyse discriminante fonctionne généralement mieux que
la régression
89 / 122 F. Rossi Discrimination
Choix d’un séparateur linéaire
Deux problèmes principaux :1. cas séparable : en général une infinité de solutions,
comment choisir ?• critère additionnel : choix parmi les solutions exactes (avec
aucune erreur)• critère alternatif : optimisation d’une autre grandeur (pas le
nombre d’erreurs)2. cas non séparable : comment minimiser le nombre
d’erreurs ?• algorithme de coût acceptable• critère alternatif (bis)
Question subsidiaire : le cas non linéaire est-il fréquent ?
90 / 122 F. Rossi Discrimination
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possibles
Données proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesse
Un critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamarge
Machine à vecteurs desupport
91 / 122 F. Rossi Discrimination
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
Formulation du problèmemarge : distance entre le séparateur et l’observation laplus prochemarge (yi ∈ {−1,1}) :
mini
|〈β, xi〉+ β0|〈β, β〉
= mini
yi(〈β, xi〉+ β0)
〈β, β〉,
en l’absence d’erreur, c.-à-d., avec yi(〈β, xi〉+ β0) > 0normalisation par mini yi(〈β, xi〉+ β0) :
(P0) minβ,β012〈β, β〉,
sous les contraintes yi(〈β, xi〉+ β0) ≥ 1, 1 ≤ i ≤ N.
problème d’optimisation quadratique sous contrainteslinéairesformulation duale plus simple
92 / 122 F. Rossi Discrimination
Formulation duale
(P0) est équivalent à
(D0) maxα∑N
i=1 αi − 12∑N
i=1∑N
j=1 αiαjyiyj〈xi , xj〉sous les contraintes
∑Ni=1 αiyi = 0 et αi ≥ 0
problème plus facile à résoudre :• toujours quadratique• contraintes plus simples
on montre que (yi(〈β, xi〉+ β0)− 1) > 0⇒ αi = 0 :• les observations éloignées du séparateur n’interviennent
pas dans la solution• la solution dépend uniquement des observations « sur la
marge » : les vecteurs de support (contraintes saturées)• on a aussi 〈β, x〉 =
∑αi 6=0 αiyi〈xi , x〉
93 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
Cas non linéairement séparable
le problème P0 n’a pas de solution : pas de pointadmissibleassouplir les contraintes :• autoriser des erreurs de classement• conserver la notion de marge pour les points bien classés• yi (〈β, xi〉+ β0) ≥ 1− ξi avec ξi ≥ 0• les ξi sont les « variables ressort »
nouveau problème :
(PC) minβ,β0,ξ12〈β, β〉+ C
∑Ni=1 ξi ,
avec yi(〈β, xi〉+ β0) ≥ 1− ξi , 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.
variantes possibles (par exemple C∑N
i=1 ξ2i )
95 / 122 F. Rossi Discrimination
Interprétation(PC) s’écrit aussi
(PC) minβ,β0,ξ12〈β, β〉+ C
∑Ni=1 ξi ,
avec ξi ≥ 1− yi(〈β, xi〉+ β0), 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.
de façon équivalente :
(PC) minβ,β0
12〈β, β〉+ C
N∑i=1
max (1− yi(〈β, xi〉+ β0),0)
interprétation de C :• compromis entre erreurs et marge, régularisation• C grand : erreurs interdites, au détriment de la marge (le
modèle « colle » aux données)• C petit : marge maximisée, au détriment des erreurs• choix de C : choix de modèle
96 / 122 F. Rossi Discrimination
Autre interprétation
le coûtl(g(x), y) = max (1− yg(x),0)
est appelé le hinge losson remarque que
l(g(x), y) ≥ δsigne(g(x))6=y
le hinge loss est une majoration convexe du coût 0/1
97 / 122 F. Rossi Discrimination
Coût quadratique ou hinge
approximation convexedu coût
+ facile à optimiser
- pénalise un trop bon classe-ment
−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1coût quadratique
coût quadratique
98 / 122 F. Rossi Discrimination
Coût quadratique ou hinge
approximation convexedu coût
+ facile à optimiser
+ ne pénalise pas les bons clas-sements
+ n’explose pas−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1hinge loss
hinge loss
98 / 122 F. Rossi Discrimination
Problème dual
(PC) est équivalent à
(DC) maxα∑N
i=1 αi − 12∑N
i=1∑N
j=1 αiαjyiyj〈xi , xj〉sous les contraintes
∑Ni=1 αiyi = 0 et 0 ≤ αi ≤ C
seul changement : valeur maximale sur les multiplicateurscoût algorithmique :• algorithme « exact » en O
(N3)
• algorithme plus heuristique en O(N2)
en pratique
99 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.005, 18 erreurs
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.0075, 8 erreurs
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.01, 5 erreurs
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.1, 5 erreurs
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=1, 6 erreurs
100 / 122 F. Rossi Discrimination
Exemple
−3 −2 −1 0 1 2
−1
01
2C=1e+06, 6 erreurs
100 / 122 F. Rossi Discrimination
Résumé
plusieurs choix pour la discriminationcoût quadratique :• simple à mettre en œuvre• relativement rapide• assez peu adapté au cas multi-classes• résultats mitigés
analyse discriminante :• meilleure justification que le coût quadratique• bien adapté au multi-classes• relativement rapide et simple
machines à vecteurs de support :• solution robuste• extensions complexes au multi-classes• algorithme efficace mais sophistiqué• excellent résultats en pratique
101 / 122 F. Rossi Discrimination
En R
régression :• fonction lm du package stats• nombreuses extensions associées
analyse discriminante : fonction lda du package MASS
machines à vecteurs de support :• fonction svm du package e1071• fonction ksvm du package kernlab
102 / 122 F. Rossi Discrimination
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
6 8 10 12 14
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 5
N
103 / 122 F. Rossi Discrimination
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 10
N
103 / 122 F. Rossi Discrimination
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 100
N
103 / 122 F. Rossi Discrimination
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 1000
N
103 / 122 F. Rossi Discrimination
Conséquences
problèmes « simples » :• p
N � 2 : beaucoup de variables pour peu d’observations• classifieur linéaire :
• généralement une infinité de choix possibles• critère de choix très important• régularisation cruciale
problèmes « difficiles » :• N
p � 2• pas de séparateur linéaire• peu de variables et/ou beaucoup d’observations• données « contradictoires » (classes partiellement
superposées)
la situation est la même qu’en régression
104 / 122 F. Rossi Discrimination
Méthodes non linéaires
même principe d’extension que pour la régressiontransformation explicite des variablestransformation implicite :• passage par un noyau• régression ridge à noyau et erreur quadratique• analyse discriminante de Fisher à noyau• machines à vecteurs de support (MVS) à noyau :
• la formulation duale fait apparaître les 〈xi , xj〉• il suffit de remplacer par un noyau pour obtenir une MVS non
linéaire
comme en régression, la difficulté est le choix du modèle
105 / 122 F. Rossi Discrimination
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
106 / 122 F. Rossi Sélection de modèle
Le modèle parfaitsi les données d’apprentissage ne sont pascontradictoires, il existe un modèle parfaitdonnées contradictoires : xi = xj et yi 6= yjmodèle parfait :• algorithme des plus proches voisins• régression utilisant le noyau gaussien avec σ petit• etc.
le modèle parfait n’a aucun intérêt car il colle au bruit :• apprentissage par cœur• sur-apprentissage
principe du rasoir d’Occam : de deux modèles quiexpliquent aussi bien un phénomène, on choisit le plussimple
Les multiples ne doivent pas être utilisés sansnécessité
107 / 122 F. Rossi Sélection de modèle
Estimation des performancesle problème fondamental est l’estimation de
L(g) = EP{l(g(x), y)}
alors qu’on ne connaît pas P, la distribution des donnéesla loi des grands nombres
limM→∞
1M
M∑i=1
l(g(xi), yi) = L(g)
nécessite des données indépendantes du modèled’où la méthode de l’ensemble de validation :• on découpe les données observées en un ensemble
d’apprentissage et un ensemble de validation• on construit de modèle sur l’apprentissage, on l’évalue sur
la validation
108 / 122 F. Rossi Sélection de modèle
Validation
Avantages :• facile à mettre en œuvre• temps de calcul raisonnable
Inconvénients :• nécessite beaucoup de données :
• au moins deux ensembles• si on veut évaluer un modèle sélectionné sur l’ensemble de
validation, on doit utiliser un troisième ensemble : l’ensemblede test
• sensible au découpage• réduit les données utilisées pour construire le modèle :
résultats moins robustes
109 / 122 F. Rossi Sélection de modèle
Validation croisée
idée principale• échanger les ensembles d’apprentissage et de validation• apprendre un modèle sur D = (xi , yi )1≤i≤N et l’évaluer surD′ = (xi , yi )N+1≤i≤N+M ...
• puis apprendre un modèle sur D′ et l’évaluer sur D ...• et enfin combiner les évaluations
solution générale :1. découpage des données en k sous-ensembles D1, . . . ,Dn2. pour tout i :
2.1 apprentissage sur l’union des Dj avec j 6= i2.2 évaluation sur Di
3. combinaison des évaluations
si k = N on parle de leave-one-out.
110 / 122 F. Rossi Sélection de modèle
Validation croisée
Estimation desperformances
Test
Apprentissage
Test
Apprentissage
111 / 122 F. Rossi Sélection de modèle
Validation croisée
procédure détaillée :• apprentissage sur
⋃j 6=i Dk ⇒ gi
• prédictions sur Di , y (i)l = gi (xl ) pour xl ∈ Di
• donc pour tout xl ∈ D, on a une prédiction y (i)l (pour un
certain i)• évaluation : 1
N
∑Nl=1 In
y (i)l 6=yl
opas de classifieur unique !applications :• évaluation de performances• sélection de modèle :
• évaluation des performances pour chaque configurationchoisie (degré du polynôme, etc.)
• choix de la meilleure configuration• construction d’un classifieur sur l’ensemble des données
112 / 122 F. Rossi Sélection de modèle
Validation croisée
avantages :• facile à mettre en œuvre• utilise toutes les données pour évaluer le modèle
inconvénients :• sensible au découpage et au nombre de blocs• temps de calcul élevé• ne donne pas directement un modèle
solution la plus utilisée aujourd’huine dispense pas du découpage apprentissage/test
113 / 122 F. Rossi Sélection de modèle
Le Bootstrap
Méthode générale d’estimation de la qualité d’un estimateur,basée sur un ré-échantillonnage :
on cherche à estimer θ, une statistique sur lesobservations (les x i )on se donne θ(x1, . . . , xN) un estimateur de θon cherche à déterminer :• le biais de θ• la variance de θ
solution :• fabriquer des échantillons bootstrap• un échantillon bootstrap : (x1
∗ , . . . , xN∗ ) obtenu par tirage
aléatoire uniforme avec remise dans l’échantillond’origine (x1, . . . , xN)
• simule des nouveaux tirages pour les (x1, . . . , xN)
114 / 122 F. Rossi Sélection de modèle
Principe
Monde Réel
Echantillon Bootstrap
Echantillon Bootstrap
(x1∗ , . . . , xN
∗ )→ θ∗
(x1∗ , . . . , xN
∗ )→ θ∗(x1, . . . , xN)→ θ
Echantillon
Tirage Aléatoire
X → θ
Monde Réel
115 / 122 F. Rossi Sélection de modèle
Principe
Tirage Aléatoire
Monde Réel
Echantillon
Monde Réel
(x1, . . . , xN)→ θ
X → θ
Echantillon Bootstrap
Echantillon Bootstrap
(x1∗ , . . . , xN
∗ )→ θ∗
(x1∗ , . . . , xN
∗ )→ θ∗
115 / 122 F. Rossi Sélection de modèle
Estimation du biais
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b)
1.2 calculer θ∗b = θ(x1∗b, . . . , x
N∗b)
2. l’estimation du biais est
1n
n∑b=1
θ∗b − θ(x1, . . . , xN)
Idée, remplacer le monde réel par l’échantillon :le premier terme estime l’espérance de l’estimateurle second terme estime l’estimateur
116 / 122 F. Rossi Sélection de modèle
Estimation de la variance
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b)
1.2 calculer θ∗b = θ(x1∗b, . . . , x
N∗b)
2. calculer
θ∗ =1b
n∑b=1
θ∗b
3. l’estimation de la variance est
1n − 1
n∑b=1
(θ∗b − θ∗
)2
117 / 122 F. Rossi Sélection de modèle
Application à l’évaluation d’un modèle
Raisonnement :l’évaluation d’un modèle consiste à estimer sesperformancesl’erreur résiduelle sur l’ensemble d’apprentissagesous-estime l’erreur réelleidée, estimer l’ampleur de la sous-estimation parbootstrap :• calculer la sous-estimation pour un échantillon bootstrap• moyenner les sous-estimations pour beaucoup
d’échantillons bootstrap• corriger l’erreur résiduelle en ajoutant la moyenne
118 / 122 F. Rossi Sélection de modèle
Évaluation d’un modèle
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b) (à partir
de l’ensemble d’apprentissage)1.2 estimer le modèle optimal pour l’échantillon bootstrap1.3 calculer B∗b comme la différence entre l’erreur résiduelle du
modèle sur l’échantillon d’apprentissage et l’erreurrésiduelle du modèle sur l’échantillon bootstrap
2. estimer l’erreur résiduelle E du modèle optimal surl’ensemble d’apprentissage
3. corriger cette erreur en lui ajoutant 1n∑n
b=1 B∗b
119 / 122 F. Rossi Sélection de modèle
VariantesEstimation directe de l’erreur du modèle optimal
moyenne empirique de l’erreur commise sur l’ensembled’apprentissage par le modèle construit sur l’échantillonbootstrap (EB)moyenne empirique de l’erreur commise sur lecomplémentaire de l’échantillon bootstrap par le modèleconstruit sur l’échantillon (bootstrap out-of-bag, Eoob)bootstrap 632 : combinaison de l’estimation out-of-bag etde l’estimation naïve (sur l’ensemble d’apprentissage)
E632 = 0.632 Eoob + 0.368 E
Probabilité qu’une observation de l’ensembled’apprentissage soit dans un échantillon bootstrap : 0.632
120 / 122 F. Rossi Sélection de modèle
Bootstrap
Points positifs :• facile à mettre en œuvre• utilise toutes les données• donne des intervalles de confiance
Points négatifs :• temps de calcul très élevé• nombreuses variantes• ne donne pas directement un modèle
ne dispense pas du découpage apprentissage/test
121 / 122 F. Rossi Sélection de modèle
Résumé
l’erreur empirique ne donne pas une bonne idée desperformances en généralisationil faut toujours utiliser une méthode valide pour estimer lesperformancesdécoupage et rééchantillonnage :• méthodes classiques et éprouvées• rééchantillonnage (validation croisée et bootstrap) : lent
mais utilise toutes les données• validation (découpage) : rapide mais nécessite beaucoup
de données
122 / 122 F. Rossi Sélection de modèle