Download - 2018 2019 Régression robuste impmaths.cnam.fr/IMG/pdf/2018_2019_regression_robuste_imp... · 2019-02-27 · • Régression linéaire simple sur échantillon • Propriété: –

27/02/2019

1

Régression robuste

Ndèye Niang- Gilbert SaportaConservatoire National des Arts et Métiers

1

Plan• Introduction: rappels de régression linéaire

– Les Moindres carrés ordinaires– Valeurs aberrantes – Observations influentes

• Régression robuste– Notions de robustesse– Estimateurs robustes– Régression robuste

2

27/02/2019

2

Introduction

3

Non paramétrique paramétrique robuste

Introduction• Etude de la liaison entre variables quantitatives

observées sur les mêmes individus Y = f(X) + e

Y variable dépendante X variables indépendantesvariable à expliquer variable explicativesvariable endogène variable exogènes

• Hypothèses:f connue , linéaire, estimation des paramètres

Erreurs idd et gaussiennes, homoscédasticité

27/02/2019

3

Introduction

• Régression linéaire:• Aspects descriptifs

Ajustement linéaire : droite de régressionCoefficient R2

• Aspects inférentielsEstimation des paramètres (MCO- MV)Vérification des hypothèses Tests sur les coefficients Etude de la stabilité des résultatsPrévision

1. Les moindres carrés• Hypothèse de régression linéaire:

– simple E(Y/x)= f(x) = β0+β1x – multiple: E(Y/X)= f(X) = X’β

• Estimation de β à partir d’un échantillon• Méthode des moindres carrés (la plus populaire)

• Fonction de perte:

6

( )2( ; ( )) ( )L y f x y f x= −

27/02/2019

4

• Estimateur des moindres carrés

2 1( ) (V σ −=b X'X)7

ˆ

0

Equations normales

projecteur

W⊥ = ∀

-1

-1

y = Xb = Ay

y - Xb (y - Xb)'Xu u

X'y = X'Xb

b = (X'X) X'y

A = X(X'X) X'

• b estimateur de variance minimale de β parmi les estimateurslinéaires sans biais (BLUE best linear unbiased estimators)

• estimateur du maximum de vraisemblance si résidus gaussiens iid

Estimations imprécises si multicolinéarité voir cours sur la régularisation

Prévision d’une valeur ultérieure

• Intervalle de prévision

• Problèmes d’imprécision , grande variance et surtout sensible aux valeurs aberrantes

27/02/2019

5

9

• Démo

cours de Marc Bourdeau (Montréal) sur le modèle linéaire adresse:

http://www.agro-montpellier.fr/cnam-lr/statnet/cours_autre.htm

10

2. Analyse des résultatsOn s’intéresse ici à la stabilité des résultats

Distinction entre questions relatives à l’influence d’observations particulières et questions relatives à l’influence des variables sur les estimations (multicolinéarité)

Analyse des résidus pour vérifier les hypothèses de base du modèle : variance constante et pas autocorrélation

27/02/2019

6

2. Analyse des résultats• Etude des résidus est fondamentale:

– permet la détection des valeurs aberrantes et des observations influentes

– Vérification empirique des hypothèses: graphique des résidus en fonction des X ne doivent pas laisser apparaître de tendance ou de dépendance dans l’étude de 2 résidus successifs (Test de Durbin Watson)( sinon estimateurs toujours sans biais mais on perd la variance minimale)

11

12

2. Analyse des résultats• Résidu : vecteur • Matrice de variance des résidus: • La « hat matrix » ou projecteur

• Les termes diagonaux hi

ˆy - y

ˆ' = =-1A X(X'X) X y Ay

1

11 1

n

i ii

h h pn =

≤ ≤ = +

27/02/2019

7

13

• Résidu: – espérance nulle,

• Résidu studentisé

• Si n grand les résidus studentisés doivent être compris entre -2 et 2

• Résidu fort peut indiquer une valeur aberrante mais une valeur peut être aberrante sans que son résidu soit important.

2ˆ( ) (1 )i i iV y y hσ− = −ˆ

ˆ 1i i

i

y y

hσ−−

Ne pas confondre observations aberrantes et observations influentes(au sens de l’écart au modèle)

14

Méthodes classiques

• Etude influence de chaque observation sur les résultats:– Sur sa propre prédiction: Résidu prédit (en enlevant i)

– Prudence avec les observations à hi grand

– Press: somme des carrés des résidus prédits est une mesure du pouvoir prédictif du modèle

– Influence d’une observation sur les estimations des coefficients: la distance de Cook

– Devrait rester <1

( ) ( ) ( )'

2( ) ( )

2

1ˆ ˆ

ˆ( 1) 1 1i i i

i i ii

hD y y

p p hσ− −

−

− −= = −

+ + −b b X'X b b

( )

ˆˆ

1i i

i ii

y yy y

h−−− =−

27/02/2019

8

• Les méthode de diagnostics classiques sont insuffisantes pour détecter toutes les valeurs aberrantes en particulier multidimensionnelles:– effet de masque– Effet de débordement (swamping)– estimations non robustes

• Solution en deux étapes:– Eliminer les points aberrants après les avoir détectés – Refaire analyse avec estimateurs classiques

• Solution directe: autres critères que MCO 15

16

• Solutions en deux étapes :

• problème: estimations non robustes influencées par les points aberrants

Set x

D’après Haesbroeck

27/02/2019

9

Masking effect

17


3 - Solution en deux étapes• Détection de valeurs aberrantes

– Nécessité d’utiliser des indicateurs robustes de tendance centrale et de dispersion pour calculer une variante robuste de la distance de Mahalanobis

Au préalable : notions de robustesse – Différents types de points aberrants– Point de rupture– Estimateurs robustes

18

27/02/2019

10

• Différents types de points aberrants:

19D’après E.Cantoni et C.Dehon

Valeur atypique pour la variable Yà expliquer Point levier = une ou

Plusieurs valeursatypiques surles explicatives

Bon si proche plan Régression

Mauvais sinonCela peut entrainer unchangement du signe pente

Notion de « point de rupture» d’un estimateur

• Fraction des données qui peuvent être arbitrairement changées sans changer arbitrairement la valeur de l’estimateur.

• Deux cas : n fini, n infini (pt de rupture asymptotique)– Ne peut être > 0.5– Asymptotiquement: Nul pour la moyenne (si une valeur devient

infinie la moyenne aussi), 0.5 pour la médiane

– n fini : 1/n pour la moyenne, (n-1)/2n (impair) ou n/2n (pair) pour la médiane

20

27/02/2019

11

Estimateurs robustes

Estimateurs classiques (moyenne et variance) sont sensibles aux valeurs

aberrantes. Le but des estimateurs robustes est de réduire leur influence

• Moyenne tronqué d’ordre α:– Moyenne arith des observations dont on a

éliminé les αxn plus grandes et petites (α =15%) (ex la médiane est un cas extrême α = 50% )

• « Winsorisation »– Au lieu de les éliminer on les prend toutes

égales aux dernières valeurs prises

• Autre approche: M-estimateur, MVE, MCD, S-estimateur 21

M-Estimateurs robustes• ‘Robustification’ des estimateurs classiques

– Généralisation de l’approche maximisation de la vraisemblance (Huber (1964), Campbell (1980), Marona (1970))

•

22

Soit x1, x2,…., x1, un échantillon de taille n, des M estimateurs de la moyenne et la matrice de variance sont obtenus en maximisant :

où fonction décroissante bornée entre 0 et l’infini

))()'((1

)ln(det 1 µµρ −Σ−−Σ− −i

ii xx

nρ

Différents M-estimateurs en selon la fonction de pondération Marona (1976)

27/02/2019

12

M-Estimateurs robustes• Limite de ces M-estimateurs: point de rupture inversement proportionnel à

la dimension, ils sont donc moins robustes quand la dimension augmente d’où les estimateurs suivants qui reposent sur une utilisation d’une fraction h des données plutôt que sur l’ensemble (Rousseeuw 1985)

• MVE (minimum volume ellipsoid) avec de faibles propriétés théoriques

• MCD(minimum covariance determinant)

23{ }

)det( ˆ

)')((1

1

minarg,,...2,1

ˆˆˆ

ˆ

ˆˆ

H

hHnH

HiHHi

iH

HiiH

SH

xxxxh

S

xh

x

=⊂

∈

∈

=

−−=

=

M-Estimateurs robustes• Croux et al 1999 ont proposée une version pondérée

de ces estimateurs dans laquelle les poids dépendent de la distance calculée à partir des estimateurs MCD cela revient à calculer les estimateurs

classiques à partir des observations situées dans l’ellipsoide de tolérance à 97,5% construites avec les estimateurs

MCD

Rque: calculs complexes, algorithmes itératifs, mais disponibles dans logiciels standards 24

≤

=

−−=

=

=

=

=

=

sinon 0

),,( si 1

)')((

2975.0,ˆˆ

2

1

1

1

1

pHHii

n

i i

wiw

n

i iiw

n

i i

n

i ii

w

Sxxdw

w

xxxxwS

w

xwx

χ

27/02/2019

13

25

Solution en deux étapes:• Détection des points aberrants avec les estimateurs

classiques:

– Soit x1, x2,…., x1, un échantillon de taille n

• Calculer

• Pour chaque observation xi calculer la distance de Mahalanobis

• Détecter celles dont les distances sont « trop » grandes c’est-à-dire supérieures au quantile 97,5% de la loi du chi carré à p degrés de liberté

Set x

)()( 1'2 xxSxxd iii −−= −

26

• Solutions en deux étapes :

• problème: estimations non robustes influencées par les points aberrants

Set x


27/02/2019

14

Masking effect

27


• Solution en deux étapes:

• Détection des points aberrants avec les Estimateurs robustes: – Calculer des estimations robustes de la moyenne et de la

matrice de covariance par exemple les estimateurs MCD

– Calculer pour chaque observation xi la distance robuste

– Détection des observations aberrantes, celles dont les distances sont « trop » grandes c’est-à-dire supérieures au quantile 97,5% de la loi du chi carré à p degrés de liberté

28

Σet µΣ))

et µ

)()( 1'2 µµ ))) −Σ−= −iii xxd

27/02/2019

15

29

• Solutions:


30

• Outil graphique DD plot–


27/02/2019

16

31D’après E.Cantoni et C.Dehon

Outil diagnostic en régression

32

• Solution directe : – Utiliser d’autres critères que les moindres carrés :

• M régression avec des M-estimateurs de Huber

• Régression LST (Least trimmed squares) de Rousseuw

• Régression L1 avec les valeurs absolues

27/02/2019

17

4 - M-régression• Issue des M-estimateurs de Huber• Exemple: fonction de perte quadratique

jusqu’à c, linéaire au-delà• Pour c grand, on retrouve les mco, pour

c=0 la régression L1

33

• ρ fonction convexe paire

– M-estimateur: maximum de vraisemblance avec erreurs de densité proportionnelle à exp(- ρ(u))

• En dérivant: • Notation usuelle ψ = ρ’• Moindres carrés pondérés

34

( )1

minn

i ii

yρ=

− x β

( )1

ˆ' ' 0n

i i ii

yρ=

− = x β x

( ) ( )1

ˆ'ˆ ' 0 avec

ˆ

ni i

i i i i ii i i

yw y w

y

ρ

=

−− = =

−x β

x β xx β

27/02/2019

18

35

Weight Function Option Default a, b, c

andrews WF=ANDREWS<(C=c)>

bisquare WF=BISQUARE<(C=c)>

cauchy WF=CAUCHY<(C=c)>

fair WF=FAIR<(C=c)>

hampel WF=HAMPEL<( <A=a> <B=b> <C=c>)>

huber WF=HUBER<(C=c)>

logistic WF=LOGISTIC<(C=c)>

median WF=MEDIAN<(C=c)>

talworth WF=TALWORTH<(C=c)>

welsch WF=WELSCH<(C=c)>

Fonction de poids Proc ROBUSTREG de SAS

36

27/02/2019

19

Propriétés

• Si σ est inconnu on minimise avec a>0

• La matrice de covariance des estimateurs est asymptotiquement proportionnelle à celle des moindres carrés

37

1

ni i

i

yaρ σ

σ=

− +

x β

38

27/02/2019

20

5.Régression LTS (Least Trimmed Squares) de Rousseuw

• Basée sur le sous ensemble de h individus (parmi n) où les mco donnent la plus petite somme des carrés des résidus. h est choisi entre n/2 et n . La valeur h=(3n+p+1)/4 est recommandée.

• Illustration sur un exemple avec la proc robustreg de SAS

• Sous R package robustbase• http://cran.r-project.org/web/packages/robustbase/robustbase.pdf

39

40

6. Régression en norme L1 (LAD)• Utiliser les valeurs absolues

• Régression linéaire simple sur échantillon

• Propriété:– La droite de régression L1 passe par deux des

points de l’échantillon mais on ne peut pas savoir à l’avance lesquels

• 50 ans plus ancien que les moindres carrés (Boscovitch 1757)

( ; ( )) ( )L y f x y f x= −

1

minn

i ii

y a bx=

− −

27/02/2019

21

6 - Régression en norme L1 (LAD)• Résolution plus difficile (surtout en régression multiple)

– Pas de solution analytique– Nécessité d’un algorithme spécifique

• Algorithme LAD simple (Birkes & Dodge, 1993)

• Possibilité de non-unicité ou de dégénérescence

• Régression LAD multiple– Programmation linéaire– p+1 résidus sont nuls

http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/7.3c/index.html 41

Bibliographie

• Birkes, D., Dodge, Y. (1993) Alternative methods of regression, Wiley

• Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.

• Marona R.A., Martin R.D. and Yohai V.J. (2006) Robust Statistics, John Wiley & Sons Ltd.,

42

Download - 2018 2019 Régression robuste impmaths.cnam.fr/IMG/pdf/2018_2019_regression_robuste_imp... · 2019-02-27 · • Régression linéaire simple sur échantillon • Propriété: –

Top Related