corrélation et régression linéaire simple 1.la corrélation 2.la régression linéaire simple

32
Corrélation et régression linéaire simple 1. La corrélation 2. La régression linéaire simple

Upload: francois-page

Post on 04-Apr-2015

145 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Corrélation et régression linéaire simple

1. La corrélation

2. La régression linéaire simple

Page 2: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Introduction

Etude de la relation entre deux variables quantitatives:

-description de l’association linéaire: corrélation, régression linéaire simple

- explication / prédiction d’une variable à partir de l’autre: modèle linéaire simpleX

Y

Nuage de points:

Page 3: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

La corrélation

Statistique descriptive de la relation entre X et Y: variation conjointe

1. La covariance

Dans l’échantillon:

cov(x, y) 1

nx iy i

i1

n

x y

Estimation pour la population:

cov(x, y) ˆ xy 1

n 1(x i

i1

n

x )(y i y )

cov(x,y) 1

n 1x iy i

i1

n

n

n 1x y

Page 4: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Covariance et nuage de points

(x i x ) 0

x

y

(y i y ) 0Contribution > 0

> 0< 0

< 0

La corrélation

Page 5: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

2. Le coefficient de corrélation linéaire

« de Pearson »

Dans l’échantillon:

Estimation pour la population:

22yx

xyxy

ss

sr

ˆ xy rxy sxy

sx2sy

2

La corrélation

Page 6: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

2. Le coefficient de corrélation linéaire

X1

X2

r = 0.9

X2

r = 0.5

X2

r = 0

r = 0r = -0.5

Indice de covariance absolu: -1 ≤ r ≤ 1

La corrélation

r = -0.9

X2 X2 X2

Page 7: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

3. Conditions d’utilisation

La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa.

r = 0.8r = 0

La corrélation

Normalité

Page 8: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Homoscédasticité

La variance de Y est indépendante de X et vice-versa.

Y

X

Y

Homoscédasticité

Hétéroscédasticité

La corrélation

3. Conditions d’utilisation

Page 9: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Linéarité

La relation est linéaire

Y

Linéarité

X

Y

Non-linéarité

X

La corrélation

3. Conditions d’utilisation

Page 10: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Non respect des conditions d’utilisation

0 10 20 30 40 50AGE

20

30

40

50

60

FK

LNG

TH

0.5 1.0 1.5 2.0LAGE

1.3

1.4

1.5

1.6

1.7

1.8

LFK

L

Relation âge - longueur chez l’esturgeon: transformation log-log;Alternative: utiliser la corrélation non paramétrique

La corrélation

Page 11: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

4. Tests de la corrélation

a. Distribution d’échantillonnage du coefficient de corrélation linéaire

Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies,

sous Ho: = 0:

Attention, sous Ha: ≠ 0: distribution complexe

R n 2

1 R2: Tn 2 (Student)

La corrélation

Page 12: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

b. Test de = 0

H 0 : 0

H a : 0

Absence de relation linéaire (mais pas absence de relation y compris causale)

Sous Ho:

tobs r n 2

1 r2 tn 2,

Si H0 est rejetée: corrélation ≠ causalité

4. Tests de la corrélation

La corrélation

Page 13: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

La régression linéaire simple

Y

X

Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses.

Page 14: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Courbes de régression

Description de la relation: densité de probabilité de Y conditionnellement à X: Y

X

fxx0(y)dy P(y Y y dy / X x0)

Courbe de régression = E(Y/X) et E(X/Y)

Si (X,Y) binormale alors les courbes de régression sont des droites

E(Y/X)

E(X/Y)

- X et Y tiennent un rôle symétrique !- Plusieurs courbes possibles

La régression linéaire simple

Page 15: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

1. Le modèle

On suppose: y = f(x) = a + bx

Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )

X = variable explicative (« indépendante »), contrôléeY = variable expliquée (dépendante ), aléatoire Y

X

Relation de causalité ≠ interdépendance

La régression linéaire simple

Page 16: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

2. L’estimation des paramètres

a? b?Méthode d’estimation: les moindres carrés:

Y

X

Mi

ei

M’i

xi

yi y = a+bx

ei = yi - (a + bxi)

ei2 minimale

ˆ y i

La régression linéaire simple

Page 17: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Méthode des moindres carrés

On cherche le minimum de ),())((1

2 baEbxayn

iii

Ea

2(y i (a bx i))( 1) 0 (1)i1

n

E

b 2(y i (a bx i))( x i) 0 (2)

i1

n

2. L’estimation des paramètres

La régression linéaire simple

Page 18: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

(1) y i (a bx i)i1

n

i1

n

na b x i

i1

n

ny na nbx

a y bx

Méthode des moindres carrés

2. L’estimation des paramètres

La régression linéaire simple

Page 19: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

n(cov(x, y) x y ) (y bx )nx bn(sx2 x 2) 0

cov(x,y) bsx2

b cov(x,y)

sx2

Si y = a+bx alors

ˆ b cov(x,y)

sx2

et

ˆ a y bx

On peut alors prédire y pour x compris dans l’intervalle des

valeurs de l’échantillon:

ˆ y i ˆ a ˆ b x i

Méthode des moindres carrés

2. L’estimation des paramètres

La régression linéaire simple

Page 20: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

3. Qualité de l’ajustement

On a supposé: Yi = a + bXi + ei avec

pour X = xi, Yi : N(a+bxi, )

- distribution normale des erreurs- variance identique (homoscédasticité)- indépendance: - linéarité de la relation

cov(ei,e j ) 0

Test a posteriori : étude du nuage de points/ du graphe des résidus

La régression linéaire simple

Page 21: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Normalité de l’erreur

Valeurs prédites

sid

us

Questions à se poser: structure de l’erreur?Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?

La régression linéaire simple

3. Qualité de l’ajustement

Page 22: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Homoscédasticité

sid

us

Valeurs prédites

Possibilité de transformation: attention aux transformations ad hoc

La régression linéaire simple

3. Qualité de l’ajustement

Page 23: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Indépendance entre erreurs, linéarité

sid

us

sid

us

Structure de l’erreur?

Relation non linéaire?

La régression linéaire simple

3. Qualité de l’ajustement

Page 24: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Décomposition de la variation

Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X?

Variabilité? Somme des Carrés des Ecarts SCE:

SCET (y i y )2

i1

n

nsy2

La régression linéaire simple

4. Coefficient de détermination

Page 25: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)

Y

Y

= +

( )Y Yii

N

1

2 ( )Y Yii

N

1

2 ( )Y Yii

N

i

1

2= +

Décomposition de la variation

La régression linéaire simple

4. Coefficient de détermination

Page 26: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

4. Coefficient de détermination

La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression:

r2 SCE reg .lin.

SCET

Coefficient de détermination

Relation avec r?

0 ≤ r2 ≤ 1

La régression linéaire simple

Page 27: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Relation entre r et r2

SCE reg .lin . ( ˆ y i y )2

i1

n

((a bx i) (a bx ))2

i1

n

b2 (x i x )2

i1

n

b2nsx2 b2SCEx

Donc

r2 b2nsx

2

nsy2 (

cov(x, y)

sx2 )2 sx

2

sy2

(cov(x, y))2

sx2sy

2 (r)2

En particulier, r = 0 <=> r2 = 0

4. Coefficient de détermination

La régression linéaire simple

Page 28: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

5. Tests

Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : 2 = 0

reg .lin.2

horsreg.lin.2

SCE reg .lin. /1

SCEhorsreg.lin. /(n 2): Fn 2

1

NB:

SCE reg .lin . /1

SCEhorsreg .lin . /(n 2)

r2SCET

(1 r2)SCET /(n 2)(

r n 2

1 r2)2

SCE reg .lin. /1

SCEhorsreg .lin. /(n 2): Fn 2

1

r n 2

1 r2: Tn 2numériquement

équivalent à

La régression linéaire simple

Page 29: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Test sur la pente

Ho: b = 0

ˆ b ˆ s b

: Tn 2

Ici:

ˆ b ˆ s b

ˆ b

(1 r2)sy2

(n 2)sx2

: Tn 2

Principe des tests sur les paramètres:

NB:

ˆ b

(1 r2)sy2

(n 2)sx2

cov(x, y)

sx2

(n 2)sx2

(1 r2)sy2

r n 2

1 r2

Les tests de nullité de b, r et r2 sont numériquement équivalents

La régression linéaire simple

Page 30: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Autres tests

- comparaison de la pente à une valeur non nulle

- comparaison de l’ordonnée à l’origine à une valeur quelconque

- comparaison de pentes

La régression linéaire simple

Page 31: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

Bilan

X et Y aléatoires X contrôlée, Y aléatoire

Y a-t-il un lien? CorrélationQuel lien? Régression

Explication de Y par X: Modèle linéaire simple

Question

Modèle(X,Y) binormal => linéarité des régressionsDy/x : a, bDx/y : c, d

Y = a + bx + e

Pour X = xi, Yi : N(a+bxi, )

La régression linéaire simple

Page 32: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple

X et Y aléatoires X contrôlée, Y aléatoire

r: paramètre de la distribution de (X,Y)

R2 : part de variation de Y expliquée par X

Lien

Tests- test de -Tests sur les pentes b et d

- test de r2: ANOVA

r2(n 2)

1 r2 Fn 21

- test sur la pente

Bilan

La régression linéaire simple