corrélation - régression - biostatistiques

33
Introduction Corr´ elation egression Corr´ elation - R´ egression Biostatistiques Erik A. Sauleau - Nicolas MEYER ——————— Laboratoire de Biostatistique et Informatique M´ edicale Fac. de M´ edecine de Strasbourg ——————— 23 Mars 2011

Upload: lekhue

Post on 14-Feb-2017

231 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Correlation - RegressionBiostatistiques

Erik A. Sauleau - Nicolas MEYER

———————Laboratoire de Biostatistique et Informatique Medicale

Fac. de Medecine de Strasbourg———————

23 Mars 2011

Page 2: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simple

Page 3: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simple

Page 4: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Definitions

Correlation

Liaison entre deux variables quantitatives X et Y

Unites quelconques

Meme role a X qu’a Y

”Correlation”→ correlation lineaire

Regression

Regression lineaire simple

Une droite explique une variable quantitative Y par une autrevariable quantitative X

Roles differents assignes a X et Y

Page 5: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Definitions

Correlation

Liaison entre deux variables quantitatives X et Y

Unites quelconques

Meme role a X qu’a Y

”Correlation”→ correlation lineaire

Regression

Regression lineaire simple

Une droite explique une variable quantitative Y par une autrevariable quantitative X

Roles differents assignes a X et Y

Page 6: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Representation des donnees : nuage de points

●●

●●

●●

● ●

●●

●●

X

Y

●●

●●●

X

Y

●●

● ●●

● ●● ●

●● ●●

● ●●

X

Y

●●

●●

●●

X

Y

Page 7: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlationLa covarianceLe coefficient de correlation de PearsonLe test du coefficient de correlation

3 La regression lineaire simple

Page 8: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La covariance

Definition

Mesure de la variation simultanee de deux variables aleatoires

Soient X et Y deux variables aleatoires :

cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y

On estime la covariance sur un n-echantillon par

cov(X ,Y ) =

∑n (xi − x )(yi − y)

nou

cov(X ,Y ) =

(1

n

∑n xiyi

)−(

1

n

∑n xi ·1

n

∑yi

)

Page 9: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La covariance

Definition

Mesure de la variation simultanee de deux variables aleatoires

Soient X et Y deux variables aleatoires :

cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y

On estime la covariance sur un n-echantillon par

cov(X ,Y ) =

∑n (xi − x )(yi − y)

nou

cov(X ,Y ) =

(1

n

∑n xiyi

)−(

1

n

∑n xi ·1

n

∑yi

)

Page 10: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La covariance

Proprietes

L’unite de mesure de la covariance est le produit des unites deX et de Y

Si X et Y sont independantes, leur covariance est nulle etdonc E(X )E(Y ) = E(XY )

Une covariance negative signifie que les deux variablesaleatoires varient dans des sens opposes

Une covariance positive signifie que les deux variablesaleatoires varient dans le meme sens

Quelques autres proprietes

cov(X ,Y ) = cov(Y ,X )cov(X ,X ) = var(X )var(X + Y ) = var(X ) + var(Y ) + 2cov(X ,Y )

⇒ si X et Y sont independantes, var(X +Y ) = var(X ) + var(Y )

Page 11: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Definition

Covariance standardisee : ρ =cov(X ,Y )√

var(X )var(Y )

Estime dans un n-echantillon par

ρ =

∑n xiyi −∑n xi

∑n yin√√√√(∑n x 2

i −(∑n xi)

2

n

(∑n y2i −(∑n yi)

2

n

)

Page 12: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Definition

Covariance standardisee : ρ =cov(X ,Y )√

var(X )var(Y )

Estime dans un n-echantillon par

ρ =

∑n xiyi −∑n xi

∑n yin√√√√(∑n x 2

i −(∑n xi)

2

n

(∑n y2i −(∑n yi)

2

n

)

Page 13: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Proprietes

−1 6 ρ 6 1

Dependance entre X et Y ⇔ valeur de ρ (dans la population)

1 Si X et Y sont independantes, alors ρ = 02 Si ρ = 0 et si X et Y sont distribuees normalement, alors X

et Y sont independantes

ρ a le meme signe que la covariance

ρ est sans unite

Page 14: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le test du coefficient de correlation

Construction du test

Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?

La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0

2 Statistique : T =|ρ|√var(ρ)

ou var(ρ) =1− ρ2

n − 23 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)

Page 15: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le test du coefficient de correlation

Construction du test

Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?

La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0

2 Statistique : T =|ρ|√var(ρ)

ou var(ρ) =1− ρ2

n − 23 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)

Page 16: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le test du coefficient de correlation

Conditions de validite du test

Propriete de ρ : si ρ = 0 et si X et Y sont distribueesnormalement, alors X et Y sont independantes

⇒ Distribution binormale de X et Y

Binormalite difficile a testerOn accepte : Y est normale et de variance constante pourchaque valeur de X (ou vice-versa)De plus le test est robusteSecurite des que n > 30

Page 17: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simpleIntroductionLa construction de la droiteLe coefficient de determinationLes tests statistiquesLes conditions d’application

Page 18: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Introduction

Position du probleme

Correlation : liaison entre deux variables quantitatives X etY , sans role different entre X et Y

Le probleme peut etre : les valeurs prises par Ydependent-elles des valeurs prises par X ?

Y : Variable a expliquer (dependante)X : Variable explicative (independante)

L’esperance de Y varie-t-elle en fonction de X ?

La courbe qui decrit les variations de Y en fonction de X estla courbe de regression de Y sur X

Hypothese : cette courbe est une droite

Page 19: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La construction de la droite

Principe general

Y = α+ βX + ε

α : ordonnee a l’origineβ : penteε : erreur au modele

yi = α+ βxi + ei

Hypothese sur les ei : identiquement et independammentnormalement distribuees (iid)

Page 20: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La construction de la droite

L’estimation des parametres

Methode des moindres carres ordinaires

Minimiser les erreurs ⇒ minimiser la somme des erreurs aucarre

On cherche α et β qui minimisent E =∑n (yi − α− βxi)2

On cherche α et β tels que

∂E

∂β= 0

∂E

∂α= 0

On arrive aβ =

cov(X ,Y )

var(X )=

∑n xiyi −∑n xi

∑n yin∑n x 2

i −(∑n xi)

2

nα = y − βx

On peut ecrire yi − y = β(xi − x )

Page 21: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

La construction de la droite

X

Y

●●

xi

yi

x

y

yi

Page 22: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de determination

Justification

En l’absence de lien entre Y et X , les valeurs de Y nechangent pas selon les valeurs de X

⇒ la droite de regression sera une horizontale avec Y enordonnee a l’origine

S’il y a un lien entre Y et X la droite de regression apporteune contribution dans l’explication de Y par X

S’il y a une relation lineaire parfaite entre Y et X la droite deregression explique parfaitement le lien

Le coefficient de determination R2 evalue l’apport de la droitede regression dans l’explication de Y par X

⇒ variabilite de Y expliquee par la droite par rapport a lavariabilite totale de Y

Page 23: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de determination

X

Y

●●

y

yi

xi

yi

Page 24: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de determination

X

Y

y

yi

Page 25: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de determination

X

Y

●●

yi

yi

Page 26: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Le coefficient de determination

Calcul

On ecrit yi − y = (yi − yi) + (yi − y)

(yi − y)2 =∑

(yi − yi)2 +

∑(yi − y)2

SCET = SCER + SCEE

Totale = Regression + Expliquee

R2 =SCEE

SCET

On demontre que R2 = ρ2

Page 27: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les tests statistiques

Introduction

Deux questions1 Le lien entre Y et X est-il significatif ?⇒ tests sur β (et α)

2 La relation entre Y et X est-elle lineaire ?⇒ conditions d’application et hypothese de la regression lineaire

simple

Page 28: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les tests statistiques

Construction du test

Y depend-il de X : la pente differe-t-elle statistiquement de0 ?

La realisation du test1 H0 : β = 0 et H1 : β 6= 0

2 Statistique : T = βσβ

ou σ2β

=

σ2Y

σ2X

− β2

n − 2est l’estimation de

l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Page 29: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les tests statistiques

Construction du test

Y depend-il de X : la pente differe-t-elle statistiquement de0 ?

La realisation du test1 H0 : β = 0 et H1 : β 6= 0

2 Statistique : T = βσβ

ou σ2β

=

σ2Y

σ2X

− β2

n − 2est l’estimation de

l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Page 30: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les conditions d’application

Deux questions

1 Le modele lineaire est-il adapte ?

⇒ comparer a d’autres modeles [hors du cadre de ce cours]

2 Les conditions d’utilisation de la regression lineaire simplesont-elles remplies ?

⇒ utiliser les residus

Normalite de la distribution des residus (tests ou inspectionvisuelle)Independance des residus (tests)Homoscedasticite des residus (test ou inspection visuelle) : ladistribution des residus ne depend pas des valeurs predites

Page 31: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les conditions d’application

● ●

● ●

● ●

−4

−2

02

4

Homoscédasticité

y

Rés

idus

sta

ndar

disé

s

●●

● ●

● ●

● ●

−4

−2

02

4

Hétéroscédasticité

y

Page 32: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les conditions d’application

Deux implications du modele

La relation entre correlation et regression

ρ = βσXσY

ρ = β si σX = σY

La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0

Les predictions avec une droite

Calculer Y connaissant X : Ynew = α+ βXnew + εnew

Ynew = α+ βXnew

On peut calculer un intervalle de confiance autour de Ynew

La prediction en dehors des plages d’observation requiertd’autres techniques

Page 33: Corrélation - Régression - Biostatistiques

Introduction Correlation Regression

Les conditions d’application

Deux implications du modele

La relation entre correlation et regression

ρ = βσXσY

ρ = β si σX = σY

La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0

Les predictions avec une droite

Calculer Y connaissant X : Ynew = α+ βXnew + εnew

Ynew = α+ βXnew

On peut calculer un intervalle de confiance autour de Ynew

La prediction en dehors des plages d’observation requiertd’autres techniques