corrélation - régression - biostatistiques
TRANSCRIPT
Introduction Correlation Regression
Correlation - RegressionBiostatistiques
Erik A. Sauleau - Nicolas MEYER
———————Laboratoire de Biostatistique et Informatique Medicale
Fac. de Medecine de Strasbourg———————
23 Mars 2011
Introduction Correlation Regression
Plan
1 Introduction
2 Le coefficient de correlation
3 La regression lineaire simple
Introduction Correlation Regression
Plan
1 Introduction
2 Le coefficient de correlation
3 La regression lineaire simple
Introduction Correlation Regression
Definitions
Correlation
Liaison entre deux variables quantitatives X et Y
Unites quelconques
Meme role a X qu’a Y
”Correlation”→ correlation lineaire
Regression
Regression lineaire simple
Une droite explique une variable quantitative Y par une autrevariable quantitative X
Roles differents assignes a X et Y
Introduction Correlation Regression
Definitions
Correlation
Liaison entre deux variables quantitatives X et Y
Unites quelconques
Meme role a X qu’a Y
”Correlation”→ correlation lineaire
Regression
Regression lineaire simple
Une droite explique une variable quantitative Y par une autrevariable quantitative X
Roles differents assignes a X et Y
Introduction Correlation Regression
Representation des donnees : nuage de points
●●
●●
●
●●
●
● ●
●
●
●
●
●
●●
●
●●
X
Y
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
X
Y
●
●●
● ●●
●
●
● ●● ●
●
●● ●●
● ●●
X
Y
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
X
Y
Introduction Correlation Regression
Plan
1 Introduction
2 Le coefficient de correlationLa covarianceLe coefficient de correlation de PearsonLe test du coefficient de correlation
3 La regression lineaire simple
Introduction Correlation Regression
La covariance
Definition
Mesure de la variation simultanee de deux variables aleatoires
Soient X et Y deux variables aleatoires :
cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y
On estime la covariance sur un n-echantillon par
cov(X ,Y ) =
∑n (xi − x )(yi − y)
nou
cov(X ,Y ) =
(1
n
∑n xiyi
)−(
1
n
∑n xi ·1
n
∑yi
)
Introduction Correlation Regression
La covariance
Definition
Mesure de la variation simultanee de deux variables aleatoires
Soient X et Y deux variables aleatoires :
cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y
On estime la covariance sur un n-echantillon par
cov(X ,Y ) =
∑n (xi − x )(yi − y)
nou
cov(X ,Y ) =
(1
n
∑n xiyi
)−(
1
n
∑n xi ·1
n
∑yi
)
Introduction Correlation Regression
La covariance
Proprietes
L’unite de mesure de la covariance est le produit des unites deX et de Y
Si X et Y sont independantes, leur covariance est nulle etdonc E(X )E(Y ) = E(XY )
Une covariance negative signifie que les deux variablesaleatoires varient dans des sens opposes
Une covariance positive signifie que les deux variablesaleatoires varient dans le meme sens
Quelques autres proprietes
cov(X ,Y ) = cov(Y ,X )cov(X ,X ) = var(X )var(X + Y ) = var(X ) + var(Y ) + 2cov(X ,Y )
⇒ si X et Y sont independantes, var(X +Y ) = var(X ) + var(Y )
Introduction Correlation Regression
Le coefficient de correlation de Pearson
Definition
Covariance standardisee : ρ =cov(X ,Y )√
var(X )var(Y )
Estime dans un n-echantillon par
ρ =
∑n xiyi −∑n xi
∑n yin√√√√(∑n x 2
i −(∑n xi)
2
n
)·
(∑n y2i −(∑n yi)
2
n
)
Introduction Correlation Regression
Le coefficient de correlation de Pearson
Definition
Covariance standardisee : ρ =cov(X ,Y )√
var(X )var(Y )
Estime dans un n-echantillon par
ρ =
∑n xiyi −∑n xi
∑n yin√√√√(∑n x 2
i −(∑n xi)
2
n
)·
(∑n y2i −(∑n yi)
2
n
)
Introduction Correlation Regression
Le coefficient de correlation de Pearson
Proprietes
−1 6 ρ 6 1
Dependance entre X et Y ⇔ valeur de ρ (dans la population)
1 Si X et Y sont independantes, alors ρ = 02 Si ρ = 0 et si X et Y sont distribuees normalement, alors X
et Y sont independantes
ρ a le meme signe que la covariance
ρ est sans unite
Introduction Correlation Regression
Le test du coefficient de correlation
Construction du test
Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?
La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0
2 Statistique : T =|ρ|√var(ρ)
ou var(ρ) =1− ρ2
n − 23 La statistique suit une loi de Student a n − 2 degres de
liberte : on compare T a tn−2,α
Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)
Introduction Correlation Regression
Le test du coefficient de correlation
Construction du test
Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?
La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0
2 Statistique : T =|ρ|√var(ρ)
ou var(ρ) =1− ρ2
n − 23 La statistique suit une loi de Student a n − 2 degres de
liberte : on compare T a tn−2,α
Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)
Introduction Correlation Regression
Le test du coefficient de correlation
Conditions de validite du test
Propriete de ρ : si ρ = 0 et si X et Y sont distribueesnormalement, alors X et Y sont independantes
⇒ Distribution binormale de X et Y
Binormalite difficile a testerOn accepte : Y est normale et de variance constante pourchaque valeur de X (ou vice-versa)De plus le test est robusteSecurite des que n > 30
Introduction Correlation Regression
Plan
1 Introduction
2 Le coefficient de correlation
3 La regression lineaire simpleIntroductionLa construction de la droiteLe coefficient de determinationLes tests statistiquesLes conditions d’application
Introduction Correlation Regression
Introduction
Position du probleme
Correlation : liaison entre deux variables quantitatives X etY , sans role different entre X et Y
Le probleme peut etre : les valeurs prises par Ydependent-elles des valeurs prises par X ?
Y : Variable a expliquer (dependante)X : Variable explicative (independante)
L’esperance de Y varie-t-elle en fonction de X ?
La courbe qui decrit les variations de Y en fonction de X estla courbe de regression de Y sur X
Hypothese : cette courbe est une droite
Introduction Correlation Regression
La construction de la droite
Principe general
Y = α+ βX + ε
α : ordonnee a l’origineβ : penteε : erreur au modele
yi = α+ βxi + ei
Hypothese sur les ei : identiquement et independammentnormalement distribuees (iid)
Introduction Correlation Regression
La construction de la droite
L’estimation des parametres
Methode des moindres carres ordinaires
Minimiser les erreurs ⇒ minimiser la somme des erreurs aucarre
On cherche α et β qui minimisent E =∑n (yi − α− βxi)2
On cherche α et β tels que
∂E
∂β= 0
∂E
∂α= 0
On arrive aβ =
cov(X ,Y )
var(X )=
∑n xiyi −∑n xi
∑n yin∑n x 2
i −(∑n xi)
2
nα = y − βx
On peut ecrire yi − y = β(xi − x )
Introduction Correlation Regression
La construction de la droite
X
Y
●
●
●
●
●
●
●●
●
●
●
xi
yi
x
y
yi
Introduction Correlation Regression
Le coefficient de determination
Justification
En l’absence de lien entre Y et X , les valeurs de Y nechangent pas selon les valeurs de X
⇒ la droite de regression sera une horizontale avec Y enordonnee a l’origine
S’il y a un lien entre Y et X la droite de regression apporteune contribution dans l’explication de Y par X
S’il y a une relation lineaire parfaite entre Y et X la droite deregression explique parfaitement le lien
Le coefficient de determination R2 evalue l’apport de la droitede regression dans l’explication de Y par X
⇒ variabilite de Y expliquee par la droite par rapport a lavariabilite totale de Y
Introduction Correlation Regression
Le coefficient de determination
X
Y
●
●
●
●
●
●
●●
●
●
y
yi
xi
yi
Introduction Correlation Regression
Le coefficient de determination
X
Y
y
yi
Introduction Correlation Regression
Le coefficient de determination
X
Y
●
●
●
●
●
●
●●
●
●
yi
yi
Introduction Correlation Regression
Le coefficient de determination
Calcul
On ecrit yi − y = (yi − yi) + (yi − y)
⇒
∑
(yi − y)2 =∑
(yi − yi)2 +
∑(yi − y)2
SCET = SCER + SCEE
Totale = Regression + Expliquee
R2 =SCEE
SCET
On demontre que R2 = ρ2
Introduction Correlation Regression
Les tests statistiques
Introduction
Deux questions1 Le lien entre Y et X est-il significatif ?⇒ tests sur β (et α)
2 La relation entre Y et X est-elle lineaire ?⇒ conditions d’application et hypothese de la regression lineaire
simple
Introduction Correlation Regression
Les tests statistiques
Construction du test
Y depend-il de X : la pente differe-t-elle statistiquement de0 ?
La realisation du test1 H0 : β = 0 et H1 : β 6= 0
2 Statistique : T = βσβ
ou σ2β
=
σ2Y
σ2X
− β2
n − 2est l’estimation de
l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de
liberte : on compare T a tn−2,α
Introduction Correlation Regression
Les tests statistiques
Construction du test
Y depend-il de X : la pente differe-t-elle statistiquement de0 ?
La realisation du test1 H0 : β = 0 et H1 : β 6= 0
2 Statistique : T = βσβ
ou σ2β
=
σ2Y
σ2X
− β2
n − 2est l’estimation de
l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de
liberte : on compare T a tn−2,α
Introduction Correlation Regression
Les conditions d’application
Deux questions
1 Le modele lineaire est-il adapte ?
⇒ comparer a d’autres modeles [hors du cadre de ce cours]
2 Les conditions d’utilisation de la regression lineaire simplesont-elles remplies ?
⇒ utiliser les residus
Normalite de la distribution des residus (tests ou inspectionvisuelle)Independance des residus (tests)Homoscedasticite des residus (test ou inspection visuelle) : ladistribution des residus ne depend pas des valeurs predites
Introduction Correlation Regression
Les conditions d’application
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
−4
−2
02
4
Homoscédasticité
y
Rés
idus
sta
ndar
disé
s
●
●
●●
●
●
● ●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
−4
−2
02
4
Hétéroscédasticité
y
Introduction Correlation Regression
Les conditions d’application
Deux implications du modele
La relation entre correlation et regression
ρ = βσXσY
ρ = β si σX = σY
La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0
Les predictions avec une droite
Calculer Y connaissant X : Ynew = α+ βXnew + εnew
Ynew = α+ βXnew
On peut calculer un intervalle de confiance autour de Ynew
La prediction en dehors des plages d’observation requiertd’autres techniques
Introduction Correlation Regression
Les conditions d’application
Deux implications du modele
La relation entre correlation et regression
ρ = βσXσY
ρ = β si σX = σY
La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0
Les predictions avec une droite
Calculer Y connaissant X : Ynew = α+ βXnew + εnew
Ynew = α+ βXnew
On peut calculer un intervalle de confiance autour de Ynew
La prediction en dehors des plages d’observation requiertd’autres techniques