Transcript

cours réalisé par Benjamin Putois 08/12/2008

1

Corrélation

Cas: échelle numérique

Coefficient de corrélation de Bravais-Pearson

i.e. coefficient de corrélation linéaire

Cours réalisé par Benjamin PutoisNovembre [email protected]

couple A B C D E F G H I J

FEMME 18 21 22 19 30 20 19 19 32 30

HOMME 38 24 26 20 28 26 24 20 24 20

Existe-t-il une corrélation entre l’âge de mariage des hommes et celui des femmes?Nous avons interrogé 10 couples sur leur âge au moment du mariage:

cours réalisé par Benjamin Putois 08/12/2008

2

âge A B C D E F G H I J MOYENNE

FEMME 18 21 22 19 30 20 19 19 32 30 23

HOMME 38 24 26 20 28 26 24 20 24 20 25

Etape 1: hyp

H0: pas de corrélationH1: corrélation

Etape 2: calcul de la covariance

Etape 2.1: calcul de la moyenne

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

Moyenne

cours réalisé par Benjamin Putois 08/12/2008

3

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

Moyenne

X-Mx

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

Moyenne

X-Mx

Y-My

cours réalisé par Benjamin Putois 08/12/2008

4

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

Moyenne

X-Mx

Y-My(X-Mx)*(Y-My)

Rappel: la surface d’un rectangle

A

B

A*B

cours réalisé par Benjamin Putois 08/12/2008

5

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

Moyenne

X-Mx

Y-My(X-Mx)*(Y-My)

Covariance des dispersions = Est-ce

que les variables varient dans le même sens?

Dispersion de Y

Dispersion de X

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

(X-Mx)*(Y-My)

Deux dimensions

Une dimension

Une dimension

cours réalisé par Benjamin Putois 08/12/2008

6

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

cours réalisé par Benjamin Putois 08/12/2008

7

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

cours réalisé par Benjamin Putois 08/12/2008

8

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

cours réalisé par Benjamin Putois 08/12/2008

9

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

cours réalisé par Benjamin Putois 08/12/2008

10

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

∑(xi-Mx)(yi-My)

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

∑(xi-Mx)(yi-My)/N = Cov(x,y)

cours réalisé par Benjamin Putois 08/12/2008

11

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

∑(xi-Mx)(yi-My)/N = Cov(x,y)La covariance est la moyenne

des surfaces des distances des points par rapport à la

moyenne

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

positif

négatif

négatif

positif

Remarque sur la covariance:

cours réalisé par Benjamin Putois 08/12/2008

12

Remarque sur la covariance:

20212223242526272829303132333435363738

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

ÂG

E H

OM

ME

ÂGE FEMME

positif

négatif

négatif

positif

covariance positivecovariance négative

Remarque sur la covariance:La covariance permet d'estimer le sens de la variation entre deuxvariables numériques :

Les variables varient dans le même sens (ou covarient) : les sujetsqui ont des valeurs fortes (au dessus de la moyenne) sur unevariable, présentent également des valeurs élevées sur l'autrevariable. Autrement dit, les sujets les plus grands sont les sujets lesplus lourds et, inversement, les sujets plus petits sont les plus légers :dans ce cas, la covariance est de signe positif (+66,831)

► Les variables varient en sens inverse : les sujets qui ont des valeursfortes sur une des deux variables auront tendance à avoir des notesfaibles sur l'autre variable. La valeur de la covariance sera alors designe négatif

► Les variables ne covarient pas : Parmi les sujets présentant desvaleurs fortes sur une variable, on peut observer que, sur l'autrevariable, ces mêmes sujets obtiennent des notes fortes, faibles oumoyennes. La valeur de la covariance est proche de la valeur 0.

cours réalisé par Benjamin Putois 08/12/2008

13

âge A B C D E F G H I J MOYENNE sdFEMME 18 21 22 19 27 27 19 19 21 19 21,2 3,29309041HOMME 19 20 23 20 28 26 18 20 24 20 21,8 3,29309041moyenne F 21 21 21 21 21 21 21 21 21 21 21,2moyenne H 22 22 22 22 22 22 22 22 22 22 21,8X-moy -3 -0 1 -2 6 6 -2 -2 -0 -2Y-moy -3 -2 1 -2 6 4 -4 -2 2 -2 SOMMEX-moy*Y-moy 9 0 1 4 36 24 8 4 -0 4 90,4

SOMME / N9,04

cov 9,04R 0,83360656

15

20

25

30

15 17 19 21 23 25 27 29

HO

MM

E

FEMME

Corrélation positive et forte

âge A B C D E F G H I J MOYENNE sdFEMME 18 38 27 53 27 27 50 67 36 80 42,3 19,8776815HOMME 42 20 23 20 60 26 18 20 24 20 27,3 13,4002488moyenne F 42 42 42 42 42 42 42 42 42 42 42,3moyenne H 27 27 27 27 27 27 27 27 27 27 27,3X-moy -24 -4 ## 11 ## ## 8 25 -6 38Y-moy 15 -7 -4 -7 33 -1 -9 -7 -3 -7 SOMMEX-moy*Y-moy ## 31 66 ## ## 20 ## ## 21 ### -1324,9

SOMME / N-132,49

cov -132,49R -0,49739

1520253035404550556065707580

15 25 35 45 55 65 75 85

HO

MM

E

FEMME

Corrélation négative et

moyenne

cours réalisé par Benjamin Putois 08/12/2008

14

âge A B C D E F G H I J Moyenne

FEMME 18 21 22 19 30 20 19 19 32 30 23

HOMME 38 24 26 20 28 26 24 20 24 20 25

X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=

7

Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=

-5

Etape 2.2: calcul des distances aux moyennes

âge A B C D E F G H I J Moyenne

FEMME 18 21 22 19 30 20 19 19 32 30 23

HOMME 38 24 26 20 28 26 24 20 24 20 25

X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=

7

Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=

-5

Etape 1.3: produit des distances

(X-Mx)*(Y-My) -65 2 -1 20 21 -3 4 20 -97*-5=

-35

cours réalisé par Benjamin Putois 08/12/2008

15

âge A B C D E F G H I J Moyenne

FEMME 18 21 22 19 30 20 19 19 32 30 23

HOMME 38 24 26 20 28 26 24 20 24 20 25

X-Mx -5 -2 -1 -4 7 -3 -4 -4 930-23=

7

Y-My 13 -1 1 -5 3 1 -1 -5 -120-25=

-5

Etape 2.3: moyenne des produits des distances

(X-Mx)*(Y-My) -65 2 -1 20 21 -3 4 20 -97*-5=

-35∑=-46

Etape 3: calcul du coef. de corr.Etape 3.1: calcul des écart-types de chaque variable

Etape 3.2: calcul du rcalculé

σ x σy=5.44 =5.35

Pourquoi divise-t-on par le produit des écarts-types?

cours réalisé par Benjamin Putois 08/12/2008

16

•On pondère la covariance par les produits des dispersions pour donner une valeur, un indice compris entre -1 et 1.

•La covariance (i.e. la dispersion en 2D) est pondérée par la dispersion de chaque variable (i.e. le produit des écarts-types)

Etape 4 : seuil de significativité et ddlα=.05ddl= N – nombre de variable = 10-2= 8Etape 5 : recherche du rthéorique

rthéorique= 0,632

cours réalisé par Benjamin Putois 08/12/2008

17

Etape 5: comparaison entre |rcalculé| et rthéorique

|rcalculé|=- 0,158 rthéorique= = 0,632

|rcalculé| < rthéorique

Si rcalculé ≥ rthéorique alors on rejette l’hypothèse nulle et accepte H1: les deux distributions sont statistiquement liées. On peutl’affirmer avec un risque d’erreur < 5%.Si rcalculé < rthéorique alors on ne rejette pas l’hypothèse nulle : on nepeut pas dire que les deux distributions sont statistiquementliées. Mais attention : cela ne veut pas dire que l’on accepte Ho

Etape 6: conclusionOn ne rejette pas H0

Remarque sur le coef. de corr.:

•Si le coefficient de corrélation est proche de 1 ou de –1, cela signifie que les variables x et y sont très fortementliées (par une relation de la forme y = ax + b).•S’il est proche de 0, cela signifie que le lien est faible.•Un signe positif indique que x et y varient dans le mêmesens.

cours réalisé par Benjamin Putois 08/12/2008

18

Formules :

« Dispersion » de Y par rapport à la moyenne de Y

« Dispersion » de X par rapport à la moyenne de X

Produit des dispersion (surface ou vecteur ou aire)

Moyenne des produits des dispersions

Pondération

Formules :

« Dispersion » de Y par rapport à la moyenne de Y

« Dispersion » de X par rapport à la moyenne de X

Produit des dispersion (surface ou vecteur ou aire)

Moyenne des produits des dispersions

Pondération

cours réalisé par Benjamin Putois 08/12/2008

19

Droite de régression linéaire :

La corrélation linéaire entre ces deux variables peut être symbolisée par une droite…

15

20

25

30

15 17 19 21 23 25 27 29

HO

MM

E

FEMME

Droite de régression linéaire :

La corrélation linéaire entre ces deux variables peut être symbolisée par une droite:

15

20

25

30

15 17 19 21 23 25 27 29

HO

MM

E

FEMME

Cette droite est trouvée par laméthode des moindres carrés.C’est-à-dire que pour lacalculer, on cherche à minimiserla distance de chaque point parrapport à une droite

cours réalisé par Benjamin Putois 08/12/2008

20

Droite de régression linéaire :

La corrélation linéaire entre ces deux variables peut être symbolisée par une droite:

15

20

25

30

15 17 19 21 23 25 27 29

HO

MM

E

FEMME

L’intérêt d’une telle droite estqu’elle permet de nous donnerdes prédictions.

Par exemple:Si une femme se marie à l’âge de25 ans, alors notre corrélationnous permet de prédire que sonconjoint aura 25 ans.

Droite de régression linéaire :

15

20

25

30

15 20 25 30

HO

MM

E

FEMME

Attention cette droite permet de prédirel’âge de l’homme à partir de l’âge de lafemme.Et non l’inverse !

Celle-ci permet de prédire l’âge de lafemme à partir de l’âge de l’homme.

���� Nous pouvons donc faire deux droitesde régression linéaire

15

20

25

30

15 20 25 30

FEM

ME

HOMME

cours réalisé par Benjamin Putois 08/12/2008

21

Droite de régression linéaire :

A partir de l’âge des femmes, onprédit l’âge des hommes.y=(a*x )+ ba=cov(HOMME,FEMME)/varFEMME

b=MHOMME-(a*MFEMME)

15

17

19

21

23

25

27

29

15 17 19 21 23 25 27 29

FEM

ME

HOMME

15

20

25

30

15 17 19 21 23 25 27 29

HO

MM

E

FEMME

A partir de l’âge des hommes, onprédit l’âge des femmesy=(a*x )+ ba=cov(FEMME,HOMME)/varHOMME

b=MFEMME-(a*MHOMME)

Y= 0,93X + 2,16

Y= 0,93X + 1,01

Rappel: qu’est ce qu’une droite?

Une droite se définie par la formule: y=ax+b•Une pente : l’inclinaison de la droite, noté a•L’ordonnée à l’origine : la valeur de Y si X est nul, noté b

Rappel: qu’est ce que l’ordonnée à l’origine?

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

L’ordonnée à l’origine est la valeur de Y quand X est égal à

zéro. C’est l’endroit où la droite sectionne l’ordonnée, d’où son

nom!

cours réalisé par Benjamin Putois 08/12/2008

22

Rappel: qu’est ce qu’une pente?

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

•Plus la pente est forte plus la croissance (ou la décroissance) est forte.

•La pente de (a) sera plus grande que la pente de (b)

et cette dernière plus grande que celle de (c)

a b

c

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

•Une pente positive indique une croissance.

•Une pente nulle indique une constance.

•Une pente négative indique une décroissance.

D’où son nom!

Rappel: qu’est ce qu’une pente?

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Exemple de pente:droite a: y=4x

J’avance de 10,je monte de 40.

Donc a=40/10=4

a

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Exemple de pente:droite b: y=1x

J’avance de 10, je monte de 10.

Donc a=10/10=4

b

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Exemple de pente:droite c: y=1/5xJ’avance de 50, je monte de 10.

Donc a=10/50=1/5

c

cours réalisé par Benjamin Putois 08/12/2008

23

Entraînement:

Trouvez les formules de ces droites:

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Y = 15L’ordonnée à l’origine est 15.

La pente est nulle.Équivaut à

Y= 0*X + 15

Y = XL’ordonnée à l’origine est nulle.

La pente est égale à 1.Équivaut à Y= 1*X+0

Entraînement:

Trouvez les formules de ces droites:

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Y = 35L’ordonnée à l’origine est 35.

La pente est nulle.Équivaut à

Y= 0*X + 35

Y = -X+50L’ordonnée à l’origine est 50.

La pente est égale à -1.Équivaut à Y= -1*X+50

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Y = 4X+10L’ordonnée à l’origine est 10.

La pente est égale à 4.Équivaut à Y= 4*X+10

cours réalisé par Benjamin Putois 08/12/2008

24

Entraînement:

Trouvez les formules de ces droites:

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Y = -0,5X+40L’ordonnée à l’origine est 40.

La pente est -0,5.Équivaut à

Y= -0,5*X + 40

Y = 0,5X+20L’ordonnée à l’origine est 20.

La pente est égale à 0,5.Équivaut à

Y= 0,5*X+20

0

10

20

30

40

50

0 10 20 30 40 50

Y

X

Y = 0,33X+10L’ordonnée à l’origine est 10.

La pente est égale à 0,33.Équivaut à

Y= 0,33*X+10

Droite de régression linéaire :Entrainez-vous avec ce nouvel exemple:

âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20

cours réalisé par Benjamin Putois 08/12/2008

25

Droite de régression linéaire :

Moyenne FEMME= 42,3Moyenne HOMME= 27,3Variance FEMME= 355,61Variance HOMME= 161,61Ecart-type FEMME= 18,86Ecart-type HOMME= 12,71

Cov(FEMME;HOMME)=….rcalculé=….ddl=….rthéorique=….

âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20

Droite de régression linéaire :

Moyenne FEMME= 42,3Moyenne HOMME= 27,3Variance FEMME= 355,61Variance HOMME= 161,61Ecart-type FEMME= 18,86Ecart-type HOMME= 12,71

Cov(FEMME;HOMME)=-132,89rcalculé=-0,55ddl=10-2=8rthéorique=0,632 (si alpha=.05) � on ne peut pas rejeter H0!

âge A B C D E F G H I JFEMME 18 38 27 53 27 27 50 67 36 80HOMME 42 20 23 20 60 26 18 20 24 20

cours réalisé par Benjamin Putois 08/12/2008

26

Droite de régression de HOMME sur FEMME:

0

10

20

30

40

50

60

70

80

0 20 40 60 80 100

HO

MM

E

FEMME

HOMME= a * FEMME + ba= cov / var(FEMME)a=-132,89 / 365,61a=-0,37

b=MHOMME-(a*MFEMME)b=27,3 – (-0,37*42,3)b=43,06

HOMME= -0,37 * FEMME + 43,06

Attention aux interpolations !•Premièrement à un seuil de .05, il n’y a pas de corrélation•Deuxièmement, on peut prédire qu’une femme qui vient de naître (zéro ans) se marie avec un homme de 43 ans!

Droite de régression de FEMME sur HOMME:

0

10

20

30

40

50

60

70

80

90

0 20 40 60 80

FEM

ME

HOMME

FEMME= a * HOMME + ba= cov / var(HOMME)a=-132,89 / 161,61a=-0,82

b=MFEMME-(a*MHOMME)b=42,3 – (-0,82*27,3)b=64,68

FEMME= -0,82* HOMME + 64,68

Attention aux interpolations !•Premièrement à un seuil de .05, il n’y a pas de corrélation•Deuxièmement, on peut prédire qu’un homme qui vient de naître (zéro ans) se marie avec une femme de 64,68 ans!


Top Related