les équations de la régression logistique – deux variables indépendantes dichotomiques

24
Les équations de la régression logistique – Deux variables indépendantes dichotomiques Le tableau s’écrit alors X 1 X 2 1 1 X1=1 ; X2=1 0 1 X1=0 ; X2=1 1 0 X1=1 ; X2=0 0 0 X1=0 ; X2=0 Y=1 A C E G Y=0 B D F H Total A+C C+D E+F G+H

Upload: tasha-vang

Post on 30-Dec-2015

25 views

Category:

Documents


1 download

DESCRIPTION

Les équations de la régression logistique – Deux variables indépendantes dichotomiques. Le tableau s’écrit alors. Deux variables indépendantes dichotomiques. Avec. Ici la référence est X1=0 et X2=0. L’équation. Deux variables indépendantes dichotomiques. Ici la référence est - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Les équations de la régression logistique – Deux variables indépendantes

dichotomiques Le tableau s’écrit alors

  X1 X2

  1 1X1=1 ; X2=1

0 1X1=0 ; X2=1

1 0 X1=1 ; X2=0

0 0 X1=0 ; X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

Page 2: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Deux variables indépendantes dichotomiques

2211)( XXxg

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

]/ln[ HG Avec

]**[ln][ln1

GFHE

HGF

E

Ici la référence est

X1=0 et X2=0]

**[ln][ln2

DGHC

HGD

C

L’équation

Page 3: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Deux variables indépendantes dichotomiques

2211)( XXxg

)11(1 XORe

Ici la référence est

X1=0 et X2=0

)12(2 XORe

L’équation

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

Page 4: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Deux variables indépendantes dichotomiques

2211)( XXxg

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 a1 b1 a0 b0

Y=0 c1 d1 c0 d0

Total n11 n01 n10 n00

ee

21

21

1)1,1(

ee

1)0,0(

Ici la référence est

X1=0 et X2=0

L’équation

ee

1

1

1)0,1(

ee

2

2

1)1,0(

Page 5: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

INTRODUCTION DE LA MESURE DE L’INTERACTION

212211)( XXXXxg

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

]**[log

]**[log

]**[log

DGHCGFHE

BGHA

]/ln[ HG Avec

]**[log1

GFHE

Ici la référence est

X1=0 et X2=0

]**[log2

DGHC

L’équation

Page 6: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

212211)( XXXXxg

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

nInteractioe

)11(1 XORe

Ici la référence est

X1=0 et X2=0

)12(2 XORe

L’équation

INTRODUCTION DE LA MESURE DE L’INTERACTION

Page 7: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

212211)( XXXXxg

  X1 X2

  1 1X1=1 X2=1

0 1X1=0X2=1

1 0 X1=1 X2=0

0 0 X1=0 X2=0

Y=1 A C E G

Y=0 B D F H

Total A+C C+D E+F G+H

ee

21

21

1)1,1(

ee

1)0,0(

Ici la référence est

X1=0 et X2=0

L’équation

ee

1

1

1)0,1(

ee

2

2

1)1,0(

INTRODUCTION DE LA MESURE DE L’INTERACTION

Page 8: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Application numérique (exemple 2.2 du site)source : http://www.uquebec.ca/

Soit un échantillon de 7000 naissances. On cherche à expliquer une variable :

Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomique

X1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0)

X2 : avoir (X2=1) ou non (X2=0) des antécédents de prématurité 

  X1 X2

  1 1 0 1 1 0 0 0

Y=1 100 50 50 50

Y=0 475 475 2320 3480

Total 575 525 2370 3530

Page 9: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Application numérique (exemple 2.2 du site)http://www.uquebec.ca/reglog/exemp02.htm#exm2.2

Calculer :

les valeurs des différents coefficients

Calculer les différents risques estimés

  X1 X2

  1 1 0 1 1 0 0 0

Y=1 100 50 50 50

Y=0 475 475 2320 3480

Total 575 525 2370 3530

Page 10: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Deux variables indépendantes dichotomiques

2

2428,4]3480/50ln[

Avec « 00 » comme référence

4055,0]50*2320

3480*50ln[ 19915,1]

50*4753480*50[ln

2877,00455,09915,1]50*475

3480*100[ln

  X1 X2

  1 1 0 1 1 0 0 0

Y=1 100 50 50 50

Y=0 475 475 2320 3480

Total 575 525 2370 3530

L’équation s’écrit alors

g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877*X1*X2

Page 11: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Deux variables indépendantes dichotomiques

Avec « 00 » comme référence

1739,01

)1,1(2877,01915,00455,02428,4

2877,01915,00455,02428,4

ee

014,01

)0,0(2428,4

2428,4

ee

0211,01

)0,1(4055,02428,4

4055,02428,4

ee

0952,1

)1,0(9915,124,4

9915,124,4

ee

g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877X1*X2)

Page 12: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Programme SAS associé (ex2)proc logistic data =ex2 descending ;class

Fumeuse (ref="0") Ant (ref="0") / param=ref ;

model Premat = Fumeuse Ant Fumeuse*Ant;

output out=b1 predicted=probest ;weight eff ;run ;

Modèle déclaré avec les interactions

Lire les proportions estimées dans la table b1 de la librairie WORK

Page 13: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Lecture des sorties SAS (ex1)Partie « Parameter estimates »

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -4.2427 0.1424 887.3377 <.0001

Fumeuse 1 0.4054 0.2018 4.0362 0.0445

Antécédant 1 1.9914 0.2059 93.5493 <.0001

Interaction 1 0.2879 0.2737 1.1060 0.2930

Odds Ratio Estimates

Point 95% Wald

Effect Estimate Confidence Limits

Fumeuse 1.500 1.010 2.227

Antécédant 7.326 4.893 10.967

Interaction 1.334 0.780 2.280

Page 14: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

La table sortie b1

Premat Fumeuse AntProbabilité

estimée

1 1 1 17,4%

1 1 0 2,1%

1 0 1 9,5%

1 0 0 1,4%

Les probabilités données par le modèle sont équivalentes aux proportions calculées à partir

des données observées

Page 15: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Programme SAS associé (ex2)proc logistic data =ex2 descending ;class

Fumeuse (ref="0") Ant (ref="0") / param=ref ;

model Premat = Fumeuse Ant;

output out=b1 predicted=probest ;weight eff ;run ;

Modèle déclaré sans l’interaction car non significative

Lire les proportions estimées dans la table b2 de la librairie WORK

Page 16: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Analysis of Maximum Likelihood Estimates

Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -4.3243 0.1243 1209.8527 <.0001Fumeuse 1 1 0.5631 0.1354 17.2963 <.0001Ant 1 1 2.1556 0.1346 256.5120 <.0001

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits

Fumeuse 1 vs 0 1.756 1.347 2.290 Ant 1 vs 0 8.633 6.631 11.239

Lecture des sorties SAS (ex2)Partie « Parameter estimates »

Page 17: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

La table sortie b2

Premat Fumeuse AntProbabilité

estimée

1 1 1 16,7%

1 1 0 2,3%

1 0 1 10,3%

1 0 0 1,3%

Les probabilités estimées sont DIFFERENTES des proportions calculées à partir des données

observées MAIS PROCHES

Page 18: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Les équations de la régression logistique Deux variables indépendantes dont une polythomique (plus de deux modalités)

X1 Z1 Z2  

  1 0 1 0 0 1 1 1 0 0 1 0 1 0 0 0 0 0 Total

Y=1 37 158 58 57 208 42 560

Y=0 189 1616 223 662 2074 1676 6440

Total 226 1774 281 719 2282 1718 7000

Soit l’échantillon de 7000 naissances. Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomiqueX1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0)X2 : avoir moins de 20 ans (Z1=1) 30 ans ou plus (Z2=1) ou entre 20 ans et 30 ans (Z1=Z2=0)

SITUATION DE REFERENCE = « Non fumeuse ; âgée entre 21 et 29 ans »

Page 19: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Programme SAS associé (ex3)proc logistic data =ex3 descending ;class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ;

model Premat = Fumeuse Age20m Age30p

Fumeuse*Age20m Fumeuse*Age30p Age20m*Age30p ;

output out=b3 predicted=probest ;weight eff ;run ;

Page 20: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -3.6865 0.1562 556.8384 <.0001

x 1 1.3868 0.1723 64.7629 <.0001

z1 1 1.2343 0.2085 35.0533 <.0001

z2 1 1.3614 0.1771 59.1102 <.0001

z1x 1 -0.2813 0.2655 1.1228 0.2893

z2x 1 -0.6925 0.2626 6.9541 0.0084

Odds Ratio Estimates

Point 95% Wald

Effect Estimate Confidence Limits

x 4.002 2.855 5.610

z1 3.436 2.283 5.170

z2 3.902 2.757 5.520

z1x 0.755 0.449 1.270

z2x 0.500 0.299 0.837

Page 21: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Parameter DF Estimate

Intercept 1 -3.6865 Fumeuse 1 1 1.3868 Age20m 1 1 1.2343 Age30p 1 1 1.3614 Fumeuse*Age20m 1 1 1 -0.2813 Fumeuse*Age30p 1 1 1 -0.6925

g(X1 ;Z1,Z2) = -3,68 + 1,38 X1 + 1,23 Z1 + 1,36 Z2 - 0,28 X1*Z1 -0,69 X1*Z2

L’équation s’écrit

Lecture des sorties SAS (ex3) Pr > ChiSq

<.0001 <.0001 <.0001 <.0001 0.2893 0.0084

Page 22: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Effect Point Estimate Confidence Limits

Fumeuse 4.002 2.855 5.610Age20m 3.436 2.283 5.170Age30p 3.902 2.757 5.520Fumeuse*Age20m 0.755 0.449 1.270Fumeuse*Age30p 0.500 0.299 0.837

OR = e 1,3868

Le rapport entre les enfants de moins de 2500 et ceux de plus de 2500g est 4 fois plus important chez les fumeuses âgées de 20-30 ans que chez les non fumeuses du même groupe d’âges.

mesure l’association entre " le fait de -faible poids à la naissance (Y)-fumer pendant la grossesse (X1)-âge "20<=age<30 ans«  (Z)

e -0,2823 = 0,755 = 3,02/4,002 l’effet modifiant de l'âge de la mère sur l’association entre " le fait de fumer " et " le faible poids à la naissance

Cet effet d’interaction est marqué par le coefficient négatif de Z1 : -0,2813

Fumeuse * Age30p = effet négatif = avoir 30 ans diminue le risque d’avoir un enfant prématuré quand on est fumeuse.

L’effet est significatif !!!

-OR n’est pas significatif. Ic compris de chacun des côté de 1

Pour mesurer l’association entre

-le " faible poids à la naissance (Y=1)« 

- le fait de fumer pendant la grossesse (X1=1 )

-l'âge de la mère est "<20 ans" :

Vaut : e (1,3868*1-0,2813*1)=3,02 = OR

Page 23: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Programme SAS sans les associations entre les variables

proc logistic data =ex3 descending ;class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ;

model Premat = Fumeuse Age20m Age30p ;

output out=b3 predicted=probest ;weight eff ;run ;

Page 24: Les équations de la régression logistique –  Deux variables indépendantes dichotomiques

Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -3.4521 0.1039 1104.9237 <.0001 Fumeuse 1 1 1.0942 0.1032 112.4182 <.0001 Age20m 1 1 1.0052 0.1246 65.1283 <.0001 Age30p 1 1 1.0479 0.1160 81.6171 <.0001

Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits Fumeuse 1 vs 0 2.987 2.440 3.656 Age20m 1 vs 0 2.732 2.141 3.488 Age30p 1 vs 0 2.852 2.272 3.580

Commenter

Calculer la probabilité pour une femme fumeuse de moins de 20 ans d’avoir un enfant de moins de 2500 grammes d’après ce modèle 20,54%

Donner l’équation du modèle

Comparer avec la proportion observée dans la population 20,64%