modèles statistiques en sciences humaines et sociales

95
Modèles statistiques Modèles statistiques en sciences humaines et en sciences humaines et sociales sociales

Upload: jed

Post on 13-Jan-2016

39 views

Category:

Documents


10 download

DESCRIPTION

Modèles statistiques en sciences humaines et sociales. 1-Introduction sur les modèles statistiques. 2-Régressions linéaires simples ou bi variés. 3-Régressions linéaires multiples. 4 -Régressions non linéaires. Plan de l’exposé. 1-INTRODUCTION. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Modèles statistiques  en sciences humaines et sociales

Modèles statistiques Modèles statistiques en sciences humaines et en sciences humaines et

socialessociales

Page 2: Modèles statistiques  en sciences humaines et sociales

Plan de l’exposéPlan de l’exposé

1-Introduction sur les modèles statistiques.

2-Régressions linéaires simples ou bi variés.

3-Régressions linéaires multiples.

4-Régressions non linéaires.

Page 3: Modèles statistiques  en sciences humaines et sociales

1-INTRODUCTION

Page 4: Modèles statistiques  en sciences humaines et sociales

Les grands domaines des Les grands domaines des statistiquesstatistiques

Statistique descriptive: Tableaux, graphiques, indicateurs mathématiques,… (AMETICE-TCPRUE11)

Statistique confirmatoire: évalue la probabilité pour qu’un résultat empirique obtenu soit du au hasard (Student, Khi2, tests de corrélation, ANOVA,…) (AMETICE-TCPRUE21)

Statistique exploratoire: Analyse Composante Principales, Analyse Factorielle des Correspondances,…

Modélisation Statistique: objet de la présentation…

Page 5: Modèles statistiques  en sciences humaines et sociales

C’est quoi un modèle Statistique?C’est quoi un modèle Statistique?

On étudie un phénomène dont on suppose qu’il dépend de n variables.

On cherche à exprimer une variable Y (variable expliquée) en fonction des n-1 autres variables Xi (variables explicatives).

On part des données empiriques prélevées sur un échantillon pour établir cette relation.

On établit les lois qui permettent d’étendre le résultat à toute la population.

Page 6: Modèles statistiques  en sciences humaines et sociales

Modèles en sciences exactesModèles en sciences exactes

Page 7: Modèles statistiques  en sciences humaines et sociales

Modèles en sciences humaines et Modèles en sciences humaines et socialessociales

Page 8: Modèles statistiques  en sciences humaines et sociales

Modèles en sciences humaines et Modèles en sciences humaines et socialessociales

Page 9: Modèles statistiques  en sciences humaines et sociales
Page 10: Modèles statistiques  en sciences humaines et sociales

REMARQUE: Variables « fortes » REMARQUE: Variables « fortes » variables « faibles »variables « faibles »

Quand on veut « modéliser » un phénomène en SHS il faut commencer par « retenir » les variables qui agissent sur le phénomène.

On dira qu’il y a des variables « fortes » qui doivent obligatoirement être prises en compte dans le modèle et des variables « faibles » souvent non identifiées qui agiront à travers le terme aléatoire.

Page 11: Modèles statistiques  en sciences humaines et sociales

Le nuage de points empirique 2DLe nuage de points empirique 2D

Par exemple une expérimentation conduit à des prélèvements 2D (xi, yi) auprès de n individus.

A chaque individu est associé en point (xi, yi) dans le plan. On obtient un nuage de points.

Si ce nuage s’organise autour d’une courbe…

Page 12: Modèles statistiques  en sciences humaines et sociales

Nuage de point-Courbe de Nuage de point-Courbe de régressionrégression

… vouloir modéliser le phénomène consiste d’abord à déterminer l’équation de la courbe qui représente « au mieux » le nuage de points empiriques.

Cette courbe est une « courbe  moyenne » qui reflète en moyenne le lien entre les deux variables pour les points de l’échantillon.

Il arrive que le nuage de point soit très dispersé. Dans ce cas il n’y a pas de courbe moyenne représentative et donc pas de lien entre les variables étudiées.

Page 13: Modèles statistiques  en sciences humaines et sociales

Un exempleUn exemple

Page 14: Modèles statistiques  en sciences humaines et sociales

Régressions multiplesRégressions multiples

Page 15: Modèles statistiques  en sciences humaines et sociales

Régression LinéaireRégression Linéaire

Page 16: Modèles statistiques  en sciences humaines et sociales

Plan de l’exposéPlan de l’exposé

1-Introduction sur les modèles statistiques.

2-Régressions linéaires simples ou bi variés.

3-Régressions linéaires multiples.

4-Régressions non linéaires.

Page 17: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 2.Plan de la partie 2.

2- REGRESSION LINEAIRE SIMPLE:

2-1 Problème posé dans un échantillon:

2-1-1 Estimation des paramètres de la droite de régression.2-1-2 Qualité de la représentation.

2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

Page 18: Modèles statistiques  en sciences humaines et sociales

Prélèvement et nuage de Prélèvement et nuage de pointpoint

Page 19: Modèles statistiques  en sciences humaines et sociales

Principe: Méthode MCOPrincipe: Méthode MCO

(∆)

𝑦

(𝑦− 𝑦𝑖) =𝑑𝑖

𝑦𝑖 X 𝑀𝑖

𝑥𝑖

Page 20: Modèles statistiques  en sciences humaines et sociales

Expression des estimateursExpression des estimateurs

Page 21: Modèles statistiques  en sciences humaines et sociales

Exemple: fil rouge…Exemple: fil rouge…

On cherche la relation qui existe, dans une région donnée, entre le prix des terrains (PRIX=Y) et la superficie des terrains (SUPERF=X)

SUPERF PRIX1100 167

850 130700 154950 190

1300 201400 110

Page 22: Modèles statistiques  en sciences humaines et sociales

Exemple: Fil rougeExemple: Fil rouge

Page 23: Modèles statistiques  en sciences humaines et sociales

Résidus empiriques eiRésidus empiriques ei

Les points du nuages ne sont généralement pas sur la droite. On définit le résidu empirique.

(∆)

𝑦ො��𝑖 (𝑦ො��𝑖 − 𝑦𝑖) =𝑒𝑖

𝑦𝑖 X 𝑀𝑖

𝑥𝑖

Page 24: Modèles statistiques  en sciences humaines et sociales

Les résidus Les résidus

Page 25: Modèles statistiques  en sciences humaines et sociales

Somme des carrés des résidusSomme des carrés des résidus

Page 26: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 2.Plan de la partie 2.

2- REGRESSION LINEAIRE SIMPLE:

2-1 Problème posé dans un échantillon:

2-1-1 Estimation des paramètres de la droite de régression.2-1-2 Qualité de la représentation.

2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

Page 27: Modèles statistiques  en sciences humaines et sociales

Qualité de la représentationQualité de la représentation

- Quel que soit le nuage de point les MCO donnent toujours une solution.

- Il faut un ou des indicateurs de qualité de la représentation…

Page 28: Modèles statistiques  en sciences humaines et sociales

Qualité de la représentationQualité de la représentation

Pour s’assurer de la qualité de la représentation il faut répondre à deux questions:

Le lien entre les variables est il « avéré »? En d’autres termes: la relation existe-t-elle vraiment?

Quel est le pourcentage d’explication de l’action de la variable explicative sur l’évolution de la variable expliquée?

Page 29: Modèles statistiques  en sciences humaines et sociales

Le lien entre les variable est il Le lien entre les variable est il avéré.avéré.

Remarque préalable: Une droite horizontale exprime l’absence totale de lien entre les deux variables prises en compte.

Y

Y=0X+b

XQuelque soit X, Y ne change pas

Page 30: Modèles statistiques  en sciences humaines et sociales

Le lien entre les variable est il avéré?Le lien entre les variable est il avéré?

Page 31: Modèles statistiques  en sciences humaines et sociales

Le lien entre les variable est il avéré?Le lien entre les variable est il avéré?

Page 32: Modèles statistiques  en sciences humaines et sociales

x:SUPERF y:PRIX yprédit ei ei^2 xi-xmoy (xi-xmoy)^21100 167 179,25 12,25 150,0625 216,6667 46944,4589

850 130 155,5 25,5 650,25 -33,3333 1111,10889700 154 141,25 -12,75 162,5625 -183,3333 33611,0989950 190 165 -25 625 66,6667 4444,44889

1300 201 198,25 -2,75 7,5625 416,6667 173611,139400 110 112,75 2,75 7,5625 -483,3333 233611,079

Moyenne x 883,333333 SCR= 1603 nvar(x)= 493333,333

0,00081233 tempirique 3,33316697t-5%= 2,78

=ሻଶܣሺߪ ଵሺ � ଶሻ ௌ��ோ��σ ሺ௫�௫ҧሻమసభ =

Page 33: Modèles statistiques  en sciences humaines et sociales

Explicativité du modèle- Coefficient Explicativité du modèle- Coefficient de déterminationde détermination

Page 34: Modèles statistiques  en sciences humaines et sociales

Explicativité du modèle- Explicativité du modèle- Coefficient de déterminationCoefficient de détermination

Page 35: Modèles statistiques  en sciences humaines et sociales

Remarque à partir de l’analyse de Remarque à partir de l’analyse de la variance.la variance.

Page 36: Modèles statistiques  en sciences humaines et sociales

Exemple: Fil rougeExemple: Fil rouge

La superficie explique 73,53% de la variance du prix des terrains dans la région étudiée…Plus du quart du prix s’explique autrement. (Calcul EXCEL)

SUPERF PRIX1100 167

850 130700 154950 190

1300 201400 110

R= Cor(SUPERF,PRIX) = 0,8574816

�ଶ= 0,73527469

Page 37: Modèles statistiques  en sciences humaines et sociales

Que faut il maitriser pour en Que faut il maitriser pour en arriver la? arriver la?

Représentation plane d’un nuage de points et équation d’une droite dans un plan.

Notion de moyenne, variance, covariance et corrélation pour les données expérimentales prélevées sur un échantillon.

Utilisation d’EXCEL…

C’est le contenu de l’UE11 du M1 recherche

Page 38: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 2.Plan de la partie 2.

2- REGRESSION LINEAIRE SIMPLE:

2-1 Problème posé dans un échantillon aléatoire.

2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

2-1 Position du problème- échantillonnage aléatoire.

2-2 Estimation des paramètres de régression pour la population.

2-3 Intervalle de confiance.

Page 39: Modèles statistiques  en sciences humaines et sociales

Position du problème (1)Position du problème (1)

Nous avons travaillé sur un échantillon pris au hasard.

Si l’on avait choisit un autre échantillon les paramètres obtenus (a, b, SCR) auraient été différents.

On doit admettre que le «l’échantillonnage» a influencé le résultat.

On doit introduire la notion de « statistique d’échantillonnage » due au hasard de l’échantillonnage.

Page 40: Modèles statistiques  en sciences humaines et sociales

Statistique d’échantillonnage.Statistique d’échantillonnage.

Page 41: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 2.Plan de la partie 2.

2- REGRESSION LINEAIRE SIMPLE:

2-1 Problème posé dans un échantillon aléatoire

2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

2-1 Position du problème- échantillonnage aléatoire.

2-2 Estimation des paramètres de régression pour la population.

2-3 Intervalle de confiance.

Page 42: Modèles statistiques  en sciences humaines et sociales

ON A a, b ,SCR dans l’échantillon…on met quoi si l’on veut étendre à toute la population….

Quel est le prix à payer

Page 43: Modèles statistiques  en sciences humaines et sociales

Régression dans la populationRégression dans la population

Page 44: Modèles statistiques  en sciences humaines et sociales
Page 45: Modèles statistiques  en sciences humaines et sociales

Estimation sans biais…biaiséeEstimation sans biais…biaisée

xxx x

xx

x

x

x

x

x

x

x

Valeurs de Y pour un x donné pour des échantillons différents-Si l’estimation est sans biais la valeur tourne autour de la valeur cible-Si l’estimation est biaisée la valeur tourne autour d’une autre valeur

Page 46: Modèles statistiques  en sciences humaines et sociales

Hypothèses sur la distribution des Hypothèses sur la distribution des erreurs aléatoireserreurs aléatoires

Page 47: Modèles statistiques  en sciences humaines et sociales

Conséquences des hypothèses H1, H2, H3

H1: Les distributions sont centréesH2: Les distribution ont même varianceH3: Les distributions sont indépendantes

Page 48: Modèles statistiques  en sciences humaines et sociales
Page 49: Modèles statistiques  en sciences humaines et sociales

Des compléments de calculDes compléments de calcul

Page 50: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 2.Plan de la partie 2.

2- REGRESSION LINEAIRE SIMPLE:

2-1 Problème posé dans un échantillon aléatoire2-2 Inférence de la régression d’échantillon sur l’ensemble de la population.

2-1 Position du problème- échantillonnage aléatoire.

2-2 Estimation des paramètres de régression pour la population.

2-3 Intervalle de confiance.

Page 51: Modèles statistiques  en sciences humaines et sociales

Position du problème:Position du problème:

Page 52: Modèles statistiques  en sciences humaines et sociales

T de Student…T de Student…

Page 53: Modèles statistiques  en sciences humaines et sociales

T de Student tend vers la T de Student tend vers la LNCRLNCR

Page 54: Modèles statistiques  en sciences humaines et sociales

T Student T Student

Page 55: Modèles statistiques  en sciences humaines et sociales
Page 56: Modèles statistiques  en sciences humaines et sociales

Intervalle de confiance de la Intervalle de confiance de la droite de régressiondroite de régression

Page 57: Modèles statistiques  en sciences humaines et sociales

Intervalle de confiance de la droite de Intervalle de confiance de la droite de régression de la populationrégression de la population

Y

X

� ൌߙ�� x +ߚ

X0

�Ͳ

Intervalle de confiance à 5%

Intervalle de confiance à 3%

Page 58: Modèles statistiques  en sciences humaines et sociales

Hyperboles de confiancesHyperboles de confiances

Page 59: Modèles statistiques  en sciences humaines et sociales

Exemple: fil rougeExemple: fil rouge

Page 60: Modèles statistiques  en sciences humaines et sociales

Plan de l’exposéPlan de l’exposé

1-Introduction sur les modèles statistiques.

2-Régressions linéaires simples ou bi variés.

3-Régressions linéaires multiples.

4-Régressions non linéaires.

Page 61: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 3Plan de la partie 3

3-Régressions linéaires multiples:

3-1 Régression linéaire 3-D

3-2 régression Linéaire Multi-D

3-3 Une ou plusieurs variables explicatives sont qualitatives

Page 62: Modèles statistiques  en sciences humaines et sociales

Position du problèmePosition du problème

Dans cette partie nous nous limitons à une présentation générale du cas 3-D. Suffisante toutefois pour apprécier les différences de fond avec le cas 2-D.

Pour le reste les grandes lignes restent les mêmes que dans le cas 2-D avec toutefois des difficultés supplémentaires dues à une plus grande complexité du formalisme calculatoire.

On cherche une relation du type: z= a x + b y +cz (variable expliquée), x et y (variables explicatives)

Page 63: Modèles statistiques  en sciences humaines et sociales

Un point du nuage en 3-DUn point du nuage en 3-D

x Mi

x

xi

yi

zi

di

Z=a x + b y + c

Page 64: Modèles statistiques  en sciences humaines et sociales

Principe du calcul des paramètres Principe du calcul des paramètres

Page 65: Modèles statistiques  en sciences humaines et sociales

Calcul des paramètresCalcul des paramètres

Page 66: Modèles statistiques  en sciences humaines et sociales

Analyse théorique de la varianceAnalyse théorique de la variance

Page 67: Modèles statistiques  en sciences humaines et sociales

Qualité de la représentation Qualité de la représentation Coefficient de déterminationCoefficient de détermination

Page 68: Modèles statistiques  en sciences humaines et sociales

Exemple 3DExemple 3D

élèves z:Math x:Phys y:Francais z=ax+by+c

1 6 6 5

2 8 8 8 cov(x,y)= 4,0617284

3 6 7 11 cov(x,z)= 9,86296296

4 14,5 14,4 15,5 cov(y,z)= 2,65740741

5 14 14 12

6 11 10 5,5

7 5,5 7 14 a= 1,19991178

8 13 12,5 8,5 b= -0,18374716

9 9 9,5 12,5 c= -0,24082915

moyenne 9,66666667 9,82222222 10,2222222

variance 11,3888889 8,8417284 12,0617284

R2= 0,99627

R2 corrigé= 0,99502501

Math=1,1999xPhys-0,1837xFrancais- 0,2408

Page 69: Modèles statistiques  en sciences humaines et sociales

élèves z:Math x:Phys y:Francais z:Math1 6 6 5 62 8 8 8 83 6 7 11 64 14,5 14,4 15,5 14,55 14 14 12 146 11 10 5,5 117 5,5 7 14 5,58 13 12,5 8,5 139 9 9,5 12,5 9

moyenne 9,66666667 9,82222222 10,2222222variance 11,3888889 8,8417284 12,0617284

R2 cumulé= 1,0174

Page 70: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 3Plan de la partie 3

3-Régressions linéaires multiples:

3-1 Régression linéaire 3-D

3-2 régression Linéaire Multi-D

3-3 Une ou plusieurs variables explicatives sont qualitatives

Page 71: Modèles statistiques  en sciences humaines et sociales

Régression Multi-DRégression Multi-D

Page 72: Modèles statistiques  en sciences humaines et sociales

Régression multi-DRégression multi-D

Page 73: Modèles statistiques  en sciences humaines et sociales

Détermination des paramètres de Détermination des paramètres de la régressionla régression

Page 74: Modèles statistiques  en sciences humaines et sociales

Formalisme matricielFormalisme matriciel

Page 75: Modèles statistiques  en sciences humaines et sociales

La qualité de la représentation s’apprécie de la même façon avec le coefficient de détermination ou avec sa version corrigée.

L’inférence s’effectue de la même façon…

Mais la complexité et la lourdeur des calculs impose l’utilisation de logiciels spécialisés…pas toujours évidents à manipuler car les démos son peu claires….

Page 76: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 3Plan de la partie 3

3-Régressions linéaires multiples:3-1 Régression linéaire 3-D

3-2 régression Linéaire Multi-D

3-3 Une ou plusieurs variables explicatives sont qualitatives3-3-1 Cas de variables dichotomiques3-3-2 Cas de variables Polytomiques

Page 77: Modèles statistiques  en sciences humaines et sociales

Cas 2-D variable explicative Cas 2-D variable explicative quantitative.quantitative.

Page 78: Modèles statistiques  en sciences humaines et sociales

Cas 3-D une variable explicative Cas 3-D une variable explicative est qualitative dichotomiqueest qualitative dichotomique

Page 79: Modèles statistiques  en sciences humaines et sociales

Jugement

SCORE

Page 80: Modèles statistiques  en sciences humaines et sociales

Cas 4-D deux variables qualitatives Cas 4-D deux variables qualitatives dichotomiquesdichotomiques

Page 81: Modèles statistiques  en sciences humaines et sociales

Cas 4-D deux variables qualitatives Cas 4-D deux variables qualitatives dichotomiques-Pouvoir explicatifdichotomiques-Pouvoir explicatif

Débat sur pouvoir explicatif…pp123

Page 82: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 3Plan de la partie 3

3-Régressions linéaires multiples:3-1 Régression linéaire 3-D

3-2 régression Linéaire Multi-D

3-3 Une ou plusieurs variables explicatives sont qualitatives3-3-1 Cas de variables dichotomiques3-3-2 Cas de variables Poly-tomiques

Page 83: Modèles statistiques  en sciences humaines et sociales

Variables polytomiquesVariables polytomiques

Dans le cadre de la même étude sur le jugement (J) porté par les enseignants sur les élèves les premières variables prises en compte étaient: le score (S), le retard scolaire (R).

On prend à présent en compte l’origine sociale au travers de la CSP du père qui comprend 6 modalités.

ARTI, INTER, EMPL, OUVR, AUTR, CADRE/PROF LIB

Page 84: Modèles statistiques  en sciences humaines et sociales

On définit (6-1)=5 variables muettes la 6ieme modalité sert de « référence »

(6-1) Variables muettes

ARTI INTER EMPL OUVR AUTR

6 Modalités

Art/commerçant 1 0 0 0 0

Intermédiaire 0 1 0 0 0

Employé 0 0 1 0 0

Ouvrier 0 0 0 1 0

Autre 0 0 0 0 1

Cadre sup/prof lib 0 0 0 0 0

Page 85: Modèles statistiques  en sciences humaines et sociales

Variables polytomiquesVariables polytomiques

On doit procéder de la sorte car sinon les 6 variables muettes sont dépendantes linéairement et cela n’est pas toléré par le modèle.

La 6ième modalité intervient indirectement par le fait que les réponses aux 5 premières variables muettes dépendent des réponses à la sixième modalité: « imaginer le cas limite où tous les pères sont cadre ou profession libérale »

Page 86: Modèles statistiques  en sciences humaines et sociales

On obtient 6 plans parallèles un On obtient 6 plans parallèles un par CSPpar CSP

Page 87: Modèles statistiques  en sciences humaines et sociales

On obtient 6 plans // un par CSP

Page 88: Modèles statistiques  en sciences humaines et sociales

Plan de l’exposéPlan de l’exposé

1-Introduction sur les modèles statistiques.

2-Régressions linéaires simples ou bi variés.

3-Régressions linéaires multiples.

4-Régressions non linéaires.

Page 89: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 4Plan de la partie 4

4-Régressions non linéaires.

4-1 Par changement de variable4-2 Moindres carrés pour dépendance polynomiale4-3 Traitement par morceaux linéaires.4-3 Notion d’interaction-Variable modératrices

Page 90: Modèles statistiques  en sciences humaines et sociales

Changement de variablesChangement de variables

Page 91: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 4Plan de la partie 4

4-Régressions non linéaires.

4-1 Par changement de variable4-2 Moindres carrés pour dépendance polynomiale4-3 Traitement par morceaux linéaires.4-4 Notion d’interaction-Variable modératrices

Page 92: Modèles statistiques  en sciences humaines et sociales

Dépendance polynomiale bivariéeDépendance polynomiale bivariée

Page 93: Modèles statistiques  en sciences humaines et sociales

Plan de la partie 4Plan de la partie 4

4-Régressions non linéaires.

4-1 Par changement de variable4-2 Moindres carrés pour dépendance polynomiale4-3 Traitement par morceaux linéaires.4-4 Notion d’interaction-Variable modératrices

Page 94: Modèles statistiques  en sciences humaines et sociales

Interaction /Variables Interaction /Variables modératricesmodératrices

Il y a « interaction » quand l’effet d’une variable sur une autre est sous l’influence d’une 3ième variable.

X1

Y

X2

Page 95: Modèles statistiques  en sciences humaines et sociales

Interaction /Variables modératricesInteraction /Variables modératrices