g._furst_2013_._la_regression_lineaire..pdf

Upload: thechosen-wolf

Post on 06-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    1/42

    Régression Linéaire – Bases

    Guillaume Fü[email protected]

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    2/42

    Vue d’ensemble

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 2

    Variable

    Latente 1

    i1 i2 i3 i4 i5

    Variable

    Latente 2

    i6 i7 i8 i9 i10

    Passation desquestionnaires

    Analyse factorielle

    Régression Linéaire(Simple ou Multiple)

    Analyse de la fidélité

    Analyse de la validité

    Analyse des propriétéspsychométriques des

    questionnaires

    Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    3/42

    • Variance: représente la moyenne des écarts àla moyenne . Mesure de la diversité. Unevariable sans variance est une constante.

    • Covariance: représente la variance partagéeentre deux variables. Indices non normé,

    peut varier entre -∞ et +∞.

    • Scores z (standardisés): Mesure de positionstandardisée. Situe chaque observation parrapport à la moyenne, en unité d’écart-type.

    •Corrélation: Covariance standardisée. Bornéeentre -1 et +1. La covariance entre deuxvariables standardisées (scores z) est unecorrélation.

    Rappel: variance, covariance, corrélation

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 3

    Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    4/42

    • La significativité statistique indique si uneffet est différent de 0.

    • La taille d’effet donne plus d’information

    sur la magnitude de cet effet.

    • Ces deux informations sont différentes etindépendante l’une de l’autre 

    • (L’estimation de la taille d’effet dépend de

    la fidélité de la mesure.)

    Rappel: taille d’effet et significativité 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 4

    Pas d’effet  Relation assez forte Relation très forte

    Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    5/42

    • La régression simple permet de tester le lien entre deux variables: – La variable dépendante (VD) toujours est continue

     – La variable indépendante (VI) est continue ou dichotomique/muette (avec desvaleurs de 0 ou 1)

    • Par défaut, le lien testé en deux variables continues est linéaire (mais certaines

    méthode permettent de tester des relations non-linéaires)• La régression simple avec une variable dichotomique est équivalente au test t .

    • La régression simple avec deux variables continues est similaire à la corrélation.

    • Le principe général est d’estimer une droite qui passe au mieux au travers detoutes les données

    •Paramètres estimés: – Intercepte: scores sur la VD pour les personnes qui ont 0 sur la VI;

     – Pente: progression moyenne sur la VD pour une valeur de 1 sur la VI;

     – Résidus: partie de la variance non expliquée par la le lien entre VI et VD.

    La régression simple (RLS): principe

    http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html  

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 5

    Rappels  – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

    http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.htmlhttp://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.htmlhttp://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    6/42

    La régression simple (RLS): principe

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 6

    Relation linéaireentre variablescontinues

    Relation entre

    une variabledichotomique etune continue

    Relation non-linéaire entre

    variablescontinues

    Rappels  – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    7/42

    • Equation dans la population:Y

    i  =  β0 +  β1* x i  + ε i  

    • Equation dans l’échantillon

    Yi  = b

    0 + b

    1* x 

    i  + r 

    i  

    • Hypothèses nulles

     – Pour l’intercepte:

    • H0 : β0 = 0

    • H1 :  β0  ≠ 0 

     – Pour la pente:

    • H0 : β1 = 0

    • H1 : β1  ≠ 0 

    RLS – Modèle et hypothèses nulles

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 7

    Rappels  – Principe de la RLS – Postulats – Paramètres – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    8/42

     

    • Valeurs extrêmes : surveiller les valeursextrêmes, avec un grand résidu, quipeut influencer l’estimation) 

    RLS – Postulats et résidus

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 8

    Rappels  – Principe de la RLS – Postulats  – Paramètres – Causalité – RLM

    • Graphs à faire :

     – Histogramme desrésidus. On attends lanormalité.

     – Scatterplot « valeurs

    prédites vs. résidus ».

    Homogénéité de lavariance

    • Postulats: – Indépendance des observations

     – Normalité des résidus

     – Homogénéité de la variance

     – Pas de valeurs extrêmes

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    9/42

    • Intercepte – Taille d’effet: b0 

     – Significativité: testée avec un test t .

    • Pente

     – Taille d’effet: b x  ou « Beta x  »

    (standardisé) – Significativité: testée avec un test t .

    • R2: Proportion de variance expliquée – Paramètre standardisé par nature.

     – Varie entre 0 et 1. S’exprimer aussi en %  

     – Significativité testée avec un test F .

    RLS – Paramètres estimés

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 9

    Rappels  – Principe de la RLS – Postulats – Paramètres  – Causalité – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    10/42

    • Le sens VI et VD est motivé théoriquement.• Ce sens n’a que très peu d’incidence sur l’analyse statistique.

    • La régression ne démontre JAMAIS la causalité.

    • La causalité se démontre/contrôle méthodologiquement; trois points clés:

    1. Lien entre deux variable

    2. Antériorité temporelle de la cause

    3. Exclusion de tous les autres facteurs potentiels

    Horrible mais pourtant vrai :

    Aucune analyse statistiquene peut démontrer la causalité

    Régression et causalité

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 10

    Rappels  – Principe de la RLS – Postulats – Paramètres – Causalité  – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    11/42

    • Point communs avec la RLS – Même principe, même estimation.

     – Mêmes postulats, même diagnostique.

    Régression Linéaire Multiple (RLM)

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 11

    • Points spécifiques:

     – Plus de paramètres estimées – Equation avec plusieurs pentes

    Yi  =  β0 +  β1* x i  +  β2* x i  + … + ε i  

     – Espace en « n » dimension au lieu de 2

     – Les estimations des pentes ne sont plusdirectement analogues à la corrélation

     – Attention à la multi-colinéarité.Vérifier la tolérance (= 1 – R2).Doit être supérieure à .10.

    http://la-dimension4.com/Hyperplans.html

    Rappels  – Principe de la RLS – Postulats – Paramètres – Causalité  – RLM

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    12/42

    Lectures

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 12

    • Field, A. (2007). Discovering Statistics Using SPSS. SAGEPublications Ltd.

     – Chapitre 5 “Exploring assumptions”, pp. 131-136

     – Chapitre 6 “Correlation”, pp. 166-172

     – Chapitre 7 “Regression”, pp. 197-209

    • Videos Qualtrics:http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697 

    http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    13/42

    Régression – Thèmes avancés

    Guillaume Fü[email protected]

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    14/42

    Inférence – vue d’ensemble des tests 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 14

    Nom du test /

    Analyse statistique

    Distribution pour le

    test de significativté Degré de liberté

    Indice de la

    taille d'effet

    Chi carré  Χ 2 Nb de catégorie -1 Cohen’s w

    Test t t (ng1+ng2) - 2 Cohen’s d

    ANOVA F ddl1: Ng-1, ddl2: n-Ng η2

    Corrélation t N – 2 r  ou r 2

    Exemple des formules pour le test t  :

    http://wiki.opossem.org/index.php?title=Statistical_distributions 

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

    http://wiki.opossem.org/index.php?title=Statistical_distributionshttp://wiki.opossem.org/index.php?title=Statistical_distributionshttp://wiki.opossem.org/index.php?title=Statistical_distributions

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    15/42

    Taille d’effet et significativité en régression 

    • Rappel pour la corrélation

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 15

    • Pour l’intercepte en RLS:

    • Pour la pente en RLS:

    T

    T

    T

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    16/42

    R2 et R2 ajusté

    • Le R2 représente la taille d’effet totale, la variance expliquée de Y  R2  = 1 -

    é

     

    • Le test F permet de tester si le R2 est différent de 0:

    F = é

    é 

    dl1: p-1, ddl2: n-p

    • R2 ajusté:

    Permet de prendre en compte:

     – La taille d’échantillon (n)

     – Le nombre de paramètre dans le modèle ( p)

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 16

    http://en.wikipedia.org/wiki/F-distribution 

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

    http://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distribution

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    17/42

    Intervalle de confiance: principe

    • Caractéristiques générales de l’IC :  – L’IC permet d’estimer un intervalle dans lequel se trouve probablement la

    vraie valeur de la population

     – L’IC dépend de l’erreur standard d’un paramètre, l’erreur d’estimation. 

     – Plus l’échantillon (n) est grand, plus petite sera l’erreur d’estimation 

     – Plus la taille de l’échantillon (n) est grande, plus l’IC sera étroit.  – Plus l’IC est étroit, plus nous avons confiance que l’estimation ponctuelle est

    proche de la vraie valeur de la population.

    IC(95%) = [limité inférieure; limite supérieure]

    Limite inférieure=point estimé du paramètre – Quantile de la loi t (n-p) * Erreur standard du paramètre

    Limite supérieure=point estimé du paramètre + Quantile de la loi t (n-p) * Erreur standard du paramètre

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 17

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    18/42

    Exemple – paramètres estimés

    • Intercepte – b0≈ 0 

     – t (108) ≈ 0 ; p ≈ 1

     – IC(95%)=[-0.27; 0.27]

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 18

    • R2

     – R2 = 0.17

     – R2 ajusté = 0.16

     – F(2,108)=11.63; p < .001

    • Pente de Generation  – b1 (brute) = 0.76

     – b1 (standardisée) = 0.43

     – t (108)= 4.8; p < .001

     – IC(95%)=[-0.45; 1.08]

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    19/42

    Détecter les valeurs extrêmes

    • Graphiques exploratoires avant l’analyse (insuffisant pour la RLM)• Taille des résidus (mais ce n’est pas la meilleure méthode)

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 19

    • Distance de Cook Représente l’influence

    d’une observation sur

    l’estimation. Doit êtreinférieure à 1 pour toutesles observations.

    • Distance de Mahalanobis

    Distance qui représente

    l’éloignement à lamoyenne. Voir lesrecommandations ci-contre pour les valeurslimites.

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    20/42

    Exemple – Valeurs extrêmes

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 20

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    21/42

    Normalité

    • Utiliser avant tout les graphiques

    • Skewness et Kurtosis

     – Estimations inférieures à |1|

     – Estimation/erreur standard < 2

    • Tests de normalité (Kolmogorov-Smirnov)

     – Permet de savoir si notre distribution estsignificativement différente d’une normale 

     – On veut une p-valeur non-significative.

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 21

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité  – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    22/42

    Transformations

    • On distingue: – Transformation linéaire: ne modifie pas la

    distribution (p. ex. score z)

     – Transformation non-linéaire: modifie ladistribution

    •Souvent utilisé pour corriger l’asymétrie  – Transformation log – Transformation racine carré

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 22

    • Après transformation, l’équation n’est plus la

    même. Par exemple:

    Log(Y) = b0 + b

    1*x

    Y = Exp(b0) + Exp(b1*xi )

    • La relation entre les variables n’est plus linéaire 

    • Voir aussi

     – Field (2007), chap. 5, pp. 153-156

     – http://stattrek.com/regression/linear-transformation.aspx 

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

    http://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspx

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    23/42

    Transformations – normalité univariée

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 23

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    24/42

    Transformations – relation non-linéaire

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 24

    http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data 

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

    http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    25/42

    Transformations – relation non-linéaire

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 25

        h   t   t   p  :    /

        /   w   w   w   3 .   n

        d .   e

        d   u    /   ~   r   w   i    l    l   i   a   m    /   s   t   a

       t   s   2    /    l   6   1 .   p

        d    f

    Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations

    http://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdf

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    26/42

    Variable muette – cas simple classique

    • Contexte: – Une variable continue (VD)

     – Une variable nominale à 2 modalités (VI)

    => Il s’agit du cas typique pour un test t  ou une ANOVA

    • Mais on peut aussi faire :

     – Une corrélation bisérielle de point

     – Et, bien sûr, une régression!

    • Principe de base: On recode la variable nominale: – On attribue la valeur de 0 à un groupe

     – Et la valeur de 1 à l’autre groupe 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 26

    variable

    originale

    variable

    recodée

    oui 1

    oui 1

    oui 1

    non 0

    oui 1

    … …

    Voir aussi A. Field, pp. 253-256

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    27/42

    Variable muette – exemple

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 27

    • Corrélation et régression

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    28/42

    Variable muette – exemple

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 28

    • Test t  et ANOVA

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    29/42

    Régression hiérarchique – principe 

    • Appelée aussi régression stewipse ou par étape.• A ne pas confondre avec modèle hiérarchique (multi-niveaux).

    • Principe: on ne met pas tous les prédicteurs d’un seul coup;

    on entre les prédicteurs par étapes dans le modèle de régression : 

     – soit par importance théorique (cf. exemple ci-dessous);

     – soit par importance statistique (e.g., prédicteurs les plus forts en premiers).• Intérêt: permet de donner une priorité théorique à certains prédicteurs.

    • Utile seulement si les prédicteurs corrèlent.

    • Exemple de stratégie guidée par la théorie:

     – Entrer d’abord les variables contrôles  – Entrer ensuite les prédicteurs principaux, éventuellement avec interaction

     – Entrer éventuellement d’autre prédicteurs pour voir si on peut augmenter le R2

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 29

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    30/42

    Tester une différence de R2 

    • Pour tester la pertinence de l’ajout de prédicteurs supplémentaires, on compare lesmodèles (variance expliquée).

    • Utile si plusieurs prédicteurs sont ajoutés (pour l’ajout d’un seul prédicteur, le test dedifférence de R2 est redondant avec le test de la pente).

    • La comparaison peut se faire:

     – Avec le R2 ajusté : si le R2 ajusté ne change pas ou très peu, on peut conclureque dans l’ensemble les prédicteurs ne sont pas utiles

     – Avec un test de différence de R2 : si le résultat du test est significatif, on peutconclure que l’ajout de prédicteur permet vraiment d’améliorer la quantité de

    variance.

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 30

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    31/42

    Tester une différence de R2 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 31

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    32/42

    Interaction – principe et test

    • Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par unautre prédicteur.

    • Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction 

    • Exemples d’interaction

     – Vitesse et alcool au volant

     – Pilule et cigarette

     – Motivation et récompense

    • Marche à suivre pourtester une interaction

     – Centrer ou standardiser

    les 2 prédicteurs – Créer une nouvelle variable,

    produit de ces 2 prédicteurs

     – Tester les 3 effets en RLM

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 32

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    33/42

    Modération et médiation

    Guillaume Fü[email protected]

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    34/42

    RLM: vue d’ensemble 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 34

    • Analyses exploratoires et descriptives

    (séance 1-3)

     – Histogramme (et boxplot)

     – Scatterplot

     – Statistiques descriptives (moyenne, écart-type, min. et max., asymétrie, aplatissement)

     – (test de normalité)

    • Estimation du modèle (séance 2 et 3)

     – Introduire les bonnes variables

     – Évent. créer une variable d'interaction

     – voir les options dans cours séance 3

    •Diagnostic (séance 2 et 3)  – Normalité des résidus (graphs, skewness,

    kurtosis, test de normalité)

     – Homogénéité de la variance (graph)

     – Valeurs extrêmes (Cook, Mahalanobis)

    • Interprétation (séance 2-4)

     – Quels prédicteurs sont significatifs?

     – Taille d'effet des prédicteurs significatifs

     – Quel est le prédicteur le plus important?

     – Variance totale expliquée (R2)

    • A faire éventuelle en plus

     – Ré-estimation du modèle aprèstransformation (séance 4)

    • Pour résoudre un problème de résidus

    • Et/ou pour tester un effet non-linéaire

     – Ré-estimation du modèle sans valeursextrêmes (séance 3-5)

     – Comparaison de modèle (si régression

    hiérarchique) (séance 4)• Différence de R2 

    • Test de différence de R2 

     – Graph d’interaction (séance 5)

     – Estimation de plusieurs modèles pour testerun effet de médiation (séance 5)

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    35/42

    Médiation et interaction 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 35

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    36/42

    Interaction – principe et test

    • Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par unautre prédicteur.

    • Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction 

    • Exemples d’interaction

     – Vitesse et alcool au volant

     – Pilule et cigarette

     – Motivation et récompense

    • Marche à suivre pourtester une interaction

     – Centrer ou standardiser

    les 2 prédicteurs – Créer une nouvelle variable,

    produit de ces 2 prédicteurs

     – Tester les 3 effets en RLM

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 36

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    37/42

    Interaction – Gaph. 1 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 37

    • Intercepte:b0 = 1.54

    • Pentesstandardisées: – bExtraversion = -0.41  – bNeuroticisme = 0.31

     – bInteraction = -0.16

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    38/42

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    39/42

    Médiation – principe

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 39

    • Il y a médiation lorsque la relation entre deux variables X et Y est expliquée par unetroisième variable M.

    •Exemples de médiation – Motivation -> Temps passé -> Performance

     – Stress -> Rumination -> Dépression

    • Pour tester une médiation,

    il faut estimer plusieurs modèles:

    1. Relation entre variable X et Y2. Relation entre M et Y

    3. Relation entre X et M

    4. Prédiction de Y par M et X

    • Plusieurs issues possibles

     – Les conditions minimales ne sont pas

    remplies (cf. 3 premiers points ci-contre) – Médiation partielle (les deux effets de X et

    M sur Y sont significatif au point 4)

     – Médiation totale (seul l’effet de M est

    significatif au point 4)

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    40/42

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    41/42

    Médiation – exemple 

    Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 41

    Intelligence

    Vocabulaire

    Fluidité

  • 8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf

    42/42

    Médiation – test de Sobel 

    http://www.danielsoper.com/statcalc3/calc.aspx?id=31 

    •Permet de tester la significativité de l’effet indirect 

    http://www.danielsoper.com/statcalc3/calc.aspx?id=31http://www.danielsoper.com/statcalc3/calc.aspx?id=31http://www.danielsoper.com/statcalc3/calc.aspx?id=31