pdf statistiques deux variables

Upload: azizkhouribga

Post on 07-Jul-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/18/2019 PDF Statistiques Deux Variables

    1/6

    Statistiques à deux variables

    Ajustements affines

    Christophe ROSSIGNOL∗

    Année scolaire 2009/2010

    Table des matières

    1 Série statistique à deux variables   2

    1.1 Définition – Nuage de points   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.2 Point moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3 Ajustement d’une série statistique à deux variables   . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2 Ajustement par la méthode des moindres carrés   3

    2.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.2 Ajustement affine  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    Table des figures

    1 Nuage de points   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2 Méthode des moindres carrés   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    3 Droite de régression de y  en  x   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    Liste des tableaux

    1 Part consacré au logement dans un foyer  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2 Part consacré au logement dans un foyer (bis)   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    3 Calcul de la covariance et de la variance   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    ∗Ce cours est placé sous licence Creative Commons BY-SA   http://creativecommons.org/licenses/by-sa/2.0/fr/

    1

    http://creativecommons.org/licenses/by-sa/2.0/fr/http://creativecommons.org/licenses/by-sa/2.0/fr/

  • 8/18/2019 PDF Statistiques Deux Variables

    2/6

    1 SÉRIE STATISTIQUE À DEUX VARIABLES 

    Rappels de première :  1, 3 page 471 – 5 page 472 – 4 page 473 [Déclic]

    1 Série statistique à deux variables

    1.1 Définition – Nuage de points

    Définition :  On appelle série statistique à deux variables (ou série statistique doubles) une série statistiqueoù deux caractères sont étudiés  simultanément.

    Remarques :

    1. Dans ce chapitre, on n’étudiera que des séries statistiques doubles dont les deux caractères étudiéssont quantitatifs.Si ,pour chacun des   n   individus de la population, on note   xi   et   yi   les valeurs prises par les deuxcaractères, on peut alors présenter la série statistique sous la forme d’un tableau :

    Caractère x x1   x2   . . . xn

    Caractère y y1   y2   . . . yn2. Si l’un des deux caractères étudiés est une mesure de temps, on parle de série chronologique.

    Définition :  Dans un repère orthogonal, l’ensemble des points  M i de coordonnées  (xi ;  yi) constitue  le nuagede points associé à la série statistique à deux variables.

    Exemple :  Le tableau 2 donne la part en % consacré au logement dans le budget d’un foyer.

    Année (xi) 1978 1984 1992 1994 2000 2004Part en % (yi) 4,4 5,2 4,3 3,2 3,3 2,8

    Tab. 1 – Part consacré au logement dans un foyer

    Le nuage de points associé à cette série statistique est représenté sur la figure 1.

    Fig. 1 – Nuage de points

    1Moyenne, Écart-type.2Médiane, quartiles.3Utilisation des listes de la calculatrice.

    2

  • 8/18/2019 PDF Statistiques Deux Variables

    3/6

    2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 1.2 Point moyen

    Remarque :  On peut utiliser la calculatrice ou un tableur pour représenter un nuage de points. Voir la feuilleannexe.

    Exercice :  11 page 48 et 18 page 494 [Déclic]

    1.2 Point moyen

    Définition :   Le   point moyen d’un nuage de points est le point  G de coordonnées  (x ;  y ) où :–   x représente la moyenne des  xi   :

    x =  x1 + x2 + · · · + xn

    n  =

      1

    n

    n

    i=1

    xi

    –   y représente la moyenne des  yi  :

    y =  y1 + y2 + · · · + yn

    n  =

      1

    n

    n

    i=1

    yi

    Exemple :  On reprend les données de l’exemple précédent.

    x = 1978 + 1984 + 1992 + 1994 + 2000 + 2004

    6  = 1992

    y = 4, 4 + 5, 2 + 4, 3 + 3, 2 + 3, 3 + 2, 8

    6  3, 87

    Le point moyen est donc  G (1992; 3, 9).

    Remarques :

    1. On peut utiliser la calculatrice ou un tableur pour calculer les coordonnées du point moyen. Voir lafeuille annexe.

    2.   Changements d’échelle  :– Si on remplace les valeurs de   xi   par   ti   =   xi  − 1978   (ce qui correspond au rang de l’année), on

    obtiendra comme moyenne  t  =  x − 1978 = 14– Si on remplace les valeurs de   yi  par   zi   = 0, 01 × yi  (ce qui correspond aux pourcentages donnés

    sous forme décimale), on obtiendra comme moyenne  z  = 0, 01 × y   0, 0387.

    Exercices :  9 page 485 – 13 page 48 et 14, 15, 16 page 496 – 17 page 497 [Déclic]

    1.3 Ajustement d’une série statistique à deux variables

    Effectuer un ajustement de   y  en   x d’un nuage de points consiste à trouver une fonction   f  telle que la courbe

    d’équation  y  =  f  (x) passe « au plus près » des points du nuage (voir exercice 25 page 51[Déclic]).Remarque :  Dans la suite de ce chapitre, on s’intéressera aux ajustements affines, c’est-à-dire le cas où la série

    statistique peut être ajustée par une fonction affine (ce qui n’est pas toujours le cas).

    2 Ajustement par la méthode des moindres carrés

    Activités :  1 page 398 et 2 page 399 [Déclic]

    4Nuage de points, changement d’origine et d’échelle.5Vrai-Faux.6Points Moyens.7Lecture d’un nuage de points.8Modéliser par une fonction affine.9Choisir la meilleure droite.

    3

  • 8/18/2019 PDF Statistiques Deux Variables

    4/6

    2.1 Principe de la méthode 2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 

    2.1 Principe de la méthode

    Effectuer un ajustement de  y en  x  d’un nuage de points par la méthode des moindres carrés consiste à trouverla fonction  f  du modèle retenu qui minimise la somme des carrés des écarts entre les valeurs yi  observées et les

    valeurs  f  (xi

    ) données par le modèle.La fonction  f  doit donc minimiser l’expression

    n

    i=1 (yi − f  (xi))

    2.

    Interprétation graphique :  (voir figure 2)

    Fig. 2 – Méthode des moindres carrés

    Cela revient à minimiser la somme des carrés des distances « verticales » entre la courbe et les points du

    nuage :(M 1P 1)

    2+ (M 2P 2)

    2+ · · · + (M nP n)

    2

    Remarques :

    1. Pour une valeur   x0  donnée du caractère   x, la fonction   f  permet donc de prévoir le résultat corre-spondant de la variable  y . On supposera que  y0  =  f  (x0).

    2. Si  x0  appartient est compris entre  x1 et  xn, on parle d’interpolation.

    3. Si  x0  est en dehors de l’intervalle d’observation du caractère  x, on parle d’extrapolation.

    2.2 Ajustement affine par la méthode des moindres carrés

    Définition :  On appelle covariance de  x  et de  y  le nombre :

    cov (x, y) =  1

    n

    n

    i=1

    (xi − x) (yi − y)

    Rappel :  la variance du caractère  x est :

    V    (x) =  1

    n

    n

    i=1

    (xi − x)2

    Elle est utilisée pour le calcul de l’écart type :  σ (x) = 

    V    (x).On eut remarquer que  V    (x) = cov (x, x).

    4

  • 8/18/2019 PDF Statistiques Deux Variables

    5/6

    2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 2.2 Ajustement affine 

    Théorème :   (admis)Lors d’un ajustement affine par la méthode des moindres carrés, la droite   d  servant à l’ajustement de   yen  x  :– a comme coefficient directeur :

    a =

     cov (x, y)V    (x)

    –  passe par le point moyen du nuage  G (x ;  y).

    Remarques :

    1. Ces deux données sont suffisantes pour déterminer une équation de cette droite (voir exemple).

    2. Cette droite est aussi appelé droite de régression de  y  en  x.

    Exemple :  On reprend l’exemple précédent, mais en remplaçant la variable  x  par  t  =  x − 1978 (ce qui revientà prendre le rang des années, voir tableau  2)

    Année 1978 1984 1992 1994 2000 2004Rang des années (xi) 0 6 14 16 22 26

    Part en % (yi) 4,4 5,2 4,3 3,2 3,3 2,8

    Tab. 2 – Part consacré au logement dans un foyer (bis)

    On a déjà vu que, dans ce cas,  x  = 14 et  y   3, 87.Pour calculer la variance et la covariance, on peut utiliser le mode « Liste » de la calculatrice ou un tableur(voir tableau 3) :

    Liste 1 Liste 2 Liste 3 Liste 4 Liste 5 Liste 60 4,4 -14 196 0,53 -7,476 5,2 -8 64 1,33 -10,67

    14 4,3 0 0 0,43 0

    16 3,2 2 4 -0,67 -1,3322 3,3 8 64 -0,57 -4,5326 2,8 12 144 -1,07 -12,8

    Total   472 -36,8

    Tab. 3 – Calcul de la covariance et de la variance

    – La liste 1 (L1) contient les  xi– La liste 2 (L2) contient les  yi– La liste 3 (L3) contient  xi − x, c’est-à-dire :  L3 = L1 − 14– La liste 4 (L4) contient (xi − x)

    2, c’est-à-dire :  L4 = (L3)2

    – La liste 5 (L5) contient  yi − y, c’est-à_dire  L5 =L2 − 3, 87– La liste 6 (L6) contient (xi − x) × (yi − y), c’est-à-dire  L6 =  L3 × L5

    La covariance et la variance s’obtiennent alors par la calcul suivant :

    cov (x, y) = Total de  L6

    6  =

      −36, 8

    6  −6, 13   et   V    (x) =

     Total de  L46

      =  472

    6  68, 67

    Le coefficient directeur de la droite de régression est donc :

    a = cov (x, y)

    V    (x) 

    −6, 13

    68, 67  −0, 08

    La droite de régression a donc une équation de la forme  y  = −0, 08x + b.De plus, elle passe par  G  (14; 3, 87) donc :

    −0, 08 × 14 + b   = 3, 87

    1, 12 + b   = 3, 87b   = 3, 87 + 1, 12 = 4, 99

    5

  • 8/18/2019 PDF Statistiques Deux Variables

    6/6

    RÉFÉRENCES RÉFÉRENCES  

    L’équation de la droite de régression est donc :  y  = −0, 08x + 4, 99.On peut la tracer sur le nuage de points (voir figure 3).

    Fig. 3 – Droite de régression de  y  en  x

    Remarques :

    1. On peut utiliser la calculatrice ou un tableur pour déterminer l’équation de la droite de régression.Voir feuille annexe.Les résultats obtenus peuvent être un peu différents de ceux obtenus précédemment à cause des

    approximation du calcul. À l’aide d’un tableur, l’équation de la droite de régression obtenu pourl’exemple précédent est :  y  = −0, 08x + 4, 96.

    2. On peut utiliser cette droite de régression pour faire des prévisions (interpolations ou extrapolations,les résultats obtenus par extrapolation étant, bien sûr moins fiables).

    Exemple :  On reprend l’exemple précédent en supposant que la droite de régression admet comme équationy = −0, 08x + 4, 96.L’année 2010 correspond à  x  = 2010 − 1978 = 28.Si la progression continue toujours suivant le même schéma, on peut prévoir que la part en % du budgetd’un foyer consacré au logement en 2010 sera  y  = −0, 08 × 28 + 4, 96 = 2, 72, soit 2,72 %Il s’agit bien sûr d’une extrapolation. Ce résultat n’est fiable que si l’évolution de la part continue après2004 en suivant le même principe qu’entre 1978 et 2004...

    Exercices :  20, 21 page 50 et 37 page 5510

    – 23 page 50; 29, 30, 31 page 52 et 38 page 5511

    – 22 page 5012

    –28 page 51 et 39 page 5513 – 24 page 5314 [Déclic]

    Références

    [Déclic] Déclic Term ES, Hachette éducation (édition 2006)

    2, 3, 6

    10QCM et Vrai-Faux.11Droites de régression.12D’autres types d’ajustements affines.13Changements de variables.14Exercice de synthèse.

    6