statistique descriptive

Download Statistique Descriptive

If you can't read please download the document

Upload: bacplus

Post on 25-May-2015

943 views

Category:

Technology


0 download

TRANSCRIPT

  • 1. Khalil F( TD-TP ) 1999-2000 CHAPITRE 1 I)LES STATISTIQUES EN SCIENCES HUMAINES 1. DfinitionsOn donne plusieurs dfinitions de la statistique (Howell) : 1 cest ltude des ensembles numriques et de leurs relations ; 2 cest galement le moyen dobtenir des indications probables sur des ensembles imparfaitement connus ;La statistique est une mthode pour effectuer la synthse de ces donnes. Elle met enuvre plusieurs statistiques caractrisant et rsumant les donnes. La moyenne faitpartie des statistiques, comme lcart type, la variance, etc.On appelle population un ensemble dobjets ou dtres sur lesquels on tudie une ouplusieurs caractristiques ; chaque lment de cette population est appel individustatistique. On sintresse, propos de chaque individu, une ou plusieurscaractristiques, que lon appelle caractres ou variables statistiques.Lchantillon est un sous-ensemble de la population de rfrence.Quand on travaille uniquement sur les caractristiques de lchantillon, quand on utiliseles statistiques pour dcrire la nature de lchantillon, on se situe dans le cadre desstatistiques descriptives. Quand on utilise les paramtres, les caractristiques delchantillon pour estimer ceux de la population dont il est extrait, on se situe dans lecadre des statistiques infrentielles. 2. Lutilisation des statistiques en sciences humaines 2.1. La variabilit des conduitesExpriences de mesure des temps de ractiontableau des temps de raction en centimes de seconde pour 20 prsentationssuccessives dun stimulus (daprs Reuchlin, 1998, Prcis de statistique, PUF, p.21)N dordre des 20 prsentations du 12 3 4 5 6 7 8 9 10 11 12stimulus1re exprience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21

2. Khalil F( TD-TP )1999-2000seule2me exprience : lampe rouge 32 40 33 37 35 29 42 62 50 39 45 47choisie parmi trois lampes decouleurs diffrentes3me exprience : lampe verte 16 18 19 18 15 18 17 32 23 19 23 20seuleN dordre des 20 prsentations du 13 14 15 16 17 18 19 20 Moyenne des 20stimulus temps1re exprience : lampe rouge 15 22 17 17 21 19 17 23 m1 = 19.75seule2me exprience : lampe rouge 52 37 38 39 40 41 42 39 m2 = 40.95choisie parmi trois lampes decouleurs diffrentes3me exprience : lampe verte 18 25 15 15 17 23 17 19 m3 = 19.35seule 2.2. Exemples dapplications statistiques en psychologie 3. Khalil F( TD-TP ) 1999-2000 CHAPITRE 2 VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE 1. Variables qualitatives et variables quantitativesOn distingue les variables qualitatives et les variables quantitatives.Une variable qualitative dsigne une qualit de lindividu statistique ; chaqueobservation appartient une catgorie, une modalit (exemple : couleur des cheveux,sexe, situation gographique, catgorie socio-professionnelle, valuation dune copieavec A, B, C ou TB, B, ,). Mme si on code ensuite A= 1, B=2, etc, le nombre nexprimepas une quantit mais une qualit.Une variable quantitative est caractrise par une quantit numrique (dure, une note,ge, ) ; elle rsulte dun dnombrement ou dune mesure. Une variable quantitativeest continue, si elle peut prendre nimporte quelle valeur sur le continuum considr (letemps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un scorequi varie de 0 100). Elle est dite discontinue ou discrte, si elle ne prend que certainesvaleurs (le nombre de pices dun logement, le nombre denfants on ne peut pas avoir2.5 enfants pour un sujet). 2. Les chelles de mesureUne autre faon dapprhender les variables est celle qui consiste distinguer lesniveaux de mesure ou chelles de mesure. On distingue ainsi les chelles nominales(variables nominales), les chelles ordinales (variables ordinales) et les chelles par intervalle(variables dintervalle). Les relations existant entre les lments ayant des valeursdiffrentes sur lchelle ne sont pas les mmes selon que lon se situe sur une chellenominale, ordinale ou dintervalle. Les chelles nominalesPour construire une chelle nominale, il faut rpartir les observations dans un certainnombre de classes que lon appelle lchelle .Les caractristiques des chelles nominales sont les suivantes : les classes sont dfinies a priori par le psychologue ; 4. Khalil F( TD-TP )1999-2000 chaque observation doit appartenir une seule classe ; si 2 observations sont dans la mme classe, elles sont considres comme tantquivalentes.Si on attribue des numros aux classes, ceux-ci nont pas de valeur numrique, cestjuste un moyen de les distinguer, de les nommer. Ils nont pas dautre sens que celuidtre identiques ou diffrents ; par exemple, au lieu dappeler des classes A, B et C, onpeut les appeler 1, 2 et 3 ou encore 13, 7 et 45.Exemple dchelle nominale : le test du RorschachCe test utilise 10 planches composes de taches dencre symtriques, certaines noires,dautres colores. Elles sont prsentes successivement au sujet qui doit dcrire tout cequon pourrait y voir . Chaque rponse est note 3 fois, en fonction de sa localisation,de sont dterminant, et de son contenu. Chacune de ces notations se fait sur une chellenominale : lchelle localisation est constitue de classes comme rponses globales (toute la planche) : G rponses grand dtail (dcoupes frquemment interprtes dans chaque planche) : D rponses petit dtail : Dt rponses dtail dans le blanc : Dbl, etc lchelle dterminant distingue les rponses formes : F les rponses mouvement : K les rponses couleur : C, etc lchelle contenu distingue les rponses humaines les rponses animaux, etcAutre exemple dchelle nominale : le code des catgories socio-professionnelles delINSEE0 : agriculteurs1 : salaris agricoles2 : patrons de lindustrie et du commerce3 : professions librales et cadres suprieursCest un exemple des catgories les plus gnrales ; cette chelle est en fait divise enclasses plus fines, chaque catgorie tant elle-mme dtaille :21 : industriels employant plus de 5 salaris22 : artisans employant 5 ouvriers au plus23 : patrons pcheurs 5. Khalil F( TD-TP )1999-200024 : gros commerants25 etc. Les chelles ordinalesLe psychologue dfinit une relation dordre entre les observations (ou entre lescatgories dobservations) et lensemble des observations ainsi ordonnes constitue unechelle ordinale.Les nombres qui dsignent les observations ou les catgories dobservations ont dj laproprit de ceux qui dsignent les observations dans le cas dune chelle nominale : cesont des symboles, cest une faon de distinguer les catgories. Mais dans le cas dunechelle ordinale, ils ont la proprit supplmentaire dtre des symboles ordonns.Exemple de construction dune chelle ordinale : lchelle de Longeotconfiguration Q1Q2 Q3 note1 0 00 02 1 00 13 1 10 24 1 11 3On fait passer le test une population de 35 enfants; on obtient les rsultats suivants : Note Effectifs effectifscumuls0 (000)551 (100)12172 (110)15323 (111)3 35Exemples dchelles ordinales : les niveaux scolaires, le score danxit, les notes (ycompris les scores bruts des tests daptitude ou des questionnaires de personnalit), lesprfrences et les opinions (beaucoup assez - moyennement peu - pas du tout ; trssouvent assez souvent de temps en temps rarement jamais ; ) Les chelles dintervallesDans une chelle dintervalles, les observations se rpartissent dans des classes qui sontdes intervalles ordonns et rguliers. Les nombres qui dfinissent les chellesdintervalles prennent tout leur sens. On peut parler de diffrences entre les points delchelle.Exemple des temps de raction moyens de 200 sujets aux 20 prsentations de la lampe 6. Khalil F( TD-TP ) 1999-2000rougeOn a le tableau descriptif suivant :sujet moyenne des 20 tempsn(centimes de seconde) 125.02 265.51 319.96.. 54.30...200 34.72 M Effectifseffectifspourcentages de sujetpourcentages cumuls cumuls[10, 20[ 242412 12[20, 30[ 406420 32[30, 40[ 52 11626 58[40, 50[ 50 16625 82[50, 60[ 18 184 9 92[60, 70[ 16 200 8 1003. Les tableaux statistiques et les effectifsIl existe des conventions pour dsigner les variables, les effectifs, les sommes, etc.Exemple : nous disposons des scores au test opratoire de Longeot de 50 enfants, dgediffrent (entre 6 et 10 ans) et provenant dcoles diffrentes.Sujet nEcoleTest Longeot Age 1 A 27 ans 3 mois 2B39 ans 1 mois 3 A 06 ans 8mois 4 D 28 ans 5 mois 5 C 16 ans 10mois.. .. 50C17 ans 11mois La population est lensemble des 50 sujets. 7. Khalil F( TD-TP )1999-2000 Les variables (X) sont : X1 cole, variable nominale, modalits A, B, C et D X2 Test Longeot, variable ordinale, modalits 0, 1, 2, 3 X3 ge, variable dintervalleOn peut laborer 3 tableaux statistiques :Ecole (X1)X1ni fiA 1224B 1122C 2040D 7 14 50100 ni est leffectif absolu dune valeur prise par la variable ; cest le nombredoccurrences du caractre dans la population tudie ; la somme de leffectif totalest N. fi est leffectif relatif ; cest le rapport de leffectif absolu sur leffectif total ; il est leplus souvent donn en pourcentages, et est aussi appel frquence. fi = ni / N N = niTest Longeot (X2) X2ni fini ni fi fi 0 (000)5 105 50 10 100 1 (100)18362345 4690 2 (110)13263627 7254 3 (111)1428501410028 50100 / // / leffectif absolu cumul croissant (ni ) de la valeur xj = ni de i=1 i=j (dernirevaleur) leffectif absolu cumul dcroissant (ni ) de la valeur xj = ni de i=j (valeur dedpart) i=k (dernire modalit) 8. Khalil F( TD-TP )1999-2000 leffectif relatif cumul croissant (fi ) de la valeur xj = fi de i=1 i=j leffectif relatif cumul dcroissant (fi ) de la valeur xj = fi de i=j i=kAge (X3) X3 nifini ni fi fi [6 ; 6.5[8168 5016100 [6.5 ; 7[714154230 84 [7 ; 7.5[918243548 70 [7.5 ; 8[612302660 52 [8 ; 8.5[11 22412082 40 [8.5 ; 9[3 6449 88 18 [9 ; 9.5[510496 98 12[9.5 ; 10[1 2501100 2 50 100 / / // CHAPITRE 3 LES REPRESENTATIONS GRAPHIQUES1. Les reprsentations graphiques en fonction du type de variablesVariables nominalesOn ralise un diagramme secteurs circulaires (camembert); ce diagramme repose sur lareprsentation des fractions de chacune des valeurs (ou des frquences) prises par lavariable. Les aires des secteurs sont proportionnelles aux effectifs. 9. Khalil F( TD-TP ) 1999-2000 ECOLE (X1) ECOLE (X1)DD7,00 A14,0% A12,00 24,0%C C BB20,00 40,0%11,0022,0%Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec lesvaleurs ou les pourcentages effectifs absolus ou relatifs) ECOLE (X1)D14,0%A24,0%C B40,0%22,0%Diagramme circulaire clat avec pourcentage de la variable X1A (12) B (11) C (20)D (7)Diagramme en barre des frquences de la variable X1 1.2. Variables ordinalesOn les reprsente laide dun diagramme en btons ; on reporte sur une lignehorizontale toutes les modalits de la variable tudie en notant sous cette ligne le nomde chaque modalit ; les modalits doivent tre prsentes dans lordre croissant degauche droite. Puis on trace un bton vertical au dessus de chaque modalit dont lahauteur correspond leur effectif ; la taille des btons est fonction de lchelle choisieprsente sur la gauche du graphique par un axe vertical. Il est possible de prciser leseffectifs au dessus des btons.Le polygone statistique reprsente lallure gnrale de la distribution ; il est ralis en 10. Khalil F( TD-TP ) 1999-2000reliant les sommets des btons ; il nest pas ncessaire de reprsenter les btons.Diagramme en btons de la variable Test de LongeotDiagramme en btons et polygone statistique de la variable Test de Longeot20 201818 18 1816 161414 14 141312 13 1210 108 8Occurrences Occurrences66 554422OOO (O) 1OO (1) 110 (2) 111 (3)OOO (O) 1OO (1) 110 (2) 111 (3) Score test Longeot Score test LongeotExemples de diagramme en btons des effectifs absolus de la variable Test Longeot (sur SPSS)1.3. Variables dintervallesLa reprsentation graphique pour ce type de variables est lhistogramme ; on utilise lamme procdure que pour les diagrammes en btons, mais en largissant les btons surlintervalle de chaque modalit. La surface des rectangles ainsi obtenus estproportionnelle aux effectifs de chaque modalit de la variable tudie. Les rectangles setouchent car la variable est continue. 11. Khalil F( TD-TP )1999-200012108642 Sigma = ,99Moyenne = 7,640 N = 50,006,256,75 7,25 7,758,258,75 9,259,75 AGE (X3)Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS)Le polygone statistique est la ligne brise qui relie le centre des sommets des rectanglesde lhistogramme.On peut utiliser le mme type de graphique pour reprsenter les effectifs relatifs (mmegraphique mais en pourcentage) 1 Histogramme des effectifs croissants et dcroissants : 60 50 40 30 20 10 Sigma = ,98Moyenne = 8,510 N = 261,00 6,256,75 7,25 7,758,25 8,75 9,259,75AGE (X3)Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS)Le polygone statistique des effectifs cumuls croissants (absolus ou relatifs) se construiten reliant les bornes suprieures des classes. 12. Khalil F( TD-TP ) 1999-2000605040302010Sigma = ,85Moyenne = 7,200 N = 189,006,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus dcroissants de la variable Age (X3)(sur SPSS)Le polygone statistique des effectifs cumuls dcroissants en reliant les bornesinfrieures des classes. 2. Autres types de reprsentations graphiques 2.1. Reprsentation en tiges et en feuillesCe type de reprsentation (Turkey John, 1977) permet de travailler partir des donnesbrutes, sans les regrouper en intervalle.Prenons lexemple des temps de raction relatifs la dtection de la lampe rouge.Supposons que nous disposions des moyennes aux 20 prsentations de 200 sujets. Nouspouvons laborer le tableau suivant, qui est uniquement un extrait du tableau total.Donnes brutes Tiges Feuilles(centimes de sec.)0 .1 20-20-21-21-21-22- 2 00111222223456666922-22-22-22-23-24-25-26-26-26-26-293 00012345666630-30-30-31-32-33- 4 033336779934-35-36-36-36-36 13. Khalil F( TD-TP ) 1999-2000 52288889940-43-43-43-43-46-47-47-49-49652-52-58-58-58-58-59-59Les chiffres des dizaines sont appels chiffres principaux des scores (ou chiffres les plussignificatifs): ils forment la tige (cela peut tre les chiffres des centaines, cela dpend dela mesure et de sa prcision ; par exemple si les donnes varient de 100 1000, leschiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendraitpas compte des units)Les chiffres des units sont les chiffres secondaires (ou chiffres les moins significatifs) :ils forment les feuilles.Lune des utilits supplmentaires de ce type de reprsentation est de pouvoir comparerdeux distributions : on place alors les feuilles de part et dautres des tiges.Exemple : on veut comparer les moyennes des temps de raction de deux groupes de sujets, car ona pos lhypothse dune diffrence entre ces deux groupes (lge).TigesSujets gs (de 41 60 ans) 14. Khalil F( TD-TP )1999-200001888999222233444556311222334455578888941111567778888899952233344445556896555667 2.2. Le graphique squentiel ou en continuOn utilise ce type de graphique pour reprsenter principalement lvolution dune sriechronologique (dans le temps).Exemple : frquentation dune station de ski en 1987-1988 mois par mois en milliers de sujetsannJ FM AM JJASO NDe1987 11 10 9 92 1 7 91031101988 14 13 1315 6 4 1214 156815 15. Khalil F( TD-TP ) 1999-200016141210 8milliers de touristes 6 4 2 1987 0 1988 jan fev maravrmaijuin juil aousep octnovdec mois de lanne 2.3. LEchelonnement Multidimensionnel 2,0 os fermeherbe 1,5 carotte mas 1,0 champignon moutonvache banane ,5noisette chienlapin 0,0souris -,5fort chapiteau de cirque de terre ver cerfaigle cureuil -1,0Dimension 2tigresinge lphant -1,5 -2,0-2 -101 2 Dimension 1 Reprsentation sur le plan 1/2 des liens entre les 23 items 16. Khalil F( TD-TP ) 1999-2000(stress = .16 ; RSQ = .76)Autre exemple : Comparaison entre deux espaces 1,5 noisettesmas cureuil 1,0 ,5 banane carotte singe 0,0tigremoutonlphantlapin-,5 herbe Dimension 2 -1,0 aigle -1,5-2,0-1,5-1,0 -,50,0,5 1,01,52,0Dimension 1Schma 1 : Reprsentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ= .78) 1,0banane singecureuilcarotte,5 aigle 0,0mas tigre lapinlphant -,5-1,0Dimension 2-1,5 moutonherbe-2,0 -1,5-1,0-,5 0,0 ,5 1,01,52,0 Dimension 1Schma 2 :Reprsentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ =.78) 17. Khalil F( TD-TP )1999-20003. Description de distributionsSur les reprsentations graphiques (essentiellement les histogrammes, les courbes), onobserve la forme de la distribution ; cette forme gnrale nous renseigne sur les donnesrecueillies. Distribution normale Distribution bimodale Distribution asymtrique ngative Distribution asymtrique positive 18. Khalil F( TD-TP )1999-2000Laplatissement (voussure ou curtosis) rend essentiellement compte du nombredobservations qui se situent au centre de la distribution, par rapport au nombre attendudans une distribution dite normale. Sil y a moins dobservations au niveau du sommet de la distribution que dans unedistribution normale, le sommet est aplati, la distribution est dite platycurtique. Sil y a plus dobservations au niveau du sommet de la distribution que dans unedistribution normale, le sommet est pointu, la distribution est dite leptocurtique. 19. Khalil F( TD-TP )1999-2000CHAPITRE QUATRE LES CARACTERISTIQUES DE TENDANCE CENTRALE 1. Le modeLe mode Mo est la valeur de la variable dont leffectif (relatif ou absolu) est le plusgrand ; cest la valeur qui se rencontre le plus frquemment.Exemples de sries statistiques :Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois lanote 9)Notes {2,4,6,8,10,12,14,16,18,20} le mode nexiste pasNotes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale)On parle galement de distribution multimodale ou plurimodale Variables nominales et ordinalesDans un tableau statistique, le mode est facilement reprable : cest le Xi pour lequel lafrquence est la plus leve. Sur le diagramme en barres, cest la valeur Xi quicorrespond la barre la plus grande. Sur le diagramme en btons, cest la valeur X i quicorrespond au bton le plus haut.Exemple de X1 (cole)Ecole (X1) X1 nifiA1224B1122C2040D7 1450100Mo = C 20. Khalil F( TD-TP )1999-2000A (12) B (11)C (20) D (7)Exemple de X2 (test Longeot) X2 nifini ni fi fi 0 (000) 5105 5010100 1 (100) 18 36234546 90 2 (110) 13 26362772 54 3 (111) 14 285014 100 2850 100 / / //Mo = 1 (ou 100)Variables dintervalleOn ne parle plus de mode mais de classe modale. La classe modale est donc celle quicorrespond leffectif le plus lev ; sur lhistogramme, cest le rectangle qui est le plusgrand. La classe modale dpend videmment du choix des classes.Exemple avec X3 (ge) X3 nifini ni fi fi [6 ; 6.5[ 8168 5016100 [6.5 ; 7[ 714154230 84 [7 ; 7.5[ 918243548 70 [7.5 ; 8[ 612302660 52 [8 ; 8.5[ 11 22412082 40 [8.5 ; 9[ 3 6449 88 18 [9 ; 9.5[ 510496 98 12[9.5 ; 10[ 1 2501100 2 50 100 / / //Classe modale = [8 ; 8,5[ (n = 11) 2. La mdiane 21. Khalil F( TD-TP ) 1999-2000La mdiane est la valeur de la variable qui divise les effectifs en deux parties galesdonc telle que 50% des sujets de lchantillon ont une valeur infrieure la mdiane et50% des sujets une valeur suprieure. Quand on ordonne la srie de mesures, lamdiane est la valeur qui se situe au centre de la srie ainsi ordonne.Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumuls qui vontnous permettre de calculer la M ; en effet, ces effectifs nous permettent de dire il y atant de sujets qui se situent au dessus ou en dessous de telle valeur et cest exactementla signification de la mdiane il y a 50% de sujets au dessus et 50% de sujets en dessousde cette valeur.On ne peut pas calculer la mdiane dune distribution nominale, cela na aucun sens. 2.1. Variables ordinales Si le nombre de valeurs est impair, la srie comporte (2n+1) valeurs et la mdiane estla (n+1) ime valeur ; on peut dire aussi quelle a pour rang (N+1)/2Exemple : 4 5 9 11 15 1618 La mdiane M est 11 ; il y a 3 observations avant et 3 observations aprs 11 Si le nombre de valeurs est pair, la srie comporte 2n valeurs et il nexiste pas devaleur qui spare en deux sous-ensembles gaux la srie ; on parle alors dunintervalle mdian, dtermin par les valeurs n et n+1Exemple : 45 9111516 1820 Lintervalle mdian est 11-15 Parfois, on admet que cest la moyenne de ces deux valeurs.Dtermination de la mdianeDans le tableau statistique, on calcule les frquences cumules relatives ou absolues ; onrepre la valeur 0,5 (ou 50 si pourcentages) pour les frquences cumules relatives ouN/2 pour les frquences cumules absolues. Gnralement, les valeurs 0,5 ou N/2apparaissent entre deux lignes du tableau ; la mdiane est la valeur de Xi qui correspond la ligne du bas. Cela signifie que la mdiane dans ce cas ne partage pas exactementleffectif en deux sous-ensembles gaux.On peut galement observer la mdiane sur le graphe des effectifs cumuls.Exemple : nombre de pices dans un appartement 22. Khalil F( TD-TP )1999-2000xi nini fifi 145 45 3030260105 4070320125 13.3383.33410135 6.669059 144 6 9666 150 4 100 150 100N/2 (cest--dire 75) ou fi = 50 se situe entre xi = 1 et 2M = 2Ce nest pas tout fait exact, car 30% de la population prsente une valeur infrieure 2et non pas exactement 50%Exemple sur la reprsentation graphique des effectifs cumuls croissants 2.2. Variables par intervalleDans ce cas, on peut toujours trouver une valeur de la mdiane divisant la srie en deuxsous-ensembles dgale importance.Pour trouver la classe mdiane qui contient la mdiane, on effectue le mme raisonnementque dans le cas des variables discrtes. 23. Khalil F( TD-TP )1999-2000Exemple avec X3 (ge)X3ni fi ni ni fi fi [6 ; 6.5[ 8 16 85016100[6.5 ; 7[ 7 14 15 4230 84[7 ; 7.5[ 9 18 24 3548 70[7.5 ; 8[ 6 12 30 2660 52[8 ; 8.5[ 1122 41 2082 40[8.5 ; 9[ 36 44 9 88 18[9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 12 50 1100 2 50100// //La classe mdiane est [7,5 ;8[ avec une frquence cumule de 60%Il reste dterminer la valeur de M dans cette classe.Mthode approximative : dtermination graphiqueDtermination par interpolation linaireCette mthode suppose une rpartition uniforme des individus dans la classe mdiane.1) on extrait la classe mdiane, cest--dire la classe correspondant leffectif cumul croissant qui dpasse N/2 ou 50% ; dans notre exemple, cest [7,5 ; 8[ 24. Khalil F( TD-TP )1999-20002) on extrait la partie du polygone statistique des effectifs absolus cumuls croissants correspondant cette classe ; on travaille uniquement avec sur laxe des abscisses 7,5 et 8 et sur laxe des ordonnes 24 et 30. On place 25 (N/2) en ordonnes et on cherche labscisse correspondant. 60 50 40 30 20 10 Sigma = ,98Moyenne = 8,510 N = 261,00 6,256,75 7,25 7,75 8,25 8,75 9,25 9,75AGE (X3)Histogramme des effectifs absolus cumuls croissants de la variable Age (X3)Dtermination de la mdiane par interpolation linaire partir des effectifs absoluscumuls croissants Me 7,5 25 24On applique Thals : 8 7,5 = 30 24 Me 7,5 = 1/6 0,5 Me = 0,5/6 + 7,5 = 7,6On peut faire la mme chose avec un polygone des effectifs relatifs cumulsdcroissants ; cette fois, on place 50 (50% moiti des effectifs) et on cherche labscissecorrespondant. 25. Khalil F( TD-TP ) 1999-2000On peut faire galement la mme chose avec un polygone des effectifs cumulsdcroissants (absolus ou relatifs). On place 7,5 et 8 sur laxe des abscisses, et 26 et 20 surlaxe des ordonnes. On place 25 et on cherche labscisse correspondant), mais attention Thals (sens diffrent)605040302010Sigma = ,85Moyenne = 7,200 N = 189,006,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus dcroissants de la variable Age (X3)Dtermination de la mdiane par interpolation linaire partir des effectifs absoluscumuls dcroissantsMe 7,5 25 268 7,5 = 20 26 Me 7,5 = -1/-6 0,5 Me = 0,5/6 + 7,5 = 7,6 26. Khalil F( TD-TP )1999-2000La mdiane partage lhistogramme en deux surfaces gales. 3. Les quantilesCest la mme ide que la mdiane : on cherche ou on dfinit une valeur de la variabletelle que cette valeur partage la srie statistique en n sous-ensembles gaux ; si on veutpartager la srie en 4 sous-ensembles gaux, on parlera de quartiles, 10 sous-ensemblesgaux de dciles, et 100 sous-ensembles gaux de centiles.De faon gnrale, on appelle fractile dordre , la valeur (f) telle que % de lapopulation prsente une valeur infrieure f. (exemple : f0,82 est la valeur telle que 82%de la population prsente une valeur infrieure f0,82). 3.1. Les quartilesCe sont les valeurs qui partagent la srie en 4 sous-ensembles de donnes ; on les noteq1, q2 et q3. On les dtermine de la mme faon que la mdiane ; on calcule les effectifsrelatifs ou absolus cumuls croissants, on repre les valeurs 25%, 50% et 75% ou N, N et N (q2 est la mdiane).On appelle intervalle interquartile q3 q1 ; il contient 50% des observations.25%25% 25% 25%Q1 Q2 Q3N N NNExemple sur X3 (ge) : X3ni fini ni fi fi [6 ; 6.5[ 8 1685016100 [6.5 ; 7[ 7 1415 4230 84 [7 ; 7.5[ 9 1824 3548 70 [7.5 ; 8[ 6 1230 2660 52 [8 ; 8.5[ 112241 2082 40 [8.5 ; 9[ 3644 9 88 18 [9 ; 9.5[ 5 1049 6 98 12[9.5 ; 10[ 1250 1100 2 50100 // //Q1 : on cherche 25% dans les fi La classe contenant 25% est [6,5 ; 7[ 27. Khalil F( TD-TP ) 1999-2000 On associe 16% 6,5 et 30% 7Q1 6,5 25 16 Q1 6,827 6,5 30 16Q3 : on cherche 75% dans les fi La classe contenant 75% est [8 ; 8,5[ On associe 16% 6,5 et 30% 7Q3 8 75 60 Q3 8,348,5 8 82 60 3.2. Les dciles Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la srie en 10 sous-ensembles gauxcontenant chacun 10% de la population. Lintervalle d9 d1 est lintervalle interdcile etil contient 80% des observations. d5 est la mdiane.10% 10% 10% 10%10% 10%10%10% 10% 10% d1 d2 d3 d4 d5d6 d7 d8 d9 3.3. Les centilesIls sont au nombre de 99 et partagent la srie en 100 sous-ensembles gaux contenantchacun 1% de la population. Lintervalle intercentile est c99-c1 et il contient 98% de lapopulation. c50 est la mdiane, c10 est d1, c25 est q1. 3.4. Exemple de calcul dun fractileOn veut calculer f0,85 de la srie X3 (ge), cest--dire la valeur de X3 (lge) telle que 85%de la population ait un ge strictement infrieur cette valeur.Classe concerne par linterpolation linaire : 8,5 ; 9 abscisses ; ordonnes : 82 et 88 28. Khalil F( TD-TP ) 1999-2000 f 0,85 8,585 82 f 0,85 8,759 8,588 82 4. La moyenne 4.1. DfinitionsLa moyenne arithmtique dune srie statistique Xi est gale au rapport de la somme des valeurs observes par le nombre dobservations (N). On lit x barre. n1x = n i 1 xiExemple : srie de notes obtenues par 20 tudiants{9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18}1x = 20 (9 + 12 + 13 + ..... + 9 + 18) = 10,5On dit quune moyenne est pondre lorsquil existe plusieurs observations pour toutes ou certaines valeurs de xi. 4.2. Cas des variables ordinalesExemple de la mme srie de notes mais prsente dans un tableau statistiquexini nix i fi fix i 29. Khalil F( TD-TP ) 1999-2000 2 1 2 0.050.1 3 1 3 0.05 0.15 5 210 0.1 0.5 8 216 0.1 0.8 9 436 0.2 1.8 11111 0.05 0.55 12224 0.1 1.2 13226 0.1 1.3 14114 0.050.7 15115 0.05 0.75 17117 0.05 0.85 18236 0.1 1.8 20 210 1 10.5n1x1 n 2 x 2 ...... npxp 2 3 10 ...... 17 36 210x = n1 n 2 ..... np= 20= 20 = 10.5 nixix = niOn observe galement que la moyenne est gale la somme du produit des valeurs dela variable par leurs frquences relatives :kx =i 1 fix i4.3. Cas dune variable dintervalleOn est oblig de dfinir quelle est la valeur de xi : cest le centre de la classe.Exemple de ge (X3) 30. Khalil F( TD-TP ) 1999-2000 X3xini nix i fi (%) fi(%)xifif ix i [6 ; 6.5[6.25 8 50 161000.16 1 [6.5 ; 7[6.75 747.25 14 94.50.14 0.945 [7 ; 7.5[7.25 965.25 18 130.5 0.18 1.305 [7.5 ; 8[7.75 646.512 930.12 0.93 [8 ; 8.5[8.25 11 90.75 22 181.5 0.22 1.815 [8.5 ; 9[8.75 326.25 652.50.06 0.525 [9 ; 9.5[9.25 546.25 10 92.50.10 0.925[9.5 ; 10[9.75 19.75219.50.02 0.195 / 50382 100764 1 7.64 nixi382x = ni =50 = 7.64Lge moyen des enfants est donc de 7.64 ans. 5. Relation entre mode, mdiane et moyennePour une courbe unimodale, modrment asymtrique, on a la relation suivante :m - mo = 3 ( m - M) 31. Khalil F( TD-TP ) 1999-2000CHAPITRE CINQLES CARACTERISTIQUES DE DISPERSIONLes paramtres de tendance centrale sont utiles mais insuffisants pour dcrire unepopulation.Exemple :on observe les diagrammes en btons des deux sries X et Y (1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50(1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50Elles ont la mme moyenne mais prsentent des distributions diffrentes ; on est doncamen mesurer leur dispersion afin de mieux caractriser ces deux sries.101210 8 8 6 6 4 4OccurrencesOccurrences 2 2 0 0 1,002,00 3,00 4,00 5,00 6,00 7,00 8,009,001,002,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 VAR00001VAR000021. Dfinitions Ltendue est la diffrence entre la plus grande valeur et la plus petite valeur prisespar la variable ; cette quantit est indpendante de la faon dont sont distribues lesvaleurs dans la srie.Exemple :tendue de x = 9 1 = 8 tendue de y = 9 1 = 8 Lcart absolu moyen est la moyenne des valeurs absolues des carts la moyenne. 32. Khalil F( TD-TP )1999-2000 ni xi xe= ni 5 1 4.94 5 2 4.94 ...... 6 8 4.94 5 9 4.94Exemple : ex =50= 2.57 8 1 4.94 7 2 4.94 ...... 10 8 4.94 7 9 4.94ey = 50= 2.97La fonction valeur absolue ntant pas trs manipulable en mathmatiques, on a prfrla variance. La variance est la moyenne des carrs des carts la moyenne ou cart quadratiquemoyen. nixi x 2VarX = niLcart-type est la racine carre de la variance : = VarXExemple : VarX = 6.60x = 2.57VarY = 8.82y = 2.972. Calcul de la variance et de lcart type suivant la dfinitionDans le tableau statistique, on a donc besoin dune colonne xi - x , dune colonne (xi -x ) et dune colonne ni (xi - x ) en plus de celle ncessaire pour calculer la moyenne.Exemple : soit 27 enfants dont on relve le QIClasses xinini.xi xi - x(xi - x ) ni .(xi - x )[65 ; 75[ 701 70-39.261541.351541.35[75 ; 85[ 802 160 -29.26856.15 1712.30[85 ; 95[ 903 270 -19.26370.95 1112.84[95 ; 105[100 6 600 -9.26 85.75514.49 33. Khalil F( TD-TP ) 1999-2000[105 ; 115[ 110 5550.74 .552.74[115 ; 125[ 120 448010.74 115.35 461.39[125 ;135[130 339020.74 430.15 1290.44[135 ; 145[ 140 228030.74 944.95 1889.90[145 ; 155[ 150 115040.74 1659.751659.75 27 2950 / /10185.20x = 2950/27 = 109.26VarX = 10185.20/27 = 377.23 = 19.42 3. Autre mthode de calcul de la variance et de lcart type nixi nixi 2On montre que Var X = ni - ni nixi x 2VarX = ni (rappel : (a+b) = a + 2ab + b) nixi ni2 xi x ni x nixi = nior ni = x nixi ni x = ni -x .2. x + ni x (et x ) tant une constante danslquation, nixi ni = ni - x .2. x + x ni nixi = ni - x .2. x + x .1 nixi = ni - 2 x + x nixi nixi nixi 2 = ni - x ou encore= ni - ni 34. Khalil F( TD-TP )1999-2000Exemple : soit 27 enfants dont on relve le QIclasses xi ni ni.xi ni.xi[65 ; 75[ 70 170 4900[75 ; 85[ 80 216012800[85 ; 95[ 90 327024300[95 ; 105[100660060000[105 ; 115[ 110555060500[115 ; 125[ 120448057600[125 ;135[130339050700[135 ; 145[ 140228039200[145 ; 155[ 15011502250027 2950 332500332500 2950 2VarX = 27 27 = 377.23 = 19.42 4. Caractristiques des paramtres de dispersionPour une courbe symtrique et unimodale, proche dune courbe de type courbe deGauss, lcart type correspond la distance qui spare le point dinflexion de la courbede laxe de symtrie. Le point dinflexion est le point dinversion du sens de la courbure,celui o la tangente dintrieure devient extrieure. 35. Khalil F( TD-TP )1999-2000 La preuve des 3 carts-types Pour une courbe proche dune courbe gaussienne et si lcart-type est correctementcalcul, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m -3 et m + 3.Exemple prcdent : = 19.42 m = 109.29 m + 3 = 167.55 et m - 3 = 51.03