115167786 m statistique descriptive

173
Statistique descriptive Séries statistiques à une et deux variables Séries chronologiques Indices Une présentation synthétique et illustrée des séries statistiques à une ou deux variables, des séries chronologiques et des indices.

Upload: reem007

Post on 14-Aug-2015

69 views

Category:

Documents


3 download

TRANSCRIPT

StatistiquedescriptiveSries statistiques une et deux variablesSries chronologiquesIndicesUne prsentation synthtique et illustre des sries statistiques une ou deux variables, des sries chronologiques et des indices.Lim-891.qxd copie 1/12/05 9:46 Page 1Fabrice MAZEROLLEest Matre de confrences la Facult dAix-Marseille III. Il enseignegalement la statistique descriptive dans divers tablissementsdenseignement suprieur. Gualino diteur, EJA Paris 2006ISBN 2 - 84200 - 891 - XSite internet de lauteur : www.mazerolle.frDu mme auteur Exercices corrigs de statistique descriptive (coll. Exercices corrigs) 1redition 2006Lim-891.qxd copie 1/12/05 9:46 Page 2Dpt lgal : dcembre 2005Fabrice MAZEROLLEStatistiquedescriptiveSries statistiques une et deux variablesSries chronologiquesIndicesUne prsentation synthtique et illustre des sries statistiques une ou deux variables,des sries chronologiques et des indices.Lim-891.qxd copie 1/12/05 9:46 Page 3Plusieurssriesdelivrespourles tudiantsdesfacultsdedroit, des sciences politiques, conomiques et de gestionainsiquepourles candidatsauxconcoursdelaFonctionpublique (catgorie A) : Manuels Mmentos Les textes fondamentaux Panorama Abrgs illustrs Exercices corrigs (collection en partenariat avec LGDJ) AnnaDroit LMD(dition annuelle des sujets dexamen) Carrs Rouge Les glossaires QCM et QRCCatalogue gnral adress gratuitement sur simple demande :Gualino diteurTl. 01 56 54 16 00Fax : 01 56 54 16 49e-mail : [email protected]:www.eja.frLim-891.qxd copie 1/12/05 9:46 Page 4RemerciementsJe tiens remercier mon collgue Bernard PY pour mavoir,tout au long de la rdaction de ce Mmento,fait bnficier de sa grande exprience de la statistique.3755_C01XP21/11/200510:50Page 53755_C01XP21/11/200510:50Page 6conomiques et sociales.Aprs un chapitre introductif, dans lequel le vocabulaire des statistiques est expos, contient de nombreux exemples permettant dacqurir une pratique de cette matire :- Lessriesstatistiques unedimension :Qu'ils'agissedeladcompositiondu ProduitIntrieurBrutd'unpaysparsecteurd'activit,oudel'volutionduchiffre d'affaires d'une entreprise travers le temps, l'tudiant doit pouvoir en matriserla forme et la signification : prsentation en tableaux, en graphiques et calcul des caractristiques - Lessriesstatistiques deuxdimensions :Leplussouvent,lestableauxetles graphiquesprsententsimultanmentdeux- voireplusieurs- dimensionsd'unmme phnomne, dans le but d'tudier leur interdpendance. Il existe pour cela des mthodes statistiques spcifiques, dont la plus connue est le coefficient de corrlation.- Lessrieschronologiques :L'volutiondesphnomnesconomiquesetsociaux dansletempsjoueunrlesiimportantenconomiequel'tudedessries chronologiquesmriteuntraitementparticulier,afind'exposerendtaildesoutilstels queladcompositiond'unesriesousformeduntrendetdunecomposante saisonnire. - Lesindicesindispensable d'en connatre la construction, la manipulation et les proprits.auxtudiantsd'AEJ etdesciencesconomiqueset gestion,maisaussi touslestudiantsdesformationsdontlecursuscomprendune initiation la statistique descriptive.Il peut tre utilement complt par :LelivreExercicesCorrigsdeStatistiqueDescriptive,publi danslacollectionFac-logiciels des exercices et des techniques statistiques exposs dans cet ouvrage.- Un glossaire,en fin douvrage, reprend les principales formules tudies dans le livre.Universit, du mme auteur.estrgulirementmise jourpardesexercicescorrigs,ainsiquedesprolongements L'ouvrages'adresseenprioritdont la rubrique Statistique descriptive CemmentodeStatistiqueDescriptive prsentedefaonsynthtique,structureet l'ensembledesconnaissancesncessairesestdvelopp enquatreparties.Louvrage matriserensciencesillustrel'ensembledesconnaissancesetdestechniquesrsumes d'une srie de chiffres (moyenne, cart-type, mode, mdiane, etc.).:Ilssonttrsutilissensciencessociales,desortequilest Le site Internet de l'auteur, www.mazerolle.frPrsentation3755_C01XP21/11/200510:50Page 73755_C01XP21/11/200510:50Page 8PrsentationChapitre 1 Vocabulaire de la statistique descriptive 151 Champ de la statistique descriptive 15A Dfinition 15B Statistique descriptive et statistique mathmatique 152 Description dune population statistique 16A Units statistiques, population, chantillons 16B Caractres et variables 16C Modalits ordinales, modalits nominales 18D Valeurs discrtes, valeurs continues 19E Units individuelles et units groupes 19F Effectifs, frquences, pourcentages, ratios, taux et indices 211) Effectifs ou frquences absolues 212) Frquences relatives et pourcentages 213) Ratio, taux et indices 22G Tableau rcapitulatif 233 Taux de croissance 24A Dfinition 24B volutions successives 25C Taux de croissance moyen 25D Taux de croissance dun produit 26E Taux de croissance dun rapport 264 Oprateurs somme et produit 27A Loprateur somme 27B Loprateur produit 28Sommaire3755_C01XP21/11/200510:50Page 97PARTIE 1 Les sries statistiques une dimensionChapitre 2 Tableaux et graphiques 331 Tableaux 33A Tableaux de donnes qualitatives 33B Tableaux de donnes quantitatives 361) Variable quantitative discrte, valeurs connues individuellement 362) Variable quantitative discrte, valeurs regroupes 363) Variable quantitative continue, valeurs connues individuellement 374) Variable quantitative continue, donnes groupes 372 Graphiques 38A Importance des graphiques 38B Donnes individuelles 391) La ligne 392) Le graphique tige et feuilles 40C Donnes groupes par modalits ou valeurs 411) Diagramme en btons 412) Diagramme en barres 423) Nuage de points dans le cas dune srie unidimensionnelle 43D Camembert ou graphique en tarte ? 44E Lhistogramme 45F Lutilisation des graphiques des fins de comparaison 471) Le radar, excellent moyen deffectuer des comparaisons visuelles 472) Comparaisons dans le temps 483) Les graphiques de sries chronologiques 484) Un beau graphique vaut mieux quun long discours 495) Les graphiques dindices 506) Les chelles semi-logarithmiques 51Chapitre 3 Les caractristiques de tendance centrale531 Les moyennes 53A La moyenne arithmtique 531) La moyenne arithmtique simple 532) La moyenne arithmtique pondre 543) La moyenne lague 56B La moyenne quadratique 571) La moyenne quadratique simple 572) La moyenne quadratique pondre 57C La moyenne gomtrique 581) La moyenne gomtrique simple 582) La moyenne gomtrique pondre 58G10MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 10D La moyenne harmonique 591) La moyenne harmonique simple 592) La moyenne harmonique pondre 592 La mdiane 60A Calcul de la mdiane : effectif impair et aucune valeur nest rpte 61B Calcul de la mdiane : effectif pair et aucune valeur nest rpte 61C Calcul de la mdiane : effectifs groups par valeurs 62D Calcul de la mdiane : effectifs groups par classes de valeurs 633 Le mode 65A Calcul du mode : srie simple, aucune valeur nest rpte 65B Calcul du mode : effectifs groups par valeurs 65C Calcul du mode : effectifs groups par classes damplitudes gales 65D Calcul du mode : effectifs groups par classes damplitudes ingales 664 Comment caractriser la forme dune distribution laide de la moyenne arithmtique, de la mdiane et du mode 68A Distribution parfaitement symtrique 68B Distribution tale droite 69C Distribution tale gauche 70Chapitre 4 Dispersion et concentration 711 Lintervalle de variation 712 Lintervalle interquartile 723 La bote moustache 78A Dfinition 78B Utilit de la bote moustache pour comparer des sries 79C Utilit de la bote moustache pour dterminer la forme dune distribution 804 Variance, cart-type et coefficient de variation 81A La variance 811) Dfinition 812) Mode de calcul de la formule (1-a) 823) Mode de calcul de la formule dveloppe 83B Lcart-type et le coefficient de variation 841) Lcart-type 842) Le coefficient de variation 85G11Sommaire3755_C01XP21/11/200510:50Page 115 Les indicateurs de concentration 87A La mdiale 87B La dtermination de la concentration par la mthode graphique 88C Lindice de GINI 90D Lcart mdiale-mdiane rapport lintervalle de variation 92PARTIE 2 Les sries statistiques deux dimensionsChapitre 5 Les sries statistiques deux dimensions. I : tableaux, graphiques, vocabulaire971 Tableaux et graphiques 97A Sries quantitatives connues individuellement 97B Sries quantitatives groupes 99C Sries qualitatives 1002 Reprsentation abstraite dun tableau de contingence 1013 Effectifs marginaux et frquences marginales 1034 Moyennes et variances marginales 104A Moyennes marginales 104B Variances marginales 1055 Frquences partielles sur effectif total 1066 Distributions conditionnelles 1067 Moyennes et variances conditionnelles 108A Moyennes conditionnelles 108B Variances conditionnelles 109Chapitre 6 Les sries statistiques deux dimensions. II : outils danalyse 1111 Sries quantitatives avec observations connues individuellement 111A Liaison linaire, liaison non linaire, absence de liaison 111B La droite de rgression linaire 1141) Dfinition 1142) Calcul des coefficients 1153) Utilit de la droite de rgression 117C Le coefficient de corrlation 1171) Dfinition et calcul 1172) Coefficient de corrlation et coefficient de dtermination 1183) Corrlation et causalit 118G12MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 122 Sries quantitatives avec observations groupes 120A Cas des donnes groupes par valeursB Cas des donnes groupes par classes1) Le coefficient de corrlation2) Le test dindpendance 1243 Sries qualitatives 125125B Le test du Khi-carr de PEARSONS 127PARTIE 3 Les sries chronologiquesChapitre 7 Les sries chronologiques 1311 Introduction 131A Dfinition 131B Priodicit 132C Tendance, variations saisonnires et accidentelles 133D Modle multiplicatif et modle additif 1342 Dtermination du trend dune srie chronologique 135A La dtermination du trend par la rgression linaire 135B La dtermination du trend par la mthode des moyennes mobiles 1373 Les variations saisonnires 140A Vocabulaire 140B Les tapes du calcul de la srie CVS 1411) Dtermination de lquation du trend 1422) Calcul des coefficients saisonniers 1433) Dtermination de la srie CVS 1454 Les variations accidentelles 146PARTIE 4 Les indicesChapitre 8 Les indices1511 Introduction 151A Dfinition et exemples 151B Indice temporel et indice de situation 152C Indice lmentaire et indice synthtique 154G13Sommaire3755_C01XP21/11/200510:50Page 13A Le coefficient de corrlation de rang de SPEARMAN1201211212 Les indices synthtiques de LASPEYRES, PAASCHE et FISHER 156A Dfinition de la valeur dun panier de biens 156B Les indices de LASPEYRES 1561) Lindice de LASPEYRES des prix 1562) Lindice de LASPEYRES des quantits 158C Les indices de PAASCHE 1581) Lindice de PAASCHE des prix 1592) Lindice de PAASCHE des quantits 159D Les indices de FISHER 1601) Lindice de FISHER des prix 1602) Lindice de FISHER des quantits 1613 Lindice des prix la consommation de lINSEE 161Glossaire des formules163Bibliographie173G14MMENTO STATISTIQUE DESCRIPTIVEAvertissementLes erreurs ventuelles qui subsisteraient dans cette premire dition sont toutes de mon fait etseront corriges dans les ditions ultrieures.3755_C01XP21/11/200510:50Page 14Ilsuffitd'allumersonordinateuroud'couterlesinformations laradiopourconstater quelesstatistiquessontpartout.Cecirvlequelemondemoderneestpresque discipline relativement rcente, mais quicorrespond parfaitement cette orientation du monde moderne.Ce chapitre introductif est consacr la dfinition de la statistique descriptive ainsi que des diffrents termes qui en constituent le vocabulaire de base.ensembledemthodespermettantdedcrireetd'analyser,defaonquantifie,des phnomnes reprs par des lments nombreux, de mme nature, susceptibles d'tre Deux points importants ressortent de cette dfinition : 1)Ensembledemthodes:lastatistiquedescriptivenecontientaucunethorie,mais seulement des outils d'investigation et de mesure des donnes chiffres.2) Dcrire et analyser, de faon quantifie, des phnomnes reprs par deslments nombreux:dcrire,c'est--direfairedestableaux,desgraphiques,calculerdes moyennes afin de faire ressortir la signification.Lastatistiquedescriptive appartientcependant unensembleplusvaste,la statistique gnrale,qui se divise en deux branches : statistique descriptive, objet de ce mmento, etla statistique mathmatique (ou statistique "infrentielle"), dont l'objet estdeformulerdesloisdecomportement partird'observationsouventincompltes. Cettedernireintervientdanslesenqutesetlessondages.Elles'appuienon seulement sur la statistique descriptive, mais aussi sur le calcul des probabilits.Statistique gnraleStatistique mathmatiqueStatistique descriptiveSchma 1 : Les deux branches de la statistiqueA DfinitionB Statistique descriptive et statistique mathmatique1- CHAMP DE LA STATISTIQUE DESCRIPTIVEVocabulaire de la statistique descriptivednombrs et classs. comprendreetrussir(ditionsEconomica):Lastatistique[descriptive]estun Il existe de nombreuses dfinitions (plusieurs centaines), celle que nous donnons ici est entirementtourn verslequantitatifetlemesurable.D'o l'intrtdelastatistique, celle de Bernard PY,dans son livre Statistique descriptive, nouvelle mthode pour bien CHAPITRE 13755_C01XP21/11/200510:50Page 15Leslmentsnombreuxdonts'occupelastatistiquedescriptivesontappelsdesunits statistiques. Ces units sont regroupes dans une population. Lorsque la population est trop importante pour tre connue entirement, on prlve un chantillon. Les relations qui existent entre la population, les chantillons et les units statistiques sont rsumes dans le schma ci-dessous.PopulationEchantillon 2UnitsEnthorie,ondoitsoigneusementdistinguerladescriptiond'unchantillonetla descriptiond'unepopulation.C'estd'ailleursl'undesobjetsprincipauxdelastatistique mathmatiquequedeprciserlesconditionsdanslesquellesunchantillonest reprsentatifd'unepopulation.Decefait,certainesformulesdecalculquisontvalables pourunepopulationsontlgrementdiffrentesquandonlesapplique unchantillon. C'estlecasnotammentdelavariance(voirlechapitre3).Cependant,saufmention contraireexplicite,nousconsidronsdanscetouvragequelessriestudies constituent une population complte et non un chantillon.Echantillon 1represparlenometleprnomdestudiants(onadoncuneliste).Sil'onsouhaite principale laquelle chaque tudiant se rattache, les matires optionnelles qu'il a choisi, lge, le poids, la taille, etc. Schma 2 : Units statistiques, population, chantillonsParmi ces critres, certains sont quantitatifs, comme lge, le poids, la taille. On peut en effeteffectuerdescalculsnumriquessurcescritres:poidsmoyen,taillemaximale, tailleminimale,etc.Dautrescritresnesontpasquantifiables,caronnepeutpas effectuerdecalculsdessus.Ilssontqualitatifs.Cestlecasdusexeparexemple.On Afindediffrencierlesdeuxtypedecritres,lescritresqualitatifssontappelsdes chiffres dune variable.2- DESCRIPTION DUNE POPULATION STATISTIQUEA Units statistiques, population, chantillonsB Caractres et variables sexe moyen na pas de sens et ne peut dailleurs pas tre calcule.Dansunepopulation,parexemplecelledestudiantsdunefacult,lesunitssont tudier cette population,on va retenir certains critres dtude comme le sexe, la filire diffrentescatgoriesduncaractrequalitatifetonqualifiedevaleurs lesdiffrents peutconnatreleffectifmasculinetleffectiffminindunepopulation,maislanotionde lescaractres etlescritresquantitatifsdesvariables.OndsigneparmodalitsG16MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 16effectif masculin de 370. Traduisons ces informations dans le vocabulaire de la statistique descriptive.P Effectif total : n = 600 Populationi units statistiques X CaractreModalitsXFXMnFnMEffectifs associs chaque modalit370 hommes, 230 femmesChaque tudiant i = 1, 2, , nLe sexeFminin ou MasculinTableau 1 : Exemple dun critre qualitatif(*)Ilnyaque9valeurs,parcequele10estrpt 2fois.Cequimontrelimportancededistinguerles valeurs de la variable etleffectif de lchantillon (ou de la population). Leffectif varie de 1 n (avec n=10), tandis que les valeurs varient de 1 9 (avec h=9).Exemple 2 : soit un chantillon de 10 tudiants ayant pass un examen. Ils ont obtenu les notes suivantes (sur 20) : {16, 8, 6, 14, 10, 18, 13, 9, 10, 15}.E Effectif de lchantillon : n=10 chantilloni Units statistiques X VariableValeurs (*) {x1, x2, , xh}Effectifs associs chaque valeur{1,1,1,2,1,1,1,1,1}Chaque tudianti = 1, 2, , nNotes{6,8,9,10,13,14,15,16,18}Tableau 2 : Exemple dun critre quantitatif{n1, n2, , nh}Leffectiftotal,n,vaserpartirentreleffectifmasculinetleffectiffminin,cequinous permetdcrirequen=nF+nM.Cettegalit,nouspouvonslcrireparcequeles diffrentesmodalitsduncaractresont lafoisexhaustives etincompatibles. Exhaustives,carellesdcriventtouteslesvaleursoutatspossiblesduncaractre. Incompatibles, car un individu ne peut pas avoir plus dune modalit.Exemple1: soitunepopulationde600tudiants,avecuneffectiffmininde230etun G17Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 17Lesmodalitsd'uncaractrequalitatif,siellesnepeuventpastremesures quantitativement,sontparfoissusceptiblesd'treclasses.Cesontdesmodalits ordinales. Exemple1: Unquestionnairedesatisfactiondemandeauxconsommateursd'valuer une prestation en cochant lune des six catgories suivantes :(a) nulle, (b) mdiocre,(c) moyenne, (d) assez bonne, (e)trs bonne,(f) excellenteIls'agitdemodalitsordinalespuisqu'ellespeuventtrehirarchises:uneprestation excellenteestmeilleurequ'uneprestationbonne,etc.Ladiffrenceavecdesvaleurs quantitatives est qu'on ne peut dire, par exemple, si une prestation juge excellente est deuxfoisouquatrefoismeilleurequ'uneprestationdcritecommemoyenne.Onpeut effectuer un classement, non une quantification.Remarque: certainesmodalitsordinalespeuventnanmoinstretransformes valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent l'apparence de modalits qualitatives ordinales. Exemple2: Deschemisessontclassespartaille:XS,S,M,L,XL,XXL,XXXL.Il s'agitdemodalitsfaussementordinales.Enralit ilexisteuntableaude correspondancequiexplicitera quelletailleencmchacunedecescatgories Les modalits d'un caractre qualitatif qui ne peuvent pas tre classes ou hirarchises sont dites nominales. Exemple3: Ondemande unchantillondepersonnescequ'voquepourellesun parfum. Plus prcisment, elles doivent cocher une des cases suivantes : (a) aventure, (b) sensualit, (c) confort, (d) nostalgie Il estclair qu'aucune comparaison ni hirarchisation ne peuvent tre tablies entre ces modalits. Elles sont nominales.Remarque: Certainesmodalitspurementnominalessontparfoiscodesavecdes chiffres. Par exemple, le sexe des individus d'une population sera cod par "1" pour les hommesetpar"2"pourlesfemmes.Ils'agitbienl d'unetentativedequantification d'une variable purement nominale. On parle alors de variables pseudo-numriques. On peuteneffetdecettefaoncalculerunemoyenne,quiseraenfaitlaproportiondes hommes dans la population ou dans l'chantillon.C Modalits ordinales, modalits nominalescorrespond.G18MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 18Unevariablequantitativepeut-trediscrteoucontinue.Lorsquelenombredevaleurs possibles est fini (exemple : le nombre denfants, le nombre de pices dun logement, etc.), lavariableestdiscrte.Lorsquelenombredevaleurspossiblesdelavariableestinfini (exemple : la taille, le poids ou le revenu des mnages), la variable est continue.Les units dune population, que le critre soit qualitatif ou quantitatif (discret ou continu), peuventtreprsentesindividuellement(cestgnralementlecaslorsquelesdonnes sontsaisies)ouregroupes.Leregroupementpeuttreeffectu parmodalits,par valeurs ou par classes de modalits ou de valeurs.consommateurs d'valuer une prestation en cochant lune des six catgories suivantes :(a) nulle, (b) mdiocre,(c) moyenne, (d) assez bonne, (e)trs bonne, (f) excellenteOn prsenter les donnes individuellement (tableau 3), groupes par modalits (tableau 4) ou par classes de modalits (tableau 5).Identificateur(*) 1 2 3 4 5 6 7 8 9 10valuation a e e c e f a f e bModalits a b c d e fEffectif 2 1 1 0 4 2ClassesDe nulle assez bonne(a b c d)De trs bonne excellente (e f)Effectif 4 6Tableau 3 : Donnes prsentes individuellementTableau 4 : Donnes groupes par modalitsTableau 5 : Donnes groupes par classes de modalitsD Valeurs discrtes, valeurs continuesE Units individuelles et units groupesExemple1: Unquestionnairedesatisfactiondemande unchantillonde10 (*) Nom de la personne ou numro si lon veut prserver lanonymat.G19Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 19Exemple 2 : On a mesur 20 personnes et les rsultats sont (en cm) :{148, 165, 145, 173, 148, 145, 152, 180, 135, 170, 170, 170, 142, 148, 165, 175, 180, 180, 180, 180}Ils'agitd'unvariablecontinue(lataille),maisdontlesvaleurssonticiconnues individuellement.Onpeutaussieffectuerunregroupementpartaillecarcertainestailles, comme 170 ou 180, apparaissent plusieurs fois (tableau 6).Taille 135 142 145 148 152 165 170 173 175 180Effectifs 1 1 2 3 1 2 3 1 1 5Il est galement possible d'effectuer un regroupement par classes de valeurs. On choisira, titre d'exemple, un regroupement par classes d'amplitudes gales (tableau 7), puis un regroupementparclassesd'amplitudesingales(tableau8).Ondsigneparai, lamplitude dune classe. Dans le tableau 7, lamplitude de classe est la mme pour toutes Classes Effectifs[130-140[ 1[140-150[ 6[150-160[ 1[160-170[ 2[170-180] 10Classes Effectifs [130-150[ 7[150-170[ 3[170-180] 10Lorsque les units statistiques sont groupes par classes, on calcule un centre de classe, dsign par ci, qui est gal la moyenne des extrmits de classes (voir le tableau 9 pour Tableau 6 : Donnes groupes par valeursTableau 7 : Groupement par classes(amplitudes gales)Tableau 8 : Donnes groupes par valeurs(amplitudes ingales)Classes Centres de classe (ci)[130-150[ (130+150)/2 = 140[150-170[ (150+170)/2 = 160[170-180] (170+180)/2 = 175Tableau 9 : Calcul des centres de classedes donnes du tableau 8 les classes (10 cm) alors quelle est de 20 cm, 20 cm et 10 cm dans le tableau 8.le calcul des centres de classe du tableau 8).G20MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 20Exemple 3 : On a questionn 100 mnages sur le nombre d'ampoules lectriques utilises dansleurdomicile.Danslepremiertableau,lesdonnessontregroupesparnombre d'ampoules. Dans le second tableau, elles sont regroupes par classes.Nombre d'ampoules2 3 4 5 6 7 8 9 11 12 13 153 2 Effectifs 5 8 8 10 18 16 10 9 6 5Classes Effectifs [2-5[ 21[5-10[ 63[10-15[ 16Une fois les units statistiques dune population rpertories, celles-ci sont prsentes dansdestableaux(voirlechapitre2),dediversesmanires:effectifsoufrquences absolues,frquencesrelatives,pourcentages,ratios,indicesettaux.Ilconvientde dfinir ces termes avec prcision :Tableau 10 : Regroupement par nombre d'ampoulesTableau 11 : Regroupement par classesIlsagitdelarpartitionbrutedesdonnes.Lorsquelesdonnessontprsentes individuellement, chaque donne a la mme frquence unitaire dapparition, leur effectifou frquence absolue est gal 1. Lorsque les donnes sont regroupes par valeurs oumodalits,leseffectifsoufrquencesabsoluescorrespondentaunombrede donnesquiontlavaleuroumodalit,ouencorequisontgroupesdansuneclasse donne.Symboliquement,leseffectifsoufrquencesabsoluesscriventni.Etlasommedes effectifsestgale n.Ainsi,danslecasdutableau11,leseffectifsoufrquences absolues dont respectivement gaux n1=21, n2=63 et n3=16. De plus, on a :1 2 321 63 16 100 + + = + + = = n n n nLa frquence relative est gale la frquence absolue divise par leffectif total :iinfn=(1)(2)F Effectifs, frquences, pourcentages, ratios, taux et indices1) Effectifs ou frquences absolues2) Frquences relatives et pourcentagesG21Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 21On a donc :1 2 1 21 2...... ... 1+ + ++ + + = + + + = = =h nhn n n n n n nf f fn n n n nClassesEffectifs ou frquences absoluesFrquencesrelativesPourcentages0,21 2163161000,630,16Total 100 1[2-5[ 21[5-10[ 63[10-15] 16Tableau 12 : Rpartition des mnages en fonction du nombre dampoules leur domicileLetableau12reprendlexempledelarpartitiondesmnagesenfonctiondunombre dampoules utilises leur domicile, en ajoutant la colonne des frquences relatives ctde celle des frquence absolues. La dernire ligne correspond aux totaux.Le pourcentage des donnes qui correspondent une modalit, une valeur ou une classesobtientenmultipliantlafrquencerelativecorrespondantepar100.Cest--dire:Pourcentage de la valeur (modalit ou classe) i = fix 100Les colonnes 2 (frquences absolues) et 4 (pourcentages) contiennent les mmes valeurs carleffectiftotalestgal 100.Sicelui-citaitdiffrentde100,lesvaleurscontenues dans les deux colonnes seraient diffrentes. Unratio estunefractionquidivisedeuxquantits.Lesfrquencesrelativessontdes ratiospuisquellesdivisentdeuxquantits.Plusgnralement, lesratiossonttrsutiliss en statistiques.Exemple1: Soitlasriedepicesdfectueusesproduitespar10machinesaucours dune semaine donne.{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}Leratiodunombredepicesdfectueuseslepluslev aunombredepices dfectueuses le plus faible est 33/3 = 11. La machine numro 4 a donc produit 11 fois plus de pices dfectueuses que la machine numro 7.(4)(5)3) Ratio, taux et indicesG22MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 22Un taux est le ratio dune quantit par unit (de temps, de surface, de poids, etc.)Exemple2: Soitlasriedepicesdfectueusesproduitespar10machinesaucours dune semaine donne.{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}Ces chiffres sont des taux car ils sont exprims dans lunit semaine . Cette unit est 1 . On dit par consquent 8 pices par semaine, 16 pices par semaine, etc.Unindice estleratiodunequantit uneautrequantit quisertderfrence,multiplipar 100. Exemple3: Soitlasriedepicesdfectueusesproduitespar10machinesaucours dunesemainedonnedelexemple1.Divisonschacunedesvaleursdelasrieparla valeur la plus faible et multiplions ensuite chaque valeur par 100. Le rsultat est une srie dindices, la base 100 tant la machine numro 7.{ 266,7 ; 533,3 ;300 ;1100 ;466,7 ;166,7 ;100 ;233,3 ;333,3 ;233,3 }LeSchma3ci-dessousrcapitulelesdiffrentessortesdedonnesquelonrencontreenstatistique,enpartantdeladistinctionfondamentaleentredonnes qualitatives et donnes quantitatives. DonnesQualitatives QuantitativesModalitsordinalesModalitsnominalesValeursdiscrtesValeurs continuesDonnes individuellesDonnes groupes par modalitsDonnes individuellesDonnes groupes par classes de modalitsDonnes groupes par modalitsDonnes groupes par classes de modalitsDonnes individuellesDonnes groupes par valeursDonnes groupes par classes de valeursDonnes individuellesDonnes groupes par valeursDonnes groupes par classes de valeursSchma 3 : Diffrentes sortes de donnes statistiquesG Tableau rcapitulatif G23Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 23Le taux de croissance est trs utilis en statistique et, plus gnralement, en conomie. Il se dfinit ainsi :Valeur d'arriveTaux de croissance= - 1Valeur de dpartSoit g = taux de croissance, V0= valeur de dpart et Vt=valeur d'arrive. On a : 00 01= =t tV V VgV VLe rapport Vt/V0est appel multiplicateur. Ds lors, on peut crire :g= multiplicateur- 1Ou encore :multiplicateur= 1 + gPrenons un exemple :Vt= 150V0= 1001501 0, 5100g = =Le taux de croissance, exprim en pourcentage, est gal 0,5 x 100 = 50%.Ne pas confondreletauxdecroissance,quiestune variationrelative,etlavariation t 0est gale 150- 100 = 50. En d'autres termes :00 01variation absoluevaleur de dpart= = =t tV V VgV V(3)(5)(6)(7)3- TAUX DE CROISSANCEA Dfinition1)Nepasconfondreletauxdecroissance,quiestunevariationrelative,avecla Remarque :absolue qui est V V . Ici, la variation absolue est gale 150-100 = 50.variation absolue, qui est gale V V . Dans l'exemple prcdent, la variation absolue t 0G24MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 242)Enmatiredetauxdecroissance,iln'yapasdesymtrieentreleshaussesetles baisses :Lorsque je passe de 100 150, le taux de croissance, g est gal (150/100) 1=0,5, comme onl'avuprcdemment.Maissimaintenantonappliqueunebaissede50%150, on obtient 150(1-0,5) = 75. On ne retrouve pas la valeur de dpart. Le graphique ci-dessous illustre ce point.751001500 1 2+50%-50%Soient g1, g2,, gtdes taux de croissance successifs. Le taux de croissance global sur la priode 1,,t est :( )( ) ( )1 21 1 .... 1 1ng g g g = + + + Exemple: soitunehaussede5%suiviedunehaussede2%,puisdunebaissede 3%. Quel est le taux de croissance global (sur les 3 priodes) ?( ) ( )( )1 0, 05 1 0, 02 1 0, 03 1 0, 03887 g = + + =Soient g1, g2,, gtdes taux de croissance successifs. Le taux de croissance moyen sur la priode 1,,t est :( ) 1 1tg g = + C'est--dire :( )11 1tg g = + Exemple : soit une grandeur qui a augment successivement de g1 = 10%, g2 = 20% et g3=40% sur 3 ans. Son taux daccroissement global est :g= (1+0,1)(1+0,2)(1+0,4)-1=0,848 Figure 1 : Une hausse de 50% suivie dune baisse de 50%(8)(9)(9-1)B volutions successivesC Taux de croissance moyenG25Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 25Et son taux de croissance moyen sur les trois priodes :( )11331 1 1, 848 1 g g = + = Soient deux grandeurs la date t :( )01t vV g V = + ( )01t uU g U = +etEt son taux de croissance est :La grandeur qui reprsente leur produit est :( ) ( )01 1t t t v uW V U g g W = = + +( )( )01 1 1 1tw v uWg g gW= = + + Exemple: Soituncommerantquiaugmenteleprixd'unproduitde4%. lasuitede cette augmentation, la quantit vendue baisse de 3%. Le taux de croissance de la recette totale est alors donne par :(1 + 0,04)(1 - 0,03) 1 = (1,04 x 0,97) 1 = + 0,0088 Soit une hausse de 0,88% de la recette totale. Soient deux grandeurs la date t :0) 1 ( V g Vv t+ =0) 1 ( U g Uu t+ = etLa grandeur qui reprsente leur rapport est :0(1 )(1 )+= =+t vtt uV gZ ZU g(10)(11)(12)(13)(14)(15)D Taux de croissance d'un produitE Taux de croissance d'un rapportG26MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 26Et son taux de croissance est :(1 )1(1 )vzuggg+= +Exemple : soit un commerant qui augmente le prix d'un produit de 4%. la suite de cetteaugmentation,ilconstatequesarecettetotaleaugmentede0,88%.tonn,il calcule le taux de croissance de la quantit vendue :(1 + 0,0088)/(1 + 0,04) - 1= 0,97 1 = - 0,03Ilconstateainsiquelaquantit vendueabaiss de3%.Ilcomprendalorsquesila recette totale a augment en dpit de la baisse de la quantit vendue, c'est parce que la baissedelaquantit vendue(3%)at moinsimportantequel'augmentationduprix (4%) et s'endort content.L'expressiondegaucheselitainsi"sommedesxipouriallantde1 4".Plus gnralement, pour une somme de n lments, on crit :_Sigmaoprateur somme1 2 3 4produit de ces 4valeurs est donn par l'expression :41 2 3 41iix x x x x== + + +_1 2 41...niix x x x== + + +_xiyi1 2-3 3-4 42 541iix=_41iiy=_421iix=_( )41i iix y=+_421i iix y=_Pourexprimerunesommed'lmentsdefaoncompacte,onutilisel'oprateur somme, symbolis par la lettre grecque majuscule "Sigma".(16)4- OPRATEURS SOMME ET PRODUITA Loprateur sommeExemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :Exemple1: soitquatrevaleursd'unevariablex,indicespari:x ,x ,x ,x .Le G27Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 271 2 1 3 2-3 3 9 0 27-4 4 16 0 642 5 4 7 20- 4ixiy2ixi ix y +2i ix y4114iiy==_42130iix==_( )4110i iix y=+ =_( ) ( )411 3 4 2 4iix== + + + = ( _421113i iix y==_1 2 3 4Pourexprimerunproduitd'lmentdefaoncompacte,onutilisel'oprateurproduit, symbolis par la lettre grecque majusculePi :[Pioprateur produit41 2 3 41iix x x x x== [L'expressiondegaucheselitainsi"produitdesxipouriallantde1 4".Plus gnralement, pour un produit de n lments, on crit :1 2 41...niix x x x== [Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :xiyi1 2-3 3-4 42 541iix=[421iix=[41iiy=[( )41i iix y=+[421i iix y=[D'o le tableau :B L'oprateur produitproduit de ces 4 valeurs est donne par l'expression :Exemple1:soitquatrevaleursd'unevariablex,indicespari:x ,x ,x ,x .Le G28MMENTO STATISTIQUE DESCRIPTIVE3755_C01XP21/11/200510:50Page 281 2 1 3 2-3 3 9 0 27-4 4 16 0 642 5 4 7 2024ixiy2ixi ix y +2i ix y41120iiy==[( )410i iix y=+ =[( ) ( )411 3 4 2 24iix== =( [421576iiy==[42169120i iix y==[D'o le tableau :G29Vocabulaire de la statistique descriptive3755_C01XP21/11/200510:50Page 293755_C01XP21/11/200510:50Page 301 PARTIELes sries statistiques une dimension3755_C02XP21/11/200510:51Page 313755_C02XP21/11/200510:51Page 32Un tableau statistique est juste une liste de chiffres relative au caractre de la population quel'onsouhaitetudier,prsentedefaonlapluscomprhensiblepossible.Les donnes peuvent tre prsentes individuellement, sous forme d'effectifs, de frquences ou de pourcentages et encore de bien d'autres faons.Tableauxetgraphiquesconstituentlesdeuxmoyensprincipauxde prsentationdes donnesstatistiques.tantdonn l'abondancedesprsentationstabulaireset graphiques, nous n'tudierons ici que les principales.Cettesectionproposed'tudierquelquesexemplesdetableaux-types,afinde familiariserlelecteuraveclesmodesdeprsentationlesplusfrquents.L'analysedes tableaux deux ou plusieurs caractres est renvoye la seconde partie de l'ouvrage.qualitatif.Ilaseptmodalits,listesdanslapremirecolonne.Lasecondecolonne zones. La dernire ligne, en caractres gras, indique le total mondial.Zones gographiques (1) Effectifs en millionsAsie 302,2Europe 259,6Amrique du Nord 221,4Amrique du Sud/Carabes 56,2Moyen-Orient 19,3Ocanie/Australie 16,2Afrique 13,4Total 883,3Source : www.internetworldstats.com/statsNote :Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.Tableau 1: Utilisateurs d'Internet par zones gographiques (Effectifs en mars 2005)Tableaux et graphiques1- TABLEAUXA Tableaux de donnes qualitativesLetableau(1)ci-dessousindiquelarpartitionparcontinentdesutilisateursd'Internetindique les effectifs, c'est--dire ici le nombre d'utilisateursd'internet dans chacune des en 2003. Le caractre tudi la rpartition continentale des utilisateurs d'Internet est CHAPITRE 23755_C02XP21/11/200510:51Page 33Remarquonsquelesdonnesontt classes,nonparordrealphabtiquedeszones (ce qui est normalement le cas), mais par ordre croissant du nombre d'utilisateurs, ceci Ce tableau peut tre complt de plusieurs faons, afin d'en faciliter l'analyse.Premirement,onpeutprsenterleschiffresenpourcentages,dansuneseconde colonne,afindemieuxapprcierlapartdechaquezonedansletotaldesutilisateurs. C'est ce qui a t fait dans le tableau ci-dessous (colonne 3). Deuximement,lacolonne(4)prsentelasommecumuledespourcentages,de concentration des utilisateurs. On voit ainsi que les 3 premires zones (Asie, Europe et Amrique du Nord) totalisent 88,7% des utilisateurs, les quatre autres zones (Amrique 100 - 88,7 = 11,3% des utilisateurs.Zones gographiques (1)Effectifsen millionsPourcentages302,2 34,0229,2224,926,332,171,821,51100259,6221,456,219,316,213,4883,3Pourcentages cumulsAsie 34,0262,2488,1794,4996,6798,49100EuropeAmrique du NordAmrique du Sud/CarabesMoyen-OrientOcanie/AustralieAfriqueTotalSource : www.internetworldstats.com/statsOnprendrasoindetoujoursindiquerlasourcedesdonnes,afinquel'utilisateurdu tableau puisse ventuellement s'y rfrer. Il est galement important d'ajouter toute note utilepourlacomprhensiondesdonnes.Dansl'exempledeszonesgographiques,il peut tre ncessaire soit d'numrer les pays qui figurent dans les zones, soit de rfrer la source ( condition qu'elle le fasse, ce qui est le cas ici, mais il faut le vrifier).Note :Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.Troisimement,ilestsouventncessairedeprsenterdesdonnescomplmentaires, quandellessontdisponibles,pourfaciliterlacomprhensiondesdonnesprincipales. Ici,parexemple,onpeutsouhaiterconnatrelespopulationsdeszonesconcernes, ainsi que la population mondiale, afin de rapporter le nombre d'utilisateurs d'internet un indicateur des utilisateurs potentiels.afin de faire apparatre les zones o l'utilisation d'Internet est la plus rpandue.du sud/carabes, Moyen-Orient et Ocanie/Australie) ne reprsentent quant elles que faon mettreenvidencelacontributionadditionnelledechaquezoneainsique la Tableau 2: Utilisateurs d'Internet par zones gographiques (Effectifs, pourcentages et pourcentages cumuls en mars 2005)G34MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 34enpourcentagedela population de chaque zone, et la population mondiale de chaque zone en pourcentage de lapopulationmondialetotale.Letableaufournitgalement,surladernireligne,le multipliant les pourcentages par les totaux de la colonne correspondante.Parexemple,sil'onveutretrouverlenombred'utilisateursd'internet enAsie,ilsuffit d'effectuer l'opration suivante :Zones gographiques (1)Nombre dutilisateurs en % de la populationde chaque zonePopulation de chaque zone en % de la population mondialeAsie 34,0229,2224,926,332,171,821,51888,3Europe9,6111,4851,588,594,070,5214,14Amrique du NordAmrique du Sud/CarabesMoyen-OrientOcanie/AustralieAfriqueTotal (en millions) 6411Source : www.internetworldstats.com/statsNote :Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.Cette prsentation des donnes d'utilisateurs d'internet et de la population mondiale, ainsi quedespourcentagesquiendcoulent,permetparexempledefaireapparatrequele classement par zones des pourcentages d'utilisateurs d'internet n'est pas identique celui duclassementparzonesdespourcentagesdelapopulationmondiale.Parexemple, l'Afrique, qui constitue le 3megroupe entermesdepourcentagedepopulation,setrouve en dernire position pour ce qui est des utilisateurs d'internet.Inversement, l'Amrique du de corrlation entredeuxvariables,icile pourcentage d'utilisateurs d'internet et de la population totale, sera tudi dans la seconde partie de ce mmento.Nombre d'utilisateurs d'internet en Asie = (34,02/100) * 888,3 = 302,2De mme, si l'on veut retrouver la population d'Asie, il suffit d'effectuer l'opration suivante:Tableau 3: Utilisateurs d'Internet et population exprims pour chaque zonegographique en pourcentage des totaux respectifs (Mars 2005)Population d' Asie = (9,61/100) * 6411 = 3612nombretotald'utilisateursd'Internet,cequipermetderetrouverlesdonnesbrutesen Letableauci-dessousdonnelenombred'utilisateursd'Internetd'Internetrangdesutilisateursd'Internet.LedegrNord,quiestaudernierrangentermesdepourcentagedepopulation,estautroisime G35Tableaux et graphiques3755_C02XP21/11/200510:51Page 35Exemple: oninterroge100mnagessurlenombredepicesdeleurlogement.La variable nombredepices estquantitativeetdiscrte(lesvaleurssont dnombrables).Enoutre,lesvaleurs,n'ayantpast groupes,sontconnues individuellement. On obtient le tableau ci-dessous, o xireprsente le nombre de pices et niles effectifs correspondants :xiEffectifs (ni)1 52 303 404 205 5Exemple: oninterroge100mnagessurlenombredepicesdeleurlogement.La variable nombredepices estquantitativeetdiscrte(lesvaleurssont dnombrables).Cettefois,lesvaleursontt groupes.Onobtientletableauci-dessous :(xi) Effectifs (ni)[1-3[ 35[3-5] 65Lorsquelesdonnessontgroupes,ilfautporterattentionauxcrochets(lessignes danslaclasse.Parexemple,dansletableauci-dessus,legroupe[1-3[inclutles mnagesdontlelogementnaquuneseulepice(cestlesigne quimarque La valeur 3 ayant t exclue du groupe [1-3[, elle sera ncessairement incluse dans legroupe[3-5].Celacorrespond laproprit voquedanslechapitre1,daprs laquelle les modalits dun caractre (ici les valeurs dune variable) sont exhaustives et incompatibles.Tableau 4: Nombre de pices du logement (xi) Tableau 4: Nombre de pices du logement (xi)Tableau 5: Nombre de pices du logement (xi)Groupement par classesB Tableaux de donnes quantitatives1) Variable quantitative discrte, valeurs connues individuellement2) Variable quantitative discrte, valeurs regroupes[linclusion, mais exclut les mnages qui ont 3 pices (cest le signe [ ).[ et ])carcesonteuxquiindiquentsilesvaleurslimitessontinclusesounon G36MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 36xini16 517 2518 4519 2020 1521 822 4Exemple 1 : on dispose dun chantillon de 122 rponses dtudiants la question quelgeavez-vousobtenuvotrebac?.Cettefois,lesdonnessontprsentespar groupe dge.Exemple: ondisposedunchantillonde122rponsesdtudiants laquestion quel ge avez-vous obtenu votre bac ? . Bien quil sagisse dune variable quantitative continue,lesdonnessontprsentespargeetnonpargroupedge.Onadoncle tableau ci-aprs :xini[16-18[ 30[18-20[ 80[20-22] 12iGroupement par valeursiGroupement par classes3) Variable quantitative continue, valeurs connues individuellement4) Variable quantitative continue, donnes groupesTableau 6: ge dobtention du bac (x) Tableau 7: ge dobtention du bac (x)G37Tableaux et graphiques3755_C02XP21/11/200510:51Page 37Srie 1 Srie 2 Srie 3 Srie 4X1Y1X2Y2X3Y3X4Y410 8,04 10 9,14 10 7,46 8 6,588 6,95 8 8,14 8 6,77 8 5,7613 7,58 13 8,74 13 12,74 8 7,719 8,81 9 8,77 9 7,11 8 8,8411 8,33 11 9,26 11 7,81 8 8,4714 9,96 14 8,10 14 8,84 8 7,046 7,24 6 6,13 6 6,08 8 5,254 4,26 4 3,10 4 5,39 19 12,5012 10,84 12 9,13 12 8,15 8 5,567 4,82 7 7,26 7 6,42 8 7,915 5,68 5 4,74 5 5,73 8 6,89Siloncalculelesmoyennesarithmtiquessimplesdecesdeuxsries(voirlechapitre3 pour la dfinition de la moyenne arithmtique simple), on constate que la moyenne de X1, X2, X3et X4est gale 9, tandis que la moyenne de Y1, Y2, Y3, Y4est gale 7,5.Tableau 6: Sries ayant des moyennes identiques (9 pour X et 7,5 pour Y)Certes,ilsagitdunecuriosit,maiscelle-ciillustreparfaitementquepourdcrireune sriedechiffres(icideuxsriesdechiffres),ilnesuffitparfoispasdecalculerdes indicateursnumriques.Danscetexemple,lusagedunindicateursimpletelquela moyenne dissimule en fait une trs grande diversit.Lafigure1ci-aprsmontreenfaitlesnuagesdepointassocis chacunedessries{X1,Y1} , {X2,Y2} , {X3,Y3} et {X4,Y4}.Source : Anscombe, Francis J. (1973) Graphs in statistical analysis. Ilestparfoisindispensablederecourir laprsentationgraphiquedesdonnes.Le parfaitement ce point.2- GRAPHIQUESA Importance des graphiquestableau6ci-dessous,connusouslappellationdequartetdAnscombe,illustre American Statistician, 27, 1721. G38MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 38Laprsentationdesdonnesstatistiquessousformedegraphiquesjoueunrle essentielpourpermettre unauditoireou deslecteursdesuivreuneexplication.Ne dit-onpasquunbeaugraphiquevautmieuxquunlongdiscours.Onditdailleursque Michael DELL est arriv un jour une assemble gnrale dactionnaires avec pour tout documentlegraphiquequimontraitlvolutionspectaculaireducoursdelactiondes entreprises DELL au cours des 5 dernires annesLadiversit desprsentationsgraphiquesneconnatdautreslimitesquecellesde limagination.Nousnousborneronsdanslespagesquisuivent passerenrevueles graphiques les plus connus et les mieux adapts aux donnes quil sagit de reprsenter.Lorsquelonveutreprsentergraphiquementtouteslesunitsstatistiquesdune population un caractre ou une variable, on dispose de deux graphiques : la ligne et le graphique dit tige et feuilles (de langlais stem and leaf ).Figure 1 : Sries ayant des moyennes identiques mais les nuages de points rvlent des formes extrmement diffrentesExemple 1 : Soit la srie de chiffres : {8, 2, 3, 7, 4}o aucune unit na la mme valeur.B Donnes individuelles1) La ligneG39Tableaux et graphiques3755_C02XP21/11/200510:51Page 39On obtient alors la reprsentation graphique suivante :2 3 4 7 8{8, 2, 3, 7, 4, 7, 2}En revanche, si certaines donnes sont rptes, comme dans lexemple ci-dessous, il faut passer une reprsentation des donnes sous forme groupe, ce qui est lobjet de la partie C de cette sous-section 2.2 3 4 7 8nombreuses et connues individuellement et non rptes.Figure 3 : Reprsentation graphiquequand les units statistiques sont peu nombreuses et connues individuellement mais rptes.Remarques :1) la reprsentation en ligne horizontale, on peut parfois prfrer une reprsentation en ligne verticale.2)Cettereprsentationenlignepeuttreraffine,pourdonnernaissance un graphique analytique, dit bote moustaches (de langlais Box and Whiskers ), quenousaborderonsdanslechapitre4,carsacomprhensionncessitelacquisition de notions telles que la mdiane et les quartiles.Ce graphique trs original consiste empiler des units en conservant leur identification (unnumro,unnom,etc.).Decettefaon,aucunedonneinitialenestabsentedu graphique et chacune peut facilement tre repre.Exemple 2 : Soit la srie de chiffre o le 7 et le 2 sont rpts 2 fois :Figure 2 : Reprsentation graphique en ligne quand les units statistiques sont peu 2) Le graphique tige et feuilles G40MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 40Exemple1: Soit20personnes,represparunnumrode1 20, quidesnotes Notes = {{0, 12}, {0, 14}, {1, 7}, {1, 9}, {1, 13}, {1, 18}, {2, 4}, {2, 8}, { 2, 11}, {2, 15}, {2, 16}, {3, 17}, {3, 12}, {4, 5}, {4, 6}, {4, 20}, {5, 3}, {5, 19}}Dans chaque couple de donnes, le premier chiffre correspond la note (de 0 5), cest la tige et le second sert identifier la personne par un numro allant de 1 20, cest les feuilles . La reprsentation tiges et feuilles donne la figure 4.01214107091318202043050620 08011540319Personnes identifies par leur numro de 1 20Notes de 0 5Quelesdonnessoientregroupesparmodalit,commecestlecaspourles groupementsqualitatifs,ouparvaleurs,commecestlecaspourlesgroupements quantitatifs,ondisposedenombreusesreprsentationsgraphiques.Nouslimiterons notre prsentation aux plus connues, savoir : le diagramme en btons, le diagramme Cestpeut-trelareprsentationlaplussimplequisoit.Enralit,lediagrammeen btons sinspiredirectementdelaprsentationtigeetfeuilles,maislecontenuen information est moins riche. Figure 4 : Diagramme tige et feuilles {{A, 4}, {B, 4}, {C, 1}, {D,1}}Dans chaque couple de donnes, le premier chiffre correspond au produit(A,B,C,D) et le second correspond au nombre de personnes qui ont choisi ce produit. La figure 5 (a) illustre le rsultat.Exemple 1 : On interroge 11 personnes sur leurs prfrences concernant les 4 produits A,B,C,D.Chaquepersonnedoitchoisirseulementunproduit.Onobtientlesrsultats groups suivants :C Donnes groupes par modalits ou valeurs1) Diagramme en btonsallant de 0 5 ont t attribues.en barres et le nuage de points, de langlais scatter plot .G41Tableaux et graphiques3755_C02XP21/11/200510:51Page 41Figure 5 : Diagrammesen btonsSi le regroupement se fait par valeur, on a par exemple les couples :Lediagrammeenbarres reposesurlemmeprincipequelediagrammeenbtons, saufquaulieudebtons,onadesbarresrectangulairesdebaseidentiqueet identiquementespaceslesunesdesautres.Latailledelabase,ainsiquecelledelespacement nont pas de signification particulire. Lespacement nest pas obligatoire. Lafigure6reprsentelesmmesdonnesquelafigure5,maiscesdonnessont exprimes en pourcentage.Figure 6 : Diagrammeen barres verticalesModalitsA B C DModalitsPourcentagesValeurs(a) Modalits = Produits A,B,C,D1 2 3 4{{1, 4}, {2, 4}, {3, 1}, {4, 1}}O lepremierchiffredechaquecouplecorrespondparexempleaunombredenfants. On obtient alors le graphique de la figure 5(b).(b) Valeurs = nombre denfants 0,1,2,4PourcentagesValeurs(b) Valeurs = nombre denfants 0,1,2,4(a) Modalits = Produits A,B,C,D2) Diagramme en barresG42MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 42Lediagrammeenbarreestsouventprsent defaonhorizontale.Ainsi,legraphique de la figure 6 peut-il tre prsent ainsi :PourcentagesModalitsPourcentages(a) Modalits = Produits A,B,C,D(b) Valeurs = nombre denfants 0,1,2,3012Valeurs30123(a) Nuage de points(b) Nuage de Points relisrelis nombre denfants par foyer0 3 1 2 0 3 1 2Figure 7 : Diagrammeen barres horizontalesPourdesraisonspdagogiques,lafigure2decechapitreaprsent desgraphiques sous forme de nuages de points concernant des variables bidimensionnelles. Il yavait deux sries, et chaque point avait pour coordonne un lment de chaque srie. Mais le nuagedepointspeutaussitreemploy pourreprsentergraphiquementunesimple sriedechiffres.Lesdonnesdesfigures5 7peuventgalementtrereprsentes par un nuage de points ou par une ligne joignant ces points (voir la figure 8, qui reprend les donnes prcdentes dans lhypothse quantitative.)Figure 8: Nuage de points, relis et non 3) Nuage de points dans le cas dune srie unidimensionnelleG43Tableaux et graphiques3755_C02XP21/11/200510:51Page 43Lesanglo-saxonslappellent PieChart cest--dire,littralement graphiqueen tarte . En France, on lappelle le camembert. Ce graphique universel convient toutes les donnes, ds linstant o il sagit dexprimer des parts ou des pourcentages.Exemple:EntrepriseChiffre daffairesPart de marchA 50 31,25B 70 43,75C 10 6,25D 30 18,75Total 160 100Lapartdemarch (colonne3)nestenfaitquunpourcentage.Chaquelignedela colonne 2 est divise par la dernire ligne (total) et multiplie par 100.Notonsquilsagitduncaractrequalitatif,lesmodalitstantlesquatreentreprises. Pour faire le graphique en camembert, il reste calculer la part que le chiffre daffaires de chacune de ces entreprises reprsente dans 360 (voir le tableau 8 ci-dessous).Tableau 7 : Chiffre daffaires en millions deuros de quatre entreprises qui contrlent un marchEntreprisePart de marchDegrs A 31,2543,756,2518,75100(31,25 *360) / 100 = 112,5B (43,75 *360) / 100 = 157,5C (6,25 *360) / 100 = 22,5D (6,25 *360) / 100 = 22,5 Total 360 Tableau 8 : Chiffre daffaires en millions deuros de quatre entreprises qui contrlent un marchD Camembert ou graphique en tarte ? entreprisesdumarch dunproduit(poursimplifier,onsupposequecesentreprises contrlent la totalit du march) :Soitleschiffresdaffairesenmillionsdeurosdesquatreprincipales G44MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 44La dernire colonne du tableau 7 va nous permettre de dessiner le camembert, puis de couperlesparts.Ilsuffitpourceladetraceruncercle,puisaumoyendun rapporteur,dedterminerlesanglescorrespondant chaquepart.Onobtientalorsle rsultatvoulu.Lafigureci-dessousillustre2variantesdummegraphique.Dansla secondevariante,lentreprisequialapartdemarch laplusleveestdtachedu lot.(6,25%)C(6,25%)CFigure 9 : Le camembert ou pie chart Le camembert peut aussi servir reprsenter des variables quantitatives, y compris des variables quantitatives groupes par classes.Lhistogrammeconvientparticulirementauxvariablesquantitativesquandcelles-ci sont regroupes par classes. Parfois les classes ont des amplitudes gales. Cest le cas leplusvident.Parfois,cependant,lesamplitudesdesclassessontdiffrentes.Ilfaut alors oprer une correction en suivant la mthode indique ci-aprs.Classe de revenu nifi[0;1500[ 20 0,20,40,30,1[1500;3000[ 40[3000;4500[ 30[4500;6000[ 10Tableau 9 : Rpartitiondun chantillon de 100 mnages par classe de revenu mensuel (amplitude de classe = E Lhistogramme1 500 euros)dfinit des classes damplitudes gales 1 500 euros. Exemple 1 : Soit100mnagesdistribusselonleurrevenumensueleneuros.On G45Tableaux et graphiques3755_C02XP21/11/200510:51Page 45Lhistogramme peut-tre construit partir des effectifs (les ni) ou partir des frquences (etdailleursaussienprenantlespourcentages).Contrairementaudiagrammeen barre,aveclequelilnefautpasleconfondre,lesrectanglesquicomposent lhistogrammeontunebasequiestdfinieparlamplitudedelaclassequils reprsentent et, de plus, ils sont colls les uns aux autres.Figure 10 : Histogramme correspondant aux donnes du tableau 9 00,10,20,30,4Exemple2: Supposonsquelonregroupelesdonnesdelexemple1enclasses damplitudes ingales ([0-1500[;[1500-4500[,[4500-6000[).Ilfautdanscecaseffectuerunecorrectionpourtenircomptedesdiffrences damplitude. Il convient en fait de diviser la frquence de chaque classe par lamplitude correspondante. On obtient ainsi lamplitude corrige (hi).Classe de revenuAmplitude de classe (ai)nifihi=fi/ai150030000,215000,70,000130,000230,00007 0,1[0;1500[ 20[1500;4500[ 70[4500;6000[ 10Tableau 10 : Calcul de lamplitude corrigeSur lhistogramme de la figure 11, on aura donc lamplitude corrige en abscisse et des classes dingales amplitudes en ordonne.G46MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 460,000070,000130,00023Figure 10 : Histogramme avec amplitudes ingales(voir le tableau 10 pour les calculs)Cestdanslespossibilitsdecomparaisonsquilsoffrentquelesgraphiquessont particulirement utiles : comparaisons dans le temps, comparaisons spatiales, etc.Figure 11 : Le graphique en radar pour reprsenter et comparer les parts de march des entreprises du tableau 7La figure 11 utilise le graphique dit en radar afin de comparer la rpartition relle des partsdemarch des4entreprisesA,B,CetDavecunerpartitiongalitaireochacuneaurait25%dumarch (cetterpartitiongalitaireestreprsenteparle losangeenpointill).Lespartsdemarch rellessontindiquessurchaqueaxe.On voit ainsi immdiatement que A et B ont une part de march suprieure la rpartition galitaireetBet Cunepartdemarch infrieure.Onpeut partirdel calculer combien il faut retrancher A et B (et combien par consquent il faut redistribuer C et D) pour revenir une rpartition galitaire).ABCD31,25%43,75%6,25%18,75%F Lutilisation des graphiques des fins de comparaisons1) Le radar, excellent moyen deffectuer des comparaisons visuellesG47Tableaux et graphiques3755_C02XP21/11/200510:51Page 47Ilestfaciledevoirquelegraphiqueenradarpermetaussidecomparerlespartsde pointsdutemps.Onaboutiraitainsi une toiledaraigne dontlacomplexit irait cependantgrandissanteaveclenombredannes.Ilestsagedeselimiter une comparaison de deux priodes.Toutefois,leradarnestpasleseulmoyendeffectuerdescomparaisonstemporelles, loindel.Lafigure12,ci-dessousillustreunefaontrssimple(etmalheureusement trs raliste) de comparer deux situations loignes dans le temps.Figure12:Unefaontrssimple dereprsenterlvolutiondu dveloppementhumainsurune dcenniepourquatrepayspeu dvelopps.Cesquatrepayssont lesseulspourlesquelslindicedu dveloppementhumainargressau cours de la dcennie 1990.Source :PNUD,Rapportsurle mthodedecalculdelindicateurdu dveloppementhumain,voirlechapitre7 de ce mmento.Pourlescomparaisonsdansletemps,rienneremplacecependantlasrie chronologique. Typiquement, les annes sont en abscisse et la valeur qui volue dans le temps est en ordonne. Les graphiquesdesrieschronologiquessontparmilesplusfrquents.SelonEdward R.TUFTE(1),quiaprocd untiragealatoirede4000graphiquesdans15 magazines et journaux entre 1974 et 1980, il apparat que plus de 75% dentre eux sont des graphiques de sries chronologiques.Legraphiquedelafigure13ci-aprsreprsentelvolutiondelapopulationmondiale tellequelleat reconstitue(pourlesdonneslesplusloignes)etprojete(pour les donnes futures) par les dmographes de la division de la population de lONU.(1)Edward R. TUFTE, The Visual Display of Quantitative Information, Graphics Press, LLC, 2001, page 252) Comparaisons dans le temps3) Les graphiques de sries chronologiquesmarch desquatreentreprisesA,B,CetDdutableau7endeux,voiretroisouquatre dveloppement humain 2003, p. 40. Sur la G48MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 48p. 155.Figure 13 : volution de la population mondiale de 1750 2150 (projection)Riennevautungraphiquelorsquonveutmettreenvaleurunecomparaison saisissante. La figure 14, par exemple, illustre de faon clatante linefficacit (pour ne pas dire plus) de la rpartition des aides dans le monde. On y voit que les subventionsannuellesdelUnionEuropenneparvache(etparan),sontpresquedeuxfois suprieuresaurevenumoyenparhabitant(etparan)enAfriquesubsaharienne.Ce nest pas les agriculteurs qui sen plaindront.Figure 14 : Un beau graphique vaut mieux quun long discoursSource : PNUD, Rapport sur le dveloppement humain 2003,4) Un beau graphique vaut parfois mieux quun long discoursG49Tableaux et graphiques3755_C02XP21/11/200510:51Page 49Lesindicesseprtentgalementparticulirementbienauxcomparaisonssousforme graphique. Sans entrer dans le dtail de leur tude (que nous rservons au chapitre 7), donnons-en une dfinition simple et illustrons-la par un exemple. Un indice est un rapport de grandeurs exprimes dans la mme unit, ce qui en fait un nombresansdimension.Gnralement,cerapportestmultipli par100.Lorsquelon divisetousleslmentsdunesriechronologiqueparlundentreeux(etquelon multipliepar100)ontransformelasriechronologiqueenindice.Cecifaciliteles comparaisons avec une annes de rfrence, laquelle aura alors pour valeur 100.Exemple: Soitlasriechronologiquesuivantequiindiquelenombredavionsdun certain modle, vendus par une grosse firme aronautique.Annes 1997 1998 1999 2000 2001 2002 2003 2004 2005Ventes 10 20 35 40 75 80 30 60 115Lareprsentationgraphiquedebaseestcelledunesri chronologique.Toutefois,si ondivisetousleschiffresparceuxdelanne1997, annedebase (etquelon multiplie par 100) on obtient une srie indice.Lafigureci-dessousreprsente,outrela indice ne modifie que lchelle de lordonne, non la forme de la courbe.Figure 15 : Une srie chronologique transforme en sries indicesTableau 11 : Ventes annuelles dun certain modle davionIndicesVentesIndicesIndices(a) Srie non indice (b) Srie indice 1997=100(c) Srie indice2000=100(d) Srie indice2005=1005) Les graphiques dindicessrieinitiale,troischoixdindice:1997,2000et2005.noterquelepassage un G50MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 50Leschellesarithmtiquesnesontpastoujourslesplusadaptes lareprsentation graphiquedescaractrescontinus.Danslexemplesuivant,lesentreprisesAetBont augment leurproductiondansdesproportionsdiffrentesetpourtantlegraphique donnelimpressionquelaprogressionestidentiqueenraisonduparalllismedes progressions.010020030040050060070080090010001 2Entreprise B400500200300+25%Entreprise A+50%ordonnes.Celaconsiste prendrelelogarithmebase10desvaleursenordonnes. On obtient alors deux droites qui ne sont plus parallles. La droite A est plus pentue, ce qui traduit une plus forte progression.10 100 200 300 400 500log 10=1 log 100 =2 log 200 =2,3 log 300 = 2,477log 400 =2,602log 500 =2,698Figure 16 : Sur une chelle arithmtique les progressions parallles semblent identiquesTableau 12 : Quelques exemples de conversions de chiffres en logarithme dcimal (de base 10)6) Les chelles semi-logarithmiquesPour remdier cela, on peut prendre une chelle semi-logarithmique pour laxe des G51Tableaux et graphiques3755_C02XP21/11/200510:51Page 5111010010001 2BAFigure 17 : Sur une chellelogarithmique les diffrences de vitesse de progression se traduisent par des pentes diffrentes100200300400500G52MMENTO STATISTIQUE DESCRIPTIVE3755_C02XP21/11/200510:51Page 52Quellessoientnongroupesouaucontrairesgroupesparvaleursouparclasses, lesvariablesquantitativespeuventtreutilementrsumespardescaractristiques privilgient les valeurs principales de la distribution, au dtriment par exemple de ceux qui caractrisent la dispersion ou la concentration des valeurs dune srie.Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne arithmtique de cette srie de chiffres se calcule ainsi :Ces valeurs centrales sont les moyennes, la mdiane et le mode. Nous exposerons leur modedecalculetleursignificationendistinguantpourchacune delleslecasdes donnesnongroupesetlecasdesdonnesregroupes(soitparvaleurs,soitpar classes).8 5 9 13 25 60125 5x+ + + += = =Comme nous lavons indiqu dans le chapitre 1, nous ne distinguerons pas la moyenne de lapopulationetlamoyennedelchantillon.Parconsquent,noustraitonsicilasriede chiffres sans nous proccuper de savoir sil sagit dune population ou dun chantillon.Significationdelamoyenne: Construisonsuntableauavecpourpremirecolonnela srie de chiffres et pour seconde colonne lcart de chacun des chiffres la moyenne que nous venons de calculer () : 12 x =8 -45 -79 -313 125 1ixix x Tableau 1 : La somme des carts la moyenne est nulle( )510iix x= =_Les caractristiques de tendance centrale1- LES MOYENNESA La moyenne arithmtique1)La moyenne arithmtique simpleditesdetendancecentrale.Cesnombresrsumssontainsiappelscarils CHAPITRE 33755_C03XP21/11/200510:52Page 53Quand on soustrait la moyenne arithmtique chacun des chiffres de la srie, on observe la proprit suivante :1) La somme des carts la moyenne est nulle :(-4)+(-7)+(-3)+(+1)+(+13)=0 la somme des carts ngatifs, au signe prs.-4 -7 -3 1 13-14+14Moyenne arithmtique : 12Formulegnraledelamoyennearithmtiquesimple:1 2 nsrie de chiffres. La formule de la moyenne arithmtique de cette srie est donne par :11niix xn==_Schma 1 : En valeur absolue, la somme des carts ngatifs (panneau de gauche) est gale la somme des carts positifs (panneau de droite)(1)Exemple 1 : Soit la srie de chiffres {8, 13, 5,8, 5,9,13,25,13,9}.Certainschiffres, comme le 8, le 9 ou le 13 sont rpts. On peut simplifier la prsentation en regroupant premires. En effet, on a par exemple :15 x =12 n =1 12 5 10 n x= =28 x =22 n =2 22 8 16 n x= =Et ainsi de suite (voir le tableau 2).2)La moyenne arithmtique pondreSoit{x ,x ,.,x }une lesdonnesparvaleurs(voirletableau2). Latroisimeligneestleproduitdesdeux 2) Ou, ce qui revient au mme, mais est plus imag, la somme des carts positifs est gale G54MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 545 8 9 13 252 2 2 3 110 16 18 39 25ixini in x Tableau 2 : Calcul de la moyenne arithmtique pondre51108i iin x= =_Lamoyennepondre secalculealorsenfaisantlasommepondrecest--direla somme des et en divisant par n. Elle est gale :i in x (5 2) (8 2) (9 2) (13 2) (25 1) 10810,810 10x + + + + = = =Formule gnrale de la moyenne arithmtique pondre :1 2 hsrie de chiffres et {n1, n2, .,nh} les effectifs correspondants. La formule de la moyenne arithmtique pondre de cette srie est donne par :( )11hi iix n xn== _Exemple2: Soitlasriedechiffres{8,13,5,8,5,9,13,25,13,9,35,44,54,28}.Supposonsquelonregroupelesvaleursen3catgoriescommedansletableau3ci-dessous. Dans ce cas, il faut calculer le centre de chaque classe, ci, cest--dire la somme des extrmits de classe divise par 2etappliquer la formule de la moyenne pondre.Classes[5-13[ 6 9 54[13-28[ 3 7,5 22,5[28-54[ 5 41 205icini in c (2)Tableau 3 : Calcul de la moyenne arithmtique quand les valeurs sont groupes par classes31281,5i iin c= =_Soit{x ,x ,.,x }une G55Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 55On applique donc la formule (2), mais en remplaant xi par ci:( )11hi iix n cn== _(3)Dans notre exemple, on a donc :(6 9) (3 7,5) (5 41) 54 22,5 205 281,520,1114 14 14x + + + += = = ~Exemple : Soit la srie de notes dun lve au cours de lanne {12, 13, 11, 14,2}. Si lon calcule la moyenne arithmtique simple on obtient :12 13 11 14 2 5210,45 5x+ + + += = =Par contre, si on retire le 2 et que lon recalcule la moyenne lague sur 4 notes, on obtient : 12 13 11 14 5012,54 4x+ + += = =Dans ce cas, on a retir le 2 , qui est considr comme un accident, mais qui, si on le maintientdanslasrie,faitfortementbaisserlamoyenne.Danscertainscas,onretire lesvaleursextrmesetoncalculelamoyenneuniquementsurunintervalledevaleurs lagu,conformmentauschma2ci-dessous.Leprincipeestidentiquequandles donnes sont groupes par valeurs ou par classes.Intervalle lagu211,12,13,14 Schma 2 : La moyenne lagueOn a exclu arbitrairement3) La moyenne lague le 2G56MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 56Exemple: Soitlasriedechiffres{-4,-2,0,2,4}.Siloncalculelamoyenne arithmtique simple on obtient zro. Parfois,onsouhaiteobtenirunecaractristiquedetendancecentraleayantunevaleur positive l o le calcul de la moyenne arithmtique simple aurait donn zro. Oncalcule alors la moyenne quadratique simple en additionnant le carr de toutes les valeurs de la srie et en prenant la racine carre du total. Autrement dit, dans notre exemple :2 2 2 2 2( 4) ( 2) (0) (2) (4) 16 4 0 4 16 408 2,835 5 5Q + + + + + + + += = = = ~Formulegnraledelamoyennequadratiquesimple: Soient{x1,x2,.,xn}une sriedechiffres.Laformuledelamoyennequadratiquesimpledecettesrieest donne par :211niiQ xn==_(4)Exemple : Soit le tableau 4 ci-dessous :25 108 164 2512 20ixin1 2 h 1 2 hLa formule de la moyenne quadratique pondre de cette srie est donne par :( )211hi iiQ n xn== _(5)Tableau 4 : Calcul de la moyenne quadratique pondreIl suffit de rajouter deux colonnes, une pourix2ix2iin x et une pour (voir le tableau 5)B La moyenne quadratique1)La moyenne quadratique simple2)La moyenne quadratique pondreSoit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants. G57Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 5725 10 62564161448 1662501024400 4 2512 20 2880Tableau 5 : Calcul de la moyenne quadratique pondreixin2ix2iin x ( )42110554iiin x= =_En appliquant la formule (5) on obtient :( )211 1055412,192171hi iiQ n xn=== ~_Lorsque les valeurs sont regroupes en classes, il faut calculer les centres de classes et appliquer ensuite la formule (5) en remplaant xipar ci.Exemple: Soitlasriedechiffres{8,5,9,13,25}.Lamoyennegomtriquedecette srie est gale :1 2 nsimple de cette srie est donne par :11nniiG x= (= ( [(6)| |1558 5 9 13 25 117000 10,32 G = = ~1 2 h 1 2 hLa formule de la moyenne gomtrique pondre de cette srie est donne par :11ihnniiG x= (= ( [(7)C La moyenne gomtrique1)La moyenne gomtrique simple2)La moyenne gomtrique pondreSoit{x ,x ,.,x }unesriedechiffres.Laformuledelamoyennegomtrique Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants. G58MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 58Pourcalculerlamoyennegomtriquepondre,onpeutpasserparleslogarithmes npriens (ln) :| || |1110 16 25 207112,110070425 8 4 121ln 10ln25 16ln8 25ln4 20ln12711ln 32,1888 32,2711 34,6574 49,698171149,815ln 2,1100704718,2488ihnniiG xGGGG e= ( ( = = ( = + + += + + += ~= =[1 2 nsimple de cette srie est donne par :11ni inHx==_(8)Exemple: Soitlasriedechiffres{8,5,9,13,25}.Lamoyenneharmoniquedecette srie est gale :15 59,041 1 1 1 1 1 0,55303428 5 9 13 25ni inHx== = = ~+ + + +_1 2 h 1 2 hLa formule de la moyenne harmonique pondre de cette srie est donne par :1hii inHnx==_(9)D La moyenne harmonique1)La moyenne harmonique simple2)La moyenne harmonique pondreExemple : Soit les chiffres du tableau 4Soit{x ,x ,.,x }unesriedechiffres.Laformuledelamoyenneharmonique Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants. G59Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 59pondre, on applique la formule (9).171 71 716,88210 16 25 200,4 2 6,25 1,66667 10,316725 8 4 12hii inHnx== = = = =+ + ++ + +_Exemple2: Unepetiteusineabrite2machines.Lapremiremachineaproduit500 pices la vitesse de 100 pices par heure. Une seconde machine a produit 300 pices la vitesse de 60 pices par heure. Calculer la vitesse moyenne (exprime en nombre de pices par heure)de production dans l'usine.Vitesse moyenne = nombre total de pices produites/nombre d'heures de production. La premiremachineaproduit500picesen(500/100)heures(5heures)Laseconde machineaproduit300picesen(300/60)heures(5heures).Lavitessemoyenneest donc donne par :800 800vitesse moyenne= 80 pices/heure500 30010100 60= =+11nx22nxnLa mdiane dune srie est la valeur qui partage cette srie, pralablement classe, en deux sries aux effectifs gaux. Dans la premire srie, on trouve les valeurs infrieures la mdiane. Dans la seconde srie ontrouve les valeurs suprieures la mdiane.Lamdianenesecalculequepourlesdonnesquantitativesetsonmodedecalcul dpend du type de donnes. On distinguera quatre cas : 2- LA MDIANE les sries non groupes dont leffectif est impair et o aucune valeur nest rpte, les sries groupes par valeurs, les sries groupes par classes de valeurs. les sries non groupes dont leffectif est pair et o aucune valeur nest rpte, Exemple1: Soitleschiffresdutableau4.Pourcalculerlamoyenneharmonique G60MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 60Cest le cas idal, celui qui permet le mieux de comprendre cest quest la mdiane.Exemple : Soit la srie de 5 chiffres suivants :{8 ,59, 13 , 25}Pour trouver la mdiane, il faut :a) Classer la srie par ordre croissant des valeursb) Localiser la valeur qui partage leffectif totalen deux sous effectifs gaux en appliquantla formule (n+1)/2, cest--dire ici (5+1)/2=3. La troisime valeur de la srie est le 9.{5 ,8,9, 13 , 25}{5891325 }mdianeSous-effectif des valeurs infrieures la mdianeSous-effectif des valeurs suprieures la mdianeOnvrifiequilyautantdevaleursinfrieures lamdianequilyadevaleurs suprieures la mdiane. Leffectif total est bien partag en deux parties gales.Quand leffectif est pair, la mdiane nest pas une valeur de la srie. Il faut la calculer.Exemple : Soit la srie des 8 chiffres suivants :{13,1,9,10,2,4,12,7}Pour trouver la mdiane, il faut :a) Classer la srie par ordre croissant des valeursb)Appliquerlaformule(n+1)/2,cest--direici(8+1)/2=4,5.Cecinousindiquequelintervallemdian estconstitu parles4meetla5mevaleurs.Lamdianeestdonc gale la moyenne arithmtique simple de ces deux valeurs :{1,2,4,7,9,10,12,13}Me=(7+9)/2=8{ 12478 91012 13 }MdianeSous-effectif des valeurs infrieures la mdianeSous-effectif des valeurs suprieures la mdianeOnvrifiequilyautantdevaleursinfrieures lamdianequilyadevaleurs suprieures la mdiane. Leffectif total est bien partag en deux parties gales.A Calcul de la mdiane: effectif impair et aucune valeur nest rpteB Calcul de la mdiane: effectif pair et aucune valeur nest rpteG61Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 61Danscecas,laprocdurenepermetpastoujoursdepartagerleffectiftotalendeux parties gales.Exemple : Dans le tableau 6 ci-dessous, les valeurs de la variable X ont dj t classes La troisime colonne est celle des frquences (fi) et la quatrime est celle des frquences cumules F(x). La cinquime colonne, spare du tableau, est celle des effectifs cumuls N(x).0,066 0,0660,1670,30,4330,60,70,90,93310,10,1330,1330,1670,10,20,0330,0672 28 39 410 411 512 313 615 118 2ixin259131821272830if ( ) F x ( ) N xPourdterminerlamdiane,onrepre0,5danslacolonnedesfrquencescumulesF(x) ou bien n/2 dans la colonne des effectifs cumuls N(x). On choisit ensuite la valeur F(x)galeouimmdiatementsuprieure 0,5(oulavaleurN(x)galeou immdiatementsuprieure n/2)etlonsuitlesensdesflchescommeindiqu surle tableau6.Dansnotreexemple,ilnyapasdevaleurF(x)gale 0,5,lavaleur immdiatementsuprieure 0,5est0,6(etlavaleurimmdiatementsuprieuren/2=30/2=15 est 18). Par consquent, en suivant les flches, on remonte la valeur qui correspond lamdiane,soit11.Onremarquealorsquelamdianenesparepas leffectif en deux parties gales. En effet, il y a 13 valeurs qui sont infrieures 11 (soit 43,3%deleffectif)et12valeursquisontsuprieures 11(soit40%deleffectif).En outre, que faire des 5 valeurs qui sont exactement gales 11 (16,6% de leffectif total). Faut-illescompterdansleffectifdesvaleursinfrieures lamdianeoudansleffectif des valeurs suprieures la mdiane ? Il ny a pas de rponse cette question, chacun fait comme il lentend(1).Tableau 6 : Calcul de la mdiane quand les donnes sont groupes par valeursn/2=15 0,5Mdiane =11(1) La mthode de calcul de la mdiane propose ici est celle dcrite par Bernard PY, dans son ouvrage Statistiques descriptives, ditions Economica, page 76.C Calcul de la mdiane: effectifsgroups par valeursG62MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 62Dtermination graphique. La figure 1 ci-dessous illustre la dtermination de la mdiane partir partir de N(xi), la courbe cumulative des effectifs. Cette courbe en escalier a pourordonneleseffectifsdontlavaleureststrictementinfrieure xi.Parexemple, leffectifdesvaleursstrictementinfrieures 11estgal 13.Demme,leffectifdes valeurs strictement infrieures 12 est gal 18.n/2=30/2=15N(xi)xiFigure 1 : Dtermination graphique de la mdiane partir de la courbe cumulative des effectifsPourtrouverlamdiane,ilfautlocalisern/2=30/2=15surlaxedesordonnes,puistracer uneflchehorizontalejusquaupointM.UnefoisaupointM,ilfauttraceruneflche verticaleendirectiondelabscisse.Onlitalorslavaleurdelamdianequi,dansnotre exemple, est gale 11.MMdianeDans ce cas, le calcul de la mdiane ncessite dappliquer la formule suivante :( )1inf2 ( (= + ( ( iie iinN xM x an(10)D Calcul de la mdiane: effectifs groups par classes de valeursG63Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 63O :infix =Borne infrieure de la classe mdiane.( )1 iN x=Effectif cumul strictement infrieur xiix = Classe mdianeia = Amplitude de la classe mdianeExemple : Dans le tableau 7 ci-dessous, les valeurs de la variable X du tableau 6 ont tgroupes par classes de valeurs damplitudes gales (la procdure est la mme si les classes sont damplitudes ingales).[0-5[ 2 292730[5-10[ 7[10-15[ 18[15-20[ 3( )iN xixinAppliquons la formule (10) en linterprtant par rapport la figure 2 qui reprsente le cumul des nien ordonne [soit N(xi)] et xien abscisse : Tableau 7 : Valeurs groupes par classes de valeurs damplitude gales( )1inf15 9210 5 11, 66618 ( ( (= + = + = ( ( ( iie iinN xM x anFigure 2 : Histogramme des effectifs cumuls0 5ix s =La distribution est tale droite, comme lillustre le diagramme en btons de la figure 7 ci-dessous.Moyenne arithmtiqueMode =1Mdiane = 2B - Distribution tale droiteG69Les caractristiques de tendance centrale3755_C03XP21/11/200510:52Page 69Exemple : soit le tableau 11 suivant et le diagramme en barre de la figure 8 qui lillustre.Tableau 11 : Distribution tale gauche1 2 3 4 52 4 6 8 10Figure 8 : Distribution tale gaucheLe calcul des 3 indices rvle que 3,7 4 5 x Me Mo = < = < =Ladistributionesttale gauche,commelillustrelediagrammeenbtonsdela figure 8 ci-dessous.ixinMoyenne arithmtiqueMdiane = 4Mode = 5C - Distribution tale gaucheG70MMENTO STATISTIQUE DESCRIPTIVE3755_C03XP21/11/200510:52Page 70Encomplmentduchapitreprcdentquitudiaitlescaractristiquesdetendance centrale dune distribution, le prsent chapitre sintresse la variabilit des donnes auseindunesrie.Ainsi,unefoislamoyenneconnue,onpeutcomplterla connaissancedunesriepourapprcierdansquellemesurelesdonnessont disperses ou au contraire concentres autour de la moyenne.Lescaractristiquesdedispersionet/oudeconcentrationsontnombreuses.Nous tudierons ici les plus frquemment utilises : lintervalle de variation, la variance, lcart-type,lecoefficientdevariation,lesintervallesinterquartileset interdciles etlcart mdiale-mdiane.Nousverronsgalementdeuxoutilsgraphiquesutilespourlanalyse de la dispersion/concentration dune distribution : le graphique bote moustaches, ainsi que la courbe de concentration.ou moins dune maison lautre, le prix dun produit varie aussi dun magasin lautre. Les salaires varient dune entreprise lautre, de mme que, en gnral, les notes dun lve dans les diffrentes matires de son cursus.Lintervalle,ou spread cestladiffrenceentrelaplusgrandevaleuretlaplus petite valeur de la variable. lve A : { 8, 9, 10, 11, 12}lve B : {2, 4, 16, 18}LtenduedesnotesdeAest12-8=4,tandisqueltenduedesnotesdeBest18 2 = 16. On notera pourtant que la moyenne des deux lves est de 10. Mais B a des notes beaucoup plus disperses que A. En fait, si on fait le rapport 16/4, on voit que les notes de B sont 4 fois plus disperses que celles de A.Cet exemple montre lutilit de lintervalle de variation pour avoir une premire ide de ladispersion.Maislindicateurestassezlimit,carilesttropsensibleauxvaleurs extrmes comme le montre lexemple ci-aprs.Exemple : soit la srie suivante {1016, 774, 1008, 8, 1001, 999, 1100}Dispersion etconcentrationSauf dans le cas trs rare dune srie statistique o toutes les valeurs sont identiques certaine variabilit des donnes dans une srie. Ainsi, le prix au mtre carr varie plus par exemple un lve qui a 15 sur 20 dans toutes ses matires il existe toujours une Exemple : soit deux lves dont les notes dans quatre matires ont t les suivantes :1- LINTERVALLE DE VARIATIONCHAPITRE 43755_C04XP21/11/200510:53Page 71Lintervalledevariationestdoncdonn parIV=1100 8=1092.Onconstatequela valeur de lintervalle de variation est exagrment augmente par la prsence du chiffre 8.Il est commode de classer les chiffres par ordre croissant :{8, 774, 999, 1001, 1008, 1016, 1100}Lintervalleinterquartileestunemesuredelavariationquinestpasinfluenceparles valeurs extrmes, contrairement lintervalle de variation.Sa dfinition est simple : lintervalle interquartile mesure ltendue des 50% de valeurs situes au milieu dune srie de donnes classes.Il se calcule en procdant aux quatre tapes suivantes:2)Trouver la mdiane de la srie pour sparer celle-ci en deuxsries : la pemire srie contient les donnes infrieures la mdiane et la seconde les donnessuprieuresla mdiane.3) Dterminer la mdiane des deux nouvelles sries, sans inclure dans aucune delle la mdianedelasrieinitiale.Lamdianedelapremiresrieestappele premier quartile etdsign parQ1.Lamdianedelasecondesrieestappele second quartile et dsign par Q3.4)Calculer IQ, lintervalle interquartile par la formule :3 1IQ Q Q = Lesfigures1-aet1-b,ainsiquelesquatreexemplesci-aprsillustrentlesnotionsde quartilesetdintervalleinterquartiledanslecasdedonnesgroupes(1-a)ounon groupes (1-b)EffectifsFigure 1 : La notion dintervalle interquartileIntervalle interquartileIntervalle interquartileQ1Q31-a : donnes groupes 1-b : donnes non groupesQ1Q32- LINTERVALLE INTERQUARTILE1)Classement des donnes de la srie par ordre croissant. G72MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 72Exemple1: soitlasriedechiffressuivants,o aucunevaleurnestrpte.Le nombre de chiffres est impair.{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6,5}1)Afindedterminerlintervalleinterquartile,classonsdabordlesdonnesdelaplus petite la plus grande.{1, 3, 4, 5, 6, 7, 9, 11, 12, 14, 15, 16, 17, 19, 20}2) Dterminons la mdiane et sparons la srie en deux sous-sries :{1, 3, 4, 5, 6, 7, 9 , 11 ,12, 14, 15, 16, 17, 19, 20}Me 1resrie 2mesrie3) Dterminons ensuite la mdiane de chacune de ces deux nouvelles sries{1, 3, 4, 5 , 6, 7, 9}Q1{12, 14, 15, 16 ,17, 19, 20}Q34) Il reste plus qu calculer lintervalle interquartile :3 116 5 11 IQ Q Q = = =1,3,4 6,7,9,12,14,15 17,19,20Intervalle interquartileQ1=5 Q1=16Me = 11Remarque: Danscecas,particulier,lamdianeestgale 11etlintervalle interquartile a aussi pour valeur le chiffre 11. Mais cest un hasard.Figure 2 : Lintervalle interquartile donnes non groupes, effectif impairG73Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 73Exemple2: soitlasriedechiffressuivants,o aucunevaleurnestrpte.Cette fois, le nombre de chiffres est pair.{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6}1)Afindedterminerlintervalleinterquartile,classonsdabordlesdonnesdelaplus petite la plus grande.{1,3,4, 6,7,9,11,12,14,15,16,17,19,20}2) Dterminons lintervalle mdian, puis la mdiane et sparons la srie en deux sries. Ici,(n+1)/2=(14+1)/2=7,5.Lintervallemdianestdoncconstitu parla7meetla8mevaleur, cest--dire [11-12]. Et la mdiane (11+12)/2=11,5.{1,3,4,6,7,9,11,12,14,15,16,17,19,20}1resrie2mesrie3) Dterminons ensuite la mdiane de chacune de ces deux nouvelles sries{1,3,4, 6,7,9,11}Q1{12,14,15,16 ,17,19,20}Q34) Il reste plus qu calculer lintervalle interquartile :3 116 6 10 IQ Q Q = = =1,3,4 7,9,11,12,14,15 17,19,20Intervalle interquartileQ1=6 Q1=16Me = 11,511,5MeFigure 3 : Lintervalle interquartile donnes non groupes, effectif pairG74MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 74Exemple 3: Soit la srie de chiffres suivants :{4,13, 6, 4,13, 17,7,15,7,16,9, 6,7,1,3,9,14,1,1,12, 11, 20,16,15,11,6, 11}1)Afindedterminerlintervalleinterquartile,classonsdabordlesdonnesdelaplus petite laplusgrandeet,commecertainesdonnessontrptes,construisonsun croissant des valeurs).xi1 3 4 6 7 9 11 12 13 14 15 16 17 20ni3 1 2 3 3 2 3 1 2 1 2 2 1 13 4 6 9 12 14 17 18 20 21 23 25 26 27n/2=27/2=13,52) Dterminons la mdiane de la srie par la mthode tudie dans le chapitre 3 dans le cas des donnes groupes par valeurs. On voit que puisque n=27, on a n/2=27/2=13,5, cequitombeentre12et14.Parconvention,nouschoisissonsla valeurdelavariable qui correspond 14, soit 9.3)Lamdianeestdoncgale 9.Etnousavonsdeuxsries,dontnouspouvons maintenant dterminer les mdianes respectives, suivant la mme mthode.xi1 3 4 6 7 9ni3 1 2 3 312 3 4 6 921411 12 13 14 15 16 17 203 1 2 1 2 2 1 15 6 8 9 11 13 14 15n/2 = 9/2 = 4,5n/2 = 15/2 = 7,54) Lintervalle interquartile est donc :3 113 4 9 IQ Q Q = = =Q1Q1Tableau 1 : Srie groupe par valeursTableau 2 : Calcul des quartilesin |_in |_in |_tableau,enajoutantunelignepourleseffectifscumuls.( dsignelecumul G75Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 75Remarques :1)Normalement,50%deseffectifsdevraienttreconcentrsdanslintervalle interquartile.Cenestpastout faitlecasici,enraisondesapproximationsdela mthode.Ilyaeneffet16unitsstatistiquessur27quisontdanscetintervalle,soit 16/27 = 0,59.2) On peut rapporter lintervalle interquartile lintervalle de variation :3 1Intervalle interquartile 13 4 9100 100 100 100 47,3%Intervalle de variation 20 1 19 19Q Q | | | | | | = = = = |||\ . \ . \ .Intervalle interquartileExemple4: Soitletableausuivant,o lesvaleursdelexempleprcdentonttregroupes par classes.xi[0-4[ [4-8[ [8-12[ [12-16[ [16-20]ni4 8 5 6 4Tableau 33) Enfin, on peut reprsenter les rsultats sur un graphique :Figure 4 : Lintervalle interquartile, donnes groupes G76MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 76cumuls.xi[0-4[ [4-8[ [8-12[ [12-16[ [16-20]ni4 8 5 6 44 12 17 23 272)Dterminonslamdianedelasrieparlamthodetudiedanslechapitre3dansle cas des donnes groupes par classe. Il faut dabord dterminer la classe mdiane, qui est ici [8-12[.Il nest pas ncessaire de connatre la valeur exacte de la mdiane pour sparer lesdeuxsries,maiscalculons-l quandmmeenappliquantlaformuletudieau chapitre 3pour le calcul de la mdiane quand les donnes sont groupes par classe: 16 44 4 58 (= + = ( Qn/2 = 27/2 = 13,53)Laclassemdiane[8-12[permetdediviserletableauendeux.Calculonsles mdianes respectives de chacun de ces tableaux :xi [0-4[ [4-8[ni 4 84 12xi [12-16[ [16-20[ni 6 46 10n/2 = 12/2 =6n/2 = 10/2 = 5( )1inf13, 5 1228 4 9, 25 ( ( (= + = + = ( ( ( iie iinN xM x an35 012 4 15, 36 (= + = ( QTableau 4Tableau 5in |_in |_in |_1)Afindedterminerlintervalleinterquartile,ajoutonsunelignepourleseffectifs G77Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 77Lhistogrammeci-dessous,permetdillustrerlintervalleinterquartiledanslecaso les donnes sont groupes par classes.Intervalle Interquartileplot,estungraphiquequirsumeladispersiondunesrie partirde5valeurs:la valeurminimaleetlavaleurmaximale(cesontles moustaches),lintervalle interquartile (dsign par ses deux valeurs Q1et Q3)et la mdiane (ces trois dernires valeurs constituant la bote ).Exemple : soit la srie de chiffres suivante, o aucune valeur nest rpte. Le nombre de chiffres est impair.{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6, 5}Nous savons que Me = 11, Q1 = 5 et Q3= 16 pour les avoir calculs lexemple 1 de la section2decechapitre.Quantauxvaleursminimaleetmaximale,ellessont respectivement gales 4 et 20. Classons la srie par ordre croissant pour mieux faire apparatre les diffrentes valeurs impliques dans labote moustache.{1,3,4, 5,6,7,9,11,12,14,15, 16,17,19, 20}Minimum Maximum Me Q1Q3Figure 53- LA BOTE MOUSTACHEA DfinitionLa bote moustache, de langlais Box and Whiskers , parfois aussi dsigne box G78MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 78Le graphique dit de la bote moustache correspondant est donc :Minimum Maximum1 20Me =11 Q1=5 Q3=16La bote moustache permet de comparer des sries du point de vue de leur dispersion maisaussideleurcaractristiquedetendancecentrale(puisquelamdianeest Groupe A{1, 2, 2, 12, 5, 5, 9, 5, 7, 11, 7, 8, 2}Groupe B{16, 13, 15, 13, 11, 13, 16, 3, 18, 11}Groupe C{8, 8, 8, 7, 4, 16, 13, 16, 18, 11}Groupe D {12, 10, 6, 8, 5, 16, 12, 15, 10, 15, 12, 10}Lacomparaisondesgraphiquesbotes moustachesdechaquegroupepermet davoirunebonneidedeladispersiondesnotes,toutenvisualisantlanote mdiane (qui est souvent juge prfrable la note moyenne).5139,5 11134512181816Figure 6Figure 7B Utilit de la bote moustache pour comparer des sriesrepre).Exemple : soient les notes sur 20 de 4 groupes dtudiants :G79Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 79Suivantlapositiondelamdianeauseindelabote,onpeutendduiredes informations sur la forme de la distribution. 1)Silamdianeestprocheducentredelabote,cestqueladistributionest symtrique.2) Si la mdiane est gauche du centre de la bote, cest que la distribution est tale droite.3) Si la mdiane est droite du centre de la bote, cest que la distribution est tale gauche.Demme,encomparantlalongueurrespectivedechaquemoustache,onpeuten dduire des informations sur la forme de la distribution. 1) Si les moustaches sont peu prs de la mme longueur, cest que la distribution est symtrique.2) Si la moustache de droite est plus longue que la moustache de gauche, cest que la distribution est tale droite.3) Si la moustache de gauche est plus longue que la moustache de droite, cest que la distribution est tale gauche.distributions(voirlesdiagrammesenbtons)sontrespectivementsymtrique(Me=3), tale droite (Me = 2) et tale gauche (Me = 4) :A = {1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5}B = {1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5}C = {1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5}Figure 8Symtriquetale droitetale gaucheMe=3Me=2Me=4C Utilit de la bote moustache pour dterminer la forme dune distributionLes botes moustaches correspondantes ont bien les caractristiques prcites :Exemple: Soitlestroissriesutilisesdanslasection4duchapitre3,dontles G80MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 80Lavariance,lcart-type etlecoefficientdevariationsontlesindicateurslesplus frquemmentutilisspourmesurerladispersiondunesrie.Cesindicateurs renseignent surla dispersion des donnes autour de la moyenne.Plus les donnes sont concentres autour de la moyenne, plus les valeurs de ces trois indicateurssontfaibles.Inversement,pluslesdonnessontdispersesautourdela moyenne, plus ces trois indicateurs sont levs.Soit une srie de valeurs dune variable X : {x12 k{n1,n2,..,nk}. La variance de cette srie s'crit :( )2211ki iin x xno== _( )22111ki iin x xno== _, si leffectif considr est celui dun chantillon.Ainsiquenouslavonsdj indiqu danslechapitre1,saufmentioncontraireexplicite, nous ne considrons dans cet ouvrage que des populations. Par consquent, la formule (1) sera utilise dans la suite.(1)(2)1 2 k( )2211niix xno== _(1-a)Autrementdit,lorsquelesdonnessontconnuesindividuellementouquellesnese sont groupes par valeurs, cest la formule (1) qui sapplique. Enfin, lorsque les donnes sont groupes par classe, cest le centre de classe ci, qui remplace xidans la formule (1).4- VARIANCE, CART-TYPE ET COEFFICIENT DE VARIATIONA La variance1) Dfinition, si leffectif considr est celui dune population.rptentpas,cestlaformule(1-a)quisapplique.Enrevanche,lorsquelesdonnes ,x ,..,x }. Soit les effectifs associs : Remarque : Si {n , n , ..,n } = {1, 1,.,1} et que k = n, la variance de la srie s'crira :G81Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 81Pourcalculerlavariance partirdelaformule(1-a),onappliquesuccessivementles tapes suivantes :a) Calcul de la moyenneb) Calcul des carts la moyennec) Calcul des carrs des carts la moyenned) Somme des carrs des carts la moyennee) Division par nLexemple ci-aprs illustre cette mthode.Les tapes a), b), c) et d) sont facilites par la disposition en tableau :2 -6,2 38,445 -3,2 10,247 -1,2 1,441 -7,2 51,849 0,8 0,6413 4,8 23,046 -2,2 4,8415 6,8 46,248 -0,2 0,0416 7,8 60,84ix( )ix x ( )2ix x 10118,2iix xn== =_(a)Tableau 6(b) (c)( )10211 237,623,7610iix xn= = =_(d)2) Mode de calcul de la formule (1-a)Exemple : soit la srie {2, 5, 7, 1, 9, 13, 6, 15, 8, 16}G82MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 82Laformule(1)peutaussitrecalcul suivantlamthodeprcdente.Toutefois,pour faciliterlescalculs,ilestprfrabledutiliserlaformuledite dveloppe.Onmontre en effet que la formule (1) peut scrire :( )22 2 21 11 1k ki i i ii in x x n x xn no= == = _ _(1-b)4 203243243631125368112122510543633752 56 99 411 315 5ixinPour calculer la variance laide de la formule dveloppe , on suit les tapes :a) Calcul de la moyenne pondre et lvation de celle-ci au carrb) Calcul des xi2c) Calcul des nixi2d) Somme des nixi2e) Division des nixi2par nf) Soustraction du carr de la moyenne au carr de la moyenne des nixi22 6 9 11 155 9 4 3 5ixinLes tapes a), b), c), d) et e) sont facilites par la disposition en tableau :i in x2ix2i in x26 208 2156Totaux511 208826 26i iix n x== = =_( )52 2 2122212612156 82682,9231 64 18,9231i iin x x ooo== = = =_Tableau 7Tableau 83) Mode de calcul de la formule dveloppe Exemple : soit le tableau suivantG83Les caractristiques de tendance centrale3755_C04XP21/11/200510:53Page 83Lcart-type est gal la racine carre de la variance :( )22 21 11 1k ki i i ii in x x n x xn no= == = _ _(3)Naturellement,si aucune valeur nest rpte ou si les donnes ne sont pas regroupes par valeur, on aura :( )22 21 11 1n ni ii ix x x xn no= == = _ _(3-a)La variance de cette srie a t calcule la section 4-2. Elle est gale :( )102211 237,623,7610iix xno== = =_Lcart-type est :23,76 4,87 o = ~218,9231 o =On en dduit lcart-type :18,9231 4,35 o = ~B Lcart-type et le coefficient de variation1) Lcart-typeLa variance a t calcule et est gale :Exemple 1 : Soit la srie {2, 5, 7, 1, 9, 13, 6, 15, 8, 16}Exemple 2 : Soit les donnes du tableau 7G84MMENTO STATISTIQUE DESCRIPTIVE3755_C04XP21/11/200510:53Page 84100 CVxo | |= |\ .Exemple: Onconnatlessalairesmensuelsbrutseneurosdes200employsdela mmeentreprise, 10ansdintervalle(voirletableau9).Lesdonnessontgroupes parclasse.Lenombredemploysestpass de200en1994 280en2004.Onveut savoir si la dispersion des salaires augment. Pour cela on va calculer le coefficient de variation en 1994 et en 2004.Salaires Effectifs 1994 Effectifs 20041000-2000 40 562000-3000 70 1183000-4000 80 924000-5000 5 105000-10000 5 4On notera tout dabord que les donnes sont groupes par classes de valeurs. Ds lors, i incessaires pour obtenir le coefficient de variation des salaires, respectivement en 1994 et en 2004.Tableau 9Tableau 10Salaires1994(ni)cinicici2nici26000 2250000625000012250000202500005625000017500090000000437500009800000001012500002800002250037500 281250000150025003500450075001000-2000 402000-3000 703000-4000 804000-5000 55000-10000 5200 575000 1890000000Totaux2) Le coefficient de variationdiffrentes formules. Les tableaux 10 et 11 ci-aprs indiquent les calculs intermdiaires il convient de calculer c , le centre de chaque classe, qui tiendra lieu de x dans les G85Le