cours-examens.orgcours-examens.org/images/an_2013/etudes_superieures/tronc_commu… · avant-propos...

177
Probabilités et Statistiques Élémentaires Mikael Beatriz - Alkéos Michaïl 2011-2012

Upload: dinhhanh

Post on 10-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Probabilités et Statistiques Élémentaires

Mikael Beatriz - Alkéos Michaïl

2011-2012

2

Avant-Propos

Le présent cours est une introduction aux probabilités et aux statistiques suivant les grandeslignes de l’unité d’enseignement LM231.

Il s’avancera de manière progressive, des notions les plus simples aux plus complexes et chaquechapitre se terminera par une synthèse permettant d’avoir une vue plus globale sur les notionsacquises au cours de celui-ci.

Sa bonne suivie nécessitera cependant certaines notions de théories autres que celle des proba-bilités, comme celle des ensembles, le dénombrement, le calcul intégral, . . . Nous avons pourcela regroupé dans des annexes les connaissances nécessaires de ces théories. Il sera mentionné aulecteur quand il devra s’y reporter.

Nous avons nous même suivi cette UE en 2011 alors que nous étions étudiants, l’année où AlexanderBulinski l’enseigna en tant que professeur invité de la Moscow State University. Nous espérons quevous serez épris par ce cours tout autant que nous l’avons été et vous souhaitons une bonne lecture.

Enfin, nous désirons exprimer notre gratitude à nos professeurs qui nous ont transmis la pas-sion des probabilités ; Alexander Bulinski, Amaury Lambert, Benjamin Guedj, Irina Kourkova,Michèle Thieullen, Sophie Laruelle et Sylvain Le Corff.Ainsi qu’à nos professeurs non-probabilistes ; Jacques Féjoz, Jean-Marie Trépreau, Patrick Polo etSylvie Guerre-Delabrière et au directeur de notre licence Laurent Koelblen, qui nous a énormémentsoutenus et encouragés.

Mikael BEATRIZ et Alkéos MICHAÏL

3

4

Table des matières

Introduction 9

I Probabilités 11

1 Introduction aux probabilités 131.1 L’Univers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3 Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4 Loi de probabilité uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Indépendance et probabilité conditionnelle 252.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2.2 Généralisation aux familles d’évènements . . . . . . . . . . . . . . . . . . . . 30

2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Variables aléatoires réelles discrètes 353.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.1 Loi marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.2 Loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.4 Espérance, variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4.3 Ecart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.6 Lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5

3.6.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.6.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.6.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.6.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.7 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.7.2 Fonction génératrice et indépendance . . . . . . . . . . . . . . . . . . . . . . 743.7.3 Caractérisation de loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.7.4 Calcul d’espérance et de variance . . . . . . . . . . . . . . . . . . . . . . . . 78

3.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4 Variables aléatoires réelles à densité 874.1 Tribu borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.2 Généralités sur les densités de probabilités . . . . . . . . . . . . . . . . . . . . . . . 884.3 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.3.3 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.3.4 Loi normale (Laplace-Gauss) . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.3.5 Loi du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.5 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.5.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.5.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.7 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.7.2 Fonction caractéristique des lois usuelles . . . . . . . . . . . . . . . . . . . . 1034.7.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5 Convergence de variables aléatoires 1115.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.1.1 Types de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.1.2 Théorèmes fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.1.3 Relation entre les différentes convergences . . . . . . . . . . . . . . . . . . . 1145.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

6

5.2.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

II Statistiques 127

6 Introduction aux statistiques 1296.1 Population et individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.2 Echantillon et caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.3 Fréquence et Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

7 Estimation ponctuelle 1337.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1337.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1367.3 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 136

8 Test d’hypothèse 1398.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1398.2 Test du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

III Annexes 145

A Théorie des ensembles 147A.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147A.2 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148A.3 Suite d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151A.4 Produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151A.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152A.6 Fonction indicatrice (ou caractéristique) . . . . . . . . . . . . . . . . . . . . . . . . 153

B Dénombrement 155B.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155B.2 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158B.3 Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161B.4 Arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162B.5 Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

C Calcul intégral 167C.1 Méthodes et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

C.1.1 Cas d’une fonction à une variable . . . . . . . . . . . . . . . . . . . . . . . . 167

7

C.1.2 Cas d’une fonction de deux variables . . . . . . . . . . . . . . . . . . . . . . 167C.2 Critères de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168C.3 Intégrales classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

D Tables statistiques 171D.1 Table du khi-carré (χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171D.2 Fonction de répartition de la loi normale centrée réduite : N (0, 1) . . . . . . . . . . 173

8

Introduction

« Le hasard, ce sont les lois que nous ne connaissons pas. »Émile Borel

Figure 1 – A. Kolmogorov

Les probabilités sont l’étude du hasard et de l’incertain. Ellepermettent de donner un cadre formel et rigoureux aux nombreuxphénomènes physique aléatoires. Les statistiques, quant à elles, con-sistent au traitement et à l’interprétation de données.

Comme le dit Emile Borel, un des fondateurs de la théorie dela mesure, le hasard est une science. Elle provient à l’origine del’étude des jeux de hasard, notamment des jeux de dés. Bien queplusieurs grands mathématiciens, dont Pascal et Laplace, ont tentéde formaliser ces phénomènes, il faut attendre le XXème siècle pour que la théorie moderne desprobabilités, telle que nous la connaissons aujourd’hui, soit élaborée. C’est grâce aux travauxsur la théorie de l’intégration de Borel et Lebesgue, plus générale que celle de Riemann, que lesprémisses de cette théorie furent posés. Par la suite ce sera grâce à Lévy, Kolmogorov, en passantpar Itô, qu’elle verra le jour. Les statistiques qui sont indissociables des probabilités sont néespour répondre à des problèmes d’ordre démographique, biologique (notamment en génétique) oufinancier. Des mathématiciens comme Ronald Fisher sont restés célèbre pour leur avoir donné leurlettre de noblesse.

Figure 2 – R. Fisher

L’étude des probabilités et des statistiques a connu son es-sor au XXème siècle lorsque leur application à d’autre domainesdes sciences ont été découvert : en physique (mécanique quan-tique, physique statistique), en biologie (météorologie, génétiquedes populations), en économie (théorie des jeux, mathématiques fi-nancières, assurances), en sociologie (démographie, sondage)... Elleconstitue actuellement un champs d’étude très actif.

9

10

Première partie

Probabilités

11

Chapitre 1

Introduction aux probabilités

1.1 L’Univers

Définition 1.1.1 (Expérience Aléatoire). On appelle expérience aléatoire une expérience renou-velable et qui, renouvelée dans des conditions identiques, ne donne pas forcément le même résultat.

Définition 1.1.2 (Univers). L’ensemble des issues possibles d’une expérience aléatoire donnée senomme l’univers (ou ensembles des issues). On le note : Ω. Un élément de Ω est donc une issue,et on la représente par ω.

1.2 Algèbre des événements

La compréhension de cette partie nécessite des notions de la théorie des ensembles. Toutes cesnotions sont présentent dans l’annexe A.

Définition 1.2.1 (Événement aléatoire). Un événement aléatoire est une sous-expérience d’uneexpérience aléatoire donnée. En théorie des ensembles un événement est un sous-ensemble de Ω.

Vocabulaire 1.2.1. La théorie des probabilités peut être vue comme une manipulation d’ensembles,vu qu’un événement (ou même l’univers) n’est qu’un ensemble. La tableau ci-dessous donne leséquivalences entre le vocabulaire utilisé en théorie des probabilités et en théorie des ensembles. SoitΩ un univers lié à une expérience aléatoire et soit A et B deux événements de Ω, on a :

13

Notation probabiliste Notation ensemblisteRésultat possible ω ∈ Ω

A est un événement A ∈ Ω

A⇒ B A ∈ BA et B A ∩BA ou B A ∪B

A n’est pas réalisé Ac

A est un événement irréalisable A = ∅A est un événement certain A = Ω

A et B sont incompatibles A ∩B = ∅

1.3 Axiomatique de Kolmogorov

Définition 1.3.1 (Tribu ou σ-algèbre). Une famille A de parties de l’univers Ω est une tribu, sielle satisfait les trois propriétés suivantes :• Ω ∈ A• Si A ∈ A alors Ac ∈ A• Soit (A)i∈I , une famille dénombrable 1 d’éléments de A, alors

⋃i∈IAi ∈ A

Propriétés 1.3.1. Soit A une tribu d’un univers Ω. Les propriétés suivantes sont des conséquencesdirectes de la définition :

1. ∅ ∈ A.

2. Si (An)n∈N est une suite d’éléments de A alors+∞⋂n=1

An ∈ A.

3. Si (Ai)0≤i≤N est une suite finie de N éléments de A alorsN⋃i=0

Ai ∈ A.

4. Si (Ai)0≤i≤N est une suite finie de N éléments de A alorsN⋂i=0

Ai ∈ A.

Démonstrations 1.3.1.

1. En effet, les deux premières propriétés de la définition impliquent que Ω ∈ A et que Ωc ∈ A,or Ωc = ∅. Donc ∅ ∈ A.

2. Soit (Bn)n∈N une suite tels que : ∀n,Bn = Acn, alors par stabilité par passage au complé-mentaire (Bn)n∈N est une suite d’éléments de A. Mais alors on peut utiliser la stabilité par

1. Rappel : un ensemble est dénombrable si on peut le mettre en bijection avec une sous-partie de N. Poursimplifier, on travaillera à présent dans N sans perte de généralité

14

passage à la réunion dénombrable, et on obtient :+∞⋃n=0

Bn ∈ A. En réutilisant la stabilité par

passage au complémentaire on obtient : (+∞⋃n=0

Bn)c ∈ A.

Autrement dit :+∞⋂n=0

Bcn =

+∞⋂n=0

An ∈ A.

3. Soit (Bn)n∈N une suite vérifiant : ∀n ∈ [0, N ]Bn = An et ∀n > N,Bn = ∅. Alors il est

immédiat que⋃n∈N

Bn =N⋃n=0

An. Mais en notant que les Bn ∈ A,∀n (∅ ∈ A car c’est une tribu),

on peut utiliser la stabilité par réunion dénombrable, ce qui nous donne que :⋃n∈N

Bn ∈ A.

4. La démonstration étant la même que pour la réunion finie, nous laissons le soin au lecteurde la rédiger.

Notation 1.3.1. On note P(Ω), l’ensemble des sous-parties d’un univers Ω

Exemples 1.3.1.

• Ω; ∅ est une tribu de Ω, nommée tribu trivialeEn effet,- Ω est bien inclus dans Ω; ∅.- Ωc = ∅ ⊂ Ω; ∅ et ∅c = Ω ⊂ Ω; ∅- Ω ∪ ∅ = Ω ⊂ Ω; ∅

• Soit A ∈ A, alors A,Ac, ∅,Ω est une tribu de Ω, appelée tribu engendrée par A

• P(Ω) est une tribu de Ω, nommée tribu discrète de Ω. (C’est la plus grande tribu de Ω)

Définition 1.3.2 (Espace probabilisable). On appelle espace probabilisable, le couple (Ω,A), oùA est une tribu de Ω

Définition 1.3.3. (Probabilité)Une probabilité (ou mesure de probabilité 2) sur (Ω;A), est une application :

P : A → [0; 1]

vérifiant les trois axiomes de Kolmogorov suivant :

2. En théorie de la mesure, une probabilité est une mesure de masse totale 1.

15

Axiome 1 : Pour tout évènement A de A , 0 ≤ P(A) ≤ 1

Axiome 2 : P(Ω) = 1

Axiome 3 : Soit (An)n∈N une suite d’événements de A deux à deux incompatibles. On a :

P(⋃n∈N

An) =∑n∈N

P(An)

Définition 1.3.4 (Espace probabilisé). On appelle espace probabilisé, le triplé (Ω,A,P), où Aest une tribu de Ω et P une probabilité.

Propriétés 1.3.2. Soient A et B deux événements d’un univers Ω.

1. P(Ac) = 1− P(A)

2. P(∅) = 0

3. P(A ∪B) = P(A) + P(B)− P(A ∩B)

4. A ⊂ B =⇒ P(A) ≤ P(B)

Démonstrations 1.3.2.

1. Comme A ∪ Ac = Ω on a :

P(A) + P(Ac) = P(A ∪ Ac) = P(Ω) = 1

⇒ P(A) + P(Ac) = 1

⇒ P(Ac) = 1− P(A)

2. D’après le résultat précédent on a :

P(∅) = P(Ωc)

= 1− P((Ωc)c)

= 1− P(Ω)

= 1− 1

= 0

3. En remarquant que A = (A∩B)∪ (A∩Bc) et que B = (B∩A)∪ (B∩Ac) on en déduit que :

A ∪B = (A ∩B) ∪ (A ∩Bc) ∪ (B ∩ A) ∪ (B ∩ Ac)

= (A ∩B) ∪ (A ∩Bc) ∪ (B ∩ Ac)

16

Par conséquent :

P(A ∪B) = P( (A ∩B) ∪ (A ∩Bc) ∪ (B ∩ Ac) )

= P(A ∩B) + P(A ∩Bc) + P(B ∩ Ac)

= P(A ∩B) + P(A ∩Bc) + P(B ∩ Ac) + P(B ∩ A)− P(B ∩ A)

= P( (A ∩B) ∪ (A ∩Bc) ) + P( (B ∩ Ac) ∪ (B ∩ A) )− P(B ∩ A)

= P(A) + P(B)− P(B ∩ A)

4. Si A ⊂ B alors on a B = A ∪ (B ∩ Ac) et on a donc :

P(B) = P(A ∪ (B ∩ Ac))

= P(A) + P(B ∩ Ac)− P( A ∩ (B ∩ Ac) )

= P(A) + P(B ∩ Ac)− P(∅)

= P(A) + P(B ∩ Ac)− 0

= P(A) + P(B ∩ Ac)

Or comme d’après le premier axiome de Kolmogorov P(B ∩ Ac) ≥ 0, on en déduit que :

P(B) ≥ P(A)

Remarque 1.3.1. On a démontré que si A et B sont deux événements d’un univers Ω, alors ona P(A ∪B) = P(A) + P(B)− P(A ∩B).On sait que si A et B sont disjoints alors on a P(A ∩B) = P(∅) = 0.C’est pourquoi si A et B sont disjoints on a : P(A ∪B) = P(A) + P(B)

Remarque 1.3.2. La propriété P(A ∪ B) = P(A) + P(B) − P(A ∩ B) existe aussi pour plus dedeux éléments. Par exemple pour 3 éléments A, B et C on a :

P(A ∪B ∪ C) = P(A) + P(B) + P(C)− P(A ∩B)− P(A ∩ C)− P(B ∩ C)

La formule générale pour n éléments est donnée par la formule de Poincaré.

17

Proposition 1.3.1 (Formule de Poincaré). Soit n ≥ 2 et soit (Ai)1≤i≤n une suite d’événementsde A. On a :

P

(n⋃i=1

Ai

)=

n∑i=1

P(Ai)−∑

1≤i<j≤n

P(Ai∩Aj)+∑

1≤i<j<k≤n

P(Ai∩Aj∩Ak)−...+ (−1)n−1 P(A1∩A2∩...∩An)

Cette formule peut aussi s’écrire :

P

(n⋃k=1

Ak

)=

n∑k=1

(−1)k+1

( ∑1≤i1<...<ik≤n

P(Ai1 ∩ ... ∩ Aik)

)

Démonstration 1.3.1. La démonstration de cette formule se fait par récurrence.Soit n ≥ 2 posons P(n) :

“P

(n⋃i=1

Ai

)=

n∑i=1

P(Ai)−∑

1≤i<j≤n

P(Ai∩Aj)+∑

1≤i<j<k≤n

P(Ai∩Aj∩Ak)−...+ (−1)n−1 P(A1∩A2∩...∩An)′′

−→ Initialisation :

Pour n=2, on a : P(A1 ∪ A2) = P(A1) + P(A2)− P(A1 ∩ A2)

On retrouve donc la propriété précédemment démontrée.Donc P(2) est vrai.

−→ Hérédité :

Supposons P (n− 1) vraie pour un certain n, montrons que P (n) est vraie.

On a :

18

P(A1 ∪ ... ∪ An) = P( (A1 ∪ ... ∪ An−1) ∪ An)

= [ P(A1 ∪ ... ∪ An−1) ] + P(An)− P( (A1 ∪ ... ∪ An−1) ∩ An)

= [ P(A1 ∪ ... ∪ An−1) ] + P(An)− P( (A1 ∩ An) ∪ ... ∪ (An−1 ∩ An) )

= [n−1∑i=1

P(Ai)−∑

1≤i<j≤n−1

P(Ai ∩ Aj) + ...+ (−1)n−2 P(A1 ∩ A2 ∩ ... ∩ An−1) ]

+ P(An)− P( (A1 ∩ An) ∪ ... ∪ (An−1 ∩ An) )

=n∑i=1

P(Ai)−∑

1≤i<j≤n−1

P(Ai ∩ Aj) + ...+ (−1)n−2 P(A1 ∩ A2 ∩ ... ∩ An−1)

− P( (A1 ∩ An) ∪ ... ∪ (An−1 ∩ An) )

=n∑i=1

P(Ai)−∑

1≤i<j≤n

P(Ai ∩ Aj) + ...+ (−1)n−1 P(A1 ∩ A2 ∩ ... ∩ An)

Donc P (n) est vraie.

−→ Conclusion :

Pour tout n ≥ 2, P (n) est vraie.

1.4 Loi de probabilité uniforme discrète

Afin de formaliser la notion de probabilité, cette sous-partie traite l’exemple de la probabilitéuniforme discrète.

Vocabulaire 1.4.1 (ensemble discret). Un ensemble est dit discret , s’il peut être mis en bijectionavec une sous-partie de N. Discret est synonyme de dénombrable.

Exemples 1.4.1.

• L’ensemble 1, 2, 3 est discret. En effet, 1, 2, 3 peut être mis en bijection avec la souspartie de N, 1, 2, 3 ou 13, 17, 451.• L’ensemble N est discret. En effet, N peut être mis en bijection avec N qui est une sous partiede lui même.• L’ensemble R n’est pas discret car il ne peut pas être mis en bijection avec une sous partiede N.

19

Définition 1.4.1 (Loi de probabilité uniforme discrète). Soit Ω un univers discret fini. La loi deprobabilité uniforme discrète, est une probabilité qui associe à chaque élément ω de l’univers Ω lamême valeur.

Exemple 1.4.1. Prenons l’exemple d’un lancé de dé équilibré.L’univers, qui est l’ensemble des issues possibles de cette expérience est donc égal à Ω = 1, 2, 3, 4, 5, 6.Soit P la loi de probabilité uniforme discrète. On a :

P(1) =1

6P(2) =

1

6P(3) =

1

6

P(4) =1

6P(5) =

1

6P(6) =

1

6

Ceci signifie que la probabilité d’obtenir un 1, un 2, un 3, un 4, un 5 ou un 6 en jetant ce dé estla même et vaut 1

6.

Exemple 1.4.2. Prenons l’exemple d’un jeu de pile ou face avec une pièce non pipée.Notons 0, l’événement “obtenir un pile” et 1 l’événement “obtenir un face”.L’univers, qui est l’ensemble des issues possibles de cette expérience est donc égal à Ω = 0, 1.Soit P la loi de probabilité discrète uniforme. On a donc :

P(0) =1

2et P(1) =

1

2

Ceci signifie que la probabilité d’obtenir un pile ou d’obtenir un face en jetant cette pièce est lamême et vaut 1

2.

Exemple 1.4.3 (Cas général). Soit Ω un univers discret fini d’une expérience.Soit P la loi de probabilité uniforme discrète.Si le cardinal de Ω, Card(Ω), (c’est à dire le nombre d’éléments de Ω) vaut n alors on a :

∀ ω ∈ Ω, P(ω) =1

Card(Ω)=

1

n

Proposition 1.4.1. Tout événement A étant une sous partie de l’univers Ω, on en déduit que siP est la probabilité uniforme discrète on a :

∀A ⊂ Ω, P(A) =Card(A)

Card(Ω)=|A||Ω|

20

Démonstration 1.4.1. En utilisant le fait que tous les ω ∈ Ω sont incompatibles, on a :

P(A) = P(A ∩ Ω) = P

(⋃ω∈Ω

(A ∩ ω)

)=∑ω∈Ω

P(A ∩ ω) =∑ω∈A

P(ω)

Donc on a démontré que pour tout événement A on a : P(A) =∑ω∈A

P(ω)

Comme ici P est la probabilité uniforme discrète on a :

∀ω ∈ Ω, P(ω) =1

Card(Ω)

Donc :P(A) =

∑ω∈A

P(ω) = P(ω) + ...+ P(ω)︸ ︷︷ ︸Card(A) fois

= Card(A)× P(ω) =Card(A)

Card(Ω

Exemple 1.4.4 (lancé de deux dés). Prenons l’exemple d’un lancé de deux dés non pipés.L’univers Ω, qui est l’ensemble des issues de cette expérience, est donc égal à :

Ω = (1, 1); (1, 2); ...; (1, 6); (2, 1); ...; (2, 6); (3, 1); ......; (6, 6)

= 1; 2; 3; 4; 5; 6 × 1; 2; 3; 4; 5; 6

On en déduit que cette expérience possède Card(1; 2; 3; 4; 5; 6)×Card(1; 2; 3; 4; 5; 6) = 6× 6 =

36 issues.Donc le cardinal de Ω est égal à : |Ω| = 36

En utilisant la probabilité uniforme discrète, calculons l’événement A : “Obtenir un 7” :Pour obtenir un 7, il faut que la somme des deux dés soit égale à 7. Les issues de Ω vérifiant cecisont :

(1, 6), (2, 5), (3, 4), (4, 3), (5, 2) et (6, 1)

Il y a donc, 6 issues de Ω vérifiant l’événement A.Donc le cardinal de A est égal à : |A| = 6

On en déduit que la probabilité d’obtenir un 7 en lançant deux dés est égale à :

P(A) =|A||Ω|

=6

36=

1

6

Exemple 1.4.5 (Tirage de deux boules dans une urne en contenant trois). Prenons l’exemple d’untirage successif et sans remise de deux boules dans une urne en contenant trois. Les trois boulescontenues dans l’urne sont de différentes couleurs, il y en a une bleue, une rouge et une verte.

21

L’ordre dans lequel les boules sont tirés est noté.

L’univers Ω qui est l’ensemble des issues de cette expérience, est donc égal à :

Ω = (Bleue,Rouge); (Rouge,Bleue); (Bleue, V erte); (V erte, Bleue); (Rouge, V erte); (V erte, Rouge)

Cette expérience possède 6 issues, donc le cardinal de Ω est égal à : |Ω| = 6

En utilisant la probabilité uniforme discrète, calculons l’événement RV : “Obtenir une boule rougeet une boule verte” :Les deux issues de Ω vérifiant l’évènement RV sont (Rouge, V erte) et (V erte, Rouge).Donc le cardinale de RV est égal à : |RV | = 2.On en déduit que la probabilité d’obtenir une boule rouge et une boule verte est égale à :

P(RV ) =|RV ||Ω|

=2

6=

1

3

Dans certains cas, le nombre d’éléments d’un ensemble étant difficile à calculer il est nécessairede faire appel à la théorie du dénombrement pour calculer une probabilité.L’annexe B contient un extrait de cette théorie.

22

1.5 Synthèse

Soit Ω un univers et A et B deux évènements. On a :

• P(Ω) = 1

• P(∅) = 0

• P(A) = 1− P(Ac)

• P(A ∪B) = P(A) + P(B)− P(A ∩B)

• Si P est la probabilité uniforme discrète on a : P(A) =|A||Ω|

23

24

Chapitre 2

Indépendance et probabilité conditionnelle

La notion d’indépendance est intuitive. Pour la visualiser prenons l’exemple le plus récurrent :le lancé d’un dé. On lance deux dés et on nomme A : "Avoir un 6 avec le premier dé" et B : "Avoirun 6 avec le deuxième dé". Alors il est évident que le résultat du deuxième dé est indépendant decelui du premier. On dit alors que les deux évènements A et B sont indépendants.

Dans la même logique comment définir la probabilité conditionnelle ? C’est en réalité une notionqui encore une fois nous vient naturellement lorsqu’on se pose par exemple la question : "Quelleest la probabilité qu’il pleuve sachant qu’il y a des nuages". On peut alors analyser cette questionen détachant deux évènements. Le premier serait A : "Il pleut" et le deuxième B : "Il y a desnuages", et on souhaiterait alors trouver la probabilité de A sachant B.

Nous allons formaliser dans ce chapitre ces idées en ne traitant que le cas des évènementsaléatoires. Nous traiterons plus tard le cas des variables aléatoires.

2.1 Indépendance

Définition 2.1.1 (Évènements indépendants). Soit (Ω, A, P) un espace probabilisé et soit A etB deux évènements définis sur cet espace. On dit que A et B sont indépendants si et seulement siP(A ∩B) = P(A)P(B).

Exemple 2.1.1 (lancé de deux dés). Prenons l’exemple d’un lancé successif de deux dés non pipés.Notons A l’évènement “obtenir un 5 avec le premier dé” et B l’évènement “obtenir un 3 avec ledeuxième dé”.

Montrons que les évènements A et B sont indépendants.

L’univers Ω qui est l’ensemble des issues de cette expérience vaut :

Ω = 1; 2; 3; 4; 5; 6 × 1; 2; 3; 4; 5; 6

25

Donc le cardinal de Ω est égal à : |Ω| = 6× 6 = 36.

L’évènement A est vérifié par les issues de Ω : (5, 1), (5, 2), (5, 3), (5, 4), (5, 4) et (5, 6).Donc le cardinal de A vaut : |A| = 6

L’évènement B est vérifié par les issues de Ω : (1, 3), (2, 3), (3, 3), (4, 3), (5, 3) et (6, 3).Donc le cardinal de A vaut : |B| = 6

DoncP(A) =

|A||Ω|

=6

36=

1

6

etP(B) =

|B||Ω|

=6

36=

1

6

L’évènement A ∩ B : “Obtenir un 5 avec le premier dé et un 3 avec le deuxième dé est vérifiéuniquement par l’issue (5, 3).Donc le cardinal de A ∩B vaut : |A ∩B| = 1.

DoncP(A ∩B) =

|A ∩B||Ω|

=1

36

OrP(A)× P(B) =

1

6× 1

6=

1

36

Donc comme P(A ∩B) = P(A).P(B) les évènements A et B sont bien indépendants.

Définition 2.1.2 (Indépendance dans leur ensemble). Soit (Ω, A, P) un espace probabilisé et soit(Ai)i∈I une suite d’évènements aléatoires définies sur cet espace. On dit que les Ai sont indépen-dants dans leur ensemble si et seulement si pour tout J ⊂ I on a :

P(⋂j∈J

Aj) =∏j∈J

P(Aj)

Exemple 2.1.2 (Lancé de trois dés). On se propose de lancer trois dés et d’étudier l’indépendancede trois évènements liés à cette expérience aléatoire. Notons :

A : "Avoir un 2 au premier lancé"

B : "Avoir un 5 au deuxième lancé"

C : "La somme des deux lancés vaut 6"

26

Calculons tout d’abord les probabilités de chaque évènement pris séparément. On obtient di-rectement :

P(A) = P(B) = 16et P(C) = 5

36(voir le chapitre 1 pour le détails de ce calcul).

Donc P(A)P(B)P(C) = 16× 1

6× 5

36= 5

1296

En revanche comme, A ∩B ∩ C = ∅, on a : P(A ∩B ∩ C) = 0.

Comme P(A)P(B)P(C) 6= P(A ∩ B ∩ C) les évènements A, B et C ne sont pas indépendantsdans leur ensemble.

Remarque 2.1.1. Attention la notion d’indépendance dans leur ensemble est très forte car elleest définie pour tout sous ensemble J de I. Donc si on a indépendance dans leur ensemble d’uncertain nombres d’évènements, on a également l’indépendance deux à deux, l’indépendance trois àtrois etc...

Lorsqu’on dit indépendance deux à deux, cela signifie par exemple dans le cas de trois évène-ments A, B et C que :

P(A ∩B) = P(A)P(B)

et P(A ∩ C) = P(A)P(C)

et P(B ∩ C) = P(B)P(C)

On définie de la même manière l’indépendance trois à trois etc...

Attention : La réciproque est fausse ! Si on a l’indépendance deux à deux cela n’implique parl’indépendance dans leur ensemble.

Proposition 2.1.1 (Indépendance et complémentaire). Soit (Ω, A, P) un espace probabilisé etsoit A et B deux évènements indépendants.

Alors :

– A et Bc sont indépendants– Ac et B sont indépendants– Ac et Bc sont indépendants

Démonstration 2.1.1. Démontrons la première assertion :

On a : P(A ∩Bc) = P(A)− P(A ∩B) (voir les rappels de théories des ensembles).

Comme A et B sont indépendants on a donc :

27

P(A ∩Bc) = P(A)− P(A)P(B)

= P(A)(1− P(B))

= P(A)P(Bc)

Donc par définition : A et Bc sont indépendants. (On démontre de la même manière la deuxièmeassertion)

Démontrons la troisième assertion :

On a : P(Ac ∩Bc) = P(Ω)− P(A ∪B)

Comme A et B sont indépendants, on obtient :

P(Ac ∩Bc) = 1− P(A)− P(B) + P(A ∩B)

= P(Ac)− P(B) + P(A)P(B)

= P(Ac)− P(B) + (1− P(Ac))P(B)

= P(Ac)− P(Ac)P(B)

= P(Ac)(1− P(B))

= P(Ac)P(Bc)

Donc Ac et Bc sont indépendants.

2.2 Probabilité conditionnelle

2.2.1 Généralités

Définition 2.2.1 (Probabilité conditionnelle). Soit (Ω, A, P) un espace probabilisé et soit A et Bdeux évènements appartenant à cet espace. L’évènement A sachant B, noté A|B, et sa probabilitéest définie par :

P(A|B) =P(A ∩B)

P(B)

Remarque 2.2.1. Tout d’abord cette définition n’a un sens que si P(B) > 0. Si on a P(B) = 0

alors il est évident que : P(A|B) = P(A), mais nous reviendrons plus loin dessus.

28

Remarque 2.2.2 (Fondamentale). Il est très important de remarquer que d’écrire P(A|B) n’estqu’une notation. La probabilité conditionnelle doit être vu comme une probabilité prenant en argu-ment l’événement A. Ainsi l’argument ne dépend pas de B. En particulier on peut alors énoncé laproposition suivante :

Proposition 2.2.1. Soit A et B deux événéments.

P(Ac|B) = 1− P(A|B)

Remarque 2.2.3. On peut remarquer qu’on a également : P(B|A) = P(A∩B)P(A)

, à condition toujoursd’avoir P(A) > 0. Ce qui nous amène a écrire : P(A ∩B) = P(B|A)P(A).

On obtient alors une nouvelle définition d’une probabilité conditionnelle :

Proposition 2.2.2 (deuxième définition). Soit (Ω, A, P) un espace probabilisé et soit A et B deuxévènements appartenant à cet espace. Alors :

P(A|B) =P(B|A)P(A)

P(B)

On peut directement voir un cas particulier important si A et B sont indépendants. Cela vanous permettre de donner une nouvelle définition de l’indépendance d’évènement.

Proposition 2.2.3 (Indépendance et probabilité conditionnelle). Soit (Ω, A, P) un espace prob-abilisé et A et B deux évènements indépendants appartenant à cet espace, alors :

P(A|B) = P(A)

Démonstration 2.2.1. Celle ci est évidente et découle directement de la définition. En effet :

P(A|B) =P(A ∩B)

P(B)

Or par indépendance de A et B on a : P(A ∩B) = P(A)P(B).

Donc on a :

P(A|B) =P(A)P(B)

P(B)= P(A)

29

Théorème 2.2.1 (sur l’indépendance des évènements). Soit (Ω, A, P) un espace probabilisé et Aet B deux évènements définis sur cet espace. Alors A et B sont indépendants si et seulement si :

P(A|B) = P(A)

Démonstration 2.2.2. La première implication a été démontré à la proposition précédente. Dé-montrons la réciproque qui est immédiate.

Supposons : P(A|B) = P(A). Or par définition on a : P(A|B) = P(A∩B)P(B)

.

Donc on a : P(A∩B)P(B)

= P(A)

Et donc : P(A ∩B) = P(A)P(B)

Donc A et B sont indépendants.

Remarque 2.2.4. Ce théorème est fondamental et bien plus intuitif que la première définitionde l’indépendance que nous avons vue. En effet si la probabilité de A sachant B est égale à laprobabilité de A cela signifie que le fait de conditionner par B n’a aucune incidence. Donc que Aet B sont bel et bien indépendants.

On a donc aussi pu prouver la remarque 2.2.1.

Exercice 2.2.1. Soit A et B deux évènements tels que : P(A) > 0 et P(B) > 0 et tels que A et Bsoient incompatibles.

Montrer que ces deux évènements ne sont pas indépendants.

2.2.2 Généralisation aux familles d’évènements

Dans notre première partie, sur les probabilités conditionnelles, nous n’avons traité que le casoù nous n’avions que deux évènements. Or très souvent il nous sera demandé d’étudier plus dedeux évènements. Nous allons donc essayer de généraliser les définitions à des suites d’évènements.

Dans toute cette partie on considèrera (Ω, A, P) un espace probabilisé et (Ai)1≤i≤n une familled’évènements appartenant à cet espace.

Théorème 2.2.2 (Probabilité conditionnelle en cascade). Si P(⋂

1≤i≤n−1

Ai) > 0 alors :

P(⋂

1≤i≤n

Ai) = P(A1)P(A2|A1)P(A3|A1 ∩ A2)...P(An|A1 ∩ ... ∩ An−1)

30

Démonstration 2.2.3. La démonstration se fait par récurrence.

Soit n ≥ 2 posons : P (i) : ”P(⋂

1≤i≤nAi) = P(A1)P(A2|A1)P(A3|A1∩A2)...P(An|A1∩ ...∩An−1)”

−→ Initialisation :

Pour i = 2, c’est la formule vu à la remarque 2.2.1. P(A ∩B) = P(B|A)P(A).Donc P (2) est vraie.

−→ Hérédité :

Supposons P (n− 1) vraie pour un certain n, montrons que P (n) est vraie.

On a :

P(⋂

1≤i≤n

Ai) = P((⋂

1≤i≤n−1

Ai) ∩ An)

= P(⋂

1≤i≤n−1

Ai)P(An|⋂

1≤i≤n−1

Ai) (en utilisant la formule pour n = 2)

Donc par hypothèse de récurrence :

P(⋂

1≤i≤n

Ai) = P(A1)P(A2|A1)P(A3|A1 ∩ A2)...P(An|A1 ∩ ... ∩ An−1)

−→ Conclusion : Pour tout n ≥ 2, P (n) est vraie.

Théorème 2.2.3 (Formule des probabilités totales). Soit (Ai)1≤i≤n une famille d’évènementsdénombrable incompatibles deux à deux, telle que ∀i ∈ [1, n],P(Ai) > 0 et :

P(⊔i∈I

Ai) = 1

Alors pour tout évènement A ∈ A on a :

P(A) =∑i∈I

P(A|Ai)P(Ai)

Démonstration 2.2.4. Tout d’abord comme les évènements Ai forment une partition de l’univers,il est évident que :

A = (A ∩ A1) ∪ ... ∪ (A ∩ An)

31

Donc :

P(A) =n∑i=1

P(A ∩ Ai) car tous les évènements sont incompatibles par hypothèse

=n∑i=1

P(A|Ai)P(Ai)

Remarque 2.2.5. Un cas très souvent utilisé est le cas n = 2. Si on prend un évènement B telque : B ∪ Bc = Ω, on a bien entendu B ∩ Bc = ∅ par définition du complémentaire. Donc pourtout évènement A :

P(A) = P(A|B)P(B) + P(A|Bc)P(B)

Enfin nous pouvons finir ce chapitre en combinant la formule des probabilités totales à ladéfinition d’une probabilité conditionnelle.

Théorème 2.2.4 (Théorème de Bayes). Soit (Ai)i∈I une famille d’évènements dénombrable in-compatibles deux à deux, telle que ∀i ∈ I, P(Ai) > 0 et :

P(⊔i∈I

Ai) = 1

On a : ∀A ∈ A tel que P(A) > 0, alors ∀i ∈ I :

P(Ai|A) =P(A|Ai)P(Ai)∑

j∈IP(A|Aj)P(Aj)

Démonstration 2.2.5. En utilisant la définition de la probabilité conditionnelle on a :

P(Ai|A) =P(Ai ∩ A)

P(A)

=P(A|Ai)P(Ai)

P(A)

=P(A|Ai)P(Ai)∑

j∈IP(A|Aj)P(Aj)

(application de la formule des probabilités totales)

32

2.3 Synthèse

Soit Ω un univers et A et B deux évènements. On a :

• P(A|B) =P(A ∩B)

P(B)=

P(B|A)P(A)

P(B)

• A et B sont indépendants si et seulement si : P(A ∩B) = P(A).P(B)

• Si A et B sont indépendants alors : P(A|B) = P(A) et P(B|A) = P(B)

• Probabilité conditionnelle en cascade : Si P(⋂

1≤i≤n−1

Ai) > 0 alors :

P(⋂

1≤i≤n

Ai) = P(A1)P(A2|A1)P(A3|A1 ∩ A2)...P(An|A1 ∩ ... ∩ An−1)

• Formule des probabilités totales : P(A) =∑i∈I

P(A|Ai)P(Ai)

• Théorème de Bayes : Soit (Ai)i∈I un système complet d’évènements, tel que ∀i ∈ I,P(Ai) > 0

et A un évènement tel que P(A) > 0. On a :

P(Ai|A) =P(A|Ai)P(Ai)∑

j∈IP(A|Aj)P(Aj)

33

34

Chapitre 3

Variables aléatoires réelles discrètes

3.1 Variables aléatoires

Définition 3.1.1 (variable aléatoire). Une variable aléatoire est une fonction X, allant d’ununivers Ω dans un ensemble E.

X : Ω −→ E

ω −→ y

Définition 3.1.2 (variable aléatoire réelle). Une variable aléatoire réelle est une fonction X, allantd’un univers Ω dans un ensemble E ⊂ R

Définition 3.1.3 (variable aléatoire réelle discrète). Une variable aléatoire réelle discrète est unefonction X, allant d’un univers Ω dans un ensemble discrèt E ⊂ R.

Dans ce chapitre on ne prendra que des variables aléatoires discrètes.

Notation 3.1.1. Soient A une sous partie de Ω et x un réel.L’ensemble ω | X(ω) ∈ A est un évènement. De même, ω | X(ω) = x est un évènement.

Par conséquent, on peut calculer P(ω | X(ω) ∈ A) et P(ω | X(ω) = x).

Afin d’alléger les écritures on notera : P(X ∈ A) à la place de P(ω | X(ω) ∈ A)et P(X = x) à la place de P(ω | X(ω) = x).

35

Exemple 3.1.1 (lancé d’un dé). Prenons comme exemple, une variable aléatoire X affichant lerésultat d’un lancé de dé.L’univers Ω est égal ici à 1; 2; 3; 4; 5; 6 et son cardinal est égal à : |Ω| = 6.

Les valeurs que peut prendre la variable aléatoire X sont 1,2,3,4,5 et 6.Donc ∀ω ∈ Ω, X(ω) ∈ 1; 2; 3; 4; 5; 6.

La probabilité d’obtenir un 1, vaut

P(X = 1) =1

6

La probabilité d’obtenir un 2, vaut

P(X = 2) =1

6

et ainsi de suite :

P(X = 3) =1

6P(X = 4) =

1

6P(X = 5) =

1

6et P(X = 6) =

1

6

Exemple 3.1.2 (somme de deux dés). Prenons comme exemple, une variable aléatoire Y affichantla somme obtenue après un lancé de deux dés.L’univers Ω est égal ici à 1; 2; 3; 4; 5; 6×1; 2; 3; 4; 5; 6 et son cardinal est égal à : |Ω| = 6×6 = 36.

Les valeurs que peut prendre la variable aléatoire Y sont 2,3,4,5,6,7,8,9,10,11 et 12.Donc ∀ω ∈ Ω, X(ω) ∈ 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12.

La probabilité d’obtenir un 2, vaut

P(X = 2) =|(1; 1)||Ω|

=1

36

La probabilité d’obtenir un 3, vaut

P(X = 3) =|(1; 2); (2; 1)|

|Ω|=

2

36=

1

18

La probabilité d’obtenir un 4, vaut

P(X = 4) =|(1; 3); (2; 2); (3; 1)|

|Ω|=

3

36=

1

12

36

...

La probabilité d’obtenir un 12, vaut

P(X = 12) =|(6; 6)||Ω|

=1

36

Vocabulaire 3.1.1. Soit (Ω;A;P) un espace probabilisé et X une variable aléatoire à valeurs dansun ensemble E.L’ensemble des P(X = x)x∈E s’appelle la loi de X.

Exemple 3.1.3. La loi de la variable aléatoire X de l’exemple 3.0.1 est :

∀k ∈ 1; 2; 3; 4; 5; 6, P(X = k) =1

6

La loi de la variable aléatoire Y de l’exemple 3.0.2 est plus longue à donner, car il n’y a pas deformule générale qui s’en dégage. La loi de Y est donc :

P(Y = 2) = P(Y = 12) =1

36

P(Y = 3) = P(Y = 11) =1

18

P(Y = 4) = P(Y = 10) =1

12

P(Y = 5) = P(Y = 9) =1

9

P(Y = 6) = P(Y = 8) =5

36

P(Y = 7) =1

6

Proposition 3.1.1 (Fondamentale). Soit X une variabe aléatoire réelle discrète à valeur dans E.Alors les éléments de l’ensemble X = xx∈E forment une partition de l’univers.On obtient alors par σ-additivité :

∑x∈E

P(X = x) = 1

37

Démonstration 3.1.1. Montrons tout d’abord que les événements sont incompatibles. Soient i, j ∈E tels que i 6= j, supposons par l’absurde qu’il existe ω ∈ X = i ∩ X = j. Alors par définition(de cette notation), X(ω) = i et X(ω) = j, ce qui est absurde.

Montrons que la réunion des événements est égale à l’univers. On peut voir directement que :

⋃x∈E

X = x = X ∈ E déf= Ω

La dénombrabilité de l’espace discret E nous permet alors d’utiliser la σ-additivité.

3.2 Propriétés

3.2.1 Loi marginale

Notation 3.2.1. La probabilité que X vaille x et que Y vaille y peut se noter indifféremment :

P(X = x; Y = y) ou P(X = x ∩ Y = y)

Proposition 3.2.1 (Loi marginale). Soit X une variable aléatoire à valeurs dans un ensemble EXet Y une variable aléatoire à valeurs dans un ensemble EY . On a pour tout k ∈ EX :

P(X = k) =∑i∈EY

P(X = k ; Y = i)

Démonstration 3.2.1. En remarquant que l’évènement X = k est égal à l’évènement

X = k ∩

( ⋃i∈EY

Y = i

)

38

on a :

P(X = k) = P

(X = k ∩

( ⋃i∈EY

Y = i

) )

= P

(X = k ;

⋃i∈EY

Y = i

)

= P

( ⋃i∈EY

X = k ; Y = i

)

=∑i∈EY

P(X = k ; Y = i) (par la proposition fondamentale et l’axiome 3 de Kolmogorov)

Exemple 3.2.1. Soit Y une variable aléatoire ne prenant que trois valeurs : 1, 2 et 3.Soit X une autre variable aléatoire à valeurs dans N telle que :

P(X = 17; Y = 1) = 0.1 P(X = 17; Y = 2) = 0.5 P(X = 17; Y = 3) = 0.2

−→ Quelle est la probabilité que X vaille 17 ?

On sait que Y a toutes ses valeurs dans 1; 2; 3. En utilisant la loi marginale on a :

P(X = 17) =∑

k∈1;2;3

P(X = 17 ; Y = k)

=3∑

k=1

P(X = 17 ; Y = k)

= P(X = 17; Y = 1) + P(X = 17; Y = 2) + P(X = 17; Y = 3)

= 0.1 + 0.5 + 0.2

= 0.8

Donc la probabilité que X vaille 17 est de 0.8.

39

3.2.2 Loi conditionnelle

Définition 3.2.1 (Loi conditionnelle). Soient X et Y deux variables aléatoires définies sur unmême espace probabilisé.La probabilité que X vaille x en sachant que Y vaut y est égale à :

P(X = x|Y = y) =P(X = x ∩ Y = y)

P(Y = y)

Exemple 3.2.2 (Tirage successif). Prenons l’exemple d’un tirage successif de deux boules sansremise dans une urne contenant une boule rouge, une boule verte et une boule bleue.Soit X la variable aléatoire rendant le résultat du premier tirage.Soit Y la variable aléatoire rendant le résultat du second tirage.Calculons la probabilité d’obtenir la boule bleue au second tirage en sachant qu’on a tiré la rougeau premier :

P(Y = bleue|X = rouge) =P(Y = bleue ∩X = rouge)

P(X = rouge)=

1613

=1

2

Donc nous avons une chance sur deux de tirer la boule bleue au second tirage en sachant qu’on atiré la rouge au premier.

3.3 Fonction de répartition

Définition 3.3.1 (Fonction de répartition). Soit X une variable aléatoire réelle.On appelle fonction de répartition de X la fonction, FX , qui à tout réel k associe :

FX(k) = P(X ≤ k)

Exemple 3.3.1. Soit X une variable aléatoire renvoyant la valeur d’un lancé de dé non pipé etsoit FX sa fonction de répartition. Voici quelques exemples de valeurs que peut prendre FX :

– FX(18) = P(X ≤ 18) = P(X = 6) + P(X = 5) + ...+ P(X = 1) = 6× 1

6= 1

– FX(6) = P(X ≤ 6) = P(X = 6) + P(X = 5) + ...+ P(X = 1) = 6× 1

6= 1

– FX(3) = P(X ≤ 3) = P(X = 3) + P(X = 2) + P(X = 1) = 3× 1

6=

1

2

40

– FX(√

2) = P(X ≤√

2) = P(X = 1) =1

6

– FX(−5) = P(X ≤ −5) = 0

Propriétés 3.3.1. Soit X, une variable aléatoire réelle.FX est une fonction de répartition de X si et seulement si :

1. FX est croissante sur R

2. FX est continue à droite en tout point de R

3. limk→−∞

FX(k) = 0

4. limk→+∞

FX(k) = 1

Démonstration 3.3.1.

1. Soient x et y deux réels tels que x < y. On a donc : ]−∞;x] ⊂]−∞; y] et par conséquent :

P(X ∈]−∞;x]) ≤ P(X ∈]−∞; y])⇐⇒ P(X ≤ x) ≤ P(X ≤ y)⇐⇒ FX(x) ≤ FX(y)

Donc FX est croissante sur R.

2. Montrer que FX est continue à droite en tout point de R, revient à montrer que pour touta ∈ R,

limx→ax>a

FX(x) = FX(a)⇐⇒ limn→+∞

FX(a+1

n) = FX(a)

Or,

limn→+∞

FX(a+1

n) = lim

n→+∞P(X ∈]−∞; a+

1

n])

= P(X ∈⋂n≥1

]−∞; a+1

n]) (?)

= P(X ∈]−∞; a])

= FX(a)

41

3.

limk→−∞

FX(k) = limk→−∞

P(X ∈]−∞; k])

= P(X ∈]−∞;−∞]) (?)

= P(X ∈ ∅)

= P(∅)

= 0

4.

limk→+∞

FX(k) = limk→+∞

P(X ∈]−∞; k])

= P(X ∈]−∞; +∞[) (?)

= P(X ∈ R)

= 1

Les trois passages de cette démonstration comportant ce signe (?) font référence à deux propriétéssur les suites d’ensembles. La première propriété utilisée pour effectuer ces passages et que : Si(An)n∈N est une suite décroissante au sens de l’inclusion, c’est à dire, que :∀n ∈ N, An+1 ⊆ An, alors on a :

limn→+∞

P(An) = P(⋂n≥0

An)

La seconde propriété est que : Si (An)n∈N est une suite croissante au sens de l’inclusion, c’est àdire, que :∀n ∈ N, An ⊆ An+1, alors on a :

limn→+∞

P(An) = P(⋃n≥0

An)

Exemple 3.3.2. La fonction F définie telle que : ∀x ∈ R,

F (x) = 1 si x ≥ 3

F (x) = 0 si x < 3est une fonction

de répartition d’une variable aléatoire réelle.En effet, F vérifie les quatre propriétés d’une fonction de répartition :

1. F vaut 0 sur ]−∞; 3[ et vaut 1 sur [3; +∞[. Donc F est croissante sur R.

42

2. F est continue en tant que fonction constante sur ] −∞; 3[ et sur [3; +∞[. Donc F est enparticulier continue à droite sur ces deux intervalles. Vérifions qu’elle est continue à droiteau point 3 :

limx→3x>3

F (x) = 1 = F (3)

Donc F est continue à droite sur ]−∞; 3[∪3 ∪ [3; +∞[= R.Donc F est continue à droite en tout point de R.

3. Comme pour tout x < 3, F (x) = 0 on a :

limx→−∞

F (x) = 0

4. Comme pour tout x ≥ 3, F (x) = 1 on a :

limx→+∞

F (x) = 1

Exemple 3.3.3. Par contre, la fonction F définie telle que : ∀x ∈ R,

F (x) = 1 si x > 3

F (x) = 0 si x ≤ 3n’est

pas une fonction de répartition d’une variable aléatoire réelle.En effet, F , ne vérifie pas la deuxième propriété d’une fonction de répartition :

limx→3x>3

F (x) = 1 6= F (3) = 0

Donc, F n’est pas continue à droite en tout point de R et n’est donc pas une fonction de répartition.

3.4 Espérance, variance et écart type

3.4.1 Espérance

L’espérance d’une variable aléatoire réelle est un réel approximant la valeur la plus probableque cette variable aléatoire peut prendre.C’est à dire une estimation du résultat moyen qu’on aura au cours d’une expérience aléatoire.

Définition 3.4.1 (Espérance). Soit X une variable aléatoire discrète à valeurs dans un ensembleE.

Si la somme∑k∈E

|k|. P(X = k) est finie alors, X admet une espérance.

43

L’espérance est un nombre, se notant E(X) et égal à :

E(X) =∑k∈E

k. P(X = k)

Vocabulaire 3.4.1. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.Si la somme

∑k∈E

k. P(X = k) est finie alors on dit que X est intégrable.

Exemple 3.4.1 (Espérance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.

Nous avons démontré précédemment que les valeurs que prend X appartiennent à 1; 2; 3; 4; 5; 6et que sa loi est :

∀k ∈ 1; 2; 3; 4; 5; 6, P(X = k) =1

6

L’ensemble 1; 2; 3; 4; 5; 6 ne comportant que 6 éléments finis, la somme∑

k∈1;2;3;4;5;6|k|. P(X = k)

est une somme de 6 éléments finis, donc elle est finie et donc X admet une espérance.

Calculons l’espérance de X :

E(X) =∑

k∈1;2;3;4;5;6

k. P(X = k)

= 1× P(X = 1) + 2× P(X = 2) + 3× P(X = 3) + 4× P(X = 4) + 5× P(X = 5) + 6× P(X = 6)

= 1× 1

6+ 2× 1

6+ 3× 1

6+ 4× 1

6+ 5× 1

6+ 6× 1

6

=1 + 2 + 3 + 4 + 5 + 6

6

=21

6

=7

2

44

Donc l’espérance de X est égale à E(X) =7

2

Exemple 3.4.2 (Espérance d’une variable aléatoire Y renvoyant la somme d’un lancé de deuxdés). Prenons comme exemple, une variable aléatoire Y affichant la somme obtenue après un lancéde deux dés.

Nous avons démontré précédemment que les valeurs que prend Y appartiennent à2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12 et que sa loi est :

P(Y = 2) = P(Y = 12) =1

36

P(Y = 3) = P(Y = 11) =1

18

P(Y = 4) = P(Y = 10) =1

12

P(Y = 5) = P(Y = 9) =1

9

P(Y = 6) = P(Y = 8) =5

36

P(Y = 7) =1

6

L’ensemble 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12 ne comportant que 11 éléments finis, la somme∑k∈2;3;4;5;6;7;8;9;10;11;12

|k|. P(Y = k)

est une somme de 11 éléments finis, donc elle est finie et donc Y admet une espérance.

45

Calculons l’espérance de Y :

E(Y ) =∑

k∈2;3;4;5;6;7;8;9;10;11;12

k. P(Y = k)

= 2× P(Y = 2) + 3× P(Y = 3) + 4× P(Y = 4) + 5× P(Y = 5) + 6× P(Y = 6) + 7× P(Y = 7)

+ 8× P(Y = 8) + 9× P(Y = 9) + 10× P(Y = 10) + 11× P(Y = 11) + 12× P(Y = 12)

= 2× 1

36+ 3× 1

18+ 4× 1

12+ 5× 1

9+ 6× 5

36+ 7× 1

36+ 8× 5

36+ 9× 1

9+ 10× 1

12+ 11× 1

18

+ 12× 1

36

=2 + 6 + 12 + 20 + 30 + 7 + 40 + 36 + 30 + 22 + 12

36=

217

36

Donc l’espérance de Y est égale à E(Y ) =217

36

Propriétés 3.4.1. Soient X et Y deux variables aléatoires admettant une espérance.

1. Pour tout réel λ : E(λ) = λ

2. Linéarité : La variable aléatoire X + λ.Y admet aussi une espérance qui est égale à :

E(X + λ.Y ) = E(X) + E(λ.Y ) = E(X) + λ.E(Y )

3. Positivité : Si X ≥ 0 alors :

(a) E(X) ≥ 0

(b) et si de plus E(X) = 0 alors P(X = 0) = 1 (c’est à dire X est une constante égale à 0).

4. Croissance : Si X ≥ Y , c’est à dire si pour toute valeur de X toute valeur de Y estinférieur, alors :

E(X) ≥ E(Y )

Démonstration 3.4.1.

1. Calculer l’espérance d’un réel λ, consiste à calculer l’espérance d’une variable aléatoire con-stante et égale à λ.En prenant donc, une variable aléatoire X ne prenant qu’une unique valeur λ,

46

on a P(X = λ) = 1.Par conséquent,

E(X) =∑k∈λ

k . P(X = k) = λ . P(X = λ) = λ . 1 = λ

2. Démontrons que E(X + Y ) = E(X) + E(Y ) en considérant que X a ses valeurs dans unensemble EX = x1, x2, x3, ... et Y dans un ensemble EY = y1, y2, y3, ....

E(X + Y ) =∑i,j

(xi + yj) . P(X = xi, Y = yj)

=∑i,j

xi . P(X = xi, Y = yj) +∑i,j

yj . P(X = xi, Y = yj)

=∑i

xi∑j

P(X = xi, Y = yj) +∑j

yj∑i

P(X = xi, Y = yj)

=∑i

xi.P(X = xi) +∑j

yj.P(Y = yj)

= E(X) + E(Y )

Démontrons que E(λ.Y ) = λ.E(Y ) en considérant que Y a ses valeurs dans un ensembleE = e1, e2, e3, ....La variable aléatoire λ.Y a ses valeurs dans l’ensemble λ.e1, λ.e2, ....Par conséquent :

E(λ.Y ) =∑k∈E

λ.k . P(λ.Y = λ.k)

=∑k∈E

λ.k . P(Y = k) (car λ.Y = λ.k ⇔ Y = k)

= λ.∑k∈E

k . P(Y = k)

= λ.E(Y )

Nous venons de démontrer que E(X + Y ) = E(X) + E(Y ) et que E(λ.Y ) = λ.E(Y ).

47

Par conséquent : E(X + λ.Y ) = E(X) + λ.E(Y ).

3. (a) X ≥ 0 signifie que les valeurs que peut prendre X sont toutes positives.Donc X a ses valeurs dans un ensemble E = e1, e2, ... tel que tout ei ≥ 0.De plus, une probabilité étant toujours positive on a toujours P(X = ei) ≥ 0.On a donc :

E(X) =∑k∈E

k . P(X = k)

= e1︸︷︷︸≥0

.P(X = e1)︸ ︷︷ ︸≥0

+ e2︸︷︷︸≥0

.P(X = e2)︸ ︷︷ ︸≥0

+ e3︸︷︷︸≥0

.P(X = e3)︸ ︷︷ ︸≥0

+...

Comme E(X) est une somme d’éléments positifs, on a E(X) ≥ 0.

(b) Si de plus E(X) = 0 alors∑k∈E

k . P(X = k) = 0.

Si on ne prend que les valeurs de E qui sont strictement positives on a toujours :∑k∈E; k>0

k . P(X = k) = 0

Or, ∑k∈E; k>0

k . P(X = k) = 0

⇐⇒ k1︸︷︷︸k1>0

.P(X = k1)︸ ︷︷ ︸≥0

+ k2︸︷︷︸k2>0

.P(X = k2)︸ ︷︷ ︸≥0

+ k3︸︷︷︸k3>0

.P(X = k3)︸ ︷︷ ︸≥0

+... = 0

⇐⇒ P(X = k1) = P(X = k2) = P(X = k3) = ... = 0

Donc ∀k ∈ E, k > 0, P(X = k) = 0.Donc P(X = 0) = 1. Donc X est une constante égale à zéro.

4. X ≥ Y ⇐⇒ X − Y ≥ 0

Or, par positivité de l’espérance, X − Y ≥ 0 =⇒ E(X − Y ) ≥ 0.De plus, par linéarité de l’espérance, on a :

E(X − Y ) ≥ 0⇐⇒ E(X)− E(Y ) ≥ 0

⇐⇒ E(X) ≥ E(Y )

48

Théorème 3.4.1. Soit X une variable aléatoire à valeurs dans un ensemble E et f : E → R unefonction.Si la somme

∑k∈E

|f(k)| . P(X = k) est finie alors :

E (f(X)) =∑k∈E

f(k) . P(X = k)

Démonstration 3.4.2. La variable aléatoire X a ses valeurs dans un ensemble E, par conséquentla variable aléatoire f(X) a ses valeurs dans l’ensemble f(E).On en déduit le calcul suivant :

E(f(X)) =∑y∈f(E)

y . P(f(X) = y)

=∑y∈f(E)

∑k∈f−1(y)

f(k) . P(X = k)

(f−1(y) est l’antécédent de y)

=∑k∈E

f(k) . P(X = k)

Donc E(f(X)) =∑k∈E

f(k) . P(X = k).

3.4.2 Variance

La variance d’une variable aléatoire réelle est un réel approximant la dispertion des valeurs quecette variable aléatoire peut prendre autour de son espérance. La variance est donc proportionnelleà la distance des valeurs que peut prendre une variable aléatoire que peut prendre par rapport àsa valeur moyenne.

Définition 3.4.2 (Variance). Soit X une variable aléatoire discrète à valeurs dans un ensemble E.

Si la somme∑k∈E

k2. P(X = k) est finie alors, X admet une variance.

49

La variance est un nombre, se notant V(X) et égal à :

V(X) = E((X − E(X))2)

Vocabulaire 3.4.2. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.

Si la somme∑k∈E

k2. P(X = k) est finie alors on dit que X est de carré intégrable.

Propriétés 3.4.2. Soit X une variable aléatoire admettant une variance et donc une espérance.

1. V(X) = E(X2)− E(X)2

2. La variance est toujours positive.

3. Soient a et b deux réels, V(aX + b) = a2.V(X)

4. Si V(X) = 0 alors X est égale à une constante.

Démonstration 3.4.3. Avant de commencer cette démonstration il est important de remarquerque : E(E(X)) = E(X). En effet, E(X) est un réel, or on a démontré que pour tout réel λ, E(λ) = λ.

1. Par linéarité de l’espérance on a :

V(X) = E[(X − E(X))2]

= E[X2 − 2.X.E(X) + E(X)2

]= E(X2)− E(2.X.E(X)) + E(E(X)2)

= E(X2)− E(2).E(X).E(E(X)) + E(X)2

= E(X2)− 2.E(X).E(X) + E(X)2

= E(X2)− 2.E(X)2 + E(X)2

= E(X2)− E(X)2

2. Par définition, V(X) = E[(X − E(X))2].

On sait, par positivité de l’espérance, que si une variable aléatoire Z est positive alorsE(Z) ≥ 0.Or la variable aléatoire, (X − E(X))2, étant un carré est positive.Donc E

[(X − E(X))2] ≥ 0.

Donc V(X) ≥ 0

50

3. En utilisant la linéarité de l’espérance, on a :

V(aX + b) = E((aX + b)2

)− E(aX + b)2

= E(a2.X2 + 2.aX.b+ b2

)− (a.E(X) + E(b))2

= a2.E(X2) + E(2.aX.b) + E(b2)− (a.E(X) + b)2

= a2.E(X2) + 2.a.b.E(X) + b2 − (a.E(X) + b)2

= a2.E(X2) + 2.a.b.E(X) + b2 −(a2.E(X)2 + 2.a.b.E(X) + b2

)= a2.E(X2)− a2.E(X)2

= a2.(E(X2)− E(X)2

)= a2.V(X)

4. Comme V(X) = E[(X − E(X))2], on a :

V(X) = 0

⇐⇒ E[(X − E(X))2] = 0

(X − E(X))2 est une variable aléatoire positive et nous venons de montrer que son espéranceest nulle.Or nous avons démontrer dans les propriétés de l’espérance que si Z est une variable aléatoirepositive et que E(Z) = 0, alors Z est la fonction nulle.Par conséquent :

(X − E(X))2 = 0

⇐⇒ X − E(X) = 0

⇐⇒ X = E(X)

Comme l’espérance E(X) est un réel, la variable aléatoire X est égale à un réel.Donc si V(X) = 0 alors X est une constante.

Exemple 3.4.3 (Variance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.

51

Nous avons démontré précédemment que la loi de X est :

∀k ∈ 1; 2; 3; 4; 5; 6, P(X = k) =1

6

et que son espérance est égale à E(X) =∑

k∈1;2;3;4;5;6

k . P(X = k) =7

2

Comme la somme∑

k∈1;2;3;4;5;6

k2 . P(X = k) est une somme de 6 éléments, elle finie et donc X

possède une variance.

Calculons la variance de X.On sait que V(X) = E(X2) − E(X)2. Donc pour déterminer la variance de X, il suffit de déter-miner E(X2) et E(X)2.

On sait que E(X) =7

2, donc E(X)2 =

(7

2

)2

=49

4.

Déterminons E(X2).On sait que si f est une fonction de 1; 2; 3; 4; 5; 6 dans R alors E(f(X)) =

∑k∈E

f(k) . P(X = k).

En prenant la fonction :

f : 1; 2; 3; 4; 5; 6 −→ R

k −→ k2

on a E(f(X)) = E(X2).

52

Donc :

E(X2) = E(f(X))

=∑

k∈1;2;3;4;5;6

f(k) . P(X = k)

=∑

k∈1;2;3;4;5;6

k2 . P(X = k)

= 12.P(X = 1) + 22.P(X = 2) + 32.P(X = 3) + 42.P(X = 4)

+ 52.P(X = 5) + 62.P(X = 6)

= 1.1

6+ 22.

1

6+ 32.

1

6+ 42.

1

6+ 52.

1

6+ 62.

1

6

= (1 + 4 + 9 + 16 + 25 + 36)× 1

6

=91

6

Donc E(X2) =91

6.

Donc la variance de X est égale à V(X) = E(X2)− E(X)2 =91

6− 49

4=

35

12

3.4.3 Ecart type

L’ecart type d’une variable aléatoire réelle est un réel approximant la dispertion moyenne desvaleurs que cette variable aléatoire peut prendre autour de son espérance. L’écart type est doncl’écart moyen à la valeur moyenne que peut prendre une variable aléatoire.

Définition 3.4.3 (Ecart type). Soit X une variable aléatoire possédant une variance.L’écart type de la variable aléatoire X est un réel égal à :

σ(X) =√

V(X)

53

Exemple 3.4.4 (Écart type d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).Prenons l’exemple de la variable aléatoire X renvoyant le résultat d’un lancé de dé.

Nous avons montré, précédemment, que sa variance est égale à V(X) =35

12.

Son écart type est donc égal à σ(X) =√

V(X) =

√35

12

3.5 Indépendance

Définition 3.5.1 (Indépendance de deux variables aléatoires).Soit X une variable aléatoire à valeurs dans EX et soit Y une variable aléatoire à valeursdans EY .Les variables aléatoires X et Y sont dites indépendantes si et seulement si :

∀x ∈ EX , ∀y ∈ EY , P(X = x, Y = y) = P(X = x)× P(Y = y)

La notion d’indépendance peut se généraliser à une famille quelconque de variables aléatoires.

Définition 3.5.2 (Indépendance de n variables aléatoires).Soient X1, X2, ..., Xn une famille de variables aléatoires à valeurs dans E1, E2, ..., En.Les variables aléatoires X1, X2, ..., Xn sont dites indépendantes si et seulement si :

∀x1 ∈ E1, ...,∀xn ∈ En, P(X1 = x1, X2 = x2, ..., Xn = xn) = P(X1 = x1)×P(X2 = x2)×...×P(Xn = xn)

Proposition 3.5.1. Soient X et Y deux variables aléatoires possédant une espérance.Si X et Y sont indépendantes alors :

E(XY ) = E(X)× E(Y )

Démonstration 3.5.1. En considérant que la variable aléatoire X à ses valeurs dans EX =

x1, x2, ... et que Y a ses valeurs dans EY = y1, y2, ..., la variable aléatoire XY à ses valeursdans x1.y1 ; x2.y2 ; ....

54

Par conséquent :

E(XY ) =∑

(x,y)∈EX×EY

x.y . P(X = x, Y = y)

=∑

(x,y)∈EX×EY

x.y . P(X = x)× P(Y = y) (par indépendance de X et Y )

=∑x∈EX

x . P(X = x)×∑y∈EY

y . P(Y = y)

= E(X)× E(Y )

Proposition 3.5.2. Soient X et Y deux variables aléatoires possédant une variance.Si X et Y sont indépendantes alors :

V(X + Y ) = V(X) + V(Y )

Démonstration 3.5.2. En utilisant la formule de la définition de la variance, V(X) = E((X − E(X))2),

et la linéarité de l’espérance, on a :

V(X + Y ) = E(

[ (X + Y )− E(X + Y ) ]2)

= E(

[ (X + Y )− E(X)− E(Y ) ]2)

= E(

[ (X − E(X)) + (Y − E(Y )) ]2)

= E(

(X − E(X))2 − 2.(X − E(X)).(Y − E(Y )) + (Y − E(Y ))2)

= E((X − E(X))2

)− E [2.(X − E(X)).(Y − E(Y ))] + E

((Y − E(Y ))2

)= V(X)− E [2.(X − E(X)).(Y − E(Y ))] + V(Y )

= V(X) + V(Y )− E [2.(X − E(X)).(Y − E(Y ))]

= V(X) + V(Y )− 2.E [(X − E(X)).(Y − E(Y ))]

= V(X) + V(Y )− 2.E [(X − E(X))] .E [(Y − E(Y ))] (Par indépendance de X et Y )

= V(X) + V(Y )− 2. (E(X)− E(E(X))) . (E(Y )− E(E(Y )))

= V(X) + V(Y )− 2. (E(X)− E(X)) . (E(Y )− E(Y ))

= V(X) + V(Y )− 2× 0× 0

= V(X) + V(Y )

55

3.6 Lois

3.6.1 Loi de Bernoulli

Définition 3.6.1 (Loi de Bernoulli). Soit p ∈ [0; 1].Une variable aléatoire X suit la loi de Bernoulli de paramètre p si :

X ne prend que les deux valeurs 0 et 1, et

P(X = 1) = p et P(X = 0) = 1− p

Vocabulaire 3.6.1. L’événement associé à 1 est nommé succès de l’expérience et l’événementassocié à 0 échec de l’expérience.

Notation 3.6.1. X suit la loi de Bernoulli de paramètre p se note : B(p).

Exemple 3.6.1 (Jeu de Pile ou Face). Prenons comme exemple, un jeu de Pile ou Face.Notons 0 l’évènement obtenir Pile et 1 l’évènement obtenir Face.Si la pièce est équilibrée, X suit une loi de Bernoulli de paramètre 0, 5, c’est à dire :

P(X = 1) = 0, 5 et P(X = 0) = 1− 0, 5 = 0, 5

Exemple 3.6.2 (Urne contenant deux types de boules). Prenons comme exemple, une variablealéatoire X renvoyant la couleur d’une boule tirée dans une urne contenant 15 boules blanches et20 boules noires.Notons 0 l’évènement obtenir une boule blanche et 1 obtenir une boule noire.

La probabilité d’obtenir une boule blanche est de20

20 + 15=

20

35.

Donc X suit la loi de Bernoulli de paramètre20

35, c’est à dire :

P(X = 1) =20

35et P(X = 0) = 1− 20

35=

15

35

56

Exemple 3.6.3 (Cas général). Toute expérience n’ayant que deux issues possibles peut être décritepar une variable aléatoire suivant la loi de Bernoulli en notant 1 le succès de l’expérience et 0

l’échec.

Propriété 3.6.1 (Espérance d’une variable suivant une loi de Bernoulli).Si X est une variable aléatoire suivant une loi de Bernoulli de paramètre p alors son espérance estégale à : E(X) = p

Démonstration 3.6.1.

E(X) =∑

k∈0;1

k . P(X = k)

= 0× P(X = 0) + 1× P(X = 1)

= 0× (1− p) + 1× p

= p

Propriété 3.6.2 (Variance d’une variable suivant une loi de Bernoulli).Si X est une variable aléatoire suivant une loi de Bernoulli de paramètre p alors sa variance estégale à : V(X) = p.(1− p).

Démonstration 3.6.2. On sait que V(X) = E(X2)− E(X)2.Déterminons E(X2) :En prenant la fonction f : k −→ k2, on a, par théorème, E(f(X)) =

∑k∈0;1

f(k) . P(X = k).

Donc :

E(X2) =∑

k∈0;1

k2 . P(X = k)

= 02 × P(X = 0) + 12 × P(X = 1)

= P(X = 1)

= p

Déterminons E(X)2 :Nous savons que E(X) = p, donc E(X)2 = p2

Donc V(X) = E(X2)− E(X)2 = p− p2 = p.(1− p)

57

3.6.2 Loi binomiale

Supposons qu’on renouvelle, indépendamment, n fois, une épreuve de Bernoulli de paramètre p.Une variable aléatoire X, suivant la loi binomiale, renverra le nombre de succès de cette expérience.Ainsi P(X = k) renverra la probabilité qu’on ait k succès au cours des n itérations.

Définition 3.6.2 (Loi binomiale). Soient p ∈ [0; 1] et n ∈ N.Une variable aléatoire X suit la loi binomiale de paramètres n et p si pour tout k ∈ 0, 1, ..., n :

P(X = k) =

(n

k

). pk . (1− p)n−k

Notation 3.6.2. X suit la loi binomiale de paramètres n et p se note : B(n, p).

Exemple 3.6.4 (10 lancés d’une pièce équilibrée).Prenons comme exemple, un jeu de Pile ou Face, réitéré 10 fois, en considérant qu’obtenir un Pileest le succès de cette expérience.La probabilité d’obtenir Pile est de 0, 5 et la probabilité d’obtenir Face de 0, 5, à chaque lancé.Donc X suit une loi binomiale de paramètres 0, 5 et 10. Ainsi pour tout k compris entre 0 et 10,on a :

P(X = k) =

(10

k

). 0, 5k . (1− 0, 5)10−k

Calculons la probabilité d’obtenir exactement 2 piles au cours de ces 10 lancés :La variable aléatoire X renvoyant le nombre de succès obtenus au cours de ces 10 lancés, on calculela probabilité que X soit égal à 2 :

P(X = 2) =

(10

2

). 0, 52 . (1− 0, 5)10−2

=10!

2!× (10− 2)!. 0, 52 . (0, 5)8

=10!

2!× (8)!. 0, 510

=9× 10

2!. 0, 510

≈ 0, 04

58

Donc la probabilité d’obtenir 2 piles au cours de ces 10 lancés est de 0, 04.

Calculons la probabilité d’obtenir exactement 6 faces au cours de ces 10 lancés.Ici, l’échec de cette expérience est d’obtenir face, or la variable X ne renvoi que la probabilité dunombre de succès. Donc en remarquant que la probabilité d’obtenir 6 faces au cours de ces 10 lancésrevient à calculer la probabilité d’obtenir 4 piles, on peut calculer cette première probabilité :

P(X = 4) =

(10

4

). 0, 54 . (1− 0, 5)10−4

=10!

4!× (10− 4)!. 0, 54 . (0, 5)6

=10!

4!× (6)!. 0, 510

=7× 8× 9× 10

4!. 0, 510

≈ 0, 2

Donc la probabilité d’obtenir 6 faces au cours de ces 10 lancés est de 0, 2.

Propriété 3.6.3 (Espérance d’une variable suivant une loi binomiale).Si X est une variable aléatoire suivant une loi binomiale de paramètres n et p alors son espéranceest égale à : E(X) = np

Démonstration 3.6.3. On peut démontrer cette propriété de deux manières différentes.

−→ première manière.On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente nexpérience de Bernoulli de paramètre p. Par conséquent :

X = X1 +X2 + ...+Xn

où chaque Xi est une variable suivant la loi de Bernoulli de paramètre p.

59

Donc en utilisant la linéarité de l’espérance et le fait que pour tout Xi, E(Xi) = p on a :

E(X) = E(X1 +X2 + ...+Xn)

= E(X1) + E(X2) + ...+ E(Xn)

= p+ p+ ...+ p︸ ︷︷ ︸n fois

= np

−→ deuxième manière (calculatoire).

E(X) =∑

k∈0,1,...,n

k . P(X = k)

=∑

k∈0,1,...,n

k .

(n

k

). pk . (1− p)n−k

=∑

k∈0,1,...,n

k .

(n

k

). pk . qn−k ( avec q = (1− p) )

Or d’après la formule du binôme de Newton on a pour tout réel x :

(px+ q)n =n∑k=0

(n

k

). (px)k . qn−k =

n∑k=0

(n

k

). xk . pk . qn−k

En dérivant selon x des deux côtés on a :

np(px+ q)n−1 =n∑k=0

(n

k

). k.xk−1 . pk . qn−k

Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :

np(p+ q)n−1 =n∑k=0

(n

k

). k . pk . qn−k

On a donc retrouvé la formule de E(X), par conséquent :

E(X) = np(p+ q)n−1

En reécrivant (1− p) à la place de q on a finalement :

E(X) = np(p+ q)n−1 = np(p+ 1− p)n−1 = np(1)n−1 = np

60

Propriété 3.6.4 (Variance d’une variable suivant une loi binomiale).Si X est une variable aléatoire suivant une loi binomiale de paramètres n et p alors sa varianceest égale à : V(X) = n.p.(1− p).

Démonstration 3.6.4. On peut démontrer cette propriété de deux manières différentes.

−→ première manière.On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente nexpérience de Bernoulli de paramètre p, indépendantes entre elles. Par conséquent :

X = X1 +X2 + ...+Xn

où chaque Xi est une variable suivant la loi de Bernoulli de paramètre p.En utilisant le fait que tous les Xi sont indépendants et le fait que pour tout Xi, V(Xi) = p.(1−p)on a :

V(X) = V(X1 +X2 + ...+Xn)

= V(X1) + V(X2) + ...+ V(Xn) (par indépendance des Xi)

= p.(1− p) + p.(1− p) + ...+ p.(1− p)︸ ︷︷ ︸n fois

= n.p.(1− p)

−→ deuxième manière (calculatoire).Par définition, V(X) = E(X2)− E(X)2.Calculons E(X2) :

E(X2) =∑

k∈1,2,...,n

k2 . P(X = k)

Nous avons démontré lors de la démonstration précédente que pour tout réel x on a :

np(px+ q)n−1 =n∑k=0

(n

k

). k.xk−1 . pk . qn−k (avec q = 1− p)

En dérivant selon x des deux côtés on obtient :

n.p.(n− 1).p.(px+ q)n−2 =n∑k=0

(n

k

). k.(k − 1).xk−2 . pk . qn−k

61

Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :

n.(n− 1).p2.(p+ q)n−2 =n∑k=0

(n

k

). k.(k − 1).1k−2 . pk . qn−k

=n∑k=0

(n

k

). k.(k − 1). pk . qn−k

=n∑k=0

[(n

k

). k2.pk.qn−k −

(n

k

). k.pk.qn−k

]

=n∑k=0

(n

k

). k2.pk.qn−k −

n∑k=0

(n

k

). k.pk.qn−k

et en remplaçant q par (1− p) on a :

n.(n− 1).p2 =n∑k=0

(n

k

). k2.pk.(1− p)n−k −

n∑k=0

(n

k

). k.pk.(1− p)n−k

=n∑k=0

k2.P(X = k)−n∑k=0

k.P(X = k)

= E(X2)− E(X)

Par conséquent :E(X2) = n.(n− 1).p2 + E(X)

Comme on a démontré précedemment que E(X) = np, on a :

E(X2) = n.(n− 1).p2 + np

62

Donc :

V(X) = E(X2)− E(X)2

= n.(n− 1).p2 + np− (np)2

= n2.p2 − np2 + n.p− (np)2

= n.p.(np− p+ 1− np)

= n.p.(1− p)

3.6.3 Loi géométrique

Supposons qu’on renouvelle, indépendamment, une épreuve de Bernoulli de paramètre p, jusqu’aupremier succès. Une variable aléatoire, X, suivant la loi géométrique, renverra le rang du premiersuccès. Ainsi P(X = k) renverra la probabilité que le premier succès apparaissent à la k-èmeitération de l’expérience.

Définition 3.6.3 (Loi géométrique). Soit p ∈]0; 1].Une variable aléatoire X suit la loi géométrique de paramètre p si pour tout k ∈ N∗ :

P(X = k) = p.(1− p)k−1

Notation 3.6.3. X suit la loi géométrique de paramètre p se note : G(p).

Exemple 3.6.5 (lancé d’un dé). Prenons comme exemple, un jeu qui consiste à lancé un dé, etoù le succès est d’obtenir un 6 et l’échec d’obtenir n’importe quel autre nombre.

−→Calculons la probabilité de gagner au deuxième lancé de dé.

En lançant un dé la probabilité d’obtenir un 6 est de1

6, donc on va utiliser une variable aléatoire

X suivant la loi géométrique de paramètre1

6.

63

P(X = 2) =1

6×(

1− 1

6

)2−1

=1

6×(

5

6

)1

=1

6× 5

6

=5

6

Donc la probabilité de gagner au deuxième lancé dé et de5

6≈ 0, 8.

−→Calculons la probabilité de gagner au troisième lancé de dé.Cette probabilité est égale à : P(X = 3).On a donc :

P(X = 3) =1

6×(

1− 1

6

)3−1

=1

6×(

5

6

)2

=1

6× 25

36

=25

216

Donc la probabilité de gagner au troisième lancé de dé et de25

216≈ 0, 1.

On remarque que la probabilité de gagner au deuxième lancé est plus faible que celle de gagnerau troisième, ceci est dû au fait qu’on ne calcule pas la probabilité d’avoir gagné au bout de 2 oude 3 lancés, mais bien de gagner exactement au deuxième ou au troisième lancé.

Propriété 3.6.5 (Espérance d’une variable suivant une loi géométrique). Si X est une variable

aléatoire suivant la loi géométrique de paramètre p alors son espérance est égale à : E(X) =1

p.

64

Démonstration 3.6.5.

E(X) =∑k∈N∗

k . P(X = k)

=+∞∑k=1

k . p.(1− p)k−1

= p.+∞∑k=1

k . (1− p)k−1

On va utiliser le développement en série entière suivant :

∀x ∈ [0, 1],1

1− x=

+∞∑k=0

xk

En dérivant selon x des deux cotés de l’égalité on obtient :

∀x ∈ [0, 1],1

(1− x)2 =+∞∑k=0

k.xk−1

p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cetteégalité vraie :

1

(1− (1− p))2 =+∞∑k=0

k.(1− p)k−1

⇐⇒ 1

p2=

+∞∑k=1

k.(1− p)k−1 ( car le premier terme est nul )

65

On peut maintenant calculer l’espérance de X :

E(X) = p×+∞∑k=1

k . (1− p)k−1

= p× 1

p2

=p

p2

=1

p

Propriété 3.6.6 (Variance d’une variable suivant une loi géométrique).Si X est une variable aléatoire suivant la loi géométrique de paramètre p alors sa variance est égaleà :

V(X) =1− pp2

.

Démonstration 3.6.6. On sait que V(X) = E(X2)− E(X)2

Calculons E(X2) :Lors de la démonstration, précédente on a montré que :

∀x ∈ [0, 1],1

(1− x)2 =+∞∑k=0

k.xk−1

66

En dérivant des deux côtés selon p on obtient :

∀x ∈ [0, 1],2(1− x)

(1− x)4 =+∞∑k=0

k.(k − 1).xk−2

⇐⇒ 2

(1− x)3=

+∞∑k=0

k.(k − 1).xk−2

⇐⇒ 2

(1− x)3=

+∞∑k=2

k.(k − 1).xk−2 (les deux premiers termes sont nuls)

⇐⇒ 2

(1− x)3=

+∞∑k=1

(k + 1).k.xk−1

⇐⇒ 2

(1− x)3=

+∞∑k=1

k2.xk−1 ++∞∑k=1

k.xk−1

Et en utilisant l’égalité de la démonstration précédente on a :

2

(1− x)3=

+∞∑k=1

k2.xk−1 ++∞∑k=1

k.xk−1

⇐⇒ 2

(1− x)3=

+∞∑k=1

k2.xk−1 +1

(1− x)2

⇐⇒+∞∑k=1

k2.xk−1 =2

(1− x)3− 1

(1− x)2

p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cette

67

égalité vraie :

+∞∑k=1

k2.(1− p)k−1 =2

(1− (1− p))3− 1

(1− (1− p))2

⇐⇒+∞∑k=1

k2.(1− p)k−1 =2

p3− 1

p2

Et en multipliant par p des deux côtés on obtient :

+∞∑k=1

k2.p.(1− p)k−1 =2p

p3− p

p2

⇐⇒∑k∈N∗

k2 . P(X = k) =2

p2− 1

p

⇐⇒ E(X2) =2

p2− 1

p

Et enfin :

V(X) = E(X2)− E(X)2

=2

p2− 1

p−(

1

p

)2

=2

p2− p

p2− 1

p2

=2− p− 1

p2

=1− pp2

68

3.6.4 Loi de Poisson

Soit un évènement se produisant en moyenne λ fois pendant un laps de temps donné.Une variable aléatoire X, suivant la loi de Poisson de paramètre λ, renverra le nombre de fois quel’évènement se produit lors de ce laps de temps.Ainsi P(X = k) renverra la probabilité que l’évènement se produise k fois lors de ce même laps detemps.

Définition 3.6.4 (Loi de Poisson). Soit λ ∈ R+∗.Une variable aléatoire X suit la loi de Poisson de paramètre λ si pour tout k ∈ N :

P(X = k) =λk

k!× e−λ

Notation 3.6.4. X suit la loi de Poisson de paramètre λ se note : P(λ).

Exemple 3.6.6 (Saumons fuyant). Chaque année, un élevage, voit en moyenne 6 saumons s’en-fuirent à cause de trous dans ses filets.En considérant, que le nombre de saumons fuyant chaque année suit une loi de Poisson, quelle estla probabilité de voir 10 saumons fuir en une année ?

Pour effectuer ce calcul, on va prendre une variable aléatoire X suivant la loi de Poisson deparamètre λ = 6. Ainsi la probabilité de perdre 10 saumons est égale à :

P(X = 20) =610

10!× e−6 ≈ 0, 04

Donc la probabilité que 10 saumons s’enfuient en une année est de 0, 04.

Quelle est la probabilité, qu’aucun saumon ne s’enfuit ?En procédant de la même manière :

P(X = 0) =60

0!× e−6 =

1

1× e−6 ≈ 0, 002

Donc la probabilité qu’aucun saumon ne s’enfuit en une année est de 0, 002.

Propriété 3.6.7 (Espérance d’une variable suivant une loi de Poisson). Si X est une variablealéatoire suivant la loi de Poisson de paramètre λ alors son espérance est égale à : E(X) = λ.

69

Démonstration 3.6.7.

E(X) =∑k∈N

k . P(X = k)

=+∞∑k=0

k .λk

k!.e−λ

= e−λ.+∞∑k=0

k .λk

k!

Comme le premier terme de la somme+∞∑k=0

k .λk

k!est nul on peut sommer à partir de k = 1 en

gardant l’égalité vraie et on a donc :

E(X) = e−λ.+∞∑k=1

k .λk

k!

= e−λ.+∞∑k=1

λk

(k − 1)!

= e−λ.+∞∑k=1

λ.λk−1

(k − 1)!

= λ.e−λ.+∞∑k=1

λk−1

(k − 1)!

= λ.e−λ.+∞∑k=0

λk

(k)!

Or pour tout réel x, on a :

ex =+∞∑k=0

xk

k!

70

Par conséquent :

E(X) = λ.e−λ.+∞∑k=0

λk

(k)!

= λ.e−λ.eλ

= λ.e−λ+λ

= λ.e0

= λ

Propriété 3.6.8 (Variance d’une variable suivant une loi de Poisson). Si X est une variable aléa-toire suivant la loi de Poisson de paramètre λ alors sa variance est égale à : V(X) = λ.

Démonstration 3.6.8. On sait que V(X) = E(X2)− E(X)2.Calculons E(X2) :

E(X2) =∑k∈N

k2 . P(X = k)

=+∞∑k=0

k2 .λk

k!× e−λ

=+∞∑k=1

k2 .λk

k!× e−λ (car le premier terme est nul)

= λ.e−λ.+∞∑k=1

k .λk−1

(k − 1)!

On remarque que pour tout k ∈ N, k .λk−1

(k − 1)!est égal à la dérivée de :

λk

(k − 1)!selon λ.

C’est à dire : k .λk−1

(k − 1)!=

d

λk

(k − 1)!.

71

Par conséquent :

E(X2) = λ.e−λ.+∞∑k=1

d

λk

(k − 1)!

Or comme la somme des dérivées est égale à la dérivée de la somme on a :

E(X2) = λ.e−λ.d

(+∞∑k=1

λk

(k − 1)!

)

= λ.e−λ.d

(λ.

+∞∑k=1

λk−1

(k − 1)!

)

= λ.e−λ.d

(λ.

+∞∑k=0

λk

(k)!

)

Or pour tout réel x, on a :

ex =+∞∑k=0

xk

k!

Par conséquent :

E(X2) = λ.e−λ.d

(λ.

+∞∑k=0

λk

(k)!

)

= λ.e−λ.d

(λ. eλ

)

72

La dérivée selon λ de λ. eλ est égale à : eλ + λeλ, donc :

E(X2) = λ.e−λ.(eλ + λeλ

)= λ.e0 + λ2.e0

= λ+ λ2

En utilisant maintenant la formule de la variance on a :

V(X) = E(X2)− E(X)2

= λ+ λ2 − λ2

= λ

3.7 Fonction génératrice

Les fonctions génératrices, sont des outils permettant d’identifier facilement la loi d’une vari-able aléatoire, ainsi que son espérance et sa variance.

3.7.1 Définition

Définition 3.7.1 (Fonction génératrice). Soit X une variable aléatoire à valeurs dans un ensembleE.On appelle fonction génératrice de X la fonction GX définie par :

GX : [−1; 1] −→ R

u −→ E(uX) =∑k∈E

uk . P(X = k)

73

3.7.2 Fonction génératrice et indépendance

Propriété 3.7.1. Si X et Y sont deux variables aléatoires indépendantes alors :

GX+Y = GX ×GY

Démonstration 3.7.1. On a pour tout u ∈ R :

GX+Y (u) = E(uX+Y )

= E(uX × uY )

= E(uX)× E(uY ) (par indépendance de X et Y )

= GX(u)×GY (u)

3.7.3 Caractérisation de loi

Proposition 3.7.1. Si deux variables aléatoires X et Y ont la même fonction génératrice, alorsX et Y suivent la même loi.

Démonstration 3.7.2. Prenons deux variables X et Y à valeurs dans un ensemble E et ayant lamême fonction génératrice, c’est à dire :

∀u ∈ [0; 1], GX(u) = GY (u)

En développant cette égalité on obtient pour tout u :∑k∈E

uk . P(X = k) =∑k∈E

uk . P(Y = k)

⇐⇒∀k ∈ E, P(X = k) = P(Y = k)

Donc X et Y ont la même loi.

74

Remarque 3.7.1. Ainsi, lorsque la loi d’une variable aléatoire est compliquée à déterminer, onpeut calculer la fonction génératrice de cette variable et la comparer avec une fonction généra-trice connue. Afin de pouvoir effectuer cette comparaison voici les fonctions génératrices des loisusuelles :

Loi de Bernoulli Si X suit une loi de Bernoulli de paramètre p, alors sa fonction de répartitionest égale à :

GX(u) = (1− p) + p.u

Démonstration :

GX(u) =1∑

k=0

uk. P(X = k)

= u0.P(X = 0) + u1.P(X = 1)

= (1− p) + u.p

Loi binomiale Si X suit une loi binomiale de paramètres n et p, alors sa fonction de répartitionest égale à :

GX(u) = ((1− p) + p.u)n

Démonstration :

GX(u) =n∑k=0

uk.

(n

k

).pk.(1− p)n−k

=n∑k=0

(n

k

).(u.p)k.(1− p)n−k (on reconnait la formule du binôme)

= ((1− p) + p.u)n

Loi géométrique Si X suit une loi géométrique de paramètre p, alors sa fonction de répartitionest égale à :

GX(u) =p.u

1− (1− p).u

75

Démonstration :

GX(u) =+∞∑k=1

uk.p.(1− p)k−1

=+∞∑k=1

(u.p).uk−1.(1− p)k−1

= u.p.+∞∑k=1

(u.(1− p))k−1

= u.p.+∞∑k=0

(u.(1− p))k

Or on sait que pour tout x ∈ [0; 1] on a :

1

1− x=

+∞∑k=0

xk

Comme p est inclus dans [0; 1], (1−p) est aussi inclus dans [0; 1]. De plus comme u est aussicompris dans [0, 1], u.(1− p) est compris dans [0; 1].Par conséquent :

u.p.+∞∑k=0

(u.(1− p))k = u.p× 1

1− u.(1− p)

Et donc :GX(u) =

p.u

1− (1− p).u

Loi de Poisson Si X suit une loi de Poisson de paramètre λ, alors sa fonction de répartition estégale à :

GX(u) = e−λ(1−u)

76

Démonstration :

GX(u) =+∞∑k=0

uk. e−λ × λk

k!

= e−λ ×+∞∑k=0

(λ.u)k

k!

= e−λ × eλ.u

= e−λ+λ.u

= e−λ(1−u)

Exemple 3.7.1 (Caractérisation de loi). Soient X et Y deux variables aléatoires indépendantessuivant respectivement la loi de Poisson de paramètre λ et la loi de Poisson de paramètre µ.

−→ Quelle est la loi de la variable X + Y ?

Pour déterminer cette loi, nous allons déterminer la fonction génératrice de la variable X + Y

et la comparer aux fonctions génératrices des lois usuelles.

GX+Y (u) = GX(u)×GY (u) (par indépendance de X et Y )

= e−λ(1−u) × e−µ(1−u)

= e−λ(1−u)−µ(1−u)

= e−(λ+µ).(1−u)

On reconnait en e−(λ+µ).(1−u) la fonction génératrice d’une loi de Poisson de paramètre λ+ µ.Par conséquent la loi de la variable X + Y est la loi de Poisson de paramètre λ+ µ.

77

3.7.4 Calcul d’espérance et de variance

Propriété 3.7.2. Soit X une variable aléatoire admettant une espérance.

E(X) = GX′(1)

Démonstration 3.7.3. Supposons que X a ses valeurs dans un ensemble E.On sait que :

GX(u) =∑k∈E

uk.P(X = k)

En dérivant selon u des deux côtés on obtient :

GX′(u) =

∑k∈E

k.uk−1.P(X = k)

Et en posant u = 1 on obtient :

GX′(1) =

∑k∈E

k.1k−1.P(X = k)

=∑k∈E

k.P(X = k)

= E(X)

Propriété 3.7.3. Soit X une variable aléatoire admettant une variance.

V(X) = GX′′(1) +GX

′(1)−

(GX

′(1))2

Démonstration 3.7.4. Supposons que X a ses valeurs dans un ensemble E.On sait que :

GX(u) =∑k∈E

uk.P(X = k)

En dérivant selon u des deux côtés on obtient :

GX′(u) =

∑k∈E

k.uk−1.P(X = k)

78

Et en redérivant à nouveau on obtient :

GX′′(u) =

∑k∈E

k.(k − 1).uk−2.P(X = k)

Et en posant u = 1 on obtient :

GX′′(1) =

∑k∈E

k.(k − 1).1k−2.P(X = k)

=∑k∈E

[k2.P(X = k)− k.P(X = k)

]

=∑k∈E

k2.P(X = k)−∑k∈E

k.P(X = k)

= E(X2)− E(X)

Or on sait que GX′(1) = E(X) et que V(X) = E(X2)− E(X)2, on a donc :

GX′′(1) +GX

′(1)−

(GX

′(1))2

= E(X2)− E(X) + E(X)− E(X)2

= E(X2)− E(X)2

= V(X)

Exemple 3.7.2. Soit p ∈ [0, 1] et soit X une variable aléatoire dont la loi est :

∀k ∈ N, P(X = k) = p.(1− p).(pk + (1− p)k)

Le calcul de l’espérance et de la variance de X est particulièrement difficile si on l’effectue ensuivant la méthode classique, par conséquent on va procéder en utilisant la fonction génératrice :−→ Détermination de la fonction génératrice de X

79

La fonction génératrice de X est égale à :

GX(u) = E(uX)

=∑k∈N

uk . P(X = k)

=+∞∑k=0

uk . p.(1− p).(pk + (1− p)k)

= p.(1− p).+∞∑k=0

uk . (pk + (1− p)k)

= p.(1− p).+∞∑k=0

[(up)k + (u(1− p))k

]

= p.(1− p).

[+∞∑k=0

(up)k ++∞∑k=0

(u(1− p))k]

Or on sait que pour tout x ∈ [0; 1] on a :

1

1− x=

+∞∑k=0

xk

Comme p et u sont inclus dans [0; 1], p.u l’ est aussi.Par conséquent :

+∞∑k=0

(up)k =1

1− u.p

De même comme u.(1− p) est inclus dans [0; 1] on a :

+∞∑k=0

(u(1− p))k =1

1− u.(1− p)

Donc :GX(u) = p.(1− p).

[1

1− u.p+

1

1− u.(1− p)

]

−→ Détermination de l’espérance de X

80

On sait que E(X) = GX′(1), par conséquent dérivons GX(u) :

G′

X(u) = p.(1− p).[

p

(1− u.p)2+

1− p(1− u.(1− p))2

]Et donc :

G′

X(1) = p.(1− p).[

p

(1− 1.p)2+

1− p(1− 1.(1− p))2

]

= p.(1− p).[

p

(1− p)2+

1− p(1− (1− p))2

]

= p.(1− p).[

p

(1− p)2+

1− p(p)2

]

=p2

(1− p)+

(1− p)2

p

Donc l’espérance de X est égale à :

E(X) = G′

X(1) =p2

(1− p)+

(1− p)2

p

−→ Détermination de la variance de X

On sait que V(X) = GX′′(1) +GX

′(1)−

(GX

′(1))2

, par conséquent dérivons G′X(u) une deuxièmefois :

G′′

X (u) =

[p.(1− p).

[p

(1− u.p)2+

1− p(1− u.(1− p))2

]]′

= p.(1− p).[

2.p2.(1− p)(1− u.p)4

+2.(1− p)2.(1− u.(1− p))

(1− u.(1− p))4

]

81

Et donc :

G′′

X (1) = p.(1− p).[

2.p2.(1− p)(1− 1.p)4

+2.(1− p)2.(1− 1.(1− p))

(1− 1.(1− p))4

]

= p.(1− p).[

2.p2.(1− p)(1− p)4

+2.(1− p)2.(1− (1− p))

(1− (1− p))4

]

= p.(1− p).[

2.p2

(1− p)3+

2.(1− p)2.p

p4

]

=2.p3

(1− p)2+

2.(1− p)3

p2

Et on obtient finalement :

V(X) = GX′′(1) +GX

′(1)−

(GX

′(1))2

=

(2.p3

(1− p)2+

2.(1− p)3

p2

)+

(p2

(1− p)+

(1− p)2

p

)−(

p2

(1− p)+

(1− p)2

p

)2

=

(2.p3

(1− p)2+

2.(1− p)3

p2

)+

(p2

(1− p)+

(1− p)2

p

)−(

p4

(1− p)2+ 2.p.(1− p) +

(1− p)4

p2

)

=2.p3 − p4

(1− p)2+

2.(1− p)3 − (1− p)4

p2+

p2

(1− p)+

(1− p)2

p− 2.p.(1− p)

=2.p5 − p6 + 2.(1− p)5 − (1− p)6 + (1− p).p4 + (1− p)4.p− 2.p3.(1− p)3

(1− p)2.p2

=2.p5 + 2.(1− p)5 + (1− p).p4 + (1− p)4.p− [p6 + 2.p3.(1− p)3 + (1− p)6]

(1− p)2.p2

=2.p5 + 2.(1− p)5 + (1− p).p4 + (1− p)4.p− [p3 + (1− p)3]

2

(1− p)2.p2

82

Donc la variance de X est égale à :

V(X) =2.(p5 + (1− p)5) + (1− p). (p4 + (1− p)3.p)− [p3 + (1− p)3]

2

(1− p)2.p2

83

3.8 Synthèse

−→ Définition

• Une variable aléatoire réelle discrète est une fonction X, allant d’un univers Ω dans unensemble E discret.

X : Ω −→ E

ω −→ y

• L’ensemble des P(X = x)x∈E s’appelle la loi de X.

−→ Propriétés

• Loi marginale : P(X = k) =∑i∈EY

P(X = k ; Y = i)

• Loi conditionnelle : P(X = x|Y = y) =P(X = x ∩ Y = y)

P(Y = y)

−→ Fonction de répartition

• Fonction de répartition : Soit X une variable aléatoire réelle.On appelle fonction de répartition de X la fonction, FX , qui à tout réel k associe :

FX(k) = P(X ≤ k)

• Propriétés de la fonction de répartition : FX est une fonction de répartition d’unevariable aléatoire X si et seulement si :

1. FX est croissante sur R

2. FX est continue à droite en tout point de R

3. limk→−∞

FX(k) = 0

4. limk→+∞

FX(k) = 1

−→ Espérance, variance et écart type

• Espérance : Si la somme∑k∈E

|k|. P(X = k) est finie alors, E(X) =∑k∈E

k. P(X = k)

84

• Propriétés de l’espérance

1. Pour tout réel λ : E(λ) = λ

2. Linéarité : E(X + λ.Y ) = E(X) + λ.E(Y )

3. Positivité : Si X ≥ 0 alors :

(a) E(X) ≥ 0

(b) et si de plus E(X) = 0 alors P(X = 0) = 1 (c’est à dire X est la fonction nulle).

4. Croissance : Si X ≥ Y , alors : E(X) ≥ E(Y )

• Soit X une variable aléatoire à valeurs dans un ensemble E et f : E → R une fonction.Si la somme

∑k∈E

|f(k)| . P(X = k) est finie alors :

E (f(X)) =∑k∈E

f(k) . P(X = k)

• Variance : Si∑k∈E

k2. P(X = k) est finie alors, V(X) = E((X − E(X))2) = E(X2)− E(X)2

• Propriétés de la variance

1. V(X) = E(X2)− E(X)2

2. La variance est toujours positive.

3. Soient a et b deux réels, V(aX + b) = a2.V(X)

4. Si V(X) = 0 alors X est égale à une constante.

• Écart type : σ(X) =√V(X)

−→ Indépendance

• Indépendance de n variables aléatoires Les variables aléatoiresX1, X2, ..., Xn sont ditesindépendantes si et seulement si ∀x1 ∈ E1, ...,∀xn ∈ En

P(X1 = x1, X2 = x2, ..., Xn = xn) = P(X1 = x1)× P(X2 = x2)× ...× P(Xn = xn)

• Si X et Y sont indépendantes alors : E(XY ) = E(X)× E(Y ) et V(X + Y ) = V(X) + V(Y )

85

−→ Lois

• Loi de Bernoulli Soit p ∈ [0; 1]. P(X = 1) = p et P(X = 0) = 1− p

• Loi binomiale Soient p ∈ [0; 1] et n ∈ N. ∀k ∈ 0, ..., n : P(X = k) =

(n

k

). pk . (1− p)n−k

• Loi géométrique Soit p ∈ [0; 1]. ∀k ∈ N∗ : P(X = k) = p.(1− p)k−1

• Loi de Poisson Soit λ ∈ R+∗. ∀k ∈ N : P(X = k) =λk

k!× e−λ

Loi Notation Espérance : E(X) Variance : V(X) Fonction génératrice : GX(u)

de Bernoulli X ∼ B(p) p p.(1-p) 1− p+ p.u

binomiale X ∼ B(n, p) n.p n.p.(1− p) (1− p+ p.u)n

géométrique X ∼ G(p)1

p

1− pp2

p.u

1− (1− p).ude Poisson X ∼ P(λ) λ λ e−λ.(1−u)

−→ Fonction génératrice

• Fonction génératrice : On appelle fonction génératrice de X la fonction GX définie par :

GX : [−1; 1] −→ R

u −→ E(uX) =∑k∈E

uk . P(X = k)

• Si X et Y sont deux variables aléatoires indépendantes alors : GX+Y = GX ×GY

• Si deux variables aléatoires X et Y ont la même fonction génératrice, alors X et Y suiventla même loi.

• Si X est une variable aléatoire admettant une espérance alors E(X) = GX′(1)

• SiX est une variable aléatoire admettant une variance alors V(X) = GX′′(1) +GX

′(1)−

(GX

′(1))2

86

Chapitre 4

Variables aléatoires réelles à densité

Nous allons voir à présent un autre type de variable aléatoire plus général que les variables aléa-toires discrètes. En effet si l’espace d’arrivée n’est pas dénombrable on ne pourra pas utiliser unesomme. Ce chapitre présente une autre façon de représenter un loi de probabilité grâce aux inté-grales. La structure de ce chapitre et ces énoncés seront analogues grâce aux propriétés communesde l’intégrale et de la somme.

Ce chapitre nécessite certaines notions de calcul intégral. Ces notions sont présentent dansl’annexe C.

4.1 Tribu borélienne

En toute rigueur pour aborder ce chapitre il faudrait introduire plusieurs notions de théorie dela mesure, introduisons simplement les tribus boréliennes.

On appelle tribu engendrée par une famille de partie C, l’intersection de toutes les tribus con-tenant C.

On appelle tribu borélienne (ou tribu de Borel) la tribu engendrée par les ouverts de Rn. Onla note B(Rn) ou Bor(Rn). Il est important de noter (par stabilité par passage au complémentaired’une tribu) qu’elle est aussi la tribu engendrée par les fermés de Rn. Ces éléments sont les borélien

Une tribu borélienne est engendré par un des types suivants :

– Boules (quelconques)– [a1, b1]× ...× [an, bn]

– ]a1, b1[×...×]an, bn[

– [a1, b1[×...× [an, bn[

– [a1,+∞[×...× [an,+∞[

– ]a1,+∞[×...×]an,+∞[

87

Dans ce chapitre on se limitera à l’étude des variables aléatoires à valeurs dans R (sans lepréciser dans la suite). On se placera dans des espaces munis d’une tribu borélienne. Il existe unegénéralisation, qu’on appelle vecteur aléatoire, que vous pourrez voir dans le chapitre 6.

4.2 Généralités sur les densités de probabilités

Définition 4.2.1 (densité de probabilité). On appelle densité de probabilité une applicationpositive et intégrable p : R −→ R+ , vérifiant :∫

Rp(x)dx = 1

Exemple 4.2.1. La fonction p : x −→ 14.e−|x|/2 est une densité de probabilité.

En effet :∀x ∈ R, p(x) ≥ 0

et ∫Rp(x)dx =

1

4×∫ +∞

−∞e−|x|/2dx

=1

4×(∫ 0

−∞ex/2dx+

∫ +∞

0

e−x/2dx

)

=1

4×([

2.ex/2]0−∞ +

[−2.e−x/2

]+∞0

)

=1

4× (2− 0 + 0− (−2))

= 1

Donc p vérifie bien les deux critères d’une densité.

Définition 4.2.2 (Variable aléatoire à densité). Soit (Ω,A,P) un espace probabilisé.X : Ω −→ R est une variable aléatoire de densité p si pour tout α, β ∈ R on a :

P(α ≤ X ≤ β) =

∫ β

α

p(x)dx

88

Exemple 4.2.2. Prenons comme exemple une variable aléatoire X de densité p : x −→ 14.e−|x|/2.

−→ Quelle est la probabilité que X soit inférieur à 5 ?

P(X ≤ 5) =

∫ 5

−∞p(x)dx

=

∫ 5

−∞

1

4.e−|x|/2dx

=1

4

(∫ 0

−∞ex/2dx+

∫ 5

0

e−x/2dx

)

=1

4×([

2.ex/2]0−∞ +

[−2.e−x/2

]50

)

=1

4×(2− 0 + (−2.e−5/2)− (−2)

)

= 1− 1

2.e−5/2

Donc la probabilité que X prenne une valeur inférieure à 5 est de 1− 12.e−5/2.

−→ Quelle est la probabilité que X soit entre −2 et 4 ?

P(−2 ≤ X ≤ 4) =

∫ 4

−2

p(x)dx

=

∫ 4

−2

1

4.e−|x|/2dx

=1

4

(∫ 0

−2

ex/2dx+

∫ 4

0

e−x/2dx

)

=1

4×([

2.ex/2]0−2

+[−2.e−x/2

]40

)

=1

4×(2− 2.e−1 + (−2.e−2)− (−2)

)= 1− 1

2(e−1 + e−2)

89

Donc la probabilité que X prenne une valeur comprise entre −2 et 4 est de 1− 1

2(e−1 + e−2).

−→ Quelle est la probabilité que X soit supérieur à 8 ?

P(8 ≤ X) =

∫ +∞

8

p(x)dx

=1

4

∫ ∞8

e−x/2dx

=1

4×[−2.e−x/2

]+∞8

=1

4× (0− (−2.e−4))

=e−4

2.

Donc la probabilité que X prenne une valeur supérieure à 8 est de :1

2.e4

Remarque 4.2.1.

– On note R = R ∪ −∞,+∞– Cette définition n’a de sens que si a ≤ X ≤ B est un élément de la tribu A de l’espaceprobabilisé. Ce sera toujours le cas car nous utiliserons la tribu de borel B(R).

– La positivité d’une probabilité et le fait que P(X ∈ R) = P(−∞ < X < +∞) = 1 justifie ladéfinition de la densité.

– Si a = −∞ on obtient la fonction de répartition. Nous y reviendrons plus loin.

A présent, nous prendrons toujours des variables aléatoires dans un espace probabilisé (Ω,A,P),sans y refaire référence.

Proposition 4.2.1 (probabilité d’un singleton). Soit a ∈ R et soit X une variable aléatoire dedensité p. Alors :

P(X = a) = P(X ∈ a) = 0

Démonstration 4.2.1. Il suffit de remarquer que :

90

P(X = a) = P(a ≤ X ≤ a)déf=

∫ a

a

p(x)dx = 0

On en déduit le résultat suivant :

Corollaire 4.2.1. Soit X une variable aléatoire de densité p, pour tout a, b ∈ R, on a :

P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b)

Démonstration 4.2.2. Il suffit de remarquer que a ≤ X ≤ b = a ≤ X < b ∪ X = b.Le membre de droite étant une réunion disjointe on obtient alors le résultat par σ-additivité. Lesautres égalités du corollaire se déduisent de la même façon.

4.3 Lois usuelles

Voici les lois les plus souvent rencontrées. Nous rajouterons au fur et à mesure de l’avancementdu chapitre leur espérance, fonction caractéristique, etc...On rappelle qu’on se place dans un espace probabilisé muni de la tribu borélienne de R.

Notation 4.3.1. Une variable aléatoire X suivant une loi S se note X ∼ S

4.3.1 Loi uniforme

Soit [a, b] ∈ R, la loi uniforme sur [a, b], notée U([a, b]), et définie par la densité :

∀x ∈ R, p : x 7→ 1

b− a1[a,b](x)

On note X ∼ U[a,b] si X suit cette loi.

Remarque 4.3.1. – Tout d’abord, par notation, si X suit la loi uniforme on note : X ∼ U[a,b]

– On peut remarquer que la densité d’une variable aléatoire suivant la loi uniforme ne dépendque de l’intervalle donné. Ainsi si cette loi donne la même probabilité à deux sous intervallesdistincts de [a, b]

– Nous rappelons à toute fin utile (notamment pour la définition d’une probabilité) que :∫R1[a,b](x)dx =

∫ b

a

1dx = b− a

91

4.3.2 Loi exponentielle

Soit λ ∈ R∗+, la loi exponentielle de paramètre p, notée E(λ), et définie par la densité :

∀x ∈ R∗+, p : x 7→ λ exp(−λx)

On note X ∼ E(λ) si X suit cette loi.

Remarque 4.3.2. On pourra rencontrer la définition équivalente de la densité d’une loi exponen-tielle de paramètre λ :

∀x ∈ R, p : x 7→ λ exp(−λx)1R+(x)

La probabilité sur un intervalle de R− est donc nulle.

4.3.3 Loi de Cauchy

Soit a ∈ R, la loi de Cauchy de paramètre a, notée C(a), et définie par la densité :

∀x ∈ R, p : x 7→ a

π(a2 + x2)

On note X ∼ C(a) si X suit cette loi.

4.3.4 Loi normale (Laplace-Gauss)

Soit µ ∈ R, σ2 > 0, la loi normale de paramètre µ et σ2, notée N (µ, σ2), et définie par ladensité :

∀x ∈ R, p : x 7→ 1

σ√

2πexp

(−(x− µ)2

2σ2

)On note X ∼ N (µ, σ2) si X suit cette loi.

Vocabulaire 4.3.1. On appelle aussi la loi normale : loi de Laplace-Gauss.

Vocabulaire 4.3.2. Une variable aléatoire suivant la loi normale est dite variable gaussienne.

Voici le cas particulier le plus utilisé de la loi normale :

Définition 4.3.1 (Loi normale centrée réduite). La loi normale centrée réduite est une loi normalede paramètre 0 et 1. On la note : N (0, 1) et sa densité est donc définie par :

∀x ∈ R, p : x 7→ 1√2π

exp

(−x2

2

)On l’appelle également loi gaussienne.

92

4.3.5 Loi du khi-carré

Nous verrons les applications de cette loi dans la partie statistique.

Soit n ∈ N, la loi du khi-carré à n degrés de liberté, noté X 2n , est définie par la densité :

∀x ∈ R∗+, p : x 7→ 1

2n2 Γ(n

2)xn2 exp(−x

2)

On note X ∼ X 2n si X suit cette loi.

4.4 Fonction de répartition

Définition 4.4.1 (Fonction de répartition). Soit X une variable aléatoire à densité, alors ondéfinit sa fonction de répartition par :

∀a ∈ R, FX(a) = P(X ≤ a)

Proposition 4.4.1. Soit X une variable aléatoire réelle, et soit FX sa fonction de répartition alorsa :

∀a, b ∈ R, a < b, FX(b)− FX(a) = P(a < X ≤ b)

Démonstration 4.4.1.

Par définition, FX(a) = P(X ≤ a) et FX(b) = P(X ≤ b), or a < b donc X ≤ a ⊆ X ≤ b.Mais alors on peut utiliser le principe de la démonstration 4) de la proposition 1.3.2.Finalement,

P(X ≤ a)− P(X ≤ b) = P(X ≤ b\X ≤ a) = P(X > a ∩ X ≤ b) = P(a < X ≤ b)

Remarque 4.4.1. Les propriétés, vues au chapitre 3, de la fonction de répartition sont conservées.

Proposition 4.4.2 (Caractérisation de la loi). La fonction de répartition d’une variable aléatoireà densité détermine sa loi. Autrement dit :

Si X et Y sont deux variables aléatoires à densité, alors X et Y suivent la même loi si ellesont la même fonction de répartition. C’est à dire si :

∀x ∈ R, P(X ≤ x) = P(Y ≤ x)

93

Démonstration 4.4.2. La démonstration est admise.

Proposition 4.4.3 (Lien entre densité et fonction de répartition). Soit X une variable aléatoirede densité p, alors FX est continue et dérivable, de dérivée p.

Remarque 4.4.2. Cette proposition est utile vue sous un autre angle : si on connait la fonctionde répartition de X on peut trouver la densité de X !

Démonstration 4.4.3. Cela provient des propriétés habituelles de l’intégrale ainsi que de la déf-inition de la fonction de répartition.

Résumons ici les fonctions de répartitions usuelles utiles pour la caractérisation :

Loi Fonction de répartition→ 0 si x < a

Loi uniforme U[a,b] → x−ab−a si a ≤ x ≤ b

→ 1 si x > b

Loi exponentielle E(λ) 1− e−λx

Loi de Cauchy C(a) 1π

arctan(xa) + 1

2

Loi normale N (µ, σ2) Voir tableau en annexeLoi centrée réduite N (0, 1) Voir tableau en annexe

4.5 Espérance et variance

4.5.1 Espérance

Définition 4.5.1 (Espérance). Soit X une variable aléatoire de densité p. Si la fonctionx 7→ |x|.p(x) est intégrable alors X admet une espérance, notée E(X) et définie par :

E(X) =

∫Rxp(x)dx

Nous admettons le résultat suivant, plus difficile à démontrer que dans le cas discret :

Théorème 4.5.1 (de transfert). Soit X une variable aléatoire de densité p et soit une applicationf : R −→ R. Si x 7→| f(x) | p(x) est intégrable, alors f(X) possède une espérance définie par :

E(f(X)) =

∫Rf(x)p(x)dx

94

Proposition 4.5.1. Soit X et Y deux variables aléatoires admettant une espérance, et soit λ ∈ R,alors :

– E(X + λY ) = E(X) + λE(Y )

– E(λ) = λ

– Si Y est intégrable et X dominée par Y, au sens où P(| X |≤ Y ) = 1, alors X est intégrable.– Si P(X ≤ Y ) = 1, alors E(X) ≤ E(Y )

Remarque 4.5.1. On remarque que ces propriétés de l’espérance sont les mêmes que pour le casdiscret. Les démonstrations sont en effet analogues car les propriétés de l’intégrale (pour cettedémonstration) sont les mêmes que pour la somme (linéarité, croissance). Néanmoins le fait quel’espérance ne dépend que de la densité induit une subtilité lors de la manipulation de combinaisonlinéaire de variables aléatoires à densité. Cette subtilité étant levée par ce qu’on appelle le produitde convolution, nous admettrons ce résultat.

Nous verrons néanmoins, plus tard ,qu’il existe un autre moyen (comme pour la fonction généra-trice) de trouver la loi d’une combinaison linéaire de variables aléatoires à densité.

Remarque 4.5.2. Les calculs d’espérance font appel aux différentes méthodes du calcul intégral(intégration par partie, changement de variable, critères de convergence, ...).L’annexe C contient quelques uns de ses principes ainsi que quelques intégrales célèbres.

Espérance des lois usuelles

Propriété 4.5.1 (Espérance de la loi uniforme). Si X ∼ U(a, b) avec a < b alors :

E(X) =a+ b

2

Démonstration 4.5.1. La densité de X est p : x −→ 1

b− a.1[a,b](x)

On remarque que l’intégrale :∫R|x|.p(x)dx =

∫R|x|. 1

b− a.1[a,b](x)|dx =

1

b− a.

∫ b

a

|x|dx

est finie en tant que fonction continue intégrée sur un segment.

95

Donc X admet une espérance de valeur :

E(X) =

∫Rx.p(x) dx

=1

b− a.

∫ b

a

x dx

=1

b− a.

[x2

2

]ba

=1

b− a.

(b2 − a2

2

)

=b+ a

2

Donc l’espérance d’une variable X suivant la loi uniforme sur [a, b] est E(X) =b+ a

2.

Propriété 4.5.2 (Espérance de la loi exponentielle). Si X ∼ E(λ) alors :

E(X) =1

λ

Démonstration 4.5.2. La densité de X est p : x −→ λ.e−λ.x

Vérifions que X est intégrable :∫R|x|.p(x)dx =

∫R|x|.λ exp(−λx)1R+dx

= λ

∫R+

|x|. exp(−λx)dx

= λ

∫R+

x. exp(−λx)dx ( car |x| = x sur R+ )

= λ

([−exp(−λx)

λx

]+∞

0

+1

λ

∫R+

exp(−λx)dx

)(Par intégration par parties)

=

∫R+

exp(−λx)dx

=

∫R+

exp(−λx)dx

=1

λ

96

Donc l’intégrale∫R|x|.p(x)dx vaut

1

λet est donc finie.

Par conséquent X admet une espérance de valeur :

E(X) =

∫Rx.p(x)dx

=

∫Rx.λ exp(−λx)1R+dx

= λ

∫R+

x. exp(−λx)dx (On reconnait l’intégrale calculée précedemment)

=1

λ

Donc l’espérance d’une variable X suivant la loi exponentielle de paramètre λ est E(X) =1

λ.

Propriété 4.5.3 (Espérance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pasd’espérance.

Démonstration 4.5.3. La densité de X est p : x −→ a

π

1

a2 + x2

On a : ∫R|x|.p(x)dx =

∫R|x|. a

π(a2 + x2)dx

=a

π

∫ +∞

−∞

|x|a2 + x2

dx

Or au voisinage de −∞ et de +∞ on a :

|x|a2 + x2

∼ 1

x

et d’après les critères de Riemann on a :∫ +∞

−∞

1

xdx = +∞

Donc : ∫R|x|.p(x)dx = +∞

Donc X n’est pas intégrable et n’admet pas d’espérance.

97

Propriété 4.5.4 (Espérance de la loi normale). Si X ∼ N (µ, σ2) alors :

E(X) = µ

Démonstration 4.5.4. La densité de X est p : x −→ 1

σ√

2π. exp

(−(x−m)2

2σ2

)L’intégrale : ∫

R|x|.p(x)dx

est une intégrale finie, car c’est une intégrale de Riemann convergente.Par conséquent X admet une espérance de valeur :

E(X) =1

σ√

∫Rx. exp

(−(x− µ)2

2σ2

)dx

=1

σ√

∫R(u+ µ). exp

(− u2

2σ2

)du (Par le changement de variable φ : x 7→ x+ µ)

=1

σ√

(∫Ru exp

(− u2

2σ2

)du+ µ

∫R

exp

(− u2

2σ2

)du

)=

1

σ√

(0 + µ

∫R

exp

(− u2

2σ2

)du

)=

1

σ√

(0 + µ.

√2πσ2

)(Car c’est l’intégrale de Gauss)

= µ

Donc l’espérance d’une variable X suivant la loi normale de paramètres µ et σ2 est égale à µ.

Propriété 4.5.5 (Espérance de la loi normale centrée réduite). On déduit directement de la propo-sition précédente que si X ∼ N (0, 1) alors E(X) = 0.

Résumons ici les espérances des lois usuelles :

Loi EspéranceLoi uniforme U[a,b]

a+b2

Loi exponentielle E(λ) 1λ

Loi de Cauchy C(a) Non définieLoi normale N (µ, σ2) µ

Loi centrée réduite N (0, 1) 0

98

4.5.2 Variance

Définition 4.5.2 (Variance). Soit X une variable aléatoire de densité p.Si l’application x 7→ x2.p(x) est intégrable, alors X admet une variance, notée, V(X) et définiepar :

V(X) = E((X − E(X))2)

Remarque 4.5.3. En développant on obtient : V(X) = E(X2)− E(X)2

On démontre de la même manière que dans le cas discret la proposition suivante :

Proposition 4.5.2. Soit X une variable aléatoire admettant une variance, alors pour tout a, b ∈R :

V(aX + b) = a2V(X)

Variance des lois usuelles

Propriété 4.5.6 (Variance de la loi uniforme). Si X ∼ U(a, b) avec a < b alors :

V(X) =(b− a)2

12

Démonstration 4.5.5. L’intégrale :∫Rx2.p(x)dx =

1

b− a

∫ b

a

x2dx

est l’intégale d’une fonction continue sur un segment donc elle est finie et par conséquent X est decarré intégrable ce qui implique qu’elle admet une variance égale à :

V(X) = E(X2)− E2(X) = E(X2)−(b+ a

2

)2

99

Calculons E(X2) :

E(X2) =

∫R

x2.p(x)dx

=1

b− a

∫ b

a

x2dx

=1

b− a

[x3

3

]ba

=b3 − a3

3(b− a)

On a donc :

V(X) = E(X2)− E2(X)

=b3 − a3

3(b− a)−(b+ a

2

)2

=(b− a)3

12(b− a)

=(b− a)2

12

Donc V(X) =(b− a)2

12.

Propriété 4.5.7 (Variance de la loi exponentielle). Si X ∼ E(λ) alors :

V(X) =1

λ2

Démonstration 4.5.6. L’intégrale :∫Rx2.p(x)dx =

∫Rx2.λe−λ.x.1R+(x)dx = λ

∫R+

x2.e−λ.xdx

est finie d’après les critères de Riemann.

100

Donc X est de carré intégrable et donc X admet une variance égale à :

V(X) = E(X2)− E2(X) = E(X2)− 1

λ2

Déterminons E(X2) :

E(X2) =

∫Rx2.p(x)dx

= λ

∫R+

x2.e−λ.xdx

= λ

([x2.

(−e−λ.x)λ

]+∞

0

+2

λ

∫ +∞

0

x.e−λ.xdx

)

= 0 + 2

∫ +∞

0

x.e−λ.xdx

=2

λ2

On a donc :

V(X) = E(X2)− E2(X)

=2

λ2− 1

λ2

=1

λ2

Donc V(X) =1

λ2.

Propriété 4.5.8 (Variance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pas devariance.

Démonstration 4.5.7. X n’admettant pas d’espérance ne peut pas admettre de variance.

Propriété 4.5.9 (Variance de la loi normale). Si X ∼ N (µ, σ2) alors :

V(X) = σ2

Démonstration 4.5.8. L’intégrale :∫Rx2.p(x)dx =

1

σ√

∫Rx2. exp

(−(x− µ)2

2σ2

)dx

101

est finie d’après les critères de Riemann.Donc X est de carré intégrable et donc X admet en revenant à la définition une variance égale à :

V(X) = E((X − E(X))2) = E((X − µ)2)

Or :E((X − µ)2) =

1

σ√

∫R(x− µ)2. exp

(−(x− µ)2

2σ2

)dx

En effectuant une intégration par partie on a :∫R(x− µ)2. exp

(−(x− µ)2

2σ2

)dx =

[−σ2(x− µ).e

−(x−µ)2

2σ2

]+∞

−∞+

∫ +∞

−∞σ2.e

−(x−µ)2

2σ2 dx

= 0 + σ2

∫ +∞

−∞e−(x−µ)2

2σ2 dx

= σ3√

DoncE((X − µ)2) =

1

σ√

2π× σ3√

2π = sigma2

Donc V(X) = σ2.

4.6 Indépendance

On retrouve de manière analogue aux variables aléatoires discrètes les mêmes propriétés autourde l’indépendance.

Définition 4.6.1 (Indépendance). Soit X et Y deux variables aléatoires à densité, on dit que Xet Y sont indépendantes si et seulement si pour tout A et B deux événements de A, on a :

P(X ∈ A ∩ Y ∈ B) = P(X ∈ A).P(Y ∈ B)

Proposition 4.6.1. Soient X et Y deux variables aléatoires possédant une espérance.Si X et Y sont indépendantes alors :

E(XY ) = E(X)× E(Y )

102

Proposition 4.6.2. Soient X et Y deux variables aléatoires possédant une variance.Si X et Y sont indépendantes alors :

V(XY ) = V(X) + V(Y )

4.7 Fonction caractéristique

4.7.1 Définition

Définition 4.7.1 (Fonction caractéristique). Soit X une variable aléatoire (non nécessairement àdensité), on appelle fonction caractéristique de X, l’application :

φX : R −→ C

: t 7→ E(exp(itX)) = E(cos(tX)) + iE(sin(tX))

Cette application est dite caractéristique pour la raison suivante :

Théorème 4.7.1. Soit X une variable aléatoire, alors la fonction caractéristique caractérise saloi. Autrement dit si Y est une autre variable aléatoire, alors X suit la loi de Y si et seulement siX et Y ont la même fonction caractéristique.

Remarque 4.7.1. Comme pour la fonction génératrice, ce théorème permet de trouver la loid’une variable aléatoire en calculant sa fonction caractéristique et en la comparant à la fonctioncaractéristique des lois usuelles.

4.7.2 Fonction caractéristique des lois usuelles

Proposition 4.7.1 (Fonction caractéristique de la loi uniforme). Soit X une variable aléatoiresuivant la uniforme U(a, b). La fonction caractéristique de X est alors égale à :

∀t ∈ R, φX(t) =eitb − eita

i(b− a)t

103

Démonstration 4.7.1. Soit X ∼ U(a, b). On a ∀t ∈ R :

φX(t) = E(eitX)

=1

b− a×∫Reitx.1[a,b]dx

=1

b− a×∫ b

a

eitxdx

=1

b− a×(eitb − eita

)

On a donc bien : φX(t) =eitb − eita

i(b− a)t.

Proposition 4.7.2 (Fonction caractéristique de la loi exponentielle). Soit X une variable aléatoiresuivant la exponentielle E(λ). La fonction caractéristique de X est alors égale à :

∀t ∈ R, φX(t) =1

1− itλ

Démonstration 4.7.2. Soit X ∼ E(λ). On a ∀t ∈ R :

E(exp(itX)) = λ

∫R∗+

exp(itx) exp(−λx)dx

= λ

∫R∗+

exp(x(it− λ))dx

= λ

[1

it− λexp(x(it− λ))

]+∞

0

= λ1

it− λ

= − 1itλ− 1

=1

1− itλ

On a donc bien : φX(t) =1

1− itλ

.

104

Proposition 4.7.3 (Fonction caractéristique de la loi normale centrée réduite). Soit X une vari-able aléatoire suivant la loi normale centrée réduite N (0, 1). La fonction caractéristique de X estalors égale à :

∀t ∈ R, φX(t) = E(eitX) = exp

(−t2

2

)

Démonstration 4.7.3. Soit X ∼ N (0, 1). On a ∀t ∈ R :

φX(t) = E(eitX)

=1√2π

∫ +∞

−∞e−x22 × eitxdx

=1√2π

∫ +∞

−∞e−x22 × cos(tx)dx+

i√2π

∫ +∞

−∞e−x22 × sin(tx)dx

La seconde intégrale est l’intégrale d’une fonction impaire sur l’intervalle symétrique ] −∞,+∞[

elle est donc nulle.Par conséquent :

φX(t) =1√2π

∫ +∞

−∞e−x22 × cos(tx)dx

De plus on remarque que ∀x ∈ R on a :

|e−x22 × cos(tx)| ≤ e

−x22

et la fonction x→ e−x22 est intégrable sur ]−∞,+∞[.

D’autre part, la fonction x→ e−x22 ×cos(tx) est dérivable sur R et sa dérivée vaut : −xe−x

2

2 ×sin(tx).On remarque enfin que :

| − xe−x22 × sin(tx)| ≤ |x|e

−x22

et que la fonction |x|e−x2

2 est intégrable sur ]−∞,+∞[.

105

Donc d’après le théorème de dérivation sous le signe intégral on a :

φ′X(t) =1√2π

∫ +∞

−∞−xe

−x22 × sin(tx)dx

=−1√2π

∫ +∞

−∞xe−x22 × sin(tx)dx

En effectuant une intégration par partie on obtient alors :

φ′X(t) =1√2π

([sin(tx)e

−x22

]+∞

−∞− t∫ +∞

−∞cos(tx)e

−x22 dx

)

=1√2π

(0− t

∫ +∞

−∞cos(tx)e

−x22 dx

)

= t×(

1√2π

∫ +∞

−∞cos(tx)e

−x22 dx

)

= t× φX(t)

Donc il existe une constante C telle que :

φX(t) = C.e−t2/2

Or :φX(0) = E(e0) = E(1) = 1

Donc :C.e−02/2 = 1⇐⇒ C.e0 = 1⇐⇒ C = 1

On obtient finalement que :

φX(t) = exp

(−t2

2

)

Proposition 4.7.4 (Fonction caractéristique de la loi normale). Soit X une variable aléatoire

106

suivant la loi normale N (µ, σ2). La fonction caractéristique de X est alors égale à :

∀t ∈ R, φX(t) = E(eitX) = exp

(µit− σ2t2

2

)

Démonstration 4.7.4. Soit X ∼ N (µ, σ2) avec σ > 0. On a :

X − µσ

∼ N (0, 1)

Donc d’après la proposition précédente on a ∀t ∈ R :

φX−µσ

(t) = exp

(−t2

2

)

= E(eitX−µσ )

= e−itµ/σ × E(eitX/σ)

= e−itµ/σ × φX(t

σ)

Par conséquent :

φX(t

σ) = exp

(−t2

2

)× eitµ/σ

⇐⇒ φX(t) = exp

(−σ2t2

2

)× eitµ

⇐⇒ exp

(µit− σ2t2

2

)

On a donc bien : φX(t) = E(eitX) = exp(µit− σ2t2

2

).

107

4.7.3 Indépendance

Propriété 4.7.1. Soient X1, ..., Xn des variables aléatoires réelles.Si les variables aléatoires X1, ..., Xn sont indépendantes alors :

∀t ∈ R, φX1+...+Xn(t) = φX1(t)× ...× φXn(t)

Démonstration 4.7.5. Supposons que X1, ..., Xn sont indépendantes. On a alors :

φX1+...+Xn(t) = E(eit(X1+...+Xn))

= E(eit(X1) × ...× eit(Xn))

= E(eit(X1))× ...× E(eit(Xn)) (Par indépendance)

= φX1(t)× ...× φXn(t)

108

4.8 Synthèse

−→ Densité de probabilité

Application p : [a, b]→ R continue positive vérifiant :∫ bap(x)dx = 1.

−→ Variable aléatoire réelle de densité p

X une variable aléatoire réelle vérifiant : ∀α, β ∈ R,P(α ≤ X ≤ β) =∫ βαp(x)dx

−→ Espérance

x 7→ E(X) =

∫Rxp(x)dx

−→ Fonction de répartitionx 7→ FX(x) = P(X ≤ x)

−→ Fonction caractéristiquet 7→ φX(t) = E(eitX)

−→ Propriétés des lois usuelles

Loi Densité Espérance Fonction Fonctionde répartition caractéristique

R −→ R 0 si x < a

U([a, b]) x 7→ 1b−a1[a,b](x)

a+ b

2x 7→ x−a

b−a si a ≤ x ≤ b t 7→ eitb − eita

it(b− a)

1 si x > b

R∗+ −→ R

E(p) x 7→ p exp(−px)1

px 7→ 1− exp(−px) t 7→ 1

1− itp

R −→ R

C(a) x 7→ a

π(a2 + x2)- x 7→ 1

πarctan

(xa

)+

1

2t 7→ exp(−a | t |)

R −→ R

N (µ, σ2) x 7→ 1

σ√

2πexp

(−(x− µ)2

2σ2

)µ cf Annexe t 7→ exp

(iµt− σ2t2

2

)R −→ R

N (0, 1) x 7→ 1√2π

exp

(−x2

2

)0 cf Annexe t 7→ exp

(− t2

2

)

109

110

Chapitre 5

Convergence de variables aléatoires

Comme on a pu le voir au chapitre précédent les variables aléatoires peuvent être manipuléescomme des variables habituelles. Il est donc naturel de penser à la convergence d’une suite devariable aléatoire. Posons d’abord cela :

Définition 5.0.1 (suite de variables aléatoires). L’application Xn : Ω −→ R est une suite devariables aléatoires. Les Xi étant des variables aléatoires définis sur un même espace probabilisable(Ω,A).

Comme pour les suites numériques, il existe plusieurs types de convergence pour les suites devariables aléatoires, tous reliés entre eux. Nous allons étudier cette notion dans ce chapitre.

5.1 Généralités

Commençons tout d’abord par énoncé les différents type de convergence.

5.1.1 Types de convergence

Définition 5.1.1 (types de convergence). On dit qu’une suite (Xn)n>0 de variables aléatoiresconverge vers la variable aléatoire X :• Presque Sûrement si : P(Xn −→

n→∞X) = P(ω ∈ Ω, Xn(ω) −→

n→∞X(ω)) = 1

Et on note : Xnp.s−→

n→∞X

• en Probabilité si : ∀ε > 0,P(| Xn −X |≥ ε) −→n→∞

0

Et on note : XnP−→

n→∞X

• dans L1 si : Xn et X sont intégrables et : E(| Xn −X |) −→n→∞

0

Et on note : XnL1

−→n→∞

X

111

• dans L2 si : Xn et X sont de carrés intégrables et : E((| Xn −X |)2) −→n→∞

0

Et on note : XnL2

−→n→∞

X

Remarque 5.1.1. – Il est évident qu’on peut remplacer la formule de convergence en proba-bilité par :∀ε > 0,P(| Xn −X |< ε) −→

n→∞1

– La définition de convergence dans Lp est immédiate, il faut que :E | Xn |p<∞,E | X |p<∞ et : E((| Xn −X |)p) −→

n→∞0

On la note : XnLp−→

n→∞X

– Il est évident que pour que ces définitions aient un sens, il faut que les variables aléatoiresXn et X soient définies sur le même espace probabilisé.

5.1.2 Théorèmes fondamentaux

Comme lors de l’étude des suites numériques, nous pouvons obtenir les théorèmes qui nouspermettront de démontrer la plupart des propositions à venir.

Théorème 5.1.1 (Convergence dominée (hors programme)). Soit (Xn)n≥1 une suite de variablealéatoire qui convergence presque sûrement vers X. Si la suite est dominée, c’est-à-dire il existeune variable aléatoire Y telle que :

∀n ≥ 1, P(|Xn| ≤ Y ) = 1, alors X est intégrable et XnL1

−→n→∞

X

Proposition 5.1.1. Si Xn converge vers X dans L1, alors :

limn→∞

E(Xn) = E(X)

Démonstration 5.1.1. Soit n ∈ N on a tout d’abord :

(Xn −X) ≤ |Xn −X|

et :(X −Xn) ≤ |Xn −X|

D’où par linéarité et croissance de l’espérance, on obtient :

E(Xn)− E(X) = E(Xn −X) ≤ E(|Xn −X|)

etE(X)− E(Xn) = E(X −Xn) ≤ E(|Xn −X|)

112

On obtient donc :

|E(X)− E(Xn)| ≤ E(|Xn −X|).

Comme on a la convergence dans L1, cela conclut la démonstration.

Théorème 5.1.2 (Convergence monotone (hors programme)). Soit (Xn)n≥1 une suite croissantede variable aléatoires réelles positives telles que :

∀m ≥ n,Xm ≥ Xn alors :

limn→∞

E(Xn) = E(X)

Proposition 5.1.2 (Inégalité de Markov). Soit X une variable aléatoire réelle alors :

∀a > 0,P(|X| ≥ a) ≤ E(|X|)a

Remarque 5.1.2. Il est évident que, comme pour toute majoration, cette inégalité n’a d’intérêtque si E(|X|) est fini. Néanmoins, même dans le cas contraire, l’inégalité est vraie que E(|X|) nepose pas de problème de définition (car on somme ou on intègre une fonction positive).

Démonstration 5.1.2. Nous allons utiliser le résultat trivial suivant :

Soit a > 0, ∀ω ∈ Ω, |X(w)| ≥ a1|X(w)|≥a. On obtient ainsi par croissance de l’espérance :

E(X(w)) ≥ E(a1|X(w|)≥a) = aP(|X(w)| ≥ a)

Ce qui conclut la démonstration.

Théorème 5.1.3 (Inégalité de Markov généralisée). Soit X une variable aléatoire réelle et p > 0 :

∀a > 0,P(|X| ≥ a) ≤ E(|X|p)ap

Démonstration 5.1.3. On utilise la même démonstration que pour le cas simple de l’inégalité deMarkov.

Théorème 5.1.4 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de carréintégrable, et soit a > 0, on a :

P(|X − E(X)| > a) ≤ V ar(X)

a2

113

Démonstration 5.1.4. On utilise tout simplement l’inégalité de Markov d’ordre 2, car X−E(X)

est une variable aléatoire.

Théorème 5.1.5 (Inégalité de Cauchy-Schwarz). Soit X et Y deux variables aléatoires réelles, siX et Y sont de carré intégrables alors :

E(|X.Y |) ≤√

E(X2)E(Y 2)

Démonstration 5.1.5. On va se rapporter à un polynôme du second degré (en λ) et utilisé lespropriétés du discriminant. Soit λ ∈ R une variable, alors par linéarité et positivité de l’espérance :

E((X + λY )2) = E(X2) + 2λE(XY ) + λ2E(Y 2) ≥ 0

Par croissance et positivité de l’espérance, on en déduit que ce polynôme possède soit une uniqueracine soit aucune. Autrement dit sont déterminant est négatif ou nul. Ce qui revient à écrire que :

4.E(XY )2 − 16.E(X2)E(Y 2) ≤ 0

En passant à la racine des deux cotés (car l’espérance est positive) on conclut la démonstration.

L’inégalité suivante généralise celle de Cauchy-Schwarz.

Théorème 5.1.6 (Inégalité de Hölder). Soit X et Y deux variables aléatoires et soient p, q > 0

vérifiant1

p+

1

q= 1, alors on a :

E(|X.Y |) ≤ E(|X|p)1p .E(|Y |q)

1q

Remarque 5.1.3. Prendre p = q = 2 revient à utiliser l’inégalité de Cauchy-Schwarz !

5.1.3 Relation entre les différentes convergences

Théorème 5.1.7 (Propriétés fondamentales).– Convergence dans L2 ⇒ Convergence dans L1

– Convergence presque sûre ⇒ Convergence en probabilité– Convergence dans L1 ⇒ Convergence en probabilité

Démonstration 5.1.6.

114

– Convergence dans L2 ⇒ Convergence dans L1

On sait qu’une variable de carré intégrable est également intégrable. Donc si Xn − X estde carré intégrable, elle est intégrable. Il nous suffit alors d’utiliser l’inégalité de CauchySchwarz, vue plus haut :

E(|Xn −X|) ≤√

E(|Xn −X|2)

Par le théorème des gendarmes, on conclut la démonstration.– Convergence presque sûre ⇒ Convergence en probabilité

Supposons que Xn converge presque sûrement vers X. Il nous faut montrer, d’après la Re-marque 5.1.1, que :

∀ε > 0,P(| Xn −X |< ε) −→n→∞

1

Soit ε > 0, posons la variable aléatoire : Zn = 1|Xn−X|>ε. On a par hypothèse sur la conver-gence presque sûre :

∀w ∈ Ω,∃N0, tel que ∀n ≥ N0, |Xn(w)−X(w)| ≤ ε. On obtient donc que pour tout n ≥ N0,Zn = 0. Comme on sait de plus (voir chapitre 4) que E(Zn) = P(|Xn −X| > ε), et que Znest dominé par 1 qui est une variable aléatoire constante, donc intégrable. On a alors par lethéorème de convergence dominé et par la Proposition 5.1.1 :

limn→∞

P(|Xn −X| > ε) = E( limn→∞

Zn) = E(0) = 0

Ce qui conclut la démonstration.– Convergence dans L1 ⇒ Convergence en probabilité

On utilise l’inégalité de Markov. Soit ε > 0, on a :

P(|Xn −X| ≥ ε) ≤ E(|Xn −X|)ε

En appliquant la définition de la convergence dans L1, on conclut la démonstration.

Remarque 5.1.4. De la même manière, on peut montrer que pour tout p ∈ N, la convergencedans Lp implique la convergence dans Lp−1.

On peut à présent remarquer que grâce à la relation que l’on a démontré entre la convergence L2

et L1 ainsi que la Proposition 5.1.1, on peut obtenir un résultat équivalent pour la convergencedans L2 :

Proposition 5.1.3 (Convergence dans L2 et conséquence). Soit (Xn)n≤1 une suite de variablealéatoire et X une autre variable aléatoire tel que : Xn

L2

−→n→∞

X. Alors :

115

– limn→∞

E(Xn) = E(X)

– limn→∞

E(X2n) = E(X2)

– limn→∞

V ar(Xn) = V ar(X)

Démonstration 5.1.7.

– Evident, car la convergence dans L2 implique la convergence dans L1. Il nous suffit d’appliquerla Proposition 5.1.1.

– C’est la même démonstration que pour la Proposition 5.1.1, en partant du fait que :

(X −Xn)2 ≤ |Xn −X|2

et(Xn −X)2 ≤ |Xn −X|2

– Il suffit d’utiliser les deux premières assertions, en utilisant le résultat suivant :

V ar(Xn) = E(X2n)− E(Xn)2

Théorème 5.1.8. Soit (Xn)n≤1 une suite de variable aléatoire qui admet une espérance et unevariance. Si de plus on a :

limn→∞

E(Xn) = l ∈ R

etlimn→∞

V ar(Xn) = 0

Alors :

XnP−→

n→∞l

Démonstration 5.1.8. Nous allons utiliser l’inégalité de Bienaymé-Tchebychev. Soit ε > 0, ona :

116

P(|Xn − l| > ε) ≤ E(|Xn − l|2)

ε2

≤ E(X2n − 2lXn + l2)

ε2

≤ 1

ε2(E(X2

n)− 2lE(Xn) + l2)

≤ 1

ε2(V ar(Xn) + E(Xn)2 − 2lE(Xn) + l2

)

Or par hypothèse, pour un certain rang N0, on a pour tout n ≥ N0 :

1

ε2(V ar(Xn) + E(Xn)2 − 2lE(Xn) + l2

)=

1

ε2(0 + l2 − 2l2 + l2

)= 0

Donc par le théorème des gendarmes, on a bien : XnP−→

n→∞l.

Ce qui conclut la démonstration.

Remarque 5.1.5. Cette démonstration est à connaître et à savoir appliquer. En effet elle estsouvent réutiliser lorsqu’une convergence en probabilité doit être montrée. Bien entendu commel’inégalité de Bienaymé-Tchebychev n’est qu’une conséquence de l’inégalité de Markov, on appliquele plus souvent l’inégalité de Markov lors de la résolution d’exercice.

5.1.4 Convergence en loi

Dans cette partie nous allons étudier la convergence en loi. Elle a pour particularité d’êtreune des convergences les plus faibles, au sens où toutes les autres convergences l’impliquent. Elleest néanmoins fondamentale car elle permet de définir le théorème de la limite centrale que nousverront dans la partie suivante mais surtout nous verrons qu’elle caractérise les lois grâce à sonlien avec la fonction caractéristique.

Définition 5.1.2 (Convergence en loi). Soit (Xn)n≤1 une suite de variable aléatoire, on dit queXn converge en loi vers la variable aléatoire X si pour tout x ∈ R, où FX est continue, on ait :

limn→∞

P(Xn ≥ x) = P(X ≥ x)

On la note : XnL−→

n→∞X

Remarque 5.1.6. Bien entendu la définition suivante est également valable :

117

Xn converge en loi vers la variable aléatoire X si pour tout x, y ∈ R, où FX est continue, on ait :

limn→∞

P(Xn ≥ x) = P(X ≥ x)

Définition 5.1.3. Xn converge en loi vers la variable aléatoire X si et seulement si pour toutefonction f : R −→ R continue et bornée, on a :

E(f(Xn) −→n→∞

E(f(X))

Donnons à titre indicatif une caractérisation de la convergence en loi par la fonction carac-téristique :

Théorème 5.1.9 (de Lévy). Xn converge en loi vers la variable aléatoire X si et seulement si :

∀u ∈ Rn, θXn(u) −→n→∞

θX(u)

Démonstration 5.1.9. La démonstration est hors programme.

Proposition 5.1.4. Convergence en presque sûre ⇒ Convergence en loi.

On va utiliser le lemme suivant :

Lemme 5.1.1. Soit (Xn)n≥1 une suite de variable aléatoire qui converge presque sûrement vers lavariable aléatoire X. Soit f : R −→ R une fonction continue, alors :

f(Xn)p.s−→

n→∞f(X)

Démonstration 5.1.10 (du lemme). Soit ω ∈ Ω, on a :

|f(Xn(w))− f(X(w))| = |f(Xn(w))−Xn(w) +Xn(w)−X(w) +X(w)− f(X(w))|

≤ |f(Xn(w))−Xn(w)|+ |Xn(w)−X(w)|+ |X(w)− f(X(w))|

118

Soit ε > 0, par continuité de f , il existe des rangs N0 et N1 tels que pour tout n ≥ max(N0, N1) =

N , on ait :

|f(Xn(w))−Xn(w)| ≤ ε

3

et|X(w)− f(X(w))| ≤ ε

3

De plus par convergence presque sûre de Xn vers X, il existe un rang N2 tel que pour toutn ≥ max(N,N2), on ait :

|Xn(w)−X(w)| ≤ ε

3

.

Donc |f(Xn(w))− f(X(w))| ≤ ε. Donc on a bien : f(Xn)p.s−→

n→∞f(X), ce qui conclut la démon-

stration.

Démonstration 5.1.11 (de la proposition). On va utiliser la deuxième définition de la conver-gence en loi. Supposons qu’une suite de variable aléatoire Xn converge presque sûrement vers lavariable aléatoire X.

Soit f une fonction continue et bornée (par un réel qu’on appellera M). On a d’après le lemmesi Xn

p.s−→n→∞

X alors f(Xn)p.s−→

n→∞f(X). Comme f est bornée par la constante M qui est intégrable,

on peut utiliser le théorème de convergence dominée. Ce qui conclut la démonstration.

Proposition 5.1.5 (Convergence en probabilité et loi).Convergence en probabilité ⇒ Convergence en loi.

Démonstration 5.1.12. On va utiliser la fonction de répartition. Supposons que Xn converge enprobabilité vers X. Soit x un point ou FXn est continue et soit η > 0, on a :

Xn ≤ x ⊂ X ≤ x+ η ∪ Xn −X ≤ −η

. En effet comme Xn = Xn−X +X, si Xn ≤ x alors soit X ≤ x+ η, soit Xn−X ≤ −η. On com-pense par la probabilité et on obtient (car les deux évènements sont bien entendu incompatibles) :

P(Xn ≤ x) ≤ P(X ≤ x+ η) + P(Xn −X ≤ −η)

119

Et de manière triviale :

P(Xn ≤ x) ≤ P(X ≤ x+ η) + P(|Xn −X| ≥ η) (1)

On va à présent utiliser notre hypothèse, le fait que la fonction de répartition FX soit continue.

Soit ε > 0, il existe η2 > 0 tel que : FX(x) ≤ FX(x+ η2) ≤ FX(x) + ε2.

Et donc par hypothèse de convergence en probabilité, pour ces ε et η2 donnés, il existe un rangN tel que pour tout n ≥ N , P(|Xn −X| ≥ η2) ≤ ε

2. Ce qui nous permet d’obtenir grâce à (1) :

P(Xn ≤ x) ≤ P(X ≤ x+ η2) + P(|Xn −X| ≥ η2)

≤ FX(x+ η2) + P(|Xn −X| ≥ η2)

≤ FX(x) +ε

2+ε

2

≤ FX(x) + ε

Comme P(Xn ≤ x) = FXn(x), on a : FXn(x) ≤ FX(x) + ε

On obtient de la même manière :

P(Xn ≤ x) ≥ P(X ≤ x− η)− P(X −Xn ≤ −η)

Et donc : FXn(x) ≥ FX(x− η)− P(|Xn −X| ≥ η)

En combinant les deux résultats trouvés, on prouve bien la convergence en loi, ce qui conclut ladémonstration.

Remarque 5.1.7. La réciproque est bien entendue fausse, malgré cela nous verrons dans les ex-ercices qu’il existe un cas ou on a équivalence.

120

5.2 Théorèmes limites

Vocabulaire 5.2.1. Soit (Xn)n≥1 une suite de variable aléatoire, on dit que les Xn sont i.i.d.(independant and identically distributed), lorsque ces éléments sont tous indépendants entre eux etsuivent la même loi de probabilité.

5.2.1 Loi des grands nombres

Théorème 5.2.1 (Loi faible des grands nombres). Soit (Xn)n≥1 une suite de variable aléatoiresi.i.d., admettant une espérance et une variance. Soit X une autre variable aléatoire de même loi,alors :

1

n

n∑i=1

XiP−→

n→∞E(X)

Démonstration 5.2.1. Par définition, on doit donc montrer que :

∀ε > 0,P(| 1n

n∑i=1

Xi − E(X)| ≥ ε) −→n→∞

0

Il serait judicieux d’utiliser l’inégalité de Bienaymé Tchebychev pour supprimer directementE(X). L’hypothèse de l’énoncé qui dit que la suite admet une variance nous permet de l’utiliser.Soit ε > 0, on a donc :

P(| 1n

n∑i=1

Xi − E(X)| ≥ ε) ≤V ( 1

n

n∑i=1

Xi − E(X))

ε

≤V ( 1

n

n∑i=1

Xi)

ε

≤V (

n∑i=1

Xi)

n2ε

n∑i=1

V (Xi)

n2ε(par indépendance)

≤ V (X)

nε(car de même loi)

121

Comme V (X) est une constante, le terme de droite tend vers 0 en l’infini. Par le théorème desgendarmes on conclut la démonstration.

Théorème 5.2.2 (Loi forte des grands nombres). Soit (Xn)n≥1 une suite de variable aléatoiresi.i.d., admettant une espérance et une variance. Soit X une autre variable aléatoire de même loi,alors :

1

n

n∑i=1

Xip.s−→

n→∞E(X)

Démonstration 5.2.2. La démonstration est hors programme car elle nécessite des résultats plusavancés. Pour les étudiants curieux, la démonstration faite par Kolmogorov en 1929 est présentesur le site Wikipédia.

Bien que vous n’aurez peut être pas l’occasion de le voir par vous même durant cette UE, nousallons à présent énoncer ce qui est, peut être, le théorème le plus important de ce cours, et demanière certaine un des théorèmes fondamental des probabilités et des statistiques.

Théorème 5.2.3 (de la limite centrale). Soit (Xn)n≥1 une suite de variable aléatoires i.i.d., notonsµ leur espérance, et σ2 leur variance.

Posons : Xn =√n

1n

n∑i=1

Xi − µ

σ

Alors :

XnL−→

n→∞X, avec X ∼ N (0, 1)

Remarque 5.2.1. Le fait d’utiliser µ et σ signifie, bien entendu, que les Xn sont de carrés inté-grables (et donc intégrables également).

Démonstration 5.2.3. On va utiliser la caractérisation de la convergence en loi, c’est-à-dire enutilisant la fonction caractéristique.

Soit u ∈ R,

122

φXn = E(exp(iu√n

1n

n∑i=1

Xi − µ

σ

)

= E(exp(iu√n

n∑i=1

Xi − nµ

)

= E(exp(iu

n∑i=1

(Xi − µ)

√nσ

)

=n∏i=1

E(exp(iu

((Xi − µ)√

)) (par indépendance)

=

(E(exp(iu

((X1 − µ)√

))

)n(car de même loi (identiquement distribuées))

=

(φX1−µ(

u√nσ

)

)n

Il nous suffit alors d’appliquer le développement limité de la fonction caractéristique (on peutle faire car X1 est de carré intégrable, donc X1 − µ également). On obtient alors :

φXn(u) = 1− u2

2n+ o(

1

n)

Or, 1 − u2

2n+ o( 1

n) −→n→∞

exp(−u2

2). On reconnaît la fonction caractéritique d’une loi normale

centrée réduite. Ce qui conclut la démonstration.

123

5.3 Synthèse

−→ Convergences

• Xnp.s−→

n→∞X ⇔ P(Xn −→

n→∞X) = P(ω ∈ Ω, Xn(ω) −→

n→∞X(ω)) = 1

• XnP−→

n→∞X ⇔ ∀ε > 0,P(| Xn −X |≥ ε) −→

n→∞0

• XnLp−→

n→∞X ⇔ E | Xn |p<∞,E | X |p<∞ et : E((| Xn −X |)p) −→

n→∞0

• XnL−→

n→∞X ⇔

– ∀x ∈ R, où FX est continue limn→∞

P(Xn ≥ x) = P(X ≥ x)

– si pour toute fonction f : R −→ R continue et bornée, E(f(Xn) −→n→∞

E(f(X))

– ∀u ∈ Rn, θXn(u) −→n→∞

θX(u)

−→ Relations entre convergencesL2 ⇒ L1

p.s⇒ probabilité⇒ en loi

−→ Inégalités

X et Y de carré intégrable.

• [Markov] ∀a > 0,∀p > 0,P(|Z| ≥ a) ≤ E(|Z|p)ap

• [Bienaymé-Tchebychev] ∀a > 0,P(|X − E(X)| ≥ a) ≤ V ar(X)

a2

• [Cauchy Schwarz] E(|X.Y |) ≤√

E(X2)E(Y 2)

124

−→ Théorèmes limites

Xn est i.i.d, et admet une espérance µ et une variance σ2. X suit la même loi que Xn.

Xn =√n

1n

n∑i=1

Xi − µ

σ

• [Loi faible des grands nombres]1

n

n∑i=1

XiP−→

n→∞E(X)

• [Loi forte des grands nombres]1

n

n∑i=1

Xip.s−→

n→∞E(X)

• [Central limite] XnL−→

n→∞X, avec X ∼ N (0, 1)

125

126

Deuxième partie

Statistiques

127

Chapitre 6

Introduction aux statistiques

6.1 Population et individu

Définition 6.1.1 (Population statistique). On appelle population statistique l’ensemble sur lequell’étude est menée.

Définition 6.1.2 (Individu statistique). On appelle individu statistique tout élément de la popu-lation statistique.

Exemples 6.1.1.

– On étudie le nombre d’arbres malades d’une forêt. La population statistique est alors la forêtet chaque arbre est un individu statistique.

– On étudie le nombre de planètes possédant un anneau. La population statistique est alorsl’ensemble des planètes de l’univers et une planète est un individu statistique.

– On étudie les intentions de votes pour une éléction présidentielle. La population statistiqueest alors l’ensemble des électeurs du pays et un électeur est un individu statistique.

6.2 Echantillon et caractère

Lorsqu’une population est trop grande, la collecte de données sur l’ensemble des individus peutêtre très longue. Afin, de contourner cette difficulté, on ne collecte ces données que sur un sousensemble de la population, nommé échantillon, et on on estime alors les données que doit posséderla population à un pourcentage de sûreté près.

Définition 6.2.1 (Echantillon). On appelle échantillon tout sous ensemble d’une population statis-tique.

129

Exemple 6.2.1. L’ensemble des plaques d’immatriculation françaises commençant par "AA" estun échantillon de la population statistique composé de l’ensemble des plaques d’immatriculationfrançaises.

Définition 6.2.2 (Caractère). On appelle caractère, un trait présent chez tous les individus d’unepopulation.Un trait est quantitatif s’il est mesurable, qualitatif s’il est repérable sans être mesurable.

Vocabulaire 6.2.1. Le caractère est aussi appelé variable statistique.

Exemple 6.2.2. Sur une population de fleurs, la couleur est un caractère qualitatif et le nombrede pétales un caractère quantitatif.

6.3 Fréquence et Distribution

Définition 6.3.1 (Effectif d’une valeur d’un caractère). On appelle effectif d’une valeur d’uncaractère, le nombre de fois qu’apparaît cette valeur du caractère.

Définition 6.3.2 (Fréquence d’une valeur d’un caractère). On appelle fréquence d’une valeur d’uncaractère, le quotient de l’effectif de cette valeur par l’effectif total des valeurs de ce caractère. Ellepeut exprimée sous forme de pourcentage ou de fraction.

Exemple 6.3.1. On étudie le caractère qualitatif couleur d’une population constituée de 100 indi-vidus fleurs. On obtient le tableau suivant :

couleur fleurs rouges fleurs vertes fleurs jaunes fleurs noiresnombre 15 27 43 15

L’effectif de la valeur rouge du caractère couleur est 15.L’effectif de la valeur verte du caractère couleur est 27.La fréquence de la valeur rouge du caractère couleur est

15

100= 15%

La fréquence de la valeur verte du caractère couleur est

47

100= 47%

130

Remarque 6.3.1. Une fois l’étude sur les effectifs de chaque caractère d’un échantillon réalisé,on peut considérer que ces effectifs se rapprochent, pour chaque caractère, de la loi de distributiond’une variable aléatoire que nous verrons au chapitre suivant.

131

132

Chapitre 7

Estimation ponctuelle

Le but de ce chapitre d’introduction aux statistiques sera de résoudre le problème suivant :

" Soit X une variable aléatoire suivant une loi L(θ) dépendant d’un paramètre réel inconnu θ,peut-on identifier ou approcher la valeur de θ ?"

Être capable de donner la valeur de θ est ce qu’on appelle l’estimation ponctuelle, l’approcher(c’est-à-dire donner un intervalle dans lequel se situe ce paramètre) se nomme estimation parintervalles. Pour cela on prend un échantillon de n variables aléatoires X1, ..., Xn i.i.d suivant lamême loi que X, ainsi qu’un ensemble de réalisation de ces variables aléatoires x1, ..., xn.

Remarque 7.0.2. Le paramètre θ peut-être multi-dimensionnel. En effet pour une loi normale,le paramètre serait θ = (µ, σ2) tandis que pour une loi binomiale ou une loi de Poisson il serait :θ = p ou θ = λ.

7.1 Généralités

Définition 7.1.1 (Estimateur). Soit (X1, ..., Xn) un échantillon de taille n, un estimateur de θest une variable aléatoire : Φn = φ(X1, ..., Xn), où

φ :Rn −→ R

(x1, ..., xn) 7→ θn = φ(x1, ..., xn)

On appelle θn estimation de θ

Remarque 7.1.1. Il faut faire attention au fait qu’un estimateur est une fonction de X1, ..., Xn

et non du paramètre θ !

133

Définition 7.1.2 (Lois de distribution). Soit (X1, ..., Xn) un échantillon de taille n de la variablealéatoire X ∼ L(θ) et (x1, ..., xn) une réalisation. On appelle distribution de la loi L(θ) la valeur :Pθ(X = x).

On définit alors la loi de distribution de l’échantillon :– Si L(θ) est discrète par :

L(x1, ..., xn, θ) = P(X1 = x1, ..., Xn = xn, θ)

= Pθ(X1 = x1). · · · .Pθ(Xn = xn)

– Si L(θ) est continue de densité pθ par : L(x1, ..., xn, θ) = pθ(x1). · · · .pθ(xn)

On nomme, dans les deux cas, L(x1, ..., xn, θ) la fonction de vraisemblance du paramètre θ

Remarque 7.1.2. Il peut y avoir plusieurs estimateurs pour un même échantillon, citons à titred’exemple les plus utilisés :

– La moyenne empirique : Xn = 1n

n∑i=1

Xi

– La médiane (valeur tels qu’il y ait le même nombre d’éléments inférieur et supérieur à celle-ci)

– Un des valeurs de l’échantillon (X5 par exemple)La question qui se pose alors est : comment trouver l’estimateur le plus efficace ? Il suffit de les

comparer avec plusieurs méthodes dont nous verrons quelques-unes ci-dessous.

Définition 7.1.3 (Biais d’un estimateur). Soit Φn un estimateur d’un échantillon relatif auparamètre θ, on appelle biais de cet estimateur :

B(Φn, θ) = E(Φn)− θ

Définition 7.1.4 (Estimateur sans biais). On dit que Φn est un estimateur sans biais si :

∀θ,Eθ(Φn) = θ

Autrement dit : B(Φn, θ) = 0

Définition 7.1.5 (Estimateur convergent). On dit que Φn est un estimateur convergent (en prob-abilité) si :

ΦnP−→

n→∞θ

134

Exemple 7.1.1. On considère issue une expérience dont l’issue est soit un succès soit un échec.Prenons l’exemple d’un jeu de pile ou face.

Soit, donc, X1, ..., Xn des variables aléatoires i.i.d, tel que Xi ∼ B(p). Nous rappelons (voirchapitre 3), que P(Xi = 1) = p, de plus : Ep(Xi) = p.

Nous allons montrer que la moyenne empirique est un estimateur sans biais convergent de p.On définit la moyenne de n variable aléatoire par la variable aléatoire :

Xn =1

n

n∑i=1

Xi

On voit clairement que c’est un estimateur, montrons qu’il est sans biais. Soit p :

Ep(XN) = Ep(1

n

n∑i=1

Xi)

=1

n

n∑i=1

Ep(Xi)

= n.1

nEp(X1) = p

Il est donc sans biais, montrons qu’il est consistant. Soit ε > 0 et soit p, on observe tout d’abordque : P(| Xn − p |> ε) = P(| Xn − Ep(Xn) |> ε).

Utilisons l’inégalité de Bienaymé-Tchébychev :

P(| Xn − Ep(Xn) |> ε) ≤ V arp(Xn)

ε2

≤ 1

n2ε2

n∑i=1

V arp(Xi)

≤ 1

n2ε2.nV arp(X1)

≤ 1

nε2V arp(X1)︸ ︷︷ ︸−→n→∞

0

C’est donc bien un estimateur convergent sans biais.

Remarque 7.1.3. N’oublions pas que le théorème 5.1.6 nous donne une condition suffisante pourla convergence d’un estimateur.

135

7.2 Information de Fisher

Cette section va nous permettre de vérifier l’efficacité d’un estimateur.

Définition 7.2.1 (Quantité d’information d’un échantillon). Soit (X1, ..., Xn) un échantillon detaille n relatif au paramètre θ on définit la quantité d’information de cette échantillon, égalementappelée information de Fisher par :

In(θ) = E

[(∂ logLn(x1, ..., xn, θ)

∂θ

)2]

Nous allons indiquer dans la suite les principaux moyens de juger de l’efficacité d’un estimateur.

Proposition 7.2.1 (Comparaison d’estimateur). Soit Φn et Φn deux estimateurs d’un mêmeéchantillon. On dira que Φn est plus efficace que Φn si :

V ar(Φn) < V ar(Φn)

Proposition 7.2.2 (Inégalité de Cramer-Rao). Soit Φn un estimateur sans biais d’un échantillonrelatif au paramètre θ. Alors on a l’inégalité suivante :

1

In(θ)≤ V ar(Φn)

Cette inégalité à de l’importance pour la raison suivante :

Définition 7.2.2. On dira qu’un estimateur sans biais est efficace si on a égalité dans la propo-sition précédente. Autrement dit :

1

In(θ)= V ar(Φn)

7.3 Méthode du maximum de vraisemblance

Nous énoncerons ici, une méthode, encore due à Ronald Fisher, qui permet dans certains casde donner un estimateur efficace à partir de la fonction de vraisemblance.

La méthode du maximum de vraisemblance repose sur la rechercher de la valeur de θ pourlaquelle L(x1, ..., xn, θ) soit maximale. Autrement dit il nous faut résoudre les équations :

∂Ln(x1, ..., xn, θ)

∂θ= 0 et

∂2Ln(x1, ..., xn, θ)

∂θ2≤ 0 (7.1)

136

Théorème 7.3.1 (Condition suffisante). Si il existe un estimateur efficace sans biais, il est solutionde l’équation 6.1 dite du maximum de vraisemblance.

Remarque 7.3.1 (Fondamentale). On peut également remplacer dans les équations plus haut lafonction de vraisemblance par la log-vraisemblance, qui est défini comme la composé du log etde la fonction de vraisemblance. Le logarithme étant une fonction croissante, il est équivalent derésoudre les équations pour la vraisemblance ou pour a log-vraisemblance.

Le passage au log est, comme toujours, très utile pour ses propriétés notamment la transforma-tion du produit en somme.

Exemple 7.3.1. On souhaite trouver un estimateur d’une loi normale (N (µ, θ2)). Soit donc unéchantillon (X1, ..., Xn) suivant cette loi et x1, ..., xn des réalisations.

−→ Fixons tout d’abord θ et estimons µ.

L(x1, ..., xn, µ) =n∏i=1

pµ,σ(xi)

=n∏i=1

1√2πσ

exp

(−(xi − µ)2

2σ2

)

D’où :

logL(x1, ..., xn, µ) =n∑i=1

log

[1√2πσ

exp

(−(xi − µ)2

2σ2

)]=

n∑i=1

log

(1√2πσ

)+

n∑i=1

(−(xi − µ)2

2σ2

)

En dérivant partiellement par rapport µ et en trouvant les zéros on obtient :

∂ logL(x1, ..., xn, µ)

∂µ= 0⇔

n∑i=1

(xi − µσ2

)= 0

⇔n∑i=1

(xi − µ) = 0

Le seul zéro est donc en : µ = 1n

n∑i=1

xi. Il nous faut donc vérifier que c’est bien un maximum.

Dérivons pour cela une deuxième fois :

137

∂2 logL(x1, ..., xn, µ)

∂µ2=

n∑i=1

− 1

σ2< 0

Ce qui nous prouve que c’est le maximum.

On note donc µn = 1n

n∑i=1

xi l’estimateur le plus efficace de l’espérance µ de la loi normale. Ce

n’est autre que la moyenne empirique.

Nous laissons au lecteur le soin de vérifier, par simple calcul, que cet estimateur est sans biais.

−→ A l’inverse, fixons µ et estimons σ.On obtient de la même manière :

∂ logL(x1, ..., xn, σ)

∂σ= 0⇔

n∑i=1

(−1

σ

)+

n∑i=1

((xi − µ)2

σ3

)= 0

⇔n∑i=1

((xi − µ)2 − σ2

)= 0

On obtient donc l’estimateur : σ = 1n

n∑i=1

(xi − µ)2, en vérifiant une nouvelle fois que c’est la

valeur maximale.

138

Chapitre 8

Test d’hypothèse

Si on lance un dé une centaine de fois en notant le nombre obtenu à chaque lancé, on peutétablir une hypothèse statistique du type : “ Le dé est équilibré ”, “ Le dé est déséquilibré ” ou plusprécisément “ Le dé est plus lourd du côté où se trouve le nombre 5 ”. Une fois cette hypothèseémise, il est nécessaire de l’estimer en effectuant un test d’hypothèse, qui permettra d’estimer laprobabilité que cette hypothèse soit vraie ou fausse.

8.1 Généralités

Définition 8.1.1 (Test d’hypothèse). Un test d’hypothèse, est un procédé permettant d’évaluerune hypothèse statistique en fonction d’un échantillon.

Exemple 8.1.1 (Une pièce est elle équilibrée ?). Supposons qu’on ait lancé une centaine de foisune pièce afin de déterminer si elle est équilibrée et que nous ayons obtenu l’échantillon suivant :

Pile Face47 53

On peut alors formulé l’hypothèse statistique : “ La pièce est équilibrée ”. Cependant, si on veutpouvoir dire plus précisément : “Il y a 95% de chances que la pièce soit équilibrée” il faudra effectuerun test d’hypothèse.

8.2 Test du khi-carré

Il existe plusieurs tests d’hypothèses statistiques convenant à des échantillons différents et dessituations différentes. Cette partie, va traité d’un test particulier : le test du χ2 (khi-carré).

Définition 8.2.1 (Test du χ2). Soit un échantillon de n éléments, qu’on répartit en k classes.Chacun des n éléments de l’échantillon appartient donc à l’une des k classes.

139

classe 1 classe 2 ... classe k toutes les classesn1 éléments n2 éléments ... nk éléments n = n1 + ...+ nk éléments

On émet alors une hypothèse statistique, qui n’est rien d’autre qu’une retraduction de :"L’échantillon donné, correspond à la loi d’une variable aléatoire X prenant en argument k valeursx1, ..., xk et telle que ∀i ∈ 1, ..., k, P(X = xi) = pi."

On pose alors la statistique S définie par :

S =k∑i=1

(ni − n× pi)2

n× pi

On compare alors la valeur de S avec les valeurs du tableau de la loi du khi-deux à k− 1 degrés deliberté, χ2

k−1, de la manière suivante :Si on veut que la marge d’erreur de notre hypothèse soit de 5%, c’est à dire que notre hypothèsesoit sûre à 95% on regardera alors la valeur se trouvant à l’intersection de la ligne k − 1 et de lacolonne 0.05, de même si on veut que notre hypothèse soit sûre à 99% prêt alors on regardera lavaleur à l’intersection de la ligne k − 1 et de la colonne 0.01.

k p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.011 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635

2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210

3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341

4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277...

......

......

......

......

......

k − 1 . . . . . . . . . . . . t . . . . . . . . . . . . . . .

Supposons qu’on veut que la marge d’erreur de notre hypothèse soit de 30%, on regardera alors lenombre t se trouvant à l’intersection de la ligne k − 1 et de la colonne 0.30. Alors, si S < t alorson peut dire que l’hypothèse est vraie avec un risque de se tromper de 30%.Si l’on souhaite avoir une autre marge d’erreur on procède de la même manière en lisant la colonnecorrespondante.

140

Exemple 8.2.1 (Une pièce est elle bien équilibrée ?). On lance une pièce une cent fois et on obtientcet échantillon :

Pile Face47 53

Peut on émettre l’hypothèse statistique que la pièce est équilibrée avec une chance inférieure à 5%

de se tromper ?

On remarque qu’on dispose donc d’un échantillon de 100 éléments, divisé en deux classes nommés"Pile" et "Face". L’hypothèse que la pièce soit équilibrée peut être retraduite de cette façon :"Cet échantillon suit la répartition d’une variable aléatoire X suivant la loi de Bernoulli deparamètre 0.5". En effet, si la pièce est équilibrée la probabilité d’obtenir Face est la même quecelle d’obtenir Pile, c’est dire de 0.5.

Par conséquent, on a :

S =k∑i=1

(ni − n× pi)2

n× pi

=2∑i=1

(ni − 100× P(X = i))2

100× P(X = i)

=(47− 100× P(X = 1))2

100× P(X = 1)+

(53− 100× P(X = 1))2

100× P(X = 1)

=(47− 100× 0.5)2

100× 0.5+

(53− 100× 0.5)2

100× 0.5

=(47− 50)2

50+

(53− 50)2

50

=9

50+

9

50

=18

50= 0.36

Notre échantillon étant divisé en deux classes, nous allons nous intéresser au khi-deux à 2−1 =

1 degrés de liberté.

141

k p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.011 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635

2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210

3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341

4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277...

......

......

......

......

......

En lisant donc ce tableau à la ligne 1 et à la colonne 0.05 on trouve la valeur 3.841

On remarque que : S = 0.36 < 3.841.

On en déduit donc, qu’on peut bien affirmer que la pièce est équilibrée avec un risque inférieurà 5% de se tromper.

Exemple 8.2.2 (Un dé est il équilibré ?). On lance un dé trois cents fois et on obtient cet échan-tillon :

1 2 3 4 5 663 54 47 39 57 40

Peut on émettre l’hypothèse statistique que le dé est équilibré avec une chance inférieure à 10% dese tromper ?

On remarque qu’on dispose donc d’un échantillon de 300 éléments, divisé en six classes. L’hy-pothèse que le dé soit équilibré peut être retraduite de cette façon :"Cet échantillon suit la répartition d’une variable aléatoire X suivant une loi de répartition uni-forme". En effet, si le dé est équilibré on a :

P(X = 1) = ... = P(X = 6) =1

6

142

Par conséquent, on a :

S =k∑i=1

(ni − n× pi)2

n× pi

=6∑i=1

(ni − 300× P(X = i))2

300× P(X = i)

=(63− 300× P(X = 1))2

300× P(X = 1)+

(54− 100× P(X = 2))2

300× P(X = 2)+ ...+

(40− 100× P(X = 6))2

300× P(X = 6)

=

(63− 300× 1

6

)2

300× 16

+

(54− 100× 1

6

)2

300× 16

+ ...+

(40− 100× 1

6

)2

300× 16

=(63− 50)2

50+

(54− 50)2

50+ ...+

(40− 50)2

50

=132 + 42 + 32 + 112 + 72 + 102

50

=464

50= 9.28

Notre échantillon étant divisé en six classes, nous allons nous intéresser au khi-deux à 6−1 = 5

degrés de libertés.

k p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.011 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635

2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210

3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341

4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277

5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086...

......

......

......

......

......

En lisant donc ce tableau à la ligne 5 et à la colonne 0.10 on trouve la valeur 9.236

On remarque que : S = 9.28 > 9.236

143

On en déduit donc, qu’on ne peut pas affirmer que le dé est équilibrée avec un risque inférieurà 10% de se tromper.

144

Troisième partie

Annexes

145

Annexe A

Théorie des ensembles

Nous rappelons ici les notions de la théorie des ensembles indispensables à la compréhensiondu cours.Commençons tout d’abord par des définitions "intuitives" dues pour la plupart à Georg Cantor.

A.1 Généralités

Définition A.1.1 (Ensemble). On appelle ensemble une collection d’objet, nommé éléments.

Notation A.1.1. Soit E un ensemble, on note :

– x ∈ E si l’élément x appartient à E

– x /∈ E si l’élément x n’appartient pas à E

– Si E est réduit à un seul élément (disons x), alors E se note x, dit "singleton x"

– Si E ne contient aucun élément, on dit qu’il est égale à l’ensemble vide, noté

Exemple A.1.1.– E = 1, 2, 3 est un ensemble, et on peut voir que : 1 ∈ E mais 4 /∈ E

– E = Q est un ensemble, contenant l’ensemble des nombres rationnels. On peut voir que√2 /∈ E

Remarque A.1.1. Il faut faire attention à la notion d’ensemble vide. Un ensemble peut contenirl’ensemble vide, sans l’être lui-même. On peut voir un exemple au chapitre 1 avec les tribus.Rappelons également la définition suivante :

147

Définition A.1.2 (famille d’ensembles). On appelle famille d’ensemble, un ensemble ayant pourélément des ensembles.

Exemple A.1.2.– Une tribu est une famille d’ensemble

– E = 1, 2, 1, 3 est une famille d’ensemble mais n’est pas une tribu

Définition A.1.3 (Inclusion). Soit A et B deux ensembles, on dit que A est inclus dans B, et onnote A ⊆ B, si tous les éléments de A sont dans B. Autrement dit :

A ⊆ B ⇔ ∀x ∈ A, x ∈ B

Remarque A.1.2. Voici une remarque très importante qui peut s’appliquer à plusieurs domainesdes mathématiques. Lorsque l’on veut montrer que deux ensembles A et B sont égaux, il suffit demontrer que A ⊆ B et B ⊆ A.

A.2 Opérations sur les ensembles

Définition A.2.1 (Ensemble privé d’un autre ensemble). Soit A et B des ensembles, on noteA \B, l’ensemble A privé de B. Autrement dit :

A \B = x ∈ A, x /∈ B

Voyons un des cas particulier de cette définition :

Définition A.2.2 (Complémentaire d’un ensemble). Soit E un ensemble, et A ⊆ E. On appellecomplémentaire de A dans E, l’ensemble noté :

Ac = x ∈ E, x /∈ A

Remarque A.2.1. Il est important de voir que la notion de complémentaire dépend de l’ensembledans lequel on se place (ici E). Ainsi le complémentaire de N dans Q n’est pas le même que lecomplémentaire de N dans R.On peut également voir (et noter !), Ac = E \ A.

Exemple A.2.1. – Soit A = n ∈ N, n pair ⊆ N, alors Ac = N \ A = n ∈ N, n impair

– Soit E un ensemble alors ∅c = E

148

Définition A.2.3 (réunion d’ensemble). Soit A, B et E trois ensembles tels que A ⊆ E et B ⊆ E,on note A ∪B l’ensemble des éléments appartenant à A ou à B. Autrement dit :

A ∪B = x ∈ E, x ∈ A ou x ∈ B

Définition A.2.4 (intersection d’ensemble). Soit A, B et E trois ensembles tels que A ⊆ E etB ⊆ E, on note A ∩B l’ensemble des éléments appartenant à A et à B. Autrement dit :

A ∩B = x ∈ E, x ∈ A et x ∈ B

Proposition A.2.1. Soit A et B deux ensembles. Alors :

A \B = A ∩Bc

Démonstration A.2.1. A \ B = x ∈ A, x /∈ B = x ∈ A et x /∈ B = x ∈ A et x ∈ Bc =

A ∩Bc

Remarque A.2.2. On peut voir que : A ∪ Ac = E et A ∩ Ac = ∅.Exercice : Démontrez le en utilisant la Remarque 7.1.2.

Nous pouvons généraliser la notion de réunion et d’intersection :

Définition A.2.5 (réunion et intersection quelques d’ensembles). Soit (Ai)i∈I une suite d’ensem-ble indicée par un ensemble I quelconque. Alors on note et on définit :

⋃i∈I

Ai = x ∈ E,∃i0 ∈ I, x ∈ Ai0

⋂i∈I

Ai = x ∈ E,∀i ∈ I, x ∈ Ai

Exemple A.2.2. Voici deux exemples qu’il faut savoir (re)démontrer :– ⋃

n∈N

[1, 2 +1

n] = [1, 2[

– ⋂n∈N

[1, 2 +1

n] = [1, 2]

149

Définition A.2.6 (Union disjointe). Soit (Ai)i∈I une suite d’ensembles, on dit que leur réunionest disjointe si et seulement si les ensembles sont disjoints deux à deux. Autrement dit :

∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅

.

Dans ce cas on note la réunion :⊎i∈IAi ou

⊔i∈IAi

Voici le cas particulier le plus utilisé d’une réunion disjointe :

Définition A.2.7 (partition). Soit E un ensemble, et (Ai)i∈I une suite d’ensemble inclus dans E.On dit que (Ai)i∈I est une partition de E si et seulement si :

⋃i∈I

Ai = E et ∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅

Exemple A.2.3. – L’ensemble 0, 1, 2, 3 admet 0, 1, 2, 3 ou bien 0, 2, 1, 3 commepartition. En revanche : 0, 1, 2, 2, 3 n’est pas une partition. En effet 0, 1, 2 ∩ 2, 3 =

2.– Un autre exemple qui parait plus trivial mais qui est assez utile. L’ensemble N admet la suiteUn = n, n ∈ N comme partition. De même la suite Vq = q, q ∈ Q est une partition de Q.(l’écriture est en effet valide car l’ensemble des rationnels est dénombrable).

Vocabulaire A.2.1. Nous rappelons avant d’aborder la suite le lien entre les opérations sur lesensembles et les opérations logiques.

Notation logique Notation ensemblisteA ou B A ∪BA et B A ∩Bnon(A) Ac

A⇒ B A ⊆ B

A⇔ B A = B

Proposition A.2.2 (quelques propositions). Soit A, B et C des ensembles. Alors :

– (A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C)

– (A ∩B) ∪ C = (A ∪ C) ∩ (B ∪ C)

150

Démonstration A.2.2. La démonstration se base sur le fait que le "ou" est distributif par rapportà "et" (voir LM115 ou le remontrer avec une table de vérité).

– (A ∪ B) ∩ C = x, (x ∈ A ∪ B) et (x ∈ C) = x, x ∈ A ou x ∈ B, et x ∈ C = x, x ∈A et x ∈ C, ou x ∈ B et x ∈ C = x, x ∈ (A ∩ C) ou x ∈ (B ∩ C) = (A ∩ C) ∪ (B ∩ C)

– C’est la même démonstration en remplaçant le "et" par le "ou".

Proposition A.2.3 (Formules de Morgan). Soit A, B et C trois ensembles, alors :

– (A ∪B)c = Ac ∩Bc

– (A ∩B)c = Ac ∪Bc

Démonstration A.2.3. La démonstration suit la même logique que la proposition 7.2.2 en prenantla proposition logique "non" pour le complémentaire.

A.3 Suite d’ensembles

Définition A.3.1 (Monotonie d’une suite d’ensemble). Soit (An)n∈N une suite d’ensemble d’unensemble E. Alors on dit que cette suite est croissante au sens de l’inclusion (resp. décroissante ausens de l’inclusion) si et seulement si :

∀n ∈ N, An ⊆ An+1(resp.An ⊇ An+1)

A.4 Produit cartésien

Définition A.4.1. Soit A et B deux ensembles, on définit le produit de A par B, noté A × B,l’ensemble :

A×B = (x, y), x ∈ A et y ∈ F

Exemple A.4.1. – L’exemple le plus "classique" du produit cartésien est R × R, aussi notéR2 (on peut bien sur remplacer R par tous les ensembles connus).

151

– Un exemple plus concret : 1, 2, 3 × 4, 5 = 1, 4, 2, 4, 3, 4, 1, 5, 2, 5, 3, 5.

– Un autre : [0, 1]×[1, 2] est un carré de R2 de longueur de côté 1, et de sommets 0, 1, 1, 1, 0, 2, 1, 2.

Définition A.4.2 (Produit cartésien généralisé). On peut également, comme pour la réunion etl’intersection d’ensembles, généraliser le produit cartésien.Soit (Ai)0≤i≤N une suite d’ensemble, on a :

A0 × ...× AN = (x0, ..., xN), x0 ∈ A0 et ... et xN ∈ AN

Remarque A.4.1. Si on a le produit cartésien de N ensemble A, alors on note : A× ...×A = AN .

On laisse en exercice le soin de démontrer (par double inclusion) : (A × B) ∩ (A × B) =

(A ∩B)× (A ∩B), ainsi que : (A×B) ∪ (A×B) = (A ∪B)× (A ∪B)

A.5 Applications

Nous rappelons simplement dans cette section les formules très utiles de Hausdorff.

Proposition A.5.1 (Formules de Hausdorff). Soit f : E −→ F une application et (Ai)i∈I unesuite d’ensembles de F et A ⊆ F , alors :

– f(⋃i∈IAi) =

⋃i∈If(Ai)

– f(⋂i∈IAi) ⊆

⋂i∈If(Ai) (égalité si f injective)

– f−1(⋃i∈IAi) =

⋃i∈If−1(Ai)

– f−1(⋂i∈IAi) =

⋂i∈If−1(Ai)

– f−1(Ac) = (f−1(A))c

Démonstration A.5.1. Nous allons les démontrer en utilisant la Remarque 7.1.2

152

– Soit y ∈ f(⋃i∈IAi), alors par définition de l’image, il existe x ∈

⋃i∈IAi tel que f(x) = y. De

plus, par définition de la réunion, il existe i0 ∈ I, tel que x ∈ Ai0. Autrement dit, y ∈ f(Ai0),et de nouveau par définition de la réunion, y ∈

⋃i∈If(Ai). Ce qui conclus pour la première

inclusion.Soit y ∈

⋃i∈If(Ai), alors il existe f(Ai0), tel que y ∈ f(Ai0). Et donc il existe x ∈ Ai0, tel

que : y = f(x). Mais x ∈ Ai0 d’ou x ∈⋃i∈IAi. Finalement, comme on sait que si A ⊆ B,

alors f(A) ⊆ f(B), on peut conclure.

– L’inclusion de gauche à droite se fait comme pour la réunion. Voyons l’inclusion réciproque.Supposons f injective. Soit y ∈

⋂i∈If(Ai), alors par définition de l’intersection, on a : ∀i ∈

I, y ∈ f(Ai). D’où : ∀i ∈ I,∃xi ∈ Ai, y = f(xi). Mais alors, par injectivité de f, siy = f(xi) = f(xj), alors xi = xj. D’où il existe x, ∀i ∈ I, x ∈

⋂i∈I

et tel que , y = f(x).

Ce qui permet de conclure.

– La démonstration est la même que pour l’image directe, on laisse le soin au lecteur de dé-montrer les deux propriétés. Rappelons simplement :

f−1(y) = x ∈ E, y = f(x)

– La dernière proposition peut se montrer directement :

f−1(Ac) = x ∈ E, f(x) ∈ Ac = x ∈ E, f(x) /∈ A = (x ∈ E, f(x) ∈ A)c = (f−1(A))c

A.6 Fonction indicatrice (ou caractéristique)

Nous allons voir ici une notion utile lorsque l’on manipule des ensembles.

Définition A.6.1 (Fonction indicatrice (ou caractéristique)). Soit E un ensemble et A ⊆ E, ondéfinie la fonction indicatrice ou fonction caractéristique de A, noté 1A, par :

1A : E −→ 0, 1

: x 7→

1 Si x ∈ A0 Sinon

153

Remarque A.6.1. Il est facile de voir que :– 1∅(x) = 0,∀x ∈ E– 1E(x) = 1,∀x ∈ E

Proposition A.6.1. Soit A et B deux sous ensembles d’un ensemble E, alors on a :– 1Ac = 1− 1A

– 1A∩B = 1A.1B

– 1A∪B = 1A + 1B si A et B sont disjoints

Démonstration A.6.1. – Par définition :

1Ac(x) =

1 Si x ∈ Ac

0 Si x /∈ Ac

=

1 Si x /∈ A0 Si x ∈ A

= 1− 1A(x)

– Soit x ∈ E, alors si 1A∩B(x) = 1, alors x ∈ A ∩B, et donc 1A(x).1B(x) = 1

Sinon 1A∩B(x) = 0 et alors x /∈ A ∩B, donc 1A(x) = 0 et 1B(x) = 0. D’où l’égalité voulue– Même raisonnement en remarquant que si A e B sont disjoints, alors A ∩ B = ∅, on peutalors utiliser la remarque précédente et la propriété démontrée ci-dessus.

154

Annexe B

Dénombrement

Calculer le nombre d’éléments d’un ensemble fini peut se faire en comptant un à un les élé-ments de cet ensemble. Cette méthode pouvant devenir très longue lorsqu’on étudie un ensemblepossédant un grand nombre d’éléments, on utilise des techniques combinatoires afin de faciliter etd’accélérer le processus.Ainsi, le dénombrement est la détermination du nombre d’éléments d’un ensemble fini, à l’aide detechniques combinatoires.

B.1 Cardinal

Définition B.1.1 (Cardinal d’un ensemble fini). Le cardinal d’un ensemble E fini, noté Card(E)

ou |E|, désigne le nombre d’éléments de cet ensemble E.

Exemple B.1.1. Soit l’ensemble E = 2; 3; 5; 8; 13; 21.L’ensemble E, comporte 6 éléments.Donc |E| = 6.

Définition B.1.2 (Partition d’un ensemble). Une partition d’un ensemble E est un ensemble departies deux à deux disjointes de E dont la réunion est égale à E.

Exemple B.1.2. Soit l’ensemble E = 1; 2; 3.A = 1; 2; 3 est une partition de E.B = 1; 2; 3 est une autre partition de E.E est encore une autre partition de E lui même.

155

Théorème B.1.1 (Principe de la somme). Si les ensembles A1, ..., An constituent une partitionde l’ensemble fini E, alors :

|E| = |A1|+ ...+ |An|

Démonstration B.1.1. La démonstration se fait par récurrence sur n.Soit n ≥ 1 posons : P (n) :" Toute partition A1, ..., An de E vérifie |E| = |A1|+ ...+ |An|"

−→ Initialisation :

Pour n = 1, on a A1 = E. Par conséquent, on a bien : |A1| = |E|.Donc P (1) est vraie.

Pour n = 2, considérons une partition A1, A2 de E.Soit |A1| = a1 et |A2| = a2.Comme l’ensemble N ∩ [1 ; a1] possède le même nombre d’éléments que |A1| et que N ∩ [1 ; a2]

possède le même nombre d’éléments que A2, il existe une bijection, f1 : N ∩ [1 ; a1] −→ A1 et unebijection, f2 : N ∩ [1 ; a2] −→ A2.Soit f la fonction définie telle que :

f : N ∩ [1 ; a1 + a2] → E = A1 ∪ A2

n 7→

f1(n) si n ≤ n1

f2(n− n1) si n > n1

f est alors une bijection, et par conséquent E = A1 ∪ A2 possède le même nombre d’élémentsque N ∩ [1 ; a1 + a2], c’est à dire a1 + a2 éléments.Donc |E| = a1 + a2 = |A1|+ |A2|.Donc P (2) est vraie.

−→ Hérédité :

Supposons que P (n) est vraie pour un certain n, montrons que P (n+ 1) est vraie.

A1, ..., An étant un ensemble d’ensembles disjoints deux à deux, il est une partition del’ensemble A1 ∪ ... ∪ An on a donc par hypothèse de récurrence :|A1 ∪ ... ∪ An| = |A1|+ ...+ |An|

156

De plus, si A1, ..., An+1 est une partition de E, alors le couple : A1∪ ...∪An ; An+1 est aussiune partition de E.

Comme, la propriété P est vraie au rang 2. On a :

|E| = |A1 ∪ ... ∪ An|+ |An+1|

= |A1|+ ...+ |An|+ |An+1|

Donc P (n+ 1) est vraie.Donc la propriété est vraie pour tout entier n ≥ 1.

Propriétés B.1.1. Soient A et B deux sous-ensembles quelconques d’un ensemble fini E.

1. |Ac| = |E| − |A|2. |A \B| = |A| − |A ∩B|3. |A ∪B| = |A|+ |B| − |A ∩B|

Démonstration B.1.2.

1. On remarque que A ∩ Ac = ∅ et que A ∪ Ac = E.Donc A,Ac est une partition de E, et

donc d’après le principe de la somme :

|E| = |A|+ |Ac| ⇐⇒ |Ac| = |E| − |A|

2. On remarque que A\B = A\(A∩B), donc dans l’ensemble A le complémentaire de A\B estA ∩B.Donc d’après la propriété 1. on a : |B\A| = |B| − |A ∩B|.

3. D’après la propriété 2. on a :

|A\B| = |A| − |A ∩B| et |B\A| = |B| − |A ∩B|

De plus on remarque, que les ensembles B\A, A\B et A ∩ B sont disjoints deux à deux etque leur union est égale à A ∪B, donc ils forment une partition de A ∪B.Donc d’après le principe de la somme on a :

|A ∪B| = |B\A|+ |A\B|+ |A ∩B|

= |B| − |A ∩B|+ |A| − |A ∩B|+ |A ∩B|

= |A|+ |B| − |A ∩B|

157

Théorème B.1.2 (Principe du produit). Si les ensembles A1, ..., An sont des ensembles finis,alors :

|A1 × ...× An| = |A1| × ...× |An|

Démonstration B.1.3. La démonstration se fait par récurrence sur n.Soit n ≥ 1 posons P (n) :"Les ensembles finis A1, ..., An vérifient |A1× ...×An| = |A1|× ...×|An|"

−→ Initialisation :

Pour n = 1, on a |A1| = |A1|. Donc P (1) est vraie.

−→ Hérédité :

Supposons que P (n) est vraie pour un certain n, montrons que P (n+ 1) est vraie.

Soient A1, ..., An, An+1 des ensembles finis, on sait par hypothèse de récurrence que :

|A1 × ...× An| = |A1| × ...× |An|

Comme A1× ...×An est un ensemble fini de même que An+1 et que la propriété est vraie au rang2, on a :

|A1 × ...× An × An+1| = |A1 × ...× An| × |An+1|

= |A1| × ...× |An| × |An+1|

Donc la propriété est vraie au rang n+ 1.Donc la propriété est vraie pour tout n ≥ 1.

B.2 Combinaison

Définition B.2.1 (Combinaison). Soit E un ensemble à n éléments et k un entier naturel inférieurou égal à n.On appelle combinaison de k éléments de E toute partie de E à k éléments.

Exemple B.2.1. Soit E l’ensemble à 6 éléments 1; 2; 3; 5; 8; 13.

158

– 3 est une combinaison à 1 élément de E.– 1; 2 et 1; 8 sont deux combinaisons à 2 éléments de E.– 13; 5; 2 est une combinaison à 3 éléments de E.– E est une combinaison à 6 éléments de E lui-même.

Remarque B.2.1. L’ordre dans lequel sont placés les éléments d’un ensemble ne compte pas, ainsiles ensembles a, b, c, b, a, c, c, a, b et c, b, a sont un seul et même ensemble.Les combinaisons étant des ensembles en tant que parties d’un ensemble, par conséquent, ne pren-nent pas en compte l’ordre dans lequel sont placés les éléments.

Théorème B.2.1 (Nombre de combinaisons d’un ensemble). Soit E un ensemble à n éléments etk un entier naturel inférieur ou égal à n.Le nombre de combinaisons à k éléments de l’ensemble E est donné par :

Ckn =

(n

k

)=

n!

k! (n− k)!

Démonstration B.2.1. La compréhension de cette démonstration nécessite la connaissance de lapartie Arrangement et de la partie Permutation de cette annexe.

Pour construire un arrangement de k éléments de l’ensemble E il faut dans un premier tempschoisir les k éléments de l’ensemble E, puis dans un second temps les ordonnés.Ceci, revient à choisir une combinaison à k éléments de E puis une permutation de cette combi-naison.Notons Ck

n le nombre de combinaisons à k éléments de E.Comme il existe Ck

n combinaisons à k éléments de E et k! permutations différentes pour chaquecombinaison à k éléments de E, il existe Ck

n × k! arrangements de E.On en déduit que le nombre d’arrangements à k éléments de E est égal à :

Akn = Ckn × k!⇐⇒ Ck

n =Aknk!

=n!

k! (n− k)!

Donc le nombre de combinaisons à k éléments de E est égal à : Ckn =

n!

k! (n− k)!

Exemple B.2.2 (Tirage simultané dans une urne). Dans une urne se trouvent 7 boules numérotées.On effectue un tirage simultané de 4 boules, combien de tirages possibles avons nous ?

Le fait que le tirage soit simultané implique qu’on considère les boules tirés sans notion d’ordre(On ne considère que les numéros tirés et non l’ordre dans lequel ils sont tirés).

159

On cherche donc le nombre de combinaisons de 4 boules de l’ensemble "urne" en contenant 7.On applique donc la formule nous donnant le nombre de combinaisons :

C47 =

(7

4

)=

7!

4! (7− 4)!

=(7× 6× 5× 4)× (7− 4)!

4! (7− 4)!

=7× 6× 5× 4

4!

=840

24

= 35

On a donc 35 tirages possibles.

Exemple B.2.3 (Tournoi d’échecs). Un tournoi d’échecs est organisé entre six joueurs. Chaquejoueur doit jouer une fois contre tous les autres. Combien de parties d’échecs doit on organiser ?

La partie que joue le joueur A contre le joueur B et la même que la partie que joue le joueurB contre le joueur A.Par conséquent, pour chaque partie on ne s’attarde qu’aux joueurs la jouant et non à leur ordre.On cherche donc le nombre de combinaisons de 2 joueurs de l’ensemble "les six joueurs".

C26 =

(6

2

)=

6!

2! (6− 2)!

=6× 5

2!

=30

2= 15

On doit donc organiser 15 parties d’échecs.

160

B.3 Liste

Définition B.3.1 (Liste). Soit E un ensemble à n éléments et k un entier naturel inférieur ouégal à n.On appelle liste de k éléments de E un suite finie de k éléments (e1, ..., ek) de E.

Exemple B.3.1. Soit E l’ensemble à 6 éléments 1; 2; 3; 5; 8; 13.

– (3) est une liste à 1 élément de E.– (1; 2), (2; 1) et (8; 8) sont trois listes à 2 éléments de E.– (13; 5; 13), (13; 13; 5) et (5; 13; 13) sont trois listes à 3 éléments de E.– (3; 3; 3; 3; 3) est une liste à 5 éléments de E.– (1; 2; 3; 5; 8; 13) est une liste à 6 éléments de E.

Théorème B.3.1 (Nombre de listes d’un ensemble). Soit E un ensemble à n éléments et k unentier naturel inférieur ou égal à n.Le nombre de listes à k éléments de l’ensemble E est égal à :

nk

Démonstration B.3.1. Dénombrons tous les arrangements à k éléments de l’ensemble E :

Soit (e1, e2, ..., ek) une suite finie à k éléments, déterminons le nombre de valeurs possibles dif-férentes que peut prendre cette liste tout en étant une liste de E à k éléments.

L’élément e1 peut prendre n valeurs possibles ( La valeur d’un des n éléments de E ).L’élément e2 peut prendre n valeurs possibles. ( La valeur d’un des n éléments de E )...L’élément ek peut prendre n valeurs possibles. ( La valeur d’un des n éléments de E )

Ainsi, il existe n× ...× n︸ ︷︷ ︸k fois

= nk arrangements à k éléments de E possibles.

Donc, il existe nk listes à k éléments de E.

161

Exemple B.3.2 (Tirage successif avec remise dans une urne). Dans une urne se trouvent 7 boulesnumérotées.On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?

Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequelelles sont tirés. C’est à dire que si on nomme A,B,C,D,E, F,G les sept boules de l’urne le tirage(A,B,C,D) n’est pas le même que le tirage (B,C,D,A).De plus, le tirage étant avec remise, on peut tirer plusieurs fois la même boule. On cherche doncle nombre de listes de 4 boules de l’ensemble "urne" en contenant 7.On applique donc la formule nous donnant le nombre de listes :

74 = 2401

On a donc 2401 tirages possibles.

B.4 Arrangement

Définition B.4.1 (Arrangement). Soit E un ensemble à n éléments et k un entier naturel inférieurou égal à n.On appelle arrangement de k éléments de E une liste de k éléments distincts deux à deux de E.

Exemple B.4.1. Soit E l’ensemble à 6 éléments 1; 2; 3; 5; 8; 13.

– (3) est un arrangement à 1 élément de E.– (1; 2), (2; 1) et (1; 8) sont trois arrangements à 2 éléments de E.– (2; 5; 13), (13; 5; 2) et (13; 2; 5) sont trois arrangements à 3 éléments de E.– (1; 2; 1) n’est pas un arrangement à 3 éléments de E, car l’élément 1 y est présent deux fois.

Remarque B.4.1. L’ordre dans lequel sont placés les éléments d’une liste est pris en compte,ainsi (a, b, c), (b, a, c), (c, a, b) et (c, b, a) sont trois listes différentes.Les arrangements étant notamment des listes prennent, par conséquent, en compte l’ordre danslequel sont placés leurs éléments.

Théorème B.4.1 (Nombre d’arrangements d’un ensemble). Soit E un ensemble à n éléments etk un entier naturel inférieur ou égal à n.Le nombre d’arrangements à k éléments de l’ensemble E est donné par :

Akn =n!

(n− k)!

162

Démonstration B.4.1. Dénombrons tous les arrangements à k éléments de l’ensemble E :

Soit (e1, e2, ..., ek) une liste à k éléments, déterminons le nombre de valeurs possibles différentesque peut prendre cette liste tout en étant un arrangement de E à k éléments.

L’élément e1 peut prendre n valeurs possibles ( La valeur d’un des n éléments de E ).L’élément e2 peut prendre n− 1 valeurs possibles. ( La valeur d’un des n− 1 éléments restants )

L’élément e3 peut prendre n− 2 valeurs possibles. ( La valeur d’un des n− 2 éléments restants )...L’élément ek peut prendre n− k + 1 valeurs possibles.

Ainsi, il existe n× (n− 1)× ...× (n− k + 1) arrangements à k éléments de E possibles.Donc le nombre d’arrangements à k éléments de E est de n× (n− 1)× ...× (n− k + 1).Or,

n× (n− 1)× ...× (n− k + 1) =n× (n− 1)× ...(n− k + 1)× (n− k)× ...× 1

(n− k)× ...× 1=

n!

(n− k)!

Donc, il existen!

(n− k)!arrangements à k éléments de E.

Exemple B.4.2 (Tirage successif sans remise dans une urne). Dans une urne se trouvent 7 boulesnumérotées.On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?

Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequelelles sont tirés. C’est à dire que si on nomme A,B,C,D,E, F,G les sept boules de l’urne le tirage(A,B,C,D) n’est pas le même que le tirage (B,C,D,A).De plus, le tirage étant sans remise, on ne peut pas tirer deux fois la même boule, par conséquenton exclut les tirages du type : (E,D,G,E).On cherche donc le nombre d’arrangements de 4 boules de l’ensemble "urne" en contenant 7.On applique donc la formule nous donnant le nombre d’arrangements :

163

A47 =

7!

(7− 4)!

=(7× 6× 5× 4)× (7− 4)!

(7− 4)!

= 7× 6× 5× 4

= 840

On a donc 840 tirages possibles.

B.5 Permutation

Définition B.5.1 (Permutation). Soit E un ensemble à n éléments.Une permutation de E est une liste de n éléments distincts deux à deux de E.

Exemple B.5.1. Soit E l’ensemble à 6 éléments 1; 2; 3; 5; 8; 13.

– (1; 2; 3; 5; 8; 13) est une permutation de E.– (2; 1; 3; 5; 8; 13) est une autre permutation de E.– (1; 2; 3; 5; 8; 1) n’est pas une permutation de E, car l’élément 1 y est présent deux fois.– (1; 2; 3; 5; 8) n’est une permutation de E, car il ne contient pas |E| = 6 éléments.

Théorème B.5.1 (Nombre de permutations d’un ensemble). Soit E un ensemble à n éléments.Le nombre de permutations de l’ensemble E est égal à :

n!

Démonstration B.5.1. On remarque qu’une permutation est un arrangement de n éléments deE.

164

Par conséquent le nombre de permutations de l’ensemble E est de :

Ann =n!

(n− n)!

=n!

0!

= n! ( par convention 0! = 1 )

Donc le nombre de permutations de l’ensemble E est de n!

Exemple B.5.2 (Rangement). De combien de manières différentes peut on ranger 6 livres dans6 tiroirs ?

On cherche à placer dans tous les ordres possibles les 6 éléments "livres" dans l’ensemble de 6

éléments "tiroirs".On cherche donc le nombre de permutations de l’ensemble “6 tiroirs“ :

6! = A66 = 6× 5× 4× 3× 2× 1 = 720

Donc, il existe 720 rangements possibles.

165

166

Annexe C

Calcul intégral

Nous rappellerons ici les principales méthodes de calcul et les critères de convergence principauxdes intégrales de Riemann réelles à une et plusieurs variables. Enfin nous verrons quelques intégralescélèbres et leur propriétés.

Nous renvoyons néanmoins pour plus de détails vers les cours de LM260 et LM216.

C.1 Méthodes et propriétés

C.1.1 Cas d’une fonction à une variable

Définition C.1.1 (Intégration par partie). Soit f, g : [a, b] → R deux applications de classe C1

sur [a, b], alors : ∫ b

a

f(x)g′(x)dx = [f(x)g(x)]x=bx=a −

∫ b

a

f ′(x)g(x)dx

Définition C.1.2 (Changement de variable). Soit φ : [a, b]→ R une application de classe C1 sur[a, b] et soit f : φ([a, b])→ R une application continue sur φ([a, b]), alors :∫ b

a

(f φ)(t)φ′(t)dt =

∫ φ(b)

φ(a)

f(t)dt

C.1.2 Cas d’une fonction de deux variables

Définition C.1.3 (Jacobienne). Soit f : R2 → R2 une fonction de deux variables admettant desdérivées partielles sur R2 suivant les deux variables, alors on définit la jacobienne de f aux points(a, b) ∈ R, notée Jac(a,b)(f) par la matrice :

Jac(a,b)(f) =

(∂f1∂x

(a, b) ∂f1∂y

(a, b)∂f2∂x

(a, b) ∂f2∂y

(a, b)

)Où f = (f1, f2).

167

On appelle jacobien de f aux points (a, b), noté J(a,b)(f), le déterminant de la jacobienne de faux points (a, b).

Théorème C.1.1 (De Fubini). Soit f : [a, b]× [c, d]→ R2 une fonction continue sur [a, b]× [c, d],alors :

x 7→∫ b

a

f(x, y)dy et y 7→∫ d

c

f(x, y)dx sont continues et dans ce cas on a :

∫[a,b]×[c,d]

f(x, y)dxdy =

∫ b

a

(∫ d

c

f(x, y)dy

)dx =

∫ d

c

(∫ b

a

f(x, y)dx

)dy

Définition C.1.4 (Changement de variable ). Soit φ un C1 difféomorphisme de F vers E deuxparties quarrables de R2, alors f est intégrable (au sens de Riemann) sur E si et seulement si lafonction : u, v 7→ (f φ)(u, v).J(u,v)(φ) est intégrable sur F et dans ce cas on a :∫

E

f(x, y)dxdy =

∫F

(f φ)(u, v).J(u,v)(φ)dudv

Remarque C.1.1 (changement en coordonnées polaire). Un des changements les plus connus etcelui en coordonnées polaires. Explicitons-le ici,

On utilise le C1-difféomorphisme φ : r, θ 7→ (x, y) = (r cos(θ), r sin(θ)) ayant pour jacobienne :

Jacr,θ(φ) =

(cos(θ) −r sin(θ)

sin(θ) r cos(θ)

)

C.2 Critères de convergence

Nous allons rappeler dans le tableau ci-dessous les critères les plus utilisés de convergence desintégrales (cela sera utile notamment au chapitre 4).

168

∫ 1

01xadx CV SSI 0 < a < 1

Critère de Rienmann∫ +∞

11xadx CV SSI a > 1

∫ 1

01xdx et

∫ +∞1

1xdx ne convergent pas

∫ +∞2

1ta logb(t)

dt CV SSI a > 1 ou (a = 1 et b > 1)

Critère de Bertrand ∫ 12

01

ta|logb(t)|dt CV SSI a < 1 ou (a = 1 et b > 1)

Comparaison Si ∀x ∈]a, b[, 0 ≤ f(x) ≤ g(x), alors si∫ bag(x) CV alors

∫ baf(x)dx CV

Si f =b−o(g),

Négligeabilité alors∫ baf(t)dt et

∫ baf(t)dt sont de mêmes natures

Si f ∼b−g,

Equivalent alors∫ baf(t)dt et

∫ baf(t)dt sont de mêmes natures

C.3 Intégrales classiques

Définition C.3.1 (Fonction Gamma). On note, Γ la fonction Gamma définie par :

Γ : a 7→∫ +∞

0

e−tta−1dt

Elle vérifie pour tout x > 0 : Γ(x+ 1) = xΓ(x).

Et donc pour tout n ∈ N : Γ(n) = (n− 1)!

Définition C.3.2 (Fonction Bêta). On note, B la fonction bêta de deux variables définies surR∗+ × R∗+ par :

B : p, q 7→∫ 1

0

tp−1(1− t)q−1dt

169

Elle vérifie de plus pour tout p, q ∈ R∗+ × R∗+ : B(p, q) = Γ(p)Γ(q)Γ(p+q)

Définition C.3.3 (Intégrale de Wallis). Soit n ∈ N, on note Wn, l’intégrale de Wallis d’ordre n,définie par :

Wn =

∫ π2

0

sinn(t)dt

Elle vérifie de plus :

∀p ∈ N∗,W2p =π

2.

(2p)!

22p(p!)2et W2p+1 =

22p(p!)2

(2p+ 1)!

Ainsi que :

Wn ∼+∞

√π

2n

Définition C.3.4 (Intégrale de Gauss). L’intégrale de Gauss est donnée par la formule :∫ +∞

−∞e−x

2

dx =√π

La parité de x 7→ e−x2 donne directement :∫ +∞

0

e−x2

dx =

∫ 0

−∞e−x

2

dx =

√π

2

Définition C.3.5 (Intégrale de Gauss généralisée). Soit a ∈ R∗+, on définit l’intégrale de Gaussgénéralisée par : ∫ +∞

−∞e−x2a dx =

√π

a

170

Annexe D

Tables statistiques

D.1 Table du khi-carré (χ2)

k p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.011 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635

2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210

3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341

4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277

5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086

6 2, 204 3, 070 3, 828 5, 348 7, 231 8, 558 10, 645 12, 592 15, 033 16, 812

7 2, 833 3, 822 4, 671 6, 346 8, 383 9, 803 12, 017 14, 067 16, 622 18, 475

8 3, 490 4, 594 5, 527 7, 344 9, 524 11, 030 13, 362 15, 507 18, 168 20, 090

9 4, 168 5, 380 6, 393 8, 343 10, 656 12, 242 14, 684 16, 919 19, 679 21, 666

10 4, 865 6, 179 7, 267 9, 342 11, 781 13, 442 15, 987 18, 307 21, 161 23, 209

11 5, 578 6, 989 8, 148 10, 341 12, 899 14, 631 17, 275 19, 675 22, 618 24, 725

12 6, 304 7, 807 9, 034 11, 340 14, 011 15, 812 18, 549 21, 026 24, 054 26, 217

13 7, 042 8, 634 9, 926 12, 340 15, 119 16, 985 19, 812 22, 362 25, 472 27, 688

14 7, 790 9, 467 10, 821 13, 339 16, 222 18, 151 21, 064 23, 685 26, 873 29, 141

15 8, 547 10, 307 11, 721 14, 339 17, 322 19, 311 22, 307 24, 996 28, 259 30, 578

16 9, 312 11, 152 12, 624 15, 338 18, 418 20, 465 23, 542 26, 296 29, 633 32, 000

17 10, 085 12, 002 13, 531 16, 338 19, 511 21, 615 24, 769 27, 587 30, 995 33, 409

18 10, 865 12, 857 14, 440 17, 338 20, 601 22, 760 25, 989 28, 869 32, 346 34, 805

19 11, 651 13, 716 15, 352 18, 338 21, 689 23, 900 27, 204 30, 144 33, 687 36, 191

20 12, 443 14, 578 16, 266 19, 337 22, 775 25, 038 28, 412 31, 410 35, 020 37, 566

171

21 13, 240 15, 445 17, 182 20, 337 23, 858 26, 171 29, 615 32, 671 36, 343 38, 932

22 14, 041 16, 314 18, 101 21, 337 24, 939 27, 301 30, 813 33, 924 37, 659 40, 289

23 14, 848 17, 187 19, 021 22, 337 26, 018 28, 429 32, 007 35, 172 38, 968 41, 638

24 15, 659 18, 062 19, 943 23, 337 27, 096 29, 553 33, 196 36, 415 40, 270 42, 980

25 16, 473 18, 940 20, 867 24, 337 28, 172 30, 675 34, 382 37, 652 41, 566 44, 314

26 17, 292 19, 820 21, 792 25, 336 29, 246 31, 795 35, 563 38, 885 42, 856 45, 642

27 18, 114 20, 703 22, 719 26, 336 30, 319 32, 912 36, 741 40, 113 44, 140 46, 963

28 18, 939 21, 588 23, 647 27, 336 31, 391 34, 027 37, 916 41, 337 45, 419 48, 278

29 19, 768 22, 475 24, 577 28, 336 32, 461 35, 139 39, 087 42, 557 46, 693 49, 588

30 20, 599 23, 364 25, 508 29, 336 33, 530 36, 250 40, 256 43, 773 47, 962 50, 892

172

D.2 Fonction de répartition de la loi normale centrée ré-

duite : N (0, 1)

0 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090 0, 5000 0, 5040 0, 5080 0.5120 0, 5160 0.5199 0.5239 0.5279 0.5319 0.5359

0.1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753

0.2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141

0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517

0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879

0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224

0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549

0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852

0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133

0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389

1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621

1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830

1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015

1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177

1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319

1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441

1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545

1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633

1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706

1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767

2, 0 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817

2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857

2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890

2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916

2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936

2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952

2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964

2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974

2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981

2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986

3, 0 0, 99865 0, 99869 0, 99874 0, 99878 0, 99882 0, 99886 0, 99889 0, 99893 0, 99896 0, 99900

Lecture : Pour F (2.35) lire l’intersection de 2.3 et 0.05.

173

174

Index

Aarrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162axiomes de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 15

Bbiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134borélien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Ccaractère. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158convergence

dans L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111dans L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 111en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Ddensité de probabilité . . . . . . . . . . . . . . . . . . . . . . . 88

Eécart type. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130ensemble

dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43, 94espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 16espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . 15estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134efficace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 13

Ffonction

Bêta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

fonction caractéristique . . . . . . . . . . . . . . . . . . . . 103fonction de répartition. . . . . . . . . . . . . . . . . . .40, 93fonction de vraisemblance . . . . . . . . . . . . . . . . . . 134fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . 73fonction indicatrice (caractéristique) . . . . . . . 153formule

de Morgan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18des probabilités conditionnelles en cascade

30des probabilités totales . . . . . . . . . . . . . . . . . . 31

fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

Hhypothèse statistique. . . . . . . . . . . . . . . . . . . . . . .140

Iinégalité

de Bienaymé-Tchebychev . . . . . . . . . . . . . . . 113de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . . . 114de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 136de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114de Markov généralisée . . . . . . . . . . . . . . . . . . 113de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

175

indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25–33de variables aléatoiresà densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

individu statistique . . . . . . . . . . . . . . . . . . . . . . . . 129information de Fisher . . . . . . . . . . . . . . . . . . . . . . 136intégrale

de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .170de Wallis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .170

issue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Lliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161loi

de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92de probabilité uniforme discrète . . . . . . . . . 20exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92centrée réduite (gaussienne) . . . . . . . . . . . 92

uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91loi de distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 134loi faible des grands nombres . . . . . . . . . . . . . . . 121loi forte des grands nombres . . . . . . . . . . . . . . . 122

Mmatrice jacobienne . . . . . . . . . . . . . . . . . . . . . . . . . 167maximum de vraisemblance . . . . . . . . . . . . . . . . 136

Ppartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150, 155

de l’univers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164population statistique . . . . . . . . . . . . . . . . . . . . . . 129probabilité conditionnelle . . . . . . . . . . . . . . . . 28–33

Qquantité d’information . . . . . . . . . . . . . . . . . . . . . 136

Ssuite de variables aléatoires . . . . . . . . . . . . . . . . 111

Ttest

d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . .139

théorèmede convergence monotone . . . . . . . . . . . . . . 113de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32de convergence dominée . . . . . . . . . . . . . . . . 112de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118de la limite centrale . . . . . . . . . . . . . . . . . . . . 122de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14borélienne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .87engendrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Uunivers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

Vvariable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88loi de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35réelle discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

variable statistique . . . . . . . . . . . . . . . . . . . . . . . . . 130variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49, 99

176

Bibliographie

[1] Alexander Bulinski. Cours d’amphithéâtre de lm231 - probabilités et statistiques élémentaires.Université Pierre et Marie Curie, 2011.

[2] Jean-François Delmas. Introduction au calcul des probabilités et à la statistique. ENSTA,2010.

[3] Jean Lacroix et Pierre Priouret. Probabilités approfondies. Université Pierre et Marie Curie,2005-2006.

[4] Jacques Féjoz. Calcul vectoriel et matriciel de première année. Université Paris-Dauphine,2011.

[5] Sylvie Guerre-Delabrière. Suites, séries, intégrales : cours et exercices corrigés, niveau L2.Ellipses, 2009.

[6] Jean Jacod and Philip Protter. Essentiel en théorie des probabilités. Cassini, 2002.

[7] Benjamin Jourdain. Probabilités et statistiques. Ellipses, 2009.

[8] Amaury Lambert. Théorie de la mesure et intégration. Université Pierre et Marie Curie,2011-2012.

[9] Jean-Yves Ouvrard. Probabilités : Tome 1, Licence - Capes. Cassini, 2007.

[10] Gilbert Saporta. Probabilités, analyse de données et statistique. Editions Technip, 2006.

177