propriétés des estimateurs - université de...

IFT6085-H2014: Modèles Graphiques Probabilistes 04 - Propriétés des estimateurs

IFT6085-H2014: Modèles Graphiques Probabilistes

Prof: Aaron CourvilleEmail: [email protected]

Office: 3253 Pav. Andre Aisenstadt

Propriétés des estimateurs

1

mailto:[email protected]

mailto:[email protected]


Estimateurs ponctuels

• Retour à estimateurs ponctuels (estimation du maximum de vraisemblance), nous allons laisser tomber la perspective bayésienne (pour le moment).

• En général, l'estimation ponctuelle se réfère à trouver une seule «meilleure estimation» d'une certaine quantité d'intérêt.

• La quantité d'intérêt pourrait être un paramètre dans un modèle paramétrique, un CDF, un PDF, un PMF...

• Nous occupe de l'estimation des paramètres d'un modèle paramétrique.

2


Estimateurs ponctuels des paramètres

• Convention: Nous notons une estimation ponctuelle du vrai paramètre par .

• Point de vue statistique orthodoxe: - Le paramètre est une quantité inconnue fixe.

- L'estimateur dépend des données donc c’est une variable aléatoire (les données sont aléatoires)

• Point de vue bayésienne:- Les variables aléatoires représentent des quantités inconnues.

- Les données est observée et donc pas aléatoire

- Le vrai paramètre est inconnu et donc aléatoire.

• Pour l'instant, nous prenons la perspective statistique orthodoxe.

3

! !

!

!

!


Biais

• Soit X1,...,Xn n points de données i.i.d. de un distribution F.

• L’estimateur de est un fonction de X1,...,Xn:

• Définition - La biais (bias) d’une estimateur :

- on dit que soit non biaisé (unbiased) si:

• Un estimateur sans biais est souhaitable, mais pas indispensable, beaucoup de nos estimateurs sont biaisé.

4

! !

!n = g(X1, . . . , Xn)

biais(!n) = E!(!n)! !

! E!(!n) = !


Exemple de biais: loi de Bernoulli

• Soit

• Estimateur (ML):

• biaisé?

5

• Bernoulli distribution:

- X est un v.a. binaire:

- The model parameter:

- The Bernoulli p.m.f(x):

X ! Bernoulli(p)

f(x; p) = px(1! p)1!x

x ! {0, 1}

! = p ! ! = [0, 1]

X1, . . . , Xn ! Bernoulli(p)

pn =1

n

n!

i=1

Xi

E(pn) =1

n

n�

i=1

E(Xi)

=1

n

n�

i=1

p

= p

biais(pn) = E(pn)! p


• L’estimateurs de la variance de la loi gaussienne:

variance de l'échantillon

• Chose qu’on besoin:

-

-

-

Biais - variance de loi gaussienne: 1. variance de l’échantillon

6

S2 =1

n! 1

n!

i=1

(Xi ! X)2

X =1

n

n!

i=1

Xi

E(S2) = E�

1

n− 1

n�

i=1

(Xi − X)2�

= E�

1

n− 1

n�

i=1

(X2i − 2XXi + X2)

�

= E�

1

n− 1

n�

i=1

X2i − 2X

n�

i=1

Xi +n�

i=1

X2

�

= E�

1

n− 1

n�

i=1

X2i − nX2

�

=1

n− 1

�nE(X2

1 )− nE(X2)�

=1

n− 1

�n(σ2 + µ2)− n

�σ2

n+ µ2

��

= σ2

non biaisé

Var(X) = Var

�1

n

n�

i=1

Xi

�

=1

n2Var

�n�

i=1

Xi

�

=1

n2nVar(X1)

=σ2

n

E(X) = E�1

n

n�

i=1

Xi

�

=1

nnE(X1)

= µ

E(X2) = Var(X) + E(X)2

données IID



-

Biais - variance de loi gaussienne: 2. MLE

7


Estimateur de ML

- Trouvée en résolvant le problème du maximum de vraisemblance à deux paramètres

!2 =1

n

n!

i=1

(Xi ! X)2

X =1

n

n!

i=1

Xi

(µ,!2)

E(σ2) = E�n− 1

nS2

�

=n− 1

nE�S2

�

=n− 1

nσ2

!2 =n! 1

nS2

biaisé


Variance et Erreur-type

• La distribution de est appelée la distribution d'échantillonnage.

• Écart-type de est appelée l'erreur-type (standard error):

• Souvent, l'écart-type dépend de l'inconnu F.

- Dans ces cas, il s'agit d'une quantité inconnue.

- Nous pouvons généralement estimer.

- L'erreur-type estimée est notée .

8

!

!

se(!n) =!Var(!n)

se


Variance de l’estimateur: loi de Bernoulli

• Soit


• Variance d’estimateur?

9





• Erreur-type d’estimateur?

X ! Bernoulli(p)

f(x; p) = px(1! p)1!x

x ! {0, 1}

! = p ! ! = [0, 1]


pn =1

n

n!

i=1

Xi

se(pn) =�Var(pn)

=�p(1− p)/n

se(pn) =!p(1! p)/n

Var(pn) = Var

�1

n

n�

i=1

Xi

�

=1

n2

n�

i=1

Var(Xi)

=1

n2nVar(X1)

=1

np(1− p)

Estimateur de l’erreur-type




• On utilise l’identité

Var. - variance de loi gaussienne: 1. variance de l’échantillon

10

S2 =1

n! 1

n!

i=1

(Xi ! X)2

X =1

n

n!

i=1

Xi

Var(n− 1)

σ2S2 = Var χ2

n−1

(n− 1)2

σ4Var S2 = 2(n− 1)

Var S2 =2(n− 1)σ4

(n− 1)2

=2σ4

(n− 1)

!2n!1 =

(n! 1)

"2S2

Var S2 =2!4

(n! 1)



Var. - variance de loi gaussienne: 2. MLE

11


Estimateur de ML

- Trouvée en résolvant le problème du maximum de vraisemblance à deux paramètres

!2 =1

n

n!

i=1

(Xi ! X)2

X =1

n

n!

i=1

Xi

(µ,!2)

!2 =n! 1

nS2

Var σ2 = Varn− 1

nS2

=

�n− 1

n

�2

Var S2

=

�n− 1

n

�2 2σ4

(n− 1)

=2(n− 1)

n2σ4

Var !2 =2(n! 1)

n2!4


Propriétés des estimateurs: l'erreur quadratique moyenne

• La qualité d'une estimation ponctuelle est parfois évaluée par l'erreur quadratique moyenne (mean squared error) ou MSE:

• Gardez à l'esprit que se réfère à l'espérance par rapport à la distribution qui a généré les données:

- Cela ne signifie pas que nous calculons la moyenne d'une distribution pour .

• MSE peut être écrit come:

- Comment? - Soit

- Remarquer que:

- sont pas aléatoire.

12

f(x1, . . . , xn; !) =n!

i=1

f(xi; !)

E!(·)

!

MSE = biais2(!n) + Var(!n)

MSE = E!(!n ! !)2

Eθ(θn − θ)2 = Eθ(θn − θn + θn − θ)2

= Eθ(θn − θn)2 + 2(θn − θ)Eθ(θn − θn) + Eθ(θn − θ)2

= Eθ(θn − θn)2 + 2(θn − θ)Eθ(θn − θn) + Eθ(θn − θ)2

= (θn − θ)2 + Eθ(θn − θn)2

= biais2(θn) + Var(θn)

!n = E!(!n)

E!(!n ! !)2 = (!n ! !)2

!n, !


Biais - vs - Variance

• Le MSE de l’estimateur combine un measure de biais et un measure de variance.

• Pour trouver un estimateur qui a un bon MSE, nous avons besoin d'un estimateur qui contrôle à la fois biais et la variance. Il est souvent un compromis entre les deux.

• Le compromis entre le biais et la variance est au cœur de l'apprentissage automatique et les statistiques.

• En général, nous cherchons un équilibre qui réduit au minimum l'effet combiné des deux, le MSE est un moyen de quantifier le compromis.

13




• On cherche le MSE:

-

-

Loi gaussienne: 1. MSE de variance de l’échantillon

14

S2 =1

n! 1

n!

i=1

(Xi ! X)2

X =1

n

n!

i=1

Xi

Var(S2) =2!4

(n! 1)


biais(S2) = E(S2)! !2 = 0

MSE(S2) =2!4

n! 1



Estimateur de ML

• On cherche le MSE:

-

-

Loi gaussienne: 2. MSE d’estimateur ML

15

X =1

n

n!

i=1

Xi


!2 =1

n

n!

i=1

(Xi ! X)2

biais(!2) = E(!2)! !2 =n! 1

n!2 ! !2 = ! 1

n!2

Var !2 =2(n! 1)

n2!4

MSE(σ2) =1

n2σ4 +

2(n− 1)

n2σ4

=2n− 1

n2σ4

MSE(!2) =2n! 1

n2!4



MSE d’estimateur de ML:

MSE de variance de l'échantillon:

Loi gaussienne: comparison de les estimateurs

16

MSE(!2) =2n! 1

n2!4

MSE(S2) =2!4

n! 1

MSE(!2) =2n! 1

n2!4 <

2!4

n! 1= MSE(S2)


Propriétés des estimateurs: cohérence

• Une exigence raisonnable est que nous aimerions l'estimateur converge vers la vraie valeur du paramètre que nous recueillons de plus en plus de données.

• Définition - Un estimateur ponctuel d'un paramètre est cohérent:

- si (l’estimateur converge en probabilité au vrai valeur)

-

• Therorem -

17

!!

!np!" !

θnp−→ θ: pour chaque � > 0, P (|θn − θ| > �) → 0 tant que n → ∞.

Si biais → 0 et l’erreur-type se → 0 alors θn est coherente.


Exemple: loi de Bernoulli

• Soit


• Est-ce que c’est cohérent?

-

-

• Oui, l’estimateur est cohérent.

18





X ! Bernoulli(p)

f(x; p) = px(1! p)1!x

x ! {0, 1}

! = p ! ! = [0, 1]


pn =1

n

n!

i=1

Xi

biais(pn) = E(pn)! p = p! p = 0

se(pn) =�

p(1− p)/n → 0quand n → ∞


Propriétés des estimateurs de vraisemblance maximale

• Sous les conditions de régularité sur , les estimateurs de vraisemblance maximale (MLE) possèdent des propriétés désirables:

1. Cohérent:

2. Équivariance: si est le MLE, alors est le MLE de

3. La normalité asymptotique:

4. Optimalité asymptotique ou l'efficacité.- parmi tous les estimateurs raisonnables (well-behaved), le MLE a le plus petit

écart-type (au moins pour n grand)

19

f(x;!)

!np!" !

! g(!n) g(!)

(! ! !)

se! N (0, 1), quand n " #


Équivariance des MLE

• Theorem. Laissez être une fonction de . Laissez être le MLE. est le MLE de .

• Preuve: Laissez h = g-1 dénoter l’inverse de g. Alors . Pour toute , ou . Ainsi, pour toute , .

• En general, les estimateurs maximum a posteriori (MAP) ne sont pas équivariants.

20

! !! = g(")! = g(") !

! = h(")

! L(τ) =�

i f(xi;h(τ)) =�

i f(xi; θ) = L(θ) θ = h(τ)! L(τ) = L(θ) ≤ L(θ) = L(τ)

propriétés des estimateurs - université de...

Documents