distribuições de probabilidade - sisnesisne.org/disciplinas/grad/probestat1/aula 20.pdf · note...
TRANSCRIPT
Probabilidade e Estatística I – Antonio Roque – Aula 20
1
Distribuições de Probabilidade
Considere a seguinte situação: O Departamento de Psicologia da
Universidade XYZ resolveu fazer um experimento para determinar a
existência do fenômeno da percepção extra-sensorial. O experimento
consiste em colocar uma pessoa que alega ter poderes extra-sensoriais atrás
de um biombo e o experimentador (um professor do departamento) do outro
lado do biombo com um baralho contendo apenas 5 cartas. Cada carta
contém um símbolo diferente: uma cruz, uma estrela, um círculo, um
triângulo e um quadrado. A cada rodada, o experimentador embaralha as
cartas e tira uma do bolo aleatoriamente, deixando-a virada para baixo sem
olhar para ela. A pessoa atrás do biombo tem então que dizer qual é o sinal
contido na carta que foi retirada. Depois disso, o experimentador vira a carta
para cima e anota se a pessoa acertou ou não o símbolo.
Vamos deixar de lado a questão sobre a existência ou não da PES e pensar
no experimento acima como uma instância de um experimento binomial. Se
a pessoa que está atrás do biombo estiver “chutando” as respostas, a cada
repetição do experimento a chance de ela acertar o símbolo correto é de 1/5
(temos cinco símbolos igualmente prováveis). Portanto, se o experimentador
repetir o experimento N vezes, a chance de que a pessoa investigada acerte
K vezes, por puro acaso, é dada pela probabilidade binomial:
KNK
KNKNNKP −
−= )80,0()20,0(
)!(!!)20,0 ,|( .
Usando a fórmula da probabilidade binomial, podemos calcular a
probabilidade de que a pessoa atrás do biombo acerte qualquer número de
Probabilidade e Estatística I – Antonio Roque – Aula 20
2
vezes, de 0 até N, em N repetições do experimento, se estiver “chutando” a
cada repetição.
Por exemplo, vamos supor que N = 30. Os valores das probabilidades
podem ser colocados em uma tabela ou, o que permite uma visualização
mais imediata, em um gráfico em que os números de acertos são colocados
no eixo-x e os valores das respectivas probabilidades são colocados no eixo-
y. Este gráfico está dado abaixo.
Distribuição de Probabilidades
0,00
0,05
0,10
0,15
0,20
1 4 7 10 13 16 19 22 25 28 31
Número de Acertos
Prob
abili
dade
Note que o número mais provável de acertos, com base em “chutes”, é K =
7. Números de acertos acima de K = 13 têm probabilidades praticamente
nulas. Isto indicaria que, se a pessoa atrás do biombo acertar algum número
grande de vezes, como 16 ou mais, por exemplo, este seria um evento muito
pouco provável para ser obra do acaso.
Este gráfico com as probabilidades dos diversos números possíveis de
acertos é um exemplo de uma distribuição de probabilidades.
Uma distribuição de probabilidades dá as probabilidades de que uma dada
variável aleatória possa assumir determinados valores.
Probabilidade e Estatística I – Antonio Roque – Aula 20
3
A variável é chamada de aleatória porque, a cada repetição do experimento,
ela pode assumir um dado valor ao acaso, isto é, não temos como prever
exatamente o valor que ela vai assumir. Podemos apenas calcular a
probabilidade de que ela assuma um dado valor.
Por convenção, variáveis aleatórias são designadas por letras maiúsculas −
X, Y, Z − enquanto que os valores realmente medidos dessas variáveis são
designados por letras minúsculas – x, y, z.
Se o experimento que estivermos fazendo for do tipo binomial, como o
exemplo dado, então as probabilidades serão calculadas segundo a fórmula
da distribuição binomial e teremos um gráfico como o da transparência
anterior. Se o experimento for descrito por outro tipo de probabilidade,
então teremos um gráfico de distribuição de probabilidades diferente.
Há dois tipos de variáveis aleatórias: discretas ou contínuas.
Variáveis aleatórias discretas:
Uma variável discreta pode assumir apenas um número finito ou uma
quantidade enumerável (que se pode numerar por números inteiros) de
valores. Exemplos: número de filhos de um casal; número de bactérias em
uma lâmina; número de dias sem emprego; gasto mensal em refrigerantes
por domicílio. Note que os valores das variáveis não precisam ser números
inteiros, como no último exemplo dado, em que os valores estão limitados a
até duas casas decimais (os centavos).
Variáveis aleatórias contínuas:
Uma variável contínua pode assumir um número infinito de valores. Dado
um intervalo, ela pode ter qualquer valor dentro dele, com a precisão que se
queira. Exemplos: alturas das pessoas; tempo de resposta a um estímulo;
Probabilidade e Estatística I – Antonio Roque – Aula 20
4
distâncias percorridas por caminhões de transporte de mercadoria em um
ano; valor da pressão arterial.
Tanto para variáveis discretas como contínuas, podemos ter distribuições de
probabilidade. Para o caso discreto, já vimos um exemplo – a distribuição
binomial. A distribuição de probabilidades de uma variável discreta X é
representada matematicamente por )(xPX e, graficamente, por um gráfico
do tipo abaixo.
A altura da barra dá a probabilidade do evento xi: PX(xi).
Para que uma distribuição discreta como a do gráfico anterior seja uma
distribuição de probabilidades, ela tem que satisfazer as seguintes
condições:
1. ∑=
=N
iiX xP
1
1)( , onde N é o número máximo de valores possíveis;
2. 0 ≤ P(xi) ≤ 1 para todo xi.
Uma função importante associada a uma distribuição de probabilidades
discreta PX(x) é a chamada função de distribuição acumulada FX(x). Ela
dá a probabilidade de que X assuma qualquer valor menor que um dado x:
∑≤ʹ′
ʹ′=xx
XX xPxF )()( .
Probabilidade e Estatística I – Antonio Roque – Aula 20
5
Um exemplo de PX(x) e da sua correspondente FX(x) é dado abaixo. A
distribuição PX(x) usada é a binomial.
Note que o retângulo mais à direita da função de distribuição acumulada
FX(x) tem altura 1.
É comum que distribuições de probabilidade dependam de parâmetros. Por
exemplo, seja a distribuição de probabilidades
,3,2,1 ,)( 642
2
=++
= xxPx
X λλλλ
onde λ é algum número real diferente de zero. Ele é chamado de parâmetro
da distribuição. Note que qualquer que seja o valor de λ, PX(x) > 0 para x =
1, 2, 3, e PX(1) + PX(2) + PX(3) = 1. Embora o valor do parâmetro λ seja
desconhecido, a função definida acima satisfaz as condições para que seja
uma distribuição de probabilidades. Para cada valor possível de λ teremos
um gráfico diferente de PX(x).
Para variáveis contínuas, como temos infinitos valores dentro de um
intervalo não tem sentido definirmos a probabilidade de um valor específico
x, mas apenas a probabilidade de obtermos um valor de x dentro de um
intervalo especificado, PX(a ≤ x ≤ b).
Probabilidade e Estatística I – Antonio Roque – Aula 20
6
Dada uma variável aleatória contínua X assumindo valores dentro de um
intervalo I define-se uma função densidade de probabilidade fX(x), que é
positiva e definida para todo x no intervalo I, de maneira que a
probabilidade de que a variável aleatória assuma um valor dentro de um
intervalo que vai de a a b é dada pela integral
( ) ∫=<<b
aX dxxfbXaP )( .
Esta definição implica que,
( ) ( ) ( ) ( )bXaPbXaPbXaPbXaP ≤≤=≤<=<≤=<< .
Graficamente, temos:
A probabilidade de que ocorra um evento com valor entre dois números, a e
b, é dada pela área sob a curva fX(x) entre a e b. Note que no exemplo do
gráfico assumiu-se que o intervalo I vai de 0 a ∞.
Uma função densidade de probabilidade deve satisfazer à seguinte
propriedade:
Probabilidade e Estatística I – Antonio Roque – Aula 20
7
,1)( =∫I
X dxxf
ou seja, a área total abaixo da curva fX(x) por todo o seu intervalo de
definição I deve ser igual a 1.
Usando o Teorema Fundamental do Cálculo, a definição da probabilidade
de que a variável X esteja entre x e x + h nos dá,
( ) )(lim0
xfh
hxXxPXh
=+<<
→,
o que implica que para h pequeno podemos escrever,
( ) hxfhxXxP X )(≈+<< .
A função de distribuição acumulada FX(x) associada à densidade fX(x) é
definida por
∫∞−
=0
.)()( 0
x
XX dxxfxF
Esta definição implica que 0 ≤ FX(x) ≤ 1, que FX(x) é uma função não
decrescente do seu argumento e − pelo Teorema Fundamental do Cálculo −
que
.)()(0
0xx
XX dx
xdFxf=
=
Valor Esperado e Variância de uma Distribuição de Probabilidades
Vamos considerar uma distribuição de probabilidades para uma variável
discreta, por exemplo, o número de filhos por família. Vamos supor que
foram escolhidas N famílias aleatoriamente e que a seguinte distribuição de
probabilidades foi montada:
Probabilidade e Estatística I – Antonio Roque – Aula 20
8
No de filhos 0 1 2 3 4 5
Probabilidade 0,1 0,2 0,3 0,2 0,1 0,1
O que é cada valor de probabilidade P(i) dado? É o valor da freqüência
relativa do número de filhos i dentro da amostra escolhida. Por exemplo, o
valor de P(2) = 0,3 indica que, 30% das N famílias da amostra têm dois
filhos.
Como se calcula a média de filhos x para esta amostra? Chamando de fi a
freqüência absoluta do número de filhos i na amostra, a média é:
.5).5(4).4(3).3(2).2(1).1(0).0(ou
,543210 543210
PPPPPPx
Nf
Nf
Nf
Nf
Nf
Nfx
+++++=
+++++=
Para o caso em questão: x = 2,3 filhos por família.
Define-se o valor esperado de uma distribuição de probabilidades discreta,
designado por E(X) ou µ, como:
∑=
==n
iiXi xPxXE
1
)()( µ ,
onde n é o número de valores possíveis que a variável aleatória X pode
assumir.
Aplicando a definição de valor esperado à variável aleatória “número de
filhos por casal” e considerando que PX(0) = 0,1, PX(1) = 0,2, PX(2) = 0,3,
PX(3) = 0,2, PX(4) = 0,1, PX(5) = 0,1 e PX(x≥6) = 0, temos que
∑∞
=
==0
3,2)()(i
iXi xPxXE .
Probabilidade e Estatística I – Antonio Roque – Aula 20
9
Numericamente, o valor esperado coincide com a média de filhos por casal
para a amostra de N casais. Note, porém, a diferença conceitual entre média
e valor esperado:
• A média x de uma amostra de N elementos baseia-se explicitamente nos
resultados experimentais da amostra e é calculada como,
∑=
=N
iixN
x1
1,
sem que se precise conhecer as probabilidades de ocorrência de cada
possível valor da variável aleatória;
• O valor esperado E(X) ou µ de uma variável aleatória X é uma grandeza
teórica que depende da distribuição de probabilidades PX(x), definida
para todos os possíveis valores da variável aleatória, cujos valores, em
geral, não são conhecidos. Portanto, µ é um parâmetro característico da
variável aleatória X.
O conceito de valor esperado de uma variável discreta X pode ser
generalizado para o de valor esperado de qualquer função g(X). A função
g(X) é, por si só, uma variável aleatória que podemos chamar de Y,
assumindo valores y = g(x). Portanto,
∑=y
Y yyPYE )()( .
Note que podemos reescrever este valor esperado como
∑=x
X xPxgXgE )()())(( ,
que é uma maneira mais conveniente de se calcular o valor esperado de Y =
g(X) na prática, pois não necessita que se conheça a distribuição de
probabilidades de Y.
Probabilidade e Estatística I – Antonio Roque – Aula 20
10
Como exemplo, vamos considerar a distribuição de probabilidades de
número filhos por casal dada acima e calcular o valor esperado de g(X) = X2:
3,65.1,04.1,03.2,02.3,01.2,00.1,0)()( 22222225
0
2 =+++++==∑=
xxPXEi
iX .
Da definição de valor esperado de g(X) decorre a seguinte propriedade de
linearidade:
Se α e β forem constantes, então a variável aleatória α + βX tem o valor
esperado,
( ) ( ) ∑ ∑∑ +=+=+=+ )()()()( XExxPxPxPxXE XXX βαβαβαβα .
Voltando ao exemplo da amostra de N famílias, a variância do número de
filhos por família é calculada como:
.)5)(5()4)(4()3)(3()2)(2()1)(1()0)(0(ou
,)5()4()3()2()1()0(
2222222
2524232221202
xPxPxPxPxPxPs
xNf
xNfx
Nf
xNfx
Nfx
Nf
s
−+−+−+−+−+−=
−+−+−+−+−+−=
Para o caso em questão, temos s2 = 2,02.
Define-se a variância de uma distribuição de probabilidades discreta por:
( )∑=
−==n
iii xpxEx
1
22 )()(Var(X) σ .
O desvio padrão da variável aleatória discreta X é definido como a raiz
quadrada positiva da sua variância: 2σσ += .
Probabilidade e Estatística I – Antonio Roque – Aula 20
11
Note que a definição acima é, assim como a definição do valor esperado,
uma definição teórica. Isto implica que a variância σ2 de uma variável
aleatória X é, em geral, um parâmetro desconhecido. Porém, assim como a
média µ, ela pode ser estimada tomando-se amostras de N elementos da
variável aleatória X.
Algumas propriedades da variância que decorrem da sua definição são
(tente mostrar como exercício):
• Se X for uma variável aleatória com variância σ2 e α e β forem
constantes, então a variável aleatória α + βX tem a variância,
( ) 222 )Var(Var σβββα ==+ XX .
• A variância de uma variável aleatória X pode ser escrita na seguinte
forma mais conveniente,
( ) ( )22222 )()( XEXExPxx
X −=−⎟⎠
⎞⎜⎝
⎛= ∑ µσ ,
de onde se obtém que
( ) 222 µσ −=XE .
Para distribuições de probabilidades contínuas, o valor esperado e a
variância são definidos por fórmulas análogas às do caso das distribuições
discretas. Apenas se substituem as somatórias por integrais:
Valor esperado: ∫+∞
∞−
== dxxxfXE X )()( µ .
Probabilidade e Estatística I – Antonio Roque – Aula 20
12
Variância: ( )∫+∞
∞−
−== dxxfXExX X )()()Var( 22σ .
Temos também que o valor esperado de uma função g(X) da variável
contínua X é dado por:
( ) ∫+∞
∞−
= dxxfxgXgE X )()()( .
As mesmas propriedades do valor esperado e da variância para o caso de
uma variável discreta se aplicam agora para o caso de uma variável
contínua.
As definições de valor esperado e de variância de uma variável aleatória,
discreta ou contínua, nos permitem provar uma desigualdade matemática de
grande importância em teoria das probabilidades e estatística, conhecida
como desigualdade de Tchebyshev.
Seja X uma variável aleatória, discreta ou contínua, com valor esperado µ e
variância σ2. Então, a desigualdade de Tchebyshev nos diz que para
qualquer constante positiva d,
( ) 2
2
ddXP σ
µ ≤≥− .
Vamos provar a desigualdade de Tchebyshev aqui para o caso de uma
variável aleatória contínua no intervalo (−∞, +∞); a prova para uma variável
aleatória discreta é essencialmente idêntica.
Pela definição de σ2,
Probabilidade e Estatística I – Antonio Roque – Aula 20
13
( )
( ) ( )
( ).
)()(
)()(
)(
2
22
22
22
dXPd
dxxfddxxfd
dxxfxdxxfx
dxxfx
d
dXX
dX
d
X
X
≥−=
+≥
−+−≥
−=
∫ ∫
∫∫
∫
−
∞−
∞+
+
∞+
+
−
∞−
+∞
∞−
µ
µµ
µσ
µ
µ
µ
µ
Deste resultado decorre a desigualdade de Tchebyshev:
( ) 2
2
ddXP σ
µ ≤≥− .