probabilidades: variables aleatorias continuas€¦ · probabilidades: variables aleatorias...
TRANSCRIPT
Estadística 2020 - Prof. Tamara Burdisso
Probabilidades: Variables aleatorias continuas
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua
• Una v. a. es continua si puede tomar cualquier valor numérico en un intervalo o conjuntos de intervalos de la recta numérica. Ejemplos: peso, altura, distancia, temperatura, etc.
• Recordemos que, si es una v.a. discreta, podemos calcular la probabilidad de que la v.a. tome exactamente un valor en particular.
• Nótese que la v.a. continua se define sobre un intervalo. Como cualquier intervalo tiene una cantidad infinita de valores, no tiene sentido hablar de la probabilidad de que la v.a. continua tome un determinado valor como sí se hace con las v.a. discretas.
X
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua
• Al igual que las v.as. discretas se define la función de distribución acumulada para una v.a. continua.
• Definición: Sea una v.a. continua. Se llama función de distribución acumulada
• Ilustremos esto con un ejemplo
)()( yYPyF =Y
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua
• Ejemplo: Sea Y una v.a. que representa el tiempo de vuelo entre Buenos Aires y Ushuaia. Se sabe que el tiempo de vuelo entre estos destinos ronda entre las 3 horas (180 minutos) y las 3 horas 40 minutos (220 minutos).
• La v.a. Y puede tomar cualquier valor sobre este intervalo. Por lo tanto es una v.a. continua.
• Supongamos que contamos con suficientes registros de los tiempo de vuelo, para concluir que la probabilidad de que la v.a. caiga en cualquier intervalo de, v.gr. 5 minutos, dentro del intervalo [180, 220] es la misma.
• Cuando esto ocurre se dice que la v.a. en cuestión presenta una distribución uniforme de probabilidades.
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua
• ¿Cuál es la función de distribución acumulada de una v.a. uniforme?
−
−
=
2201
220180)180220(
180
1800
)(
ysi
ysiy
ysi
yF
Función de distribución acumulada
0
0.2
0.4
0.6
0.8
1
1.2
170 175 180 185 190 195 200 205 210 215 220 225 230
F(y)
Tiempo de vuelo
)200180()180(
)200180()180(
)200()200(
+=
+=
=
YPF
YPYP
YPF
)180()200(
)200180(
FF
YP
−=
−
−
=
bysi
byasiab
ay
aysi
yF
1
)(
0
)(
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua
• Por otro lado, en el caso continuo, la contraparte de la función de distribución probabilidad es la función de densidad de probabilidad.
• Sea es una v.a. continua con función de densidad de probabilidad . El área bajo para un intervalo determinado, representa la probabilidad de que la v.a. continua Y tome un valor sobre ese intervalo.
Y)(yf )(yf
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua. Distribución uniforme
• La función de densidad de probabilidades de la v.a. uniforme es la siguiente
• En nuestro ejemplo es…
• Y la gráfica de la función de densidad de la v.a. es …
• Notar que el valor de no representa la probabilidad como en el caso de la v.a. discreta.
• Para hablar de probabilidad de una v.a. continua , debemos hablar de la probabilidad de que la v.a. tome determinado valor dentro de un intervalo.
• Por ejemplo: ¿Cuál es la probabilidad de que el tiempo de vuelo esté entre los 185 y 200 minutos?
−=
(c.c.) contrario casoen 0
para 1
)(bya
abyf
)(yf
Y
Estadística 2020 - Prof. Tamara Burdisso
Variable aleatoria continua. Distribución uniforme
• Ejemplo: Sea Y=“tiempo de vuelo entre Bs.As. y Ushuaia”
180 220
1/40
f(x)
Tiempo de vuelo en minutos
Función de densidad de probabilidad de una v.a. uniforme
Estadística 2020 - Prof. Tamara Burdisso
El área como medida de probabilidad
• ¿Cuál es el área bajo en el intervalo de 185 a 200 minutos?
375.040
1)185200(altura base)200185( =
−== YP
180 220
1/40
Tiempo de vuelo en minutos
185 200
1/40
f(y)
)(yf
Estadística 2020 - Prof. Tamara Burdisso
El área como medida de probabilidad
• Conociendo la función de densidad de probabilidad (f.d.p), la probabilidad de que v.a. tome algún valor intermedio entre , es el área bajo la gráfica de en el intervalo .
• ¿Cúal es la probabilidad de que el tiempo de vuelo esté entre 180 y 220 minutos?
• Por lo tanto, el área total bajo la gráfica de sobre todos los valores para los cuales está definida es 1. Este es el análogo a que la suma de las probabilidades de una v.a. discreta es 1.
• La f.d.p. tiene que , al igual que para las v.a. discretas.
• Notar que se habla de la probabilidad de que la v.a. continua Y tome un valor entre con . Por lo tanto la probabilidad de que tome un valor específico es cero, ya que el área de en un punto es cero.
0)( yf
)(yfY 21 e yy
( )21, yy
)(yf
21 e yy 12 yy
)(yf
Estadística 2020 - Prof. Tamara Burdisso
La f.d.p. y la función de distribución acumulada de una v.a. continua
• Si es una función de densidad de probabilidad entonces
• para cualquier valor de
• (equivale a para v.a. discretas)
• Si es cualquier v.a., la función de distribución acumulada de , se escribe y
• Si es una función de distribución acumulada, entonces
•
•
• es una función no decreciente de . Si e son 2 valores cualesquiera tales que entonces
0)( yf y
1)( =
−dyyf
)(yf
Y Y
)(yF )()()( yYPyYPyF ==
)(yF
0)(lim)( =−−→
yFFy
1)(lim)( =→
yFFy
)(yF y 1y 2y
21 yy )()( 21 yFyF
=x
xp 1)(
Estadística 2020 - Prof. Tamara Burdisso
La f.d.p. y la función de distribución acumulada de una v.a. continua
• Si es una v.a. continua entonces la función de distribución acumulada , se dice que es continua si la función de distribución es continua para
• Si es la función de distribución de una v.a. continua , entonces está dada por
siempre y cuando exista la derivada, y es la función de densidad de probabilidad para la v. a.
• De lo anterior se tiene que . Entonces la
)(')(
)( yFdy
ydFyf ==
Y
)(yf
Y
Y
)(yF
− y )(yF
)(yF
)(yf
)()()( yYPdttfyFy
== −
)(-)()(- )()( 121221 yFyFyYPyYPyYyP == − 21 yycon
Estadística 2020 - Prof. Tamara Burdisso
La f.d.p. y la función de distribución acumulada de una v.a. continua
Función de densidad de probabildad
0
0.005
0.01
0.015
0.02
0.025
0.03
170 175 180 185 190 195 200 205 210 215 220 225 230
f(x)
Tiempo de vuelo Función de distribución acumulada
0
0.2
0.4
0.6
0.8
1
1.2
170 175 180 185 190 195 200 205 210 215 220 225 230
F(y)
Tiempo de vuelo
Estadística 2020 - Prof. Tamara Burdisso
Esperanza y varianza de una v.a. continua
• El cálculo de la esperanza y varianza para v.a. continuas es análogo al de las v.as. discretas. Pero en el caso de v.as. continuas interviene el cálculo integral.
• El valor esperado de una v.a. continua es
• Si es una función de , entonces el valor esperado de está dado por la expresión
siempre que la integral exista.
• Si definimos a entonces la varianza de está dada por2)()( −= YYg
Y)(Yg
−= dyyfyYE )()(
)(Yg
−= dyyfygYgE )()())((
( )
−−=−== dyyfyYEYgEYVar )()()())(()( 222
Y
Estadística 2020 - Prof. Tamara Burdisso
Esperanza y varianza de una v.a. uniforme
• Si es una v.a. uniforme sobre el intervalo [a,b], entonces la esperanza y varianza de Y están dadas por
• Demostrarlo
Y
2
)()(
baYE
+=
12
)()(
22 ab
YVar−
==
Estadística 2020 - Prof. Tamara Burdisso
Varianza y desvío estándar de una función lineal
• Sea Y una v.a. con media y varianza y sean dos constantes. Definamos la v.a. . Entonces la media y la varianza de Z son
• Y el desvío estándar de Z es
• En particular, si , probar que la y que
Y2
Y ba y
bYaZ +=
YZ babYaEZE +=+== )()(
222 )()( YZ bbYaVarZVar =+==
YY b =
Y
YYZ
−= 0)( == ZEZ
1)(2 == ZVarZ
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• La distribución normal o Gaussiana es la más importante y de mayor uso de las distribuciones continuas de probabilidad.
• El nombre se debe a Gauss (1777-1855). Pero quien la descubrió fue De Moivre (1733).
• La gráfica de la función de densidad de probabilidad de la curva normal tiene:
• forma de campana
• unimodal
• simétrica alrededor de su media.
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• Formalmente la f.d.p. de la curva normal está dada por
• Hay toda una familia de distribuciones normales. Las mismas se distinguen por su media y su desviación
• Una distribución normal queda perfectamente determinada si se conoce su media y su varianza .
constantes , ; 2
1)(
2
2
1
=
−−
y -eyf
y
2
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• El punto más alto de la curva normal se corresponde con su media., que coincide con la mediana y la moda.
• A mayor desvío estándar mayor variabilidad.
• El área total bajo la curva campana es 1, ya que se trata de una función de probabilidad
constantes , 1 2
1)(
2
2
1
dyedyyf
y
==
−
−−
−
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
La función de densidad de probabilidad (f.d.p.) de una distribución normal
La función acumulada de probabilidad (F) de una distribución normal
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
Distribución normal estándar
Ambas distribuciones normales bajo la misma escala
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• Muchas son las variables aleatorias que tienen un comportamiento de campana.
• Altura y peso de una población
• Los coeficientes IQ
• Los errores de medición en experimentos científicos
• Las precipitaciones
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• Sean E1 y E2 dos exámenes internacionales de inglés. Se sabe que las calificaciones de E1 se distribuyen aprox. según una normal con media 1500 y desvío estándar 300, mientras que las calificaciones de E2 se distribuyen según una normal con media 21 y desvío 5. ¿Quién tuvo un mejor desempeño, Aque sacó 1800 en el examen E1 o B que sacó 25 cuando rindió E2?
• Recordemos el cálculo del valor z que detallamos en los métodos descriptivos para conocer la ubicación relativa de un dato dentro de la muestra es
• El valor z o valor estandarizado, es el número de desviaciones estándar que un valor yi en particular se aparta de la media.
• Plantear gráficamente la situación y resolver.
y
z i
−=
Estadística 2020 - Prof. Tamara Burdisso
Los distribución Normal
• Si una observación yi tiene un valor z positivo (negativo), entonces yi está por encima (debajo) de la media.
• Se dice que una observación y1 es más inusual que x2 si el valor z correspondiente a y1, digamos z1 es mayor en valor absoluto que el valor z correspondiente a y2, i.e. |z1|>|z2|.
• Si una observación es igual a su media entonces el valor z es …………..
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• Las longitudes de cabezas de zarigüeyas se comportan aproximadamente normal con media de 92 mm y desvío estándar 3.6 mm. Calcular los valores z para zarigüeyas con longitudes de cabeza de 97.4mm y 85.5 mm.
• ¿Cuál de las longitudes es más inusual?
• Otra cabeza de zarigüeya arrojó un valor de 83.5 mm. ¿Considera que se trata de un valor anómalo?
Estadística 2020 - Prof. Tamara Burdisso
La tabla Normal
• Con relación al problema de los exámenes internacionales, podríamos preguntarnos en que percentil se ubica el alumno A que obtuvo 1800 puntos?
• Recordemos que los percentiles dan información de como se distribuyen los datos observados.
• Los percentiles refieren al porcentaje de observaciones que caen por debajo de determinada observación.
• En el caso de la distribución Normal con media cero y desvío estándar igual a 1, los percentiles están tabulados, y es lo que se conoce como la tabla Normal.
• El percentil del alumno A, corresponde al porcentaje de alumnos que obtuvieron una nota menor o igual que A
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
• ¿Qué porcentajes de alumnos obtuvieron una nota menor o igual a 1800?
• La tabla normal de probabilidad muestra los valores z y sus correspondientes percentiles, para una variable N(0,1).
• Si entonces donde
),(~ 2NY
),(~ 2NY )1,0(~ NZ
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
8413.0)1(
300
15001800
300
1500
)1800(
==
=
−
−=
=
ZP
YP
YP
A
A
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar• ¿Determinar la proporción de examinados que obtuvieron
mejor nota que A?
• ¿Cuál es la probabilidad de que otro alumno, digamos C, que rinde el examen E1 pero del que desconocemos su calificación, obtenga por lo menos 1650 puntos?
• Hasta ahora utilizamos la tabla normal estándar para identificar el percentil asociado a determinado valor z.
• Pero también podríamos hallar el valor z que se corresponde con determinado percentil.
• Cuál es la máxima calificación alcanzada para el percentil 90 de los examinados según E1?
• Otro alumno, digamos D, obtuvo la calificación de 1400 puntos. ¿En que percentil se encuentra D?
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
• Supongamos que Ud. rindió el examen E1 y tuvo la grata noticia de que está dentro del “5% mejor rankeado” de la distribución de los examinados con E1.
• ¿Cómo interpreta este resultado?
• Plantéelo gráficamente
• ¿Cuál es la mínima nota que pudo haber obtenido?
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
1884150030028.1
300
150028.1
90.0~8997.0)28.1(
90.0)(
=+=
−=
−=
=
=
C
C
c
y
y
yz
ZP
zZP
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
• Consejo: Siempre, siempre, siempre, dibujen primero la distribución normal y traduzcan el problema sobre la gráfica, sombreando el área de interés. Una vez entendido, buscar en la tabla normal.
• No todas las tablas de probabilidad representan el mismo área. Por lo general muestran el área hacia la izquierda. Estar atentos cual es el área que se está graficando.
Estadística 2020 - Prof. Tamara Burdisso
La distribución Normal
• El teorema de Chebyshev brinda una cota para cualquier tipo de distribución
• Existe otra regla empírica ampliamente usada: la de 1 desvío, 2 desvíos o 3 desvíos o simplemente la del 68%, 95% y 99.7%
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
• Comprobar que si la distribución es la Normal, el 68% de las observaciones están dentro del intervalo de un desvío, el 95% en el intervalo de 2 desvíos, y el 99.7% en el intervalo de 3 desvíos.
• Una observación normal puede caer a más de 3 desvíos, pero la probabilidad de ocurrencia en muy, muy pequeña (estar a más de 4 es 1 en 30.000).
• Ejemplo: Los exámenes E1~N(1500,3002).
a. ¿Qué porcentaje de los examinados obtienen una calificación entre 900 y 2100?
b. ¿Y que porcentaje entre 1500 y 2100?
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
• Ejercicio: Molinos Río de la Plata lleva a cabo un control de calidad en su línea embotelladora de aceite. Se supone que el llenado de las botellas pet sigue una distribución N(1000,302). Cada 30 minutos una botella es seleccionada de la línea de producción y su contenido es medido de manera precisa. Si la cantidad de aceite está por debajo de 950 ml o por encima 1050ml, la botella es descartada ya que no pasa el control de calidad.
1. ¿Qué porcentajes de botellas tienen menos de 950 ml?
2. ¿Qué porcentajes de botellas pasan el control de calidad?
a. 0.048 c. 0.952
b. 0.068 d. 0.904
Estadística 2020 - Prof. Tamara Burdisso
La tabla de distribución Normal estándar
Estadística 2020 - Prof. Tamara Burdisso
Ejercicio
• ¿Cuál de las siguientes afirmaciones es falsa?
a. La mayoría de los valores z de una distribución sesgada hacia la derecha son negativos.
b. En una distribución asimétrica el valor z de la media podría ser diferente de cero.
c. En una distribución normal el RIC es menor a dos veces el desvío estándar.
d. Los valores z son útiles para determinar cuan extrema es una observación comparada con el resto de la distribución.
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• Sea X~Bi(n,p) n ensayos i.i.d., cada uno con dos resultados posibles: éxito con probabildad p y fracaso con probabildad q=1-p
• ¿Qué ocurre si n es grande? El cálculo numérico se complica bastante. Notar que las tablas binomiales están tabuladas hasta valores n=20.
• El uso de una distribución continua como la normal para aproximar a la distribución binomial (bajo determinados supuestos) parece bastante razonable (ver gráfico siguientes).
• Notar que la aproximación es buena cuando n crece.
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• Histogramas de una distribución binomial con p=0.10 y n=10, 30, 100, 300
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• ¿Cuan grande debe ser n para que se pueda aproximar la binomial con la distribución normal?
• El número esperado de éxitos como de fracasos debe ser mayor o igual a 10
• Al usar la aproximación normal a la binomial, se calcula
que son los parámetros de la curva normal para realizar la aproximación.
)1(y ppnpn −==
10)1(y 10 − pnpn
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• ¿Cuales de las siguientes distribuciones binomiales puede ser aproximada por una normal?
• n=100, p=0.95
• n=25, p=0.45
• n=150, p=0.05
• n=500, p=0.015
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• Aproximadamente el 20% de la población en USA fuma cigarrillos. Una comunidad local cree que la tasa de fumadores dentro de esta comunidad es menor para lo cual decide realizar una encuesta. Se toma una muestra al azar de 400 individuos. La encuesta encuentra sólo 59 individuos entre los 400 encuestados. Suponiendo que la verdadera probabilidad de fumadores en la comunidad fuese 20%, cual es la probabilidad de observar 59 o menos en la muestra de 400?
• Defina la variable de interés. Describa su distribución y chequear que se cumplan las condiciones de la distribución.
• Compruebe que puede ser aproximada por una normal.
• Compute la probabilidad solicitada.
• Interprete el resultado.
Estadística 2020 - Prof. Tamara Burdisso
Factor de corrección por continuidad• El desempeño de la aproximación normal a la binomial puede ser muy
pobre si estamos trabajando en un rango de valores pequeño, aún cuando las condiciones se cumplan.
• Supongamos que queremos saber la probabilidad de encontrar 69,70 o 71 fumadores en la muestra de 400 con p=0.20
• Calculo con distribución binomial=0.0703
• Cálculo con distribución normal=0.0476
• Se puede identificar la causa de esta discrepancia. Mostrar gráfico.
• Se soluciona restando 0.5 al valor inferior y sumado 0.5 al valor superior.
• El factor de corrección por continuidad es necesario en el caso de que se trate de una aproximación a un valor exacto o a un rango pequeño de valores.
• Si bien también es posible aplicarlo cuando se está hallando una cola de la distribución, el beneficio de esta corrección desaparece dado que el intervalo es muy amplio.
Estadística 2020 - Prof. Tamara Burdisso
Factor de corrección por continuidad
Estadística 2020 - Prof. Tamara Burdisso
Factor de corrección por continuidad
( ))1(,~),(~ 2 pnpnpNYpnBiX −==
( ) ( )5.05.0 +−= kYkPkXP
( ) ( )5.0+ kYPkXP
( ) ( )5.0− kYPkXP
( ) ( )5.0− kYPkXP
( ) ( )5.0+ kYPkXP
( ) ( )5.05.0 −− kYlPkXlP
Estadística 2020 - Prof. Tamara Burdisso
Factor de corrección por continuidad
Estadística 2020 - Prof. Tamara Burdisso
Factor de corrección por continuidad
5.0)0()1( == ZPXP
P(X=0,n=10,p=0.1)≈0.35
P(X=1,n=10,p=0.1)≈0.39
P(X=2,n=10,p=0.1)≈0.19
P(X=3,n=10,p=0.1)≈0.06
P(X=4,n=10,p=0.1)≈0.01
146.0)054.1()0( =−= ZPXP
Estadística 2020 - Prof. Tamara Burdisso
Aproximación de la binomial a la Normal
• Supongamos que una organización política planea llevar a cabo una encuesta para detectar la preferencia de los votantes respecto a los candidatos A y B, quienes ocuparan una intendencia. Supongamos que se toma una muestra de 1000 ciudadanos. ¿Cuál es la probabilidad de que entre 525 y 530 votantes indiquen una preferencia por el candidato A, si la población , con respecto a los candidatos se encuentra igualmente divida?
• Defina la variable de interés. Describa su distribución y chequear que se cumplan las condiciones de la distribución
• Calcule la probabilidad binomial y compruebe la mejora que introduce el factor de corrección por continuidad.