la distribución t de student” - geociencias.unam.mxramon/estinf/clase7.pdf · la distribución t...

18
La distribución t t de de student student O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística

Upload: dangnhan

Post on 01-Feb-2018

233 views

Category:

Documents


5 download

TRANSCRIPT

La distribución ““tt de de studentstudent””

O lo que es lo mismo: La relación entre la cerveza y los estudios de estadística

La distribución t de student fue descubierta por William S. Gosset en 1908. Gosset era un estadístico empleado por la compañía de cerveza Guinness con quien tenía un contrato que estipulaba que no podía usar su nombre en sus publicaciones. Él recurrió al sobrenombre de “Student” que es como ahora conocemos el tipo de estadística que desarrolló.

Lo interesante del caso es que su trabajo estaba enfocado al control de calidad de la cerveza. En el pasado otros investigadores de la compañía Guinness habían publicado artículos en los que se divulgaban secretos o información confidencial sobre el proceso de la cerveza y por eso se obligó a Gosset a aceptar la cláusula.

De acuerdo al Teorema del Límite Central, la distribución muestral de una estadística (como la media de la muestra) seguirá una distribución normal, siempre y cuando el tamaño de la muestra sea suficientemente grandesuficientemente grande.

Entonces cuando conocemos la desviación estándar de la población podemos calcular un valor o calificacivalor o calificacióón zn z y emplear la distribución normal para evaluar probabilidades sobre la media de la muestra.

Sin embargo, muchas veces los tamaños de las muestras son muy pequeños, y frecuentemente no conocemos la desviación estándar de la población. Cuando estos problemas ocurren, en estadística se recurre a una distribución conocida como la “t de t de studentstudent”” cuyos valores están dados por:

ns

xt μ−= Diferencia a probar

Desviación estándar de la diferencia o Error Estándar

Podemos ver que la ecuación es prácticamente igual a la utilizada para la distribución muestral de medias, pero reemplazando la desviacidesviacióón n estestáándarndar de la poblacide la poblacióónn por la desviacidesviacióón estn estáándar de la muestrandar de la muestra.

De manera similar al caso de la distribución muestral de medias para el caso de que n > 30, en donde usamos la distribución normal, podemos encontrar la distribución de los valores t de t de studentstudent para aquellos casos para aquellos casos cuando n cuando n < 30< 30.

Sin embargo, otra diferencia en su uso es el empleo de una o más tablas de valores t en lugar de la tabla para valor Z.

3210-1-2-3

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

25101520253050100

df

Curva de DistribuciónT de Student

Para derivar la ecuación de esta distribución, Gosset supuso que lasmuestras se seleccionan de una población normal. Aunque esto pareceríauna suposición muy restrictiva, se puede mostrar que las poblaciones no normales que poseen distribuciones en forma casi de campana tambiénproporcionan valores de t que se aproximan muy de cerca a estadistribución.

La distribución t difiere de la de Z en que la varianzavarianza dede tt no no eses igualigual a 1 a 1 comocomo en la de Zen la de Z, sino que dependedepende del del tamatamaññoo de la de la muestramuestra y siempre esmayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinitolas dos distribuciones serán las mismas.

3210-1-2-3

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

25101520253050100

df

Curva de DistribuciónT de Student

Otra diferencia con la distribución normal, es que la forma de la distribucila forma de la distribucióón t n t de de studentstudent depende de un pardepende de un paráámetro llamado el nmetro llamado el núúmero de grados de libertadmero de grados de libertad.

El número de grados de libertad es igual al tamaño de la muestra (número de observaciones independientes) menos 1.

gl = df= n – 1

Nota: cuando usemos software es posible que el número de grados de libertad se denomine como df o DF (“degrees of freedom”).

6420-2-4-6

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

25101520253050100

df

Curva de DistribuciónT de Student

6420-2-4-6

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

Distribución NormalNormal, Media=0, DesvEst=1

3210-1-2-3

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

25101520253050100

df

Curva de DistribuciónT de Student

Las curvas muestran la forma que puede tomar la distribución t de student la cual depende del ndepende del núúmero de grados de libertadmero de grados de libertad. Como se puede apreciar se parece mucho a la distribución normal. Incluso, para un npara un núúmero grande de mero grande de grados de libertad (es decir de ngrados de libertad (es decir de núúmero de datos en la muestra) las dos mero de datos en la muestra) las dos distribuciones son igualesdistribuciones son iguales.

2 grados de libertad

100 grados de libertad

Aunque parece una distribución normal, la distribución t tiene un poco más de área en los extremos y menos en el centro cuando los grados de libertad son pocos.Otro punto a notar es que la distribución t es más bien una coleccicoleccióón de n de distribuciones, una para cada ndistribuciones, una para cada núúmero de grados de libertadmero de grados de libertad.

El concepto de grados de libertad se puede visualizar haciendo referencia a la varianza muestral que es igual a:

1

)( 22

−=∑

n

xxs

ni

Esta fórmula puede verse como un promedio de las distancias a la media sobren-1 datos .

La terminología de grados de libertad resulta del hecho de que si bien s2

considera n cantidades, sólo n – 1 de ellas pueden determinarse libremente.Por ejemplo, si tenemos 4 datos (n = 4) entonces tenemos cuatro diferencias:

Pero sabemos que la suma de ellas es = 0, por lo que si conocemos, por ejemplo:

entonces, la última diferencia queda definida porque

por lo tantoLo que indica que sólo 3 de las diferencias (n – 1= 4 – 1 = 3) son “libres” y la otra queda definida por las demás.

xxi −

3,2,4 421 =−−=−=− xxxxxx

3 5x x− = −

4 - 2 3 5+ =5 5 0− =

La distribución tt de student tiene las siguientes propiedades:

•La media de la distribución es igual a 0

•La varianza es igual a donde df (se usa también ν) es el número de grados de libertad

•La varianza es siempre mayor que 1, aunque es muy cercana a 1 cuando se tiene un número de grados de libertad grande.

•Con infinitos grados de libertad la distribución tt es igual a la normal.

210-1-2

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

25101520253050100

df

Curva de DistribuciónT de Student

2−=dfdfs

2−dfdf

La distribución tt de student se puede usar cuando cualquieracualquiera de las siguientes condiciones se cumplen:

••La distribuciLa distribucióón de la poblacin de la poblacióón es normal n es normal

••La distribuciLa distribucióón de la muestra es simn de la muestra es siméétrica, unimodal, sin puntos dispersos y trica, unimodal, sin puntos dispersos y alejados (alejados (outliersoutliers) y el tama) y el tamañño de la muestra es de 15 o menoso de la muestra es de 15 o menos

••La distribuciLa distribucióón de la muestra es moderadamente asimn de la muestra es moderadamente asiméétrica, unimodal, sin trica, unimodal, sin puntos dispersos (puntos dispersos (outliersoutliers) y el tama) y el tamañño de la muestra esto de la muestra estáá entre 16 y 30entre 16 y 30

••El tamaEl tamañño de la muestra es mayor de 30, sin puntos dispersos (aunque en o de la muestra es mayor de 30, sin puntos dispersos (aunque en este este caso tambicaso tambiéén se puede usar la distribucin se puede usar la distribucióón normal).n normal).

Cuando se extrae una muestra de una población con distribución normal (o casi normal), la media de la muestra puede compararse con la media de la población usando una valor tvalor t calculado por medio de la ecuación anterior. El valor t puede entonces asociarse con una probabilidad acumulada única que representa la posibilidadposibilidad de que, dada una muestra aleatoriamente extraída de

la población de tamaño n, la media de la muestra seala media de la muestra sea IGUAL, MENOR o MAYORIGUAL, MENOR o MAYOR a a la media de la poblacila media de la poblacióónn,

La probabilidad acumulada para una calificación t se puede calcular en la siguiente liga:

http://stattrek.com/Tables/T.aspx

Ejemplo 1

La compañía USALUZ produce focos. El presidente de la Cía. dice que sus focos duran300 días. Entonces la competencia va a varios (nótese) supermercados y compra 15 focos para probar esa afirmación. Los focos de la muestra duran en promedio 290 díascon una desviación estándar de 50 días. Entonces, si quieren desmentir al presidentede USALUZ necesita saber ccúáúáll eses la la probabilidadprobabilidad de de queque 15 15 focosfocos seleccionadosseleccionados al al azarazar tengantengan unauna vidavida promediopromedio no mayor de 290 no mayor de 290 ddííasas.

La solución de este tipo de problemas requiere calcular el valor t basado en los datosy después usar una tabla de distribución t para encontrar la probabilidad de forma similar a lo que hicimos con la distribución normal. Existe sin embargo software con el que podemos evitar el uso de tablas.

Solución

Primero necesitamos calcular el valor t usando nuestra fórmula

Donde es la media de la muestra, μ la media de la población, s es la desviaciónestándar de la muestra y n el tamaño de la muestra.

OK ¿qué nos dice este valor?

7746.091.1210

1550

300290−=

−=

−=t

x

Ahora podemos usar una tabla o software como la T Distribution CalculatorT Distribution Calculator(http://stattrek.com/Tables/T.aspx) o minitab.

Usando ésta última seleccionamos "T score" del menú de “random variable” e introducimos los datos:

* Grados de libertad (ν): 15 - 1 = 14.

* El valor t que obtuvimos = - 0.7745966.

El resultado nos da: 0.2257. Esto significa que si la verdadera vida de un foco es de 300 días, hay una probabilidad de 22.6% de que la vida promedio de 15 focosseleccionados al azar sea menormenor o o igualigual a 290 días y nosotros ha sabríamos a quéatenernos si queremos poner en ridículo al Presidente o Jefe.

Nota: ¿Piensas que 22% de probabilidades de que pase algo es mucho o poco?

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-0.7746

0.226

0

Distribución t14 grados de libertad

Veamos el resultado gráficamente

Ejemplo 2

Supongamos que las calificaciones de una prueba están distribuídos normalmentecon una media de 100. Ahora supongamos que seleccionamos 20 estudiantes y les hacemos un exámen. La desviación estándar de la muestra es de 15. ¿Cuál es la probabilidad de que el promedio en el grupo de muestra sea cuando más 110?

Solución:

Primero calculamos el valor t como en el caso anterior ya sea en tablas o con ayudade herramientas tipo Minitab, Excel, etc. Nuestros datos son:

Número de grados de libertad: n-1 = 20 -1 = 19

La media de la población es igual a 100

La media de la muestra es igual a 110

La desviación estándar de la muestra es igual a 15

El valor t es

Usando estos valores nos da un resultado de probabilidad acumulada de 0.00496. Esto implica que hay una probabilidad de 0.45% de que el promedio en una muestrasea mayor de 110.

Ejemplo 2

Supongamos que las calificaciones de una prueba están distribuídos normalmentecon una media de 100. Ahora supongamos que seleccionamos 20 estudiantes y les hacemos un exámen. La desviación estándar de la muestra es de 15.

¿¿CuCuááll eses la la probabilidadprobabilidad de de queque el el promediopromedio en el en el grupogrupo de de muestramuestra sea sea mmááss 110?110?

9814.2

2015

100110=

−=t

Veamos el resultado gráficamente

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

2.9814

0.00496

0

Distribución t14 grados de libertad

Solución:De la tabla encontramos que t±0.05 para 24 grados de libertad es ±1.711. Por tanto, el fabricante queda satisfecho con esta afirmación si una muestra de 25 lotes rinde un valor t entre –1.711 y 1.711.Se procede a calcular el valor de t:

Este es un valor muy por arriba de 1.711, por lo que el fabricante diría que no es cierta la afirmación. Sin embargo, si se encuentra la probabilidad de obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es aproximadamente de 0.02. De aquí que es probable que el fabricante concluya que el proceso produce un mejor rendimiento de producto que el que suponía.

25.2

2540

500518=

−=t

Ejemplo 3:

Un ingeniero químico afirma que el rendimiento medio de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una muestra de 25 lotes cada mes.

Si el valor de t calculado cae entre –t0.05 y t0.05, aceptaría su afirmación (con 90% de confianza). ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es aproximadamente normal.

Distribución de probabilidad para t de student

-1.711 1.711

90% del área

El valor de t = 2.25 cae en esta zona

de la distribución