modulo ii_inferencia estadística

Upload: alejo-perez

Post on 18-Oct-2015

158 views

Category:

Documents


0 download

TRANSCRIPT

  • MDULO II

    ESTADSTICA INFERENCIAL

    Preparado por: RUBN DARO MEDINA RIVERA

  • VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD

    Concepto de variable aleatoria. Los resultados de los experimentos que se llevan a cabo estn sujetos a la casualidad. La prueba de un nmero de componentes electrnicos es un ejemplo de un experimento estadstico, trmino que se utiliza para describir cualquier proceso mediante el cul se generan varias observaciones al azar. Con frecuencia es muy importante asignarle al resultado una descripcin numrica. Por ejemplo, el espacio muestral en el que se consideran cada uno de los posibles resultados cuando se verifican tres componentes electrnicos, puede escribirse: S= {NNN. NND, NDN, DNN, NDD, DND, DDN, DDD}

    Donde N significa no defectuoso y D defectuoso. Naturalmente el inters est en el nmero de componentes defectuosos que ocurren. Entonces, a cada punto en el espacio muestral se le asigna un valor numrico de 0, 1, 2, o 3. Estos valores son, cantidades aleatorias determinadas por el resultado del experimento. Estos pueden considerarse como los valores que asume la variable aleatoria X, el nmero de artculos defectuosos cuando se prueban los tres componentes electrnicos.

    Una variable aleatoria es una funcin que asocia un nmero real a cada elemento del espacio muestral. La letra mayscula designa la variable aleatoria y su correspondiente letra minscula, para uno de sus valores (X =x.)

    Ejemplo: El experimento consiste en lanzar al aire tres monedas para observar el nmero de caras y cruces.

    E {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} La variable aleatoria se define como X = nmero de caras, as:

    Espacio muestral X CCC CCS, CSC, SCC SSC, SCS, CSS SSS

    3 2 1 0

    Obsrvese que X no es una variable, sino una funcin (porque asocia un resultado a un nmero) y no es aleatoria por el hecho de que atribuya de modo imprevisible un valor cualquiera a un elemento, ya que este valor esta definido de forma precisa (determinista). Lo que es aleatorio en realidad es que, al hacer el experimento, no sabemos que elemento de E puede ocurrir.

    En funcin de los valores que tome la variable, esta puede ser clasificada como discreta o continua

    Si un espacio muestral contiene un nmero finito de posibilidades o una secuencia interminable con tantos elementos como nmeros naturales existen, se le llama espacio muestral discreto.

    Si un espacio muestral contiene un nmero infinito de posibilidades igual al nmero de puntos en un segmento de lnea, se le llama espacio muestral continuo.

  • Una variable aleatoria se llama variable aleatoria discreta si se puede contar su conjunto de resultados posibles. Cuando una variable aleatoria puede tomar valores en una escala continua, se le llama variable aleatoria continua.

    VARIABLES ALEATORIAS DISCRETAS Una variable aleatoria discreta asume cada uno de sus valores con una cierta probabilidad. Por ejemplo, los valores posibles de x de X y sus probabilidades para el ejemplo del lanzamiento de las tres monedas es:

    X 0 1 2 3 P(X = x) 1/8 3/8 3/8 1/8

    Con mucha frecuencia es necesario representar con una frmula todas las probabilidades de una variable aleatoria X. Dicha frmula debe ser una funcin de valores numricos x, y se expresa por f(x), g(x),... etc. Por lo tanto se escribe:

    F(x) = P(X=x), es decir, f(3) = P(x=3)

    Definicin: El conjunto de pares ordenados (x, f(x)) es una funcin de probabilidad, funcin masa de probabilidad o distribucin de probabilidad de la variable aleatoria discreta X si, para cada resultado posible xi

    )()(.3

    1)(.20)(.1

    xfxXP

    xfxf

    x

    ==

    =

    Ejemplo. Consideremos el problema de determinar cuanto tiempo tendra que exhibirse un artculo en la vitrina de un almacn antes de ser vendido. Para un artculo de demanda relativamente baja, se estima que la probabilidad de que sea vendido en cualquier da dado es de 50%.

  • La distribucin acumulada F(x) de una variable aleatoria discreta X, cuya distribucin de probabilidad es f(x) es:

  • E[X] = 0(4/16) + 1(7/16) + 2(5/16) = 1.06

    As, el nmero medio de caras por lanzamiento sera 1.06, sin importar que el nmero total de lanzamientos sea de 16, 1000 o aun de 10.000.

    Ejemplo 2. Encuentre el nmero esperado de qumicos que formen parte de un comit de 3 miembros que se seleccionan al azar de un grupo de 4 qumicos y 3 bilogos.

    Solucin. Sea que X represente el nmero de qumicos en el comit. La distribucin de probabilidad de X es:

    .3,2,1,0,

    373

    34

    )( =

    = xxx

    xf

    Si se realizan los clculos correspondientes se tiene que f(0) = 1/35, f(1) = 12/35, f(2) = 18/35 y f(3) = 4/35. Por lo tanto,

    7.17/12)35/4)(3()35/18)(2()35/12)(1()35/1)(0()( ==+++== XE

    Entonces, si un comit de tres miembros se selecciona aleatoriamente, una y otra vez, de un grupo de 4 qumicos y 3 bilogos, se tendran, en promedio, 1.7 qumicos.

    Ejercicio. En un juego de azar una persona podr ganar $5 si cuando lance tres monedas ocurren tres caras o tres cruces, o perder $3 si ocurren una o dos caras. Cunto espera ganar esta persona?

    PROPIEDADES DE LA ESPERANZA

    1. E[k] = k El valor esperado de una constante, es la misma constante. 2. V[k] = 0 La varianza de una constante es cero. 3. E[kX] = kE[X] El valor esperado del producto de una constante por una

    Variable, es igual al producto de la constante por el valor esperado de la variable.

    4. V[kX] = k2V[X] La varianza del producto de una constante por una variable es igual al producto del cuadrado de la constante por la varianza de la variable.

    5. E[a bX] = a bE[X] El valor esperado de (a bx) es igual a mas o menos b por la esperanza de X

    6. V[a bX] = b2V[X] La varianza de (a bx) es igual a b2 por la varianza de X.

    Ejemplo 3. Supngase que se jugar a la vez dos monedas y un dado no cargado. Sea X el nmero de caras obtenidas, sea Y el nmero de puntos que muestra el dado. Supngase adems que se recibe como paga el doble del nmero de caras obtenidas y tres veces el nmero de puntos del dado. Cul es el pago esperado por cada jugada?

  • Solucin. El pago es una funcin de X y Y, esto es: Pago = 2X + 3Y, por la propiedad 5, se tiene

    E[Pago] = 2 E[X] + 3 E[Y]

    X = 0, 1, 2 con probabilidad 1/4, 2/4, 1/4 Y = 1, 2, 3, 4, 5 ,6 con probabilidad 1/6 cada uno

    E[Pago] = 2[0(1/4) + 1(2/4) + 2(1/4)]+ 3[1(1/6)+2(1/6)+3(1/6)+4(1/6)+5(1/6)+6(1/6)] E[Pago] = 12.5 dlares.

    Ejercicio. Un contratista esta interesado en conocer el coste total de un proyecto sobre el que intenta hacer una oferta. Estima que los materiales costarn 25.000 dlares y su trabajo 900 dlares diarios. Si se necesitan X das para terminar el proyecto, el coste total del trabajo ser 900X dlares y el coste total del proyecto en dlares ser C = 25.000 + 900X El contratista construye unas probabilidades subjetivas sobre la duracin del proyecto as:

    Duracin X (das) 10 11 12 13 14 f(X) 0.1 0.3 0.3 0.2 0.1

    Encontrar la media y la varianza del coste total.

  • DISTRIBUCIONES DE PROBABILIDAD DISCRETA

    Distribucin de Bernoulli. Consiste en realizar un experimento aleatorio una sola vez y observar si un cierto suceso ocurre o no, siendo P la probabilidad de que ocurra (xito) y q =1-P la probabilidad de que no ocurra (fracaso) Este experimento puede ser descrito mediante una variable aleatoria discreta X que toma los valores X = 0 si el suceso no ocurre, y X =1 en caso contrario. La media y la varianza de una variable aleatoria Bernoulli es:

    [ ][ ]

    =+===

    =+===

    x

    xxx

    x

    x

    PPPPPPxPxxE

    PPPxPXXE

    )1()()1()1()0()()()(

    ))(1()1)(0()(.22222

    Ejemplo. Un agente de seguros piensa que en un contacto concreto, la probabilidad de conseguir una venta es 0,4. Si definimos la variable aleatoria X que toma el valor 1 si consigue la venta y 0 si no, entonces, X tiene distribucin Bernoulli con probabilidad de xito P igual a 0,4, es decir, la funcin de probabilidad de X es:

    Px (o) = 0,6 Px (1) =0,4 La media de esta distribucin es P = 0,4, y la varianza 2x =P(1-P) = (0.4)(0.6) = 0.24.

    Una generalizacin importante de la distribucin Bernoulli consiste en considerar el caso en el que un experimento aleatorio, con dos resultados posibles, se repite varias veces.

    Supongamos que un experimento aleatorio tiene slo dos resultados posibles mutuamente excluyentes y conjuntamente exhaustivos xito y fracaso y que P es la probabilidad de obtener xito en cada repeticin. Si se realizan n repeticiones independientes, la distribucin del nmero de xitos, X, resultante se denomina distribucin Binomial. Su funcin de probabilidad es:

    )!(!!

    2,1,0)1()(

    xnx

    n

    x

    ndonde

    nxparappx

    nxP xnxx

    =

    =

    =

    L

    Supongamos ahora que el agente de seguros del ejemplo anterior tiene cinco contactos, y piensa que para cada uno la probabilidad de conseguir una venta es 0.4. La distribucin del nmero de ventas X es entonces, una binomial, con n =5 y P =0.4, es decir,

    52,1,0)6.0()4.0(5)( 5 L=

    =

    xparax

    xP xxx

    Las probabilidades para el nmero de xitos (ventas logradas) son:

    Px (0) = 0.078 Px (1) = 0.259 Px (2) = 0.346 Px (3) = 0.230 Px (4) = 0.077 Px (5) = 0.010

  • Funcin de probabilidad binomial (n=5, p=0.4)

    0

    0,1

    0,2

    0,3

    0,4

    1 2 3 4 5 6X

    P(x)

    Media y varianza de la distribucin Binomial

    [ ] )1()()(

    22 pnpxE

    npxE

    xx

    x

    ==

    ==

    Ejercicio. Se estima que el 55% de los estudiantes de primer curso de cierta universidad se graduar en cuatro aos. a) Para una muestra aleatoria de cinco estudiantes de primer curso, cul es la probabilidad de que exactamente tres se graden en cuatro aos. b) Para una muestra aleatoria de cinco estudiantes de primer curso, cul es la probabilidad de que la mayora se grade en cuatro aos. C) Se eligen 80 estudiantes de primer curso aleatoriamente. Hallar la media y la desviacin tpica de la proporcin de ellos que se graduar en cuatro aos.

    La distribucin hipergeomtrica En los casos en los que el nmero de elementos de la muestra no es una proporcin muy pequea del nmero total de artculos en la poblacin, la distribucin Binomial es inapropiada. Esto debido a que en estas situaciones no hay independencia entre el resultado de un elemento particular de la muestra y los restantes, mientras que si el nmero total de elementos en la poblacin es muy grande en relacin al tamao de la muestra, la influencia de la dependencia es tan pequea que puede ser ignorada y en este caso podr usarse la distribucin Binomial. No obstante, cuando se presenta la primera situacin mencionada, es posible utilizar la siguiente distribucin

    Supongamos que se elige una muestra aleatoria de tamao n de un conjunto de N elementos, S de los cuales son xitos. La distribucin del nmero de xitos, X , en la muestra se denomina distribucin hipergeomtrica. Su funcin de probabilidad es:

    )!(!!

    )!()!()!(

    )!(!!

    )(nNn

    NxnSNxn

    SNxSx

    S

    n

    Nxn

    SNx

    S

    CCC

    xPnN

    xnSNxSx

    +

    =

    ==

    Donde x puede tomar valores enteros entre el mximo de 0 y [n-(N-S)] y el mnimo de n y S. La media y la varianza de esta distribucin son

    [ ] )1(1

    )()( 22 pnpN

    nNxEynpXE xxx

    ====

    Donde p = S/N es la proporcin de xitos en la poblacin.

  • Ejemplo. Una compaa recibe un pedido de 20 artculos. Dado que la inspeccin de cada artculo es cara, se sigue la poltica de analizar una muestra aleatoria de seis artculos de cada envo, aceptando la remesa si no hay ms de un artculo defectuoso en la muestra. Cul es la probabilidad de que sea aceptado un pedido con cinco artculos defectuosos?

    Solucin. Si identificamos defectuoso con xito en este ejemplo, el pedido contiene N = 20 elementos, S = 5 de los cuales son xitos. Se selecciona una muestra de n = 6 elementos. El nmero de xitos X en la muestra tiene una distribucin hipergeomtrica con funcin de probabilidad

    !14!6!20

    )!9()!6(!15

    )!5(!!5

    6206155

    )(620

    6155 xxxxxx

    CCC

    xP xxx+

    =

    ==

    Se acepta el envo si la muestra contiene cero o un xito (defectuoso), luego la probabilidad de aceptarlo es P(aceptar el envo) = Px(0) + Px(1) remplazando en la funcin se tiene

    P(aceptar el envo) = Px(0) + Px(1) = 0,129 + 0,387 =0,516

    Ejercicio. Un embarque de 8 microcomputadoras similares que se envan a un distribuidor contiene 3 aparatos defectuosos. Si una escuela realiza una compra aleatoria de 2 de estas computadoras, encuentre la distribucin de probabilidad para el nmero de microcomputadoras defectuosas. Adems calcular la probabilidad de que en la compra se encuentre una computadora defectuosa.

    La distribucin de Poisson Consideremos las siguientes variables aleatorias: El nmero de accidentes de trfico mortales en una ciudad durante una semana

    concreta El nmero de llamadas telefnicas que se reciben en un da en la central de una

    empresa durante las 11:15 y 12:00 PM El nmero de veces que falla un pieza de un equipo durante un periodo de tres meses Cada una de estas cinco variables aleatorias se caracteriza por ser el nmero de ocurrencias de cierto suceso durante un periodo de tiempo. La experiencia indica que para una amplia gama de problemas de este tipo, la distribucin de probabilidad Poisson representa adecuadamente la estructura de probabilidad de la variable aleatoria.

    Se dice que la variable aleatoria X sigue una distribucin de Poisson si tiene una funcin de probabilidad

    K2,1,0!

    )( ==

    xparax

    exP

    x

    x

    Donde Lamda es cualquier nmero > 0

    La media y varianza de esta distribucin esta dada por:

    [ ]

    ==

    ==

    22 )()(

    xx

    x

    xE

    XE

    Ejemplo. Un estudio indica que el nmero de huelgas anuales en una fbrica con 2000 empleados, se puede representar por una distribucin Poisson con media de 0.4. La funcin de probabilidad del nmero de huelgas anuales X es, entonces,

  • K2,1,0!

    )4.0()(4.0

    ==

    xparax

    exP

    x

    x

    A partir de lo anterior, podemos calcular ahora probabilidades para nmeros concretos de huelgas anuales, por ejemplo, la probabilidad de que no haya huelgas o la probabilidad de que haya ms de una huelga en un ao.

    Ejercicio. Una fbrica tiene dos cadenas de montaje, cada una de las cuales se para un promedio de 2,4 veces semanales, de acuerdo a una distribucin Poisson. Asumir que el comportamiento de una cadena es independiente del de la otra. Cul es la probabilidad de que una cadena se para al menos una vez durante una semana concreta?

  • VARIABLES ALEATORIAS CONTINUAS

    Una variable aleatoria continua tiene una probabilidad cero de asumir cualquiera de sus valores exactamente. Consecuentemente su distribucin de probabilidad no puede darse en forma tabular. Para este caso, por ejemplo, no se habla de seleccionar a una persona que tenga una altura exactamente de 168 centmetros, sino mas bien de la probabilidad de seleccionar una persona que al menos mida 168 centmetros pero no mas de 170. Ahora se esta tratando de un intervalo ms que de un valor puntual de la variable aleatoria.

    Ntese que cuando X es continua,

    )()()()(

    bXaPbXPbXaPbXaP

  • 1. Rxtodaparaxf 0)( 2. 1)( =

    dxxf 3. =

  • Esperanza de variables aleatorias continuas Recordemos que cuando se trabajo con variables aleatorias discretas, mencionamos el concepto de esperanza para una variable aleatoria X y la esperanza de una funcin de dicha variable aleatoria. Estos conceptos pueden extenderse a variables aleatorias continuas. As: El valor esperado de X ser

    == dxxfxXE )(.)(

    y el valor esperado de la funcin g(x) es: [ ]

    = dxxfxgXgE )().()( Ntese, que en este caso la integral juega el mismo papel que el operador sumatoria en el caso discreto.

    DISTRIBUCIONES DE PROBABILIDAD CONTINUA

    Distribucin normal Funcin de densidad de una distribucin normal. Si la variable aleatoria X tiene densidad

  • ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTES.

    I. DISTRIBUCIONES MUESTRALES.

    Es necesario destacar la importancia de un entendimiento claro de estas distribuciones, ya que este concepto es la clave para comprender la inferencia estadstica.

    Definicin: La distribucin de todos los valores posibles que puede asumir una estadstica, calculados a partir de muestras del mismo tamao, extradas aleatoriamente de la misma poblacin, se llama distribucin muestral de esa estadstica.

    Las distribuciones muestrales pueden construirse empricamente a partir de poblaciones finitas y discretas. Para ello, se procede como sigue:

    1. De una poblacin finita de tamao N, se extraen de manera aleatoria todas las muestras posibles de tamao n.

    2. Se calcula la estadstica de inters para cada muestra. 3. Listar en una columna los distintos valores observados de la estadstica, y en otra

    columna las frecuencias correspondientes de cada valor observado.

    Normalmente, para una distribucin muestral, se tiene inters en conocer tres cosas: media, variancia y forma funcional (apariencia grfica).

    DISTRIBUCIONES DE LA MEDIA DE LA MUESTRA

    Sea una poblacin de tamao N =5, la cual se compone de las edades de cinco nios que son pacientes externos de una clnica de salud mental. Las edades son las siguientes: x1 =6, x2 =8, x3 =10, x4 =12, x5 =14.

    La media para esta poblacin es igual a xi /N = 10 y la variancia es:

    2 = (xi - )2 / = 40/5 = 8

    Se extraen todas las muestras posibles de tamao n = 2 a partir de esta poblacin utilizando un muestreo con reemplazo.

    Cuando el muestreo se efecta con reemplazos, hay 25 muestras posibles. En general, cuando el muestreo se lleva a cabo con reemplazos, el nmero de muestras posibles es igual a Nn.

    Para elaborar una distribucin muestral para x se listan los diferentes valores de x en una columna y sus frecuencias de ocurrencia en otra,

  • Tabla 1. Distribucin muestral de x calculada a partir de las 25 posibles muestras aleatorias de tamao 2. x Frecuencia Frecuencia relativa 6 1 1/25 7 2 2/25 8 3 3/25 9 4 4/25 10 5 5/25 11 4 4/25 12 3 3/25 13 2 2/25 14 1 1/25

    Total 25 25/25

    En un prrafo anterior se estableci que para una distribucin muestral se tiene inters en la forma funcional de la distribucin, su media y su variancia. En la figura 1, se muestra el histograma de x junto con la distribucin de la poblacin. Es notable la diferencia entre la apariencia del histograma de la poblacin y la del histograma de la distribucin muestral de x. Mientras que el primero esta distribuido uniformemente, el segundo crece gradualmente hasta un punto mximo y despus decrece formando una figura simtrica.

    Distribucin de los datos de la poblacin

    0

    1

    2

    6 8 10 12 14Edades

    Distribucin muestral de medias

    0123456

    6 7 8 9 10 11 12 13 14Medias muestrales

    Figura 1. Distribucin de los datos de la poblacin y de las medias muestrales

  • El siguiente paso es obtener la media, representada por x de la distribucin muestral. Para hacerlo, se suman las 25 medias de la muestra y se dividen entre 25. As :

    x = xi / Nn = (6+7+7+8+ +14)/25 = 250/25 = 10

    Es interesante notar que la media de la distribucin muestral para x tiene los mismos valores que la media de la poblacin original. Finalmente, el clculo de la variancia de x, representada por 2x , se calcula como sigue :

    x2 = (xi - )2 / Nn

    x2

    = (6-10)2 + (7-10)2 + (7-10)2 + + (14-10)2 / 25 x

    2 = 100/25 = 4

    Tambin se puede advertir que la variancia de la distribucin muestral no es igual a la variancia de la poblacin. Sin embargo, es interesante observar que la variancia de la distribucin muestal es igual a la variancia de la poblacin dividida entre el tamao de la muestra dividida entre el tamao dela muestra utilizada para obtener la distribucin muestral. Esto es :

    x2 =2/n = 8/2 = 4

    Los resultados anteriores, son ejemplos de las caractersticas de las distribuciones muestrales en general cuando el muestreo es con reemplazo o cuando se efecta a partir de una poblacin infinita.

    Caractersticas de la distribucin de la media de la muestra cuando el muestreo se realiza a partir de una poblacin que sigue una distribucin normal.

    1. la distribucin de X ser normal. 2. La media, de la distribucin de X ser igual a la media de la poblacin de la

    cual se extrajo. 3. La variancia, S2x de la distribucin de X ser igual a la variancia de la poblacin,

    dividida entre el tamao de la muestra.

    Cuando el muestreo se efecta a partir de una poblacin que no sigue una distribucin normal, se utiliza el teorema del lmite central. La importancia de este teorema en la inferencia estadstica se resume en el siguiente prrafo :

    Dada una poblacin de cualquier forma funcional no normal con una media , y variancia finita 2, la distribucin muestral de x, calculada a partir de muestras de tamao n de dicha poblacin, ser casi normal con media y variancia 2/n, cuando la muestra es muy grande.

    Todo lo anterior se ha dado bajo la premisa de que el muestreo es con reemplazos o que la muestra fue extrada de una poblacin infinita.

  • Ejercicio. Aplicar un muestreo sin reemplazo con muestras de tamao 2, al ejercicio de los cinco nios que son pacientes externos de una clnica de salud mental.

    NOTA: Cuando el muestro es sin reemplazos a partir de una poblacin finita, la distribucin muestral de x tendr una media y variancia 2/n * (N-n) / (N-1)

    El factor (N-n)/(N-1) se llama correccin por poblacin finita y se puede omitir cuando el tamao de la muestra es pequeo en comparacin con el tamao de la poblacin. Es decir la correccin para poblacin finita generalmente se ignora cuando n / N

  • APLICACIONES

    Ejercicio 1. Supngase que en una poblacin grande de seres humanos, la dimensin del radio craneal sigue una distribucin aproximadamente normal, con una media de 185.6 mm y una desviacin estndar de 12.7 mm. Cual es la probabilidad de que una muestra aleatoria de tamao 10 de esta poblacin tenga una media mayor que 190?

    Ejercicio 2. El consumo de combustible, en kilmetros por litro, de todos los coches de cierto modelo tiene media diez y desviacin tpica dos. Puede asumirse que la distribucin poblacional es normal. Se toma una muestra aleatoria de stos coches. a) Hallar la probabilidad de que la media muestral del consumo de combustible

    sea menor que diez kilmetros por litro si i) se ha tomado una muestra de dos observaciones ii) se ha tomado una muestra de cuatro observaciones iii) se ha tomado una muestra de diecisis observaciones

    b) Explicar por qu las tres respuestas de (a) difieren de este modo. Hacer un grfico para ilustrar el razonamiento.

    Ejercicio 3. Suponer que los salarios por hora de cierto tipo de empleados de un hospital tienen distribucin aproximadamente normal, con una media y desviacin estndar de $4.50 y $0.50, respectivamente. Si se obtiene una muestra aleatoria de tamao 16 a partir de esa poblacin, calcular la probabilidad de que la media del salario por hora para dicha muestra sea: a) Mayor que $4.25. b) Entre $4.25 y $4.75. c) Menor que $4.20.

    Considrese la distribucin muestral de la media de la muestra para n =16. d) Suponer para este problema que NCn = 100.000. Cuantas medias muestrales

    son mayores que 4.30? Ejercicio 4. Una compaa produce cereales para el desayuno. La media del peso que contienen las cajas de estos cereales es de 200 gramos y su desviacin tpica de seis gramos. La distribucin de los pesos en la poblacin es normal. Se eligen cuatro cajas, que pueden ser consideradas como una muestra aleatoria del total de la produccin. a) Cul es el error estndar de la media muestral del peso de estas cuatro cajas? b) Cul es la probabilidad de que, como media, el peso de estas cuatro cajas sea

    menor que 197 gramos? c) Cul es la probabilidad de que, como media, el peso de estas cuatro cajas est

    entre 195 y 205 gramos? d) Se eligen al azar dos cajas, Cul es la probabilidad de que, como media, el

    contenido de estas dos cajas pese entre 195 y 205 gramos?

  • DISTRIBUCIN DE LA DIFERENCIA ENTRE LAS MEDIAS DE DOS MUESTRAS

    Con frecuencia, el inters en una investigacin se enfoca hacia dos poblaciones. Especficamente, puede ser que un investigador desee saber algo acerca de la diferencia entre las medias de dos poblaciones. Por ejemplo, un equipo de investigacin mdica, requerir saber si el nivel medio de colesterol en el suero es mayor en un grupo de oficinistas que en un grupo de obreros. Si los investigadores concluyen que las medias de la poblacin son diferentes, es posible que deseen saber qu tanto difieren. El conocimiento acerca de la distribucin muestral de la diferencia entre dos medias es muy til en investigaciones de este tipo.

    Dadas las poblaciones con una distribucin normal, con medias 1 y 2, respectivamente, y variancias 1 y 2, respectivamente, la distribucin muestral de la diferencia de x1 x2, entre las medias de muestras independientes de tamao n1 y n2 extradas de esas poblaciones siguen una distribucin muestral con media y desviacin estndar:

    2121 = xx y 2

    22

    1

    21

    21 nnxx

    +=

    para transformar en una distribucin normal estndar se utiliza la siguiente formula:

    2

    22

    1

    21

    2121 )()(

    nn

    xxZ

    +

    =

    Ejemplo. Supngase que se tienen dos poblaciones de individuos. Una de ellas (la poblacin 1) ha experimentado alguna condicin que se considera esta asociada al retardo mental, y la otra (la poblacin 2) no ha experimentado tal condicin. Se cree que la distribucin de puntajes de inteligencia de cada una de las poblaciones presenta una distribucin aproximadamente normal con una desviacin estndar de 20. Supngase tambin que se toma una muestra de 15 individuos de cada poblacin y se calcula en cada muestra la media de los puntajes de inteligencia, con los siguientes resultados: x1 =92 y x2 = 105. Si no hay diferencia entre las dos poblaciones con respecto a la media real de los puntajes de inteligencia, Cul es la probabilidad de observar una diferencia de esta magnitud (x1 x2) o mayor entre las medias de las muestras?

    Solucin. Es importante notar que se busca la probabilidad asociada a la diferencia entre las medias de dos muestras en lugar de la de una sola media. Para el presente ejemplo habra una distribucin normal con una media igual a 0 (si no hay diferencia entre las medias reales de la poblacin) y una variancia de

  • [(20)2/15]+[(20)2]= 53,33. La grfica de la distribucin muestral de x1-x2 cuando no existe diferencia entre las medias de las poblaciones es la siguiente:

    33,532

    22

    1

    212

    21 =+=nn

    xx

    02121 == xx 21 xx

    El rea bajo la curva de 21 xx que corresponde a la probabilidad buscada es el rea a la izquierda de 131059221 == xx . El valor de Z corresponde a 13, suponiendo que no hay diferencia entre las dos poblaciones, es

    78.13.7

    133.53

    13

    1520

    1520

    01322

    =

    =

    =

    +

    =Z

    Al consultar la tabla de distribucin normal, se encuentra que el rea bajo la curva normal unitaria a la izquierda de 1.78 es igual a 0.0375. Para responder a la pregunta original, se puede decir que, si no hay diferencia entre las medias poblacionales, la probabilidad de obtener una diferencia mayor o igual que 13 entre las medias de las muestras es de 0.0375.

    El procedimiento anterior es vlido incluso cuando el tamao de las muestras n1 y n2 son diferentes y cuando las variancias 12 y 12 tienen valores diferentes.

    MUESTREO DE POBLACIONES NO NORMALES.

    Cuando la forma funcional de una distribucin poblacional se desconoce o es no normal; una solucin consiste en tomar muestras grandes, dado que, cuando el tamao de las muestras es grande, el teorema del lmite central es aplicable y la diferencia entre las dos medias de las muestras sigue una distribucin aproximadamente normal.

    Ejemplo. Supngase que se ha establecido que para cierto tipo de pacientes el tiempo promedio de visita domiciliaria hecha por una enfermera es de 45 minutos con una desviacin estndar de 15 minutos y para un segundo tipo de paciente, el

  • promedio de visita domiciliaria es de 30 minutos con una desviacin estndar de 20 minutos. Si la enfermera visita al azar a 35 clientes del primer tipo y 40 del segundo tipo, cul es la probabilidad de que el tiempo promedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o ms?

    Solucin. No se menciona nada respecto a la forma funcional de las poblaciones, por lo que se supone que esta caracterstica se desconoce, o que las poblaciones no presentan una distribucin normal. Puesto que las muestras son grandes (mayores que 30) en ambos casos, se hace uso de los resultados del teorema del lmite central.

    La media y la variancia son las siguientes:

    1530452121 === xx

    4286.1640

    )20(35

    )15( 222

    22

    1

    212

    21 =+=+=nn

    xx

    El rea bajo la curva de 21 xx que se busca se encuentra a la derecha de 20. El valor correspondiente de Z en la distribucin normal unitaria es:

    23.105.45

    4286.161520)()(

    2

    22

    1

    21

    2121==

    =

    +

    =

    nn

    xxZ

    El rea a la derecha de Z=1.23 es 1 0.8907=0.1093. Por lo tanto se puede decir que la probabilidad de que las visitas al azar de la enfermera difieren entre las dos medias con 20 o ms minutos es de 0.1093. La curva de 21 xx es como sigue:

    1521

    =xx

    20

    0.1093

  • EJERCICIOS.

    1. Un investigador se siente inclinado a creer que los niveles de vitamina A en el hgado de dos poblaciones de seres humanos tiene, cada una, distribucin normal. Se supone que las variancias de las dos poblaciones son las siguientes:

    Poblacin 1: 19.600 Poblacin 2: 8100

    Cul es la probabilidad de que una muestra aleatoria de tamao 15 de la primera poblacin y otra de tamao 10 de la segunda poblacin proporcionen un valor de 21 xx mayor o igual a 50, si no hay diferencia entre las dos medias de la poblacin?

    2. Dadas dos poblaciones con distribucin normal y con medias iguales y variancias de 21=100 y 22=80, cul es la probabilidad de que dos muestras de tamao n1=25 y n2=16, respectivamente, proporcionen un valor de

    21 xx mayor o igual que 8?.

    3. Dadas dos poblaciones con distribucin normal y con medias iguales y variancias de 21=240 y 22=350, cul es la probabilidad de que dos muestras de tamao n1=40 y n2=35, respectivamente, proporcionen un valor de

    21 xx mayor o igual que 12?.

  • ESTADSTICA INFERENCIAL

    Antes se hizo mencin acerca de la inferencia estadstica, la cual toma como base las relaciones existentes entre las muestras y la poblacin para inferir acerca de sta a partir de las muestras, es decir, hace generalizaciones a partir de las muestras.

    La Estadstica Inferencial pretende resolver dos problemas fundamentales: la estimacin de parmetros poblacionales a partir de estadgrafos muestrales conocidos, y la toma de decisiones estadsticas acerca de hiptesis establecidas sobre la poblacin, tambin con base al conocimiento de sus muestras.

    ESTIMACIN Puede ser a travs de un nmero simple, generalmente el estadgrafo correspondiente llamado estimacin puntual o por medio de dos valores numricos que definen un intervalo, el cual contiene el parmetro estimado con cierto grado de confiabilidad llamado intervalo de confianza.

    CARACTERSTICAS DE UN BUEN ESTIMADOR PUNTUAL

    Antes de emplear algn estadstico de muestra como estimador puntual, se debe comprobar si tiene ciertas propiedades asociadas con los buenos estimadores puntuales. En vista que se pueden obtener diversos estadsticos de muestra como estimadores puntuales de distintos parmetros poblacionales, usaremos la siguiente notacin:

    = el parmetro poblacional de inters ^ = el estadstico de muestra o estimador puntual de

    En general, representa cualquier parmetro de poblacin, como la media poblacional, desviacin estndar poblacional, proporcin poblacional, etc.; ^ el estadstico de muestra correspondiente, como la media de la muestra, la desviacin estndar de muestra y la proporcin muestral.

    Son cuatro las caractersticas que debe tener un buen estimador puntual.

    a) Insesgabilidad o imparcialidad: Un estimador puntual es insesgado si, en promedio, tiende a tomar valores que estn por encima del parmetro de la poblacin que se esta estimando con la misma frecuencia y la misma extensin con la que tiende a asumir valores por debajo del parmetro de poblacin que se esta estimando.

    Por consiguiente, el valor esperado o media, de todos los valores posibles de un estadstico de muestra insesgado es igual al parmetro de poblacin que se estima.

  • Distribucin muestral de

    E()

    En la ilustracin del estimador insesgado, la media de la distribucin muestral es igual al valor del parmetro poblacional. En el caso de un estimador sesgado, la media de la distribucin muestral es menor que, o mayor que el parmetro poblacional. En la figura (b), el estadstico de muestra tiene una gran probabilidad de sobrestimar el valor del parmetro poblacional.

    b) Consistencia o coherencia: Estimador que produce valores que se acercan mas al parmetro de la poblacin conforme aumenta el tamao de muestra. Generalmente, un estimador no es idntico al parmetro que se estima, debido a error de muestreo, que es la diferencia l - l ; pero, si aumentamos el tamao de la muestra suficientemente, la probabilidad de que esta diferencia l - l sea mayor que un nmero fijo > tender a cero. Esto es : P[I - l > ]--- 0 Claramente, x es un estimador consistente de , as como S2 y S2n lo son de 2.

    c) Eficiencia : Se dice que un estimador 1 es mas eficiente que otro estimador 2 de si la variancia del primero es menor que la del segundo ; esto es : 2n <

    2n , entonces 1 es mas eficiente que 2.

    d) Suficiencia : Intuitivamente, decimos que un estimador es suficiente, si transmite tanta informacin de la muestra como es posible acerca del parmetro, de modo que no ser proporcionada mayor informacin por cualquier otro estimador calculado de la misma muestra; y si se obtiene el valor de un estadgrafo suficiente, los valores de muestra mismos no proporcionan mas informacin sobre el parmetro. Por ejemplo, tanto la Media ( X ) como la Mediana (Me), como el centro de amplitud (C.A.) pueden ser usados como estimadores de ; sin embargo, solo la media X toma en cuenta cada valor o toda la informacin de la muestra, mientras que el centro de amplitud solo toma en cuenta el primer y ltimo valor, y la mediana es una medida de tendencia central de posicin. As pues, la media X es un estimador suficiente para .

    El parmetro est ubicado en la media de la distribucin muestral; E() = (a) Estimador insesgado

    El parmetro no est ubicado en la media de la distribucin muestral; E() (b) Estimador sesgado

    Sesgo

  • ESTIMACIONES PUNTUALES Y DE INTERVALO DE CONFIANZA

    Estimacin puntual. Es un slo nmero que se utiliza para estimar un parmetro de poblacin desconocido.

    Estimaciones de intervalo. Describe un intervalo de valores dentro del cual es posible que este un parmetro de poblacin.

    Ejemplo. Si decimos que una distancia se ha medido como 5.28 metros, estamos dando una estimacin de punto. Por otra parte, si decimos que la distancia es 5.28+0.03 m (o sea, que esta entre 5.25 y 5.31 m), estamos dando una estimacin de intervalo. El margen de error (o la precisin) de una estimacin nos informa de su fiabilidad.

    Nivel de confiabilidad. La probabilidad que asociamos con una estimacin de intervalo se conoce como el nivel de confiabilidad. Esta probabilidad indica qu tanta confianza tenemos de que la estimacin de intervalo incluya al parmetro de la poblacin.

    Intervalo de confianza. Es el alcance de la estimacin que estamos haciendo. Por ejemplo, si informamos que tenemos 90% de confianza de que la media de la poblacin del ingreso de las personas que viven en una cierta comunidad estar entre $8.000 y $24.000, entonces el intervalo ($8.000 - $24.000) ser nuestro intervalo.

    RELACIN ENTRE EL NIVEL DE CONFIABILIDAD E INTERVALO DE CONFIANZA. Podra pensarse que deberamos utilizar un alto nivel de confianza, como 99%, en todos los problemas sobre estimaciones. Despus de todo, parece ser que un alto nivel de confianza significa un alto grado de precisin en lo que a la estimacin concierne. En la prctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y estos no son precisos.

    CALCULO DE ESTIMACIONES DE INTERVALO DE LA MEDIA A PARTIR DE MUESTRAS GRANDES:

    *Cuando se conoce la desviacin poblacional:

    xzx , Donde: nx

    =

    Error estndar de la media para una

    poblacin infinita.

  • *Cuando no se conoce la desviacin estndar de la poblacin:

    xzx , Donde: nx

    = y 1

    )(

    2

    ==

    n

    xxs i

    CALCULO DE ESTIMACIONES DE INTERVALO DE LA PROPORCIN A PARTIR DE MUESTRAS GRANDES:

    *Cuando se conoce la proporcin poblacional:

    pzP , Donde: nqp

    p*

    =

    *Cuando no se conoce la proporcin poblacional:

    pzP , Donde: nqp

    p*

    =

    ESTIMACIN DE INTERVALOS MEDIANTE LA DISTRIBUCIN t.

    El uso de la distribucin t para hacer estimaciones se requiere siempre que el tamao de la muestra sea menor o igual a 30 y la desviacin estndar de la poblacin no se conoce. Adems, al utilizar la distribucin t, suponemos que la poblacin es normal o aproximadamente normal.

    CARACTERSTICAS DE LA DISTRIBUCIN t Sin derivar la distribucin t de manera matemtica, podemos obtener un entendimiento intuitivo de la relacin de la relacin que existe entre la distribucin t y la distribucin normal. Ambas son simtricas. En general, la distribucin t es ms plana que la distribucin normal y hay una distribucin t diferente para cada tamao posible de muestra. Incluso con esto, conforme el tamao de muestra se hace mas grande, la forma de la distribucin t pierde su horizontalidad y se vuelve aproximadamente igual a la distribucin normal.

    GRADOS DE LIBERTAD Anteriormente, afirmamos que existe una distribucin t diferente para cada tamao de muestra. En un lenguaje estadstico apropiado, diramos: Existe una distribucin t distinta para cada uno de los posibles grados de libertad. Que son los grados de libertad? Podemos definirlos como el nmero de valores que podemos escoger libremente. Suponga que estamos tratando con dos valores de muestra, a y b, y sabemos que tienen una media de 18. Simblicamente, la situacin es:

    Error estndar estimado de la

    proporcin.

  • (a + b)/2 = 18 Cmo podemos encontrar los valores que a y b pueden tomar en la situacin? La respuesta es que a y b pueden ser cualesquiera dos valores cuya suma sea 36, ya que 36 entre 2 es 18. Suponga que sabemos que a tiene un valor de 10. Ahora b ya no es libre de tomar cualquier valor, sino que debe tomar el valor de 26. Este ejemplo nos muestra que cuando existen dos elementos de una muestra y solo conocemos la media de la muestra de esos dos elementos, entonces somos libres de especificar solamente uno de tales elementos, pues el otro estar determinado por el hecho de que los dos elementos suman el doble de la media de la muestra. En un lenguaje estadstico decimos: tenemos un grado de libertad.

    RESUMEN DE LAS FORMULAS PARA LMITES DE CONFIANZA EN LA ESTIMACIN DE LA MEDIA Y LA PROPORCIN.

    Cuando la poblacin es finita (n/N > 0.05)

    Cuando la poblacin es infinita (n/N < 0.05)

    *Estimacin de la media de la poblacin (): Cuando la desviacin estndar de la poblacin se conoce.

    1*

    N

    nNn

    zx

    nzx

    *Cuando la desviacin estndar de la poblacin no se conoce ( = s). Cuando n>30

    1*

    N

    nNn

    zx

    nzx

    *Cuando n30.

    n

    qpp

    * =

    Este caso esta mas all del objetivo del curso;

    consulte a un especialista en

    estadstica.

    pzp

  • INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA POBLACIN NORMAL

    Supongamos que tenemos una muestra de n observaciones procedentes de una poblacin normal con varianza 2 y representemos por S2 la varianza muestral.

    Es posible demostrar que la relacin existente entre la varianza muestral y la varianza de la poblacin presenta una distribucin Chi-Cuadrado con N-1 libertad

    As,

    2

    22

    1)1(

    Snn

    =

    Sigue una distribucin Chi-cuadrado con (n-1) grados de libertad.

    Para derivar la frmula que nos permite el clculo de intervalos de confianza para la varianza, se requiere ampliar la notacin => )( 2,2 vvP donde 2v es la variable aleatoria que tiene una distribucin Chi-cuadrado con v grados de libertad.

    2,v Ser el valor para el cul => )( 2,2 vvP

    Para una probabilidad dada necesitaremos el correspondiente valor 2,v , el cul

    se puede encontrar entre los valores de la funcin de distribucin acumulada de la variable aleatoria Chi-Cuadrado recogidos en la tabla.

    Ejemplo. Supongamos que queremos hallar un nmero para el cul la probabilidad de que una variable aleatoria Chi-cuadrado con 6 grados de libertad sea mayor que dicho nmero es igual a 0.05

    05.0)( 2 05.0,626 => P de la tabla se tiene que 59.12)( 2 05.0,6 =P

    2,v

    1-

    f( 2v )

    2v

  • Utilizando la notacin que se acaba de definir tenemos que 2/)( 2 2/,2 => vvP

    De manera similar, se define 2 2/1, v como el valor que verifica 2/1)( 2 2/1,2 => vvP

    y, por tanto,

    2/)( 2 2/,2 =< vvP Finalmente,

    ==

  • DETERMINACIN DEL TAMAO DE LA MUESTRA PARA LA ESTIMACIN DE MEDIAS.

    La pregunta de qu tan grande debe ser una muestra surge inmediatamente al inicio del planteamiento de cualquier encuesta o experimento. Esta es una pregunta importante y no se debe tratar a la ligera. Tomar una muestra mas grande de lo necesario para obtener los resultados deseados es un desperdicio de recursos, mientras que, por otro lado, las muestras demasiado pequeas con frecuencia dan resultados que carecen de uso prctico.

    El objetivo de la estimacin por intervalos es el de obtener intervalos estrechos con alta confiabilidad. Si se observan los componentes de un intervalo de confianza, se ve que su dimensin esta determinada por la magnitud de la cantidad:

    (Coeficiente de confiabilidad) x (error estndar) ya que la magnitud total del intervalo es el doble de esta cantidad. Para un determinado error estndar, el aumento de confiabilidad implica un coeficiente de confiabilidad mayor. Sin embargo, un coeficiente de confiabilidad mayor, para un error estndar fijo, produce un intervalo de mayor dimensin.

    Por otra parte, si se fija el coeficiente de confiabilidad, la nica forma de reducir la dimensin del intervalo es la reduccin del error estndar. Dado que el error estndar es igual a //n y como es una constante, la nica forma de obtener un error estndar menor es tomar una muestra grande. Qu tan grande debe ser la muestra? Esto depende del tamao de la desviacin poblacional, as como el grado de confianza y dimensin del intervalo deseado.

    TAMAO DE MUESTRA EL ESTIMAR LA MEDIA DE LA POBLACIN

    2

    22

    zn =

    ,

    TAMAO DE MUESTRA EL ESTIMAR LA PROPORCIN DE LA POBLACIN

    2

    2 )1(*

    ppzn

    = ,

    MUESTREO CUANDO LA POBLACIN ES FINITA Para estimar Para estimar P

    222

    22

    )1(

    zNNz

    n+

    = )1()1(

    )1(22

    2

    ppzNppNz

    n+

    =

    n--- Tamao necesario de la muestra. z--- Nmero de unidades de desviacin estndar de la distribucin Normal que producir el nivel deseado de confianza. --- Error o diferencia mxima entre la media muestral y la media de la poblacin. --- Desviacin estndar de la poblacin

    P--- Es la proporcin de poblacin que posee la caracterstica de inters. Si no se puede estimar la proporcin P, se puede igualar P a 0.5 y resolver para n.

  • PRUEBAS DE HIPTESIS

    Al intentar alcanzar una decisin, es til hacer hiptesis (o conjeturas) sobre la poblacin implicada. Tales hiptesis, que pueden ser o no ciertas, se llaman hiptesis estadsticas. Son en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

    *Hiptesis nula (H0) En muchos casos formulamos una hiptesis estadstica con el nico propsito de

    rechazarla o invalidarla. As, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hiptesis de que no hay diferencia entre ellos (o sea, que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma poblacin.

    *Hiptesis Alternativa (H1) Toda hiptesis que difiera de una dada. Por ejemplo:

    Si una hiptesis es H0: = 200 (la media de la poblacin es igual a 200) Consideramos tres hiptesis alternativas posibles:

    H1: = 200 La media de la poblacin no es igual a 200 H1: > 200 La media de la poblacin es mayor a 200 H1: < 200 La media de la poblacin es menor a 200

    CONTRASTES DE HIPTESIS Y SIGNIFICACIN, O REGLAS DE DECISIN Son los procedimientos que nos capacitan para determinar si las muestras

    observadas difieren significativamente de los resultados esperados, y por tanto nos ayudan a decidir si aceptamos o rechazamos hiptesis. Por ejemplo, si lanzramos una moneda 20 veces, y salieran 16 caras, estaramos inclinados a rechazar la hiptesis de que la moneda es buena.

    ERRORES DE TIPO DE I Y DE TIPO II

    ERROR TIPO I: Es el rechazo de una hiptesis nula cuando es cierta, y su probabilidad es el nivel de significacin de la prueba ()

    ERROR DE TIPO II: Es aceptar una hiptesis nula cuando es falsa y su probabilidad se simboliza ()

    INTERPRETACIN DEL NIVEL DE SIGNIFICACIN. En la prctica, es frecuente un nivel de significacin de 0.05 0.01. Si por ejemplo, se escoge el nivel de significacin 0.05(5%), entonces hay unas cinco oportunidades entre 100 de rechazar la hiptesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisin correcta. En tal caso la hiptesis tiene una probabilidad 0.05 de ser falsa.

  • a) Nivel de significancia de 0.01

    b) Nivel de significancia de 0.10

    c) Nivel de significancia de 0.50

    *Preferencia por el error tipo I. Cometer el error tipo I, implica el tiempo y los problemas de volver a trabajar un lote de compuestos qumicos que debieran haber sido aceptados. Cometer un error tipo II significa arriesgarse a que todo un grupo de consumidores de este compuesto qumico se envenenen. Esta compaa preferir el error de tipo I sobre el de tipo II, estableciendo niveles de significancia muy altos en sus pruebas para obtener () bajas.

    *Preferencia por el error tipo II. Cometer un error tipo I implica desarmar un motor, pero cometer un error tipo II implica realizar reparaciones de garanta relativamente baratas por parte del comerciante. (Se establecen menores niveles de significancia).

    H0

    0.99 del rea 0.005

    del rea 0.005

    del rea

    H0

    0.90 del rea 0.05 del

    rea 0.05 del

    rea

    H0

    0.50 del rea 0.25 del

    rea 0.25 del

    rea

    x

  • HIPTESIS

    Decisin sobre el tipo de distribucin a utilizar en la prueba de hiptesis: Despus de decidir el nivel de significancia a utilizar, se debe determinar la distribucin de probabilidad adecuada (Z o t). Se utiliza t cuando no se conoce la desviacin estndar de la poblacin y/o el tamao de muestra es menor o igual a 30. Adems se debe recordar utilizar el multiplicador para poblacin finita.

    PRUEBAS DE HIPTESIS DE DOS EXTREMOS Y DE UN EXTREMO. Contrastes de dos colas o bilaterales: Cuando la regin critica se divide en

    dos partes, generalmente con iguales probabilidades en cada cola de la distribucin del estadstico de prueba.

    H0: = 0, H1: 0

    Contrastes unilaterales o de una cola: Cuando estamos interesados en valores extremos a un lado de la media, tal como sucede cuando se contrasta la hiptesis de que un proceso es mejor que otro.

    H0: = 0 H0: = 0 H1: < 0 H1: > 0

    Algunas lneas guas son deseables para determinar cul hiptesis deber ser establecida como H0 y cual como H1. Primero, debe leerse el problema cuidadosamente para determinar la afirmacin que desea probarse. La afirmacin debe sugerir una sola direccin como, por ejemplo, ms que, menos que, superior a, inferior a, etc., entonces H1 se establecer utilizando el smbolo de desigualdad (< >) correspondiente a la direccin sugerida. Si, por ejemplo, al probar un nuevo medicamento se desea presentar fuerte evidencia de que se ayudar a mas del 30% de la gente, de inmediato se escribe H1: p > 0.3 y entonces la hiptesis nula se escribe H0: p = 0.3. Si la afirmacin sugiere una direccin compuesta (igualdad y direccin) como, por ejemplo, al menos, igual que o mayor que, no mayor que, etc., entonces, esta direccin compuesta completa ( o ) se expresa como H0, pero utilizando nicamente el signo igual, y H1 se da en la direccin opuesta. Por fin, si no se sugiere direccin alguna en la afirmacin, entonces H1 se establece utilizando el signo diferente que ().

    Ejemplo 1: El fabricante de una marca de cigarrillos afirma que el contenido de nicotina promedio no excede de 2.5 miligramos. Plantee la hiptesis nula y alternativa a ser utilizadas para probar esta afirmacin y determine donde se localiza la regin crtica.

    Solucin. La afirmacin del fabricante deber rechazarse solo si es mayor que 2.5 miligramos y deber aceptarse si es menor que o igual que 2.5 miligramos. Dado que la hiptesis nula siempre especifica un solo valor del parmetro. Se prueba: H0: = 2.5, H1: > 2.5.

  • No obstante que se ha establecido la hiptesis nula con el signo igual, se entiende que se incluye cualquier valor no especificado por la hiptesis alternativa. En consecuencia, la aceptacin de H0 no implica que sea exactamente igual a 2.5 miligramos, sino que no se tiene evidencia suficiente para estar a favor de H1. Ya que se tiene una prueba de una cola, el smbolo mayor que indica que la regin crtica cae por completo en la cola derecha de la distribucin del estadstico de prueba X.

    Ejemplo 2: Un agente de bienes races afirma que el 60% de todas las residencias privadas que se construyen hoy en da son casas de tres recamaras. Para probar esta afirmacin, se inspecciona una muestra grande de nuevas residencias; se registra la proporcin de los hogares con tres recamaras y se utiliza como el estadstico de prueba. Plantee la hiptesis nula y alternativa a ser utilizadas en esta prueba y determine la localizacin de la regin crtica.

    Solucin. Si el estadstico de prueba es mucho ms grande o ms pequeo que p=0.6, se rechaza la afirmacin del agente. De aqu que debe realizarse la prueba: H0: p = 0.6, H1: p 0.6.

    La hiptesis alternativa implica una prueba de dos colas con la regin critica dividida por igual en ambas colas de la distribucin de P, el estadstico de prueba.

    Se considera apropiado en este momento resumir los procedimientos para la prueba de hiptesis. Para este resumen, supngase que la hiptesis es H0: = 0.

    1. Establecer la hiptesis nula H0 de que = 0. 2. Seleccionar una hiptesis alternativa apropiada H1 de una de las alternativas

    < 0, > 0 0. 3. Seleccionar un nivel de significancia de tamao . 4. Seleccionar el estadstico de prueba apropiado y establecer la regin crtica.

    (Si la decisin se va a basar en un valor P no es necesario establecer la regin crtica.)

    5. Calcular el valor del estadstico de prueba de los datos muestrales. 6. Decidir: rechazar H0 si el estadstico de prueba tiene un valor en la regin

    crtica (o si el valor calculado de P es menor igual que el nivel de significancia deseado ); de otra forma, no rechazar H0.

  • CONTRASTES ESPECIALES

    1. Medias: x~ Media muestral x~ = Media de la poblacin

    nx

    =

    ~

    Desviacin.

    El valor Z viene dado por: n

    xZ/

    ~

    =

    Cuando sea necesario, se utilizar la desviacin muestral S como estimacin de .

    2. Proporciones: P Proporcin de xitos en una muestra pp = , donde p es la proporcin de xitos de la poblacin.

    n

    pqn

    ppp =

    =

    )1(

    El valor de Z viene dado por: npq

    pPZ/

    =

    En el caso P = x/n, donde x es el numero real de xitos en una muestra , Z es

    npqNxZ =

    Esto es, npq

    np

    x

    x

    ==

    ==

    ~

    ~

    Ejemplos: 1. Una muestra aleatoria de 100 muertes registradas en los Estados Unidos

    durante el ao pasado mostr una vida promedio de 71.8 aos. Suponiendo una desviacin estandar poblacional de 8.9 aos, parecera esto indicar que la vida promedio hoy en da es mayor que 70 aos? Utilice un nivel de significancia del 0.05.

    Solucin. Siguiendo el procedimiento de los seis pasos, se tiene:

    1. H0: = 70 aos. 2. H1: > 70 aos. 3. = 0.05.

    4. Regin crtica: Z > 1.645, donde: n

    xZ/

    ~

    0

    =

    5. Clculos: 8.71~ =x aos, 9.8= aos, y 02.2100/9.8708.71

    =

    =Z

    6. Decisin: se rechaza H0 y se concluye que la vida promedio hoy en da es mayor que 70 aos.

  • P Z

    El valor P correspondiente a Z = 2.02 est dada por el rea de la regin sombreada. Al utilizar la tabla de distribucin normal, se tiene:

    P = P(Z>2.02) = 0.0217.

    Como resultado, la evidencia a favor de H1 es incluso mas fuerte que la sugerida por un nivel de significancia del 0.05.

    PRUEBAS SOBRE UNA SOLA MEDIA (VARIANCIA DESCONOCIDA)

    La estructura de la prueba es idntica que para el caso de conocida con la excepcin de que el valor en el caso estadstico de prueba se reemplaza por la estimacin calculada S y la distribucin normal estndar se reemplaza por un distribucin t . Como resultado, para la hiptesis bilateral:

    H0: = 0 H1: 0

    El rechazo de Ho en un nivel de significacin resulta cuando una estadstica t calculada:

    n

    s

    xt 0

    =

    Excede a t/2,n-1 o es menor que - t/2 ,n-1.

    De esta manera, esta regin critica de doble cola se aplica en un estilo similar al del caso de conocida. Para la hiptesis bilateral en un nivel de significancia , se aplican las regiones criticas de doble cola. Para H1: >0 el rechazo resulta cuando t > t , n-1.

    Para H1: < 0 , la regin critica esta dada por t < t ,n-1.

    0 2.02

  • Ejemplo: El Edison Electric Institute ha publicado cifras acerca de la cantidad anual de kilowatts hora consumida por varios aparatos para el hogar. Se afirma que la aspiradora consume un promedio de 46 kilovatios hora al ao. Si una muestra aleatoria de 12 hogares incluidos en un estudio planeado indica que las aspiradoras consumen un promedio de 42 kilovatios hora al ao con una desviacin estandar de 11.9 kilovatios hora. Sugiere esto con un nivel de significancia de 0.05 que las aspiradoras consumen, en promedio, menos de 46 kilovatios hora al ao?. Suponga que la poblacin de kilovatios hora es normal.

    SOLUCION:

    1. H0: =46 kilowatts hora .

    2. H1: < 46 kilowatts hora

    3. = 0.05.

    4. Regin crtica: t < -1.796, donde: ns

    xt

    /~

    0=

    Con v = 11 grados de libertad.

    5. Clculos: 42~ =x kilovatios hora, 9.11=s kilovatios hora y n=12. De aqu que: 16.1

    12/9.114642

    =

    =t

    P = P(t

  • DISTRIBUCIN CHI-CUADRADA

    La Distribucin Normal se utiliza en todos aquellos casos que ofrecen dos resultados posibles; cuando se presentan mas de dos resultados posibles debe aplicarse la prueba Chi-Cuadrado. Esta prueba es realizada en todos aquellos casos en los cuales el anlisis de los datos estn basados en el conteo, es decir, provienen de una caracterstica cualitativa (atributos) por no ser medidas tal como ocurre con la variable.

    TABLAS DE CONTINGENCIA. Un cuadro de contingencia, es un arreglo en el cual un conjunto de observaciones se dispone conforme a dos criterios de clasificacin, uno de los cuales se expresa en las columnas y el otro en los renglones.

    Primer nivel del criterio de clasificacin

    Segundo nivel de criterio de clasificacin 1 2 3 ... c Total

    1 n11 n12 n13 n1c n1. 2 n21 n22 n23 n2c n2. 3 n31 n32 n33 n3c n3. : r nr1 nr2 nr3 nrc nr.

    Total n.1 n.2 n.3 n.c n

    Esta tabla se denominar tabla de rxc. (Renglones xColumnas) A los totales de renglones y columnas se les denomina frecuencias

    marginales.

    PRUEBA DE INDEPENDENCIA. Para esta prueba nos interesa saber si un atributo o clasificacin es independiente del otro y generalmente corresponde a resultados obtenidos a traves de una muestra de una poblacin. Se prueba la hiptesis nula de que dos criterios de clasificacin son independientes.

    Ejemplo. Un grupo de investigadores, al estudiar la relacin entre el tipo sanguneo y la severidad de una afeccin en la poblacin, reuni los datos de 1500 personas, los cuales se presentan en la tabla de contingencia. Los investigadores desean saber si estos datos son compatibles con la hiptesis de que el grado de la afeccin y el tipo sanguneo son independientes.

    Tipo de sangre Severidad de la condicin. A B AB O Total

    Ausente 543

    211 90 476 1320

    Moderada 44 22 8 31 105 Severa 28 9 7 31 75 Total 615 242 105 538 1500

  • Solucin 1. Hiptesis.

    H0: El tipo sanguneo y la severidad de la afeccin son independientes H1: Las dos variables no son independientes. Sea = 0.05

    2. Estadstica de prueba: ( )

    =

    i

    i

    EEO 212

    3. Punto Crtico: 2 , con v=(r-1)(c-1) grados de libertad. Si 2 > 2 , se rechaza la hiptesis nula de independencia.

    Para calcular el estadstico de prueba es necesario encontrar las frecuencias esperadas (Ei) para cada celda:

    GranTotalnglonTotalnaTotalColum

    esperadaFrecuencia )Re(*)(=

    A partir de las frecuencias esperadas y observadas es posible calcular:

    ( )90.26

    )90.2631(...

    96.212)96.212211(

    2.541)2.541543( 222212 +++=

    = i

    i

    EEO

    = 0.0058987 + 0.018039 + ... + 0.624907 = 5.12

    4. Decisin estadstica. No se rechaza Ho porque 5.12 no es mayor que 12.592. 5. Conclusin. No se rechaza H0. Estos datos son compatibles con la hiptesis

    de que el grado de la afeccin y el tipo sanguneo son independientes.

    TABLA DE CONTINGENCIA DE 2X2.

    A veces, cada uno de los dos criterios de clasificacin puede dividirse en slo dos categoras o niveles. Cuando los datos se clasifican cruzados de esta manera, el resultado es una tabla de contingencia que consta de dos renglones y dos columnas. Esta tabla se conoce como tabla de 2x2.

    Ejemplo.

    Una muestra de 500 nios de una escuela primaria se clasific en forma cruzada respecto a su estado de nutricin y desempeo acadmico. Los resultados se muestran en la siguiente tabla:

    Estado de nutricin Desempeo acadmico. Malo Bueno Total

    Ausente 105

    15 120 Moderada 80 300 380

    Total 185 315 500

  • Los investigadores desean saber si es posible concluir que existe una relacin entre el estado de nutricin y el desempeo acadmico.

    Solucin.

    1. Hiptesis. Ho: El estado nutricional y el desempeo acadmico son independientes H1: Las dos variables no son independientes. Sea = 0.05.

    2. Estadstico de prueba: Se obtiene como se mostr en el ejemplo anterior. Sin embargo, en el caso de la tabla de contingencia de 2x2, Chi-Cuadrado puede obtenerse de la siguiente manera:

    ))()()(()( 22

    dcbadbcacbadn

    ++++

    =

    3. Punto crtico. 2 , con v=(r-1)(c-1)=1 grado de libertad. 4. Regla de decisin: Rechazar H0 si 2 > 2,v

    Estadstico de prueba: ( )( ) ( )( )[ ] 746,172

    380*120*315*18580153001055002

    =

    =

    5. Conclusin. Los investigadores pueden concluir que existe una relacin entre las caractersticas de estudio.

  • PRUEBAS DE HOMOGENEIDAD

    Se utiliza para determinar si dos o ms muestras aleatorias provienen de la misma poblacin o de poblaciones diferentes. Cuando se dice que las clasificaciones son homogneas, se quiere dar a entender que tienen algo de comn.

    Suponer, por ejemplo, que se decide seleccionar a 200 demcratas, 150 republicanos y 150 independientes de los votantes de un estado y se registra si estn a favor de una ley de aborto propuesta, en contra de ella o indecisos.

    Afiliacin poltica Ley de aborto. Demcrata Republicano Independiente Total

    A favor 82

    70 62 214 En contra 93 62 67 222 Indecisos 25 18 21 64

    Total 200 150 150 500

    Ahora bien, mas que probar la independencia, se prueba la hiptesis de que las proporciones de la poblacin en cada rengln son iguales, esto es, se prueba la hiptesis de que las proporciones de Demcratas, Republicanos e Independientes a favor de la ley de aborto son iguales; y las proporciones de los que en cada afiliacin poltica estn indecisos son las mismas.

    Suponiendo homogeneidad, se encuentra de nuevo las frecuencias esperadas de celdas multiplicando los totales correspondientes de rengln y de columna y luego dividiendo entre el gran total. El anlisis contina entonces utilizando el mismo estadstico Chi-Cuadrado de antes.

    Ejercicio. Con referencia a los datos de la tabla, probar la hiptesis de que las opiniones relacionadas con la ley de aborto propuesta son las mismas en cada afiliacin poltica. Utilizar un nivel de significacin de 0.05.

    Solucin

    1. Hiptesis: H0: Para cada opinin, las proporciones de Demcratas, Republicanos e

    Independientes son las mismas. H1: Para al menos una opinin, las proporciones de Demcratas,

    Republicanos e Independientes no son las mismas. = 0.05

    2. Estadstico de prueba: Primero se realiza el clculo de los valores esperados en cada celda utilizando la frmula vista anteriormente.

    GranTotalnglonTotalnaTotalColum

    esperadaFrecuencia )Re(*)(= Ahora bien,

  • ( )2.19

    )2.1924(...

    2.64)2.6459(

    2.64)2.6470(

    6.85)6.8582( 2222212 ++++=

    = i

    i

    EEO

    = 2,90

    3. Punto crtico: 2 , Con v=(r-1)(c-1)=4 grados de libertad.

    488,92 = Decisin: No se rechaza H0, y se concluye que las proporciones de Demcratas, Republicanos e Independientes son las mismas para cada opinin establecida. Esto es, las tres afiliaciones polticas son homogneas con respecto a la opinin expresada por los votantes.

    Ejercicio 1. En un consultorio se trat a un grupo de personas que se quejaban de insomnio, dndole a unos pastillas para dormir y a otros pastillas de azcar (que hacan creer que eran para dormir). Despus de someterlos a observacin se obtuvo el siguiente resultado:

    Durmieron No durmieron Total Pastillas para

    dormir 35 5 40 Pastillas de

    azcar 45 15 60

    Total 80 20 100

    Pruebe a un nivel del 5% que no existe diferencia. Ejercicio 2.

    Varios estudios proporcionan la evidencia suficiente para apoyar la hiptesis de que el manejo o amansamiento de las ratas durante las primeras etapas de su vida produce resultados benficos. Suponer que en un estudio se compara una muestra de ratas manipuladas y una muestra de ratas no manipuladas, comparadas con respecto al estado general de salud. Los resultados son los siguientes:

    Grupo Estado de salud Manejadas No manejadas Total

    Alto 37

    23 60 Bajo 13 27 40 Total 50 50 100

    Apoyan estos datos la hiptesis? Sea = 0.05.

  • BIBLIOGRAFA

    BERENSON, M L., LEVINE, D.M. Estadstica para Administracin y Economa.

    CANAVOS, G.C. Probabilidad y Estadstica. Aplicaciones y mtodos. McGraw-Hill, 1993

    CHOW, Y.L.; Anlisis estadstico.1977.

    MENDENHALL, WILLIAM, Estadstica matemtica con aplicaciones, Grupo editorial ibero Amrica.

    NEWBOLD, PAUL. Estadstica para los negocios y la economa, editorial Prentice Hall. Cuarta edicin.

    WALPOLE, R.E, MYERS, R. Probabilidad y Estadstica para Ingenieros. Prentice Hall

    WAYNE W. D., Bioestadstica: base para el anlisis de las ciencias de la salud. Mxico: Editorial Limusa Wiley.2002