estimación de la proporsión

18
320 Capítulo 7 Estimaciones y tamaños de muestra 7-1 Panorama general En este capítulo comenzaremos a trabajar con el verdadero núcleo de la estadística inferencial al utilizar datos muestrales para hacer inferencias acerca de poblaciones. En específico, usaremos datos muestrales para hacer estimaciones de parámetros de población. Por ejemplo, el problema del capítulo se refiere a terapeutas de con- tacto que identificaron correctamente el campo de energía humano únicamente en el 44% de 280 ensayos. Con base en cl estadístico muestral de 44%, estimaremos el porcentaje de aciertos para toda la población de los terapeutas de contacto. Las dos aplicaciones principales de la estadística inferencial implican el uso de datos muestrales para 1. estimar el valor de un parámetro de una población y 2. probar alguna aseveración (o hipótesis) acerca de una población. En este capí- tulo presentamos métodos para estimar valores de estos importantes parámetros de población: proporciones, medias y varianzas. También presentamos métodos para determinar los tamaños de muestra necesarios para estimar estos paráme- tros. En el capítulo 8 estudiaremos los métodos básicos para probar aseveracio- nes (o hipótesis) que se hacen acerca de un parámetro de una población. Estimación de la proporción 7-2 de una población Concepto clave En esta sección presentamos métodos importantes donde se utiliza una proporción muestral para estimar el valor de una proporción poblacio- nal con un intervalo de confianza. También presentamos métodos para calcular el tamaño muestral necesario para estimar una proporción poblacional. En esta sec- ción se explican conceptos generales que se utilizan en las siguientes secciones y en los capítulos posteriores, por lo que es muy importante su comprensión. Una estrategia de estudio: El tiempo dedicado a esta sección estará bien in- vertido, ya que presentamos el concepto de intervalo de confianza, un concepto general que se aplicará en las siguientes secciones del capítulo. Sugerimos que primero lea esta sección con el único objetivo de tratar de comprender qué son los intervalos de confianza, para qué sirven y por qué son indispensables. Segundo, trate de desarrollar la habilidad de construir estimaciones del intervalo de confianza de las proporciones de una población. Tercero, aprenda a interpretar correctamente un intervalo de confianza. Cuarto, lea la sección una vez más y trate de comprender la teoría subyacente. Usted tendrá mucho más éxito si comprende lo que está haciendo, en vez de aplicar a ciegas y de manera mecánica los pasos para obtener una respuesta que podría o no tener sentido. En esta sección sólo consideraremos casos en los que es posible utilizar la distribución normal para aproximar la distribución muestral de proporciones de muestra. Los siguientes requisitos se aplican a los métodos de esta sección. Requisitos La muestra es aleatoria simple. Las condiciones para la distribución binomial se satisfacen. Esto es, hay un número fijo de ensayos, los ensayos son independientes, hay dos categorías de resultados y las probabilidades permanecen constantes para cada ensayo. (Véase la sección 5-3). 3. Existen al menos 5 éxitos y al menos 5 fracasos. (Cuando p y y se desconocen. estimamos sus valores utilizando la proporción muestral, de manera que este

Upload: ivan-vc

Post on 13-Apr-2017

690 views

Category:

Education


3 download

TRANSCRIPT

320 Capítulo 7 Estimaciones y tamaños de muestra

7-1 Panorama generalEn este capítulo comenzaremos a trabajar con el verdadero núcleo de la estadísticainferencial al utilizar datos muestrales para hacer inferencias acerca de poblaciones.En específico, usaremos datos muestrales para hacer estimaciones de parámetrosde población. Por ejemplo, el problema del capítulo se refiere a terapeutas de con-tacto que identificaron correctamente el campo de energía humano únicamente en el44% de 280 ensayos. Con base en cl estadístico muestral de 44%, estimaremosel porcentaje de aciertos para toda la población de los terapeutas de contacto.

Las dos aplicaciones principales de la estadística inferencial implican el usode datos muestrales para 1. estimar el valor de un parámetro de una población y2. probar alguna aseveración (o hipótesis) acerca de una población. En este capí-tulo presentamos métodos para estimar valores de estos importantes parámetrosde población: proporciones, medias y varianzas. También presentamos métodospara determinar los tamaños de muestra necesarios para estimar estos paráme-tros. En el capítulo 8 estudiaremos los métodos básicos para probar aseveracio-nes (o hipótesis) que se hacen acerca de un parámetro de una población.

Estimación de la proporción7-2 de una población Concepto clave En esta sección presentamos métodos importantes donde seutiliza una proporción muestral para estimar el valor de una proporción poblacio-nal con un intervalo de confianza. También presentamos métodos para calcular eltamaño muestral necesario para estimar una proporción poblacional. En esta sec-ción se explican conceptos generales que se utilizan en las siguientes secciones yen los capítulos posteriores, por lo que es muy importante su comprensión.

Una estrategia de estudio: El tiempo dedicado a esta sección estará bien in-vertido, ya que presentamos el concepto de intervalo de confianza, un conceptogeneral que se aplicará en las siguientes secciones del capítulo. Sugerimos queprimero lea esta sección con el único objetivo de tratar de comprender qué son losintervalos de confianza, para qué sirven y por qué son indispensables. Segundo,trate de desarrollar la habilidad de construir estimaciones del intervalo de confianzade las proporciones de una población. Tercero, aprenda a interpretar correctamenteun intervalo de confianza. Cuarto, lea la sección una vez más y trate de comprenderla teoría subyacente. Usted tendrá mucho más éxito si comprende lo que estáhaciendo, en vez de aplicar a ciegas y de manera mecánica los pasos para obteneruna respuesta que podría o no tener sentido.

En esta sección sólo consideraremos casos en los que es posible utilizar ladistribución normal para aproximar la distribución muestral de proporciones demuestra. Los siguientes requisitos se aplican a los métodos de esta sección.

Requisitos

La muestra es aleatoria simple.

Las condiciones para la distribución binomial se satisfacen. Esto es, hay unnúmero fijo de ensayos, los ensayos son independientes, hay dos categorías deresultados y las probabilidades permanecen constantes para cada ensayo.(Véase la sección 5-3).

3. Existen al menos 5 éxitos y al menos 5 fracasos. (Cuando p y y se desconocen.estimamos sus valores utilizando la proporción muestral, de manera que este

7-2 Estimación de la proporción de una población

requisito es una forma de verificar que np � 5 y ny � 5 se cumplan para quela distribución normal sea Una aproximación adecuada para la distribución bi-nomial. Además, existen procedimientos para tratar situaciones en las que ladistribución normal no es una aproximación adecuada. Véase el ejercicio 51).

Notación para proporcionesp = proporción de la población

=TJx

= proporción muestral de x éxitos en una muestra de tamaño n

= 1 — p = proporción muestral de fracasos en una muestra de tamaño n

Proporción, probabilidad y porcentaje Esta sección se enfoca en la pro-porción poblacional p. aunque también podemos trabajar con probabilidades oporcentajes. Cuando trabaje con un porcentaje, expréselo en forma decimal. (Porejemplo, exprese el 44% como 0.44, de manera que p = 0.44). Si desea estimaruna proporción poblacional con un solo valor, el mejor estimado es p. Puesto quep consiste en un solo valor, se denomina estimado puntual.

DefiniciónUn estimado puntual es un valor individual (o punto) que se usa paraaproximar un parámetro de población.

La proporción muestral fi es el mejor estimado puntual en la propor-ción poblacional p.

Usamos fi como el estimado puntual de p, ya que no está sesgado y es el más con-sistente de los estimadores que podrían usarse. No está sesgado en el sentido deque la distribución de las proporciones muestrales tiende a concentrarse alrededordel valor de p; esto es, las proporciones muestrales p no tienden sistemáticamentea subestimar ni a sobreestimar p. (Véase la sección 6-4). La proporción muestra! fies el estimador más consistente en el sentido de que la desviación estándar de lasproporciones muestrales tiende a ser menor que la desviación estándar de cual-quier otro estimador sin sesgo.

EJEMPLO Tasa de éxito de la terapia de contacto En elproblema del capítulo señalamos que, en 280 ensayos con terapeutasde contacto, la mano correcta fue elegida en 123 ensayos, de manera

que la tasa de éxito es "fi = 123/280 = 0.44. Utilice estos resultados de pruebapara calcular el mejor estimado puntual de la proporción de todas las seleccio-nes correctas que resultarían si se pusiera a prueba a todos los terapeutas decontacto.

SOLUCIÓN Puesto que la proporción muestral es el mejor estimado puntualde la proporción poblacional, concluimos que el mejor estimado puntual de pes 0.44. (Utilizando el sentido común. podríamos examinar el diseño del expe-rimento y concluir que la verdadera proporción poblacional es 0.5, pero si sóloutilizamos los resultados muestrales encontramos que 0.44 es el mejor estimadode la proporción poblacional p).

321

Muestra pequeña

El Children's Defense Fund se

constituyó con el fin de promo-

ver el bienestar de los niños. El

grupo publicó Children Out of

School in America, donde se in-

formó que, en una zona, el 37.5%

de los jóvenes de 16 y 17 años

ya no asistían a la escuela. Esta

estadística recibió mucha cober-tura por parte de los medios de

comunicación masiva, pero sebasaba en una muestra de sólo16 jóvenes. Otra estadística se

basó en una muestra de sólo tresestudiantes. (Véase "FirsthandReport: How Flawed Statistics

Can Make an Ugly Picture Look

Even Worse", American School

Board Journal, vol. 162).

322

Capítulo 7

Estimaciones y tamaños de muestra

¿Por qué necesitamos intervalos de confianza?En el ejemplo anterior vimos que 0.44 era el mejor estimado puntual de la pro-porción poblacional p, pero no tenemos indicación precisa de qué tan bueno esnuestro mejor estimado. Como el estimado puntual tiene el grave defecto de norevelar nada acerca de qué tan bueno es, los especialistas en estadística han di-señado ingeniosamente otro tipo de estimado: el intervalo de confianza o esti-mado del intervalo, que consiste en un rango (o un intervalo) de valores en vezde un solo valor.

DefiniciónUn intervalo de confianza (o estimado del intervalo) es un rango (o un in-tervalo) de valores que se usa para estimar el valor real de un parámetro depoblación. El intervalo de confianza suele abreviarse como IC.

Un intervalo de confianza se asocia con un nivel de confianza, como 0.95(o 95%). El nivel de confianza nos da la tasa de éxitos del procedimiento quese utiliza para construir el intervalo de confianza. El nivel de confianza sueleexpresarse como la probabilidad o área 1 — a (alfa griega minúscula). El valorde a es el complemento del nivel de confianza. Para un nivel de confianza de0.95 (o 95%), a = 0.05. Para un nivel de confianza de 0.99 (o 99%), a = 0.01.

iDefiniciónEl nivel de confianza es la probabilidad 1 — a (a menudo expresadacomo el valor de porcentaje equivalente), que es la proporción de vecesque el intervalo de confianza realmente contiene el parámetro de población,suponiendo que el proceso de estimación se repite un gran número deveces. El nivel de confianza también se llama grado de confianza ocoeficiente de confianza.

Las opciones más comunes para el nivel de confianza son 90% (con a =0.10), 95% (con a = 0.05) y 99% (con a = 0.01). La opción del 95% es la máscomún puesto que provee un buen equilibrio entre precisión (reflejada en el anchodel intervalo de confianza) y confiabilidad (expresada por el nivel de confianza).

A continuación se presenta un ejemplo de un intervalo de confianza basado enlos datos muestrales de 280 ensayos de terapeutas de contacto, donde en el 44%de los ensayos se identifica correctamente la mano elegida:

El intervalo de confianza estimado de 0.95 (o 95%) de la proporciónpoblacional p es 0.381 <p < 0.497.

Interpretación de un intervalo de confianzaDebemos ser cuidadosos para interpretar los intervalos de confianza correctamen-te. Existe una interpretación correcta y muchas diferentes y creativas interpreta-ciones erróneas del intervalo de confianza 0.381 < p < 0.497.

7-2 Estimación de la proporción de una población 323

Correcta: "Tenemos una confianza del 95% de que el intervalo de 0.381 a0.497 realmente contiene el valor verdadero de p". Esto significaque si seleccionamos muchas muestras diferentes de tamaño 280 yconstruimos los intervalos de confianza correspondientes, el 95%de ellos incluirían realmente el valor de la proporción poblacionalp. (Note que en esta interpretación correcta, el nivel del 95% serefiere a la tasa de éxitos del proceso, utilizada para estimar laproporción, y no a la proporción de la población en sí).

Errónea: "Existe un 95% de probabilidades de que el valor real de p estéentre 0.381 y 0.497".

Para cualquier punto específico en el tiempo, una población tiene un valor fijoy constante de p, un intervalo de confianza construido a partir de una muestra queincluye o no a p. De manera similar, si un bebé acaba de nacer y el médico estápor anunciar su género, es incorrecto decir que existe una probabilidad de 0.5 deque sea una niña; el bebé es o no una niña, y no hay una probabilidad implicada.Una proporción poblacional p es como el bebé que acaba de nacer: el valor de p esfijo, de manera que los límites del intervalo de confianza contienen o no a p. Poreso es incorrecto decir que existe un 95% de probabilidades de que p se localiceentre valores tales como 0.381 y 0.497.

Un nivel de confianza del 95% nos dice que el proceso que estamos usando, ala larga. dará por resultado límites del intervalo de confianza que contienen la pro-porción real de la población el 95% del tiempo. Suponga que la proporción real detodas las identificaciones correctas de la mano por parte de los terapeutas de con-tacto es p = 0.5. Entonces, el intervalo de confianza obtenido de los datos mues-trales no incluiría la proporción poblacional, ya que la proporción poblacional realde 0.5 no se encuentra entre 0.381 y 0.497. Esto se ilustra en la figura 7-1, la cualseñala los intervalos de confianza típicos que resultan de 20 muestras diferentes.Con un 95% de confianza, esperamos que 19 de las 20 muestras den por resultadointervalos de confianza que contienen el valor real de p; la figura 7- I i lustra estocon 19 de los intervalos de confianza que contienen p, mientras un intervalo deconfianza no contiene p.

Uso de intervalos de confianza para hacer comparaciones Adverten-cia: Los intervalos de confianza pueden usarse de manera informal para compa-rar conjuntos de datos diferentes, pero el traslape de intervalos de confianza nodebe usarse para elaborar conclusiones formales y finales acerca de la igualdadde las proporciones. (Véase "On Judging the Significance of Differences by Exa-mining the Overlap Between Confidence Intervals" de Schenker y Gentleman,American Statistician, vol. 55, núm. 3).

0.7 -

0

_11111111111111111111p - 05

Este intervalo nocontiene p - 0.5.

Figura 7-1

Intervalos de confianza de 20muestras diferentes

0.3 -

Z - O zan

Obtenido de —la tabla A-2(corresponde alárea de 1 - a/2)

Figura 7-2

Valor crítico za/2 en la distribu-ción normal estándar

324 Capítulo 7 Estimaciones y tamaños de muestra

Valores críticosLos métodos de esta sección y muchos de los demás métodos estadísticos que se en-cuentran en los capítulos siguientes incluyen el uso de una puntuación z estándar,que permite distinguir entre estadísticos muestrales que tienen probabilidades deocurrir y aquellos que son improbables. Una puntuación z de este tipo se llama valorcrítico (definido abajo). Los valores críticos se basan en las siguientes observaciones.

Sabemos, desde la sección 6-6, que en ciertas condiciones, la distribuciónmuestral de las proporciones muestrales puede aproximarse por una distribu-ción normal, como en la figura 7-2.

Las proporciones muestrales tienen una probabilidad relativamente pequeña(denotada por a) de caer en una de las colas sombreadas de gris oscuro de lafigura 7-2.

Denotando el área de cada cola sombreada como a/2, vemos que existe unaprobabilidad total de a de que una proporción muestral caiga en cualquiera delas dos colas sombreadas de gris oscuro.

Por la regla de los complementos (capítulo 4), existe una probabilidad de 1 — ade que una proporción muestral caiga dentro de la región interior sombreada degris claro de la figura 7-2.

5. La puntuación z que separa la región de la cola derecha generalmente se denotapor z ap y se conoce como valor crítico, puesto que está en la frontera que separalas proporciones muestrales que tienen probabilidad de ocurrir de aquellas queno tienen probabilidad de ocurrir.

Estas observaciones se formalizan con la notación y definición siguientes.

Notación para el valor críticoEl valor crítico zap es el valor z positivo que está en la frontera vertical que se-para una área de a/2 en la cola derecha de la distribución normal estándar. (Elvalor de —za/2 está en la frontera vertical para el área de a/2 en la cola izquier-da). El subíndice a/2 es simplemente un recordatorio de que la puntuación zsepara una área de a/2 en la cola derecha de la distribución normal estándar.

DefiniciónUn valor crítico es el número en la línea limítrofe que separa estadísticos

111111 muestrales que tienen mayor probabilidad de ocurrir de aquellos que no tienenseuprobabilidad de ocurrir. El número zar, es un valor crítico, una puntuación zcon la propiedad de que separa una área de a/2 en la cola derecha de ladistribución normal estándar (véase la figura 7-2).

EJEMPLO Cálculo de un valor crítico Calcule el valor crítico zap quecorresponde a un nivel de confianza del 95%.

SOLUCIÓN Advertencia: Para calcular el valor crítico z de un nivel deconfianza del 95% no busque 0.95 en el cuerpo de la tabla A-2. Un nivel de con-fianza del 95% corresponde a a = 0.05. Observe la figura 7-3, donde mos-tramos que el área en cada una de las colas sombreadas de gris oscuro esa/2 = 0.025. Calculamos z„/2 = 1.96 señalando que toda el área a su iz-quierda debe ser 1 — 0.025, o 0.975. Podemos remitirnos a la tabla A-2 y

Nivel de confianza: 95%

7-2 Estimación de la proporción de una población

_ za/2 = 1% z = O za/2 = 1%

El área total a la ---tizquierda de estofrontera es 0975.

Figura 7-3 Cálculo de z„/2 para un nivel de confianza del 95%

encontrar que el área de 0.9750 (que se encuentra en el cuerpo de la tabla)corresponde exactamente a una puntuación z de 1.96. Para un nivel de con-fianza del 95%, el valor crítico es, por consiguiente, zan = 1.96. Para calcularla puntuación z crítica para un nivel de confianza del 95%, busque 0.9750en el cuerpo la tabla A-2, no 0.95.

El ejemplo anterior mostró que un nivel de confianza del 95% da por resul-tado un valor crítico de za/2 = 1.96. Éste es el valor crítico más común y se listajunto con otros dos valores comunes en la siguiente tabla.

Nivel de confianza a valor crítico, Zo2

90% 0.10 1.64595% 0.05 1.9699% 0.01 2.575

Margen de errorCuando reunimos un conjunto de datos muestrales, como los datos sobre la terapiade contacto de Emily Rosa en el problema del capítulo (donde el 44% de los 280ensayos correspondieron a identificaciones correctas), podemos calcular la pro-porción muestra! p y esta proporción muestral suele ser diferente de la proporciónpoblacional p. La diferencia entre la proporción muestral y la proporción de la po-blación se considera un error. Ahora definimos e] margen de error E como sigue.

t

Definición

Cuando se utilizan los datos de una muestra aleatoria simple para estimar12 una proporción poblacional p, el margen de error, denotado por E, es la

diferencia máxima probable (con probabilidad 1 — a) entre la proporciónmuestral fi observada y el valor real de la proporción poblacional p. Elmargen de error E también se llama error máximo del estimado y se calculamultiplicando el valor crítico por la desviación estándar de las proporciones

"\1 muestrales, como se indica en la fórmula 7-1.

Fórmula 7-1 E = zai2pq

11margen de error para proporciones

325

Falsificación

de datos

El glosario del censo del 2000

define la falsificación de datos(curbstoning) como "la prác-

tica por medio de la cual un

censor fabrica un cuestionariopara una vivienda, sin visi-

tarla". La falsificación de da-

tos ocurre cuando un censor sesienta en la acera (o en cual-

quier otro lado) y llena las

formas inventando las respues-

tas. Puesto que estos datos noson reales, afectan la validez

del censo. En varios estudios se

ha investigado la magnitud de

la falsificación: uno de ellos

reveló que aproximadamente

el 497 de los censores realizanesta práctica al menos en unaocasión.

Los métodos de la sección

7-2 suponen que los datosmuestrales se reunieron de una

forma apropiada, así que si granparte de los datos se obtuvie-ron a través de falsificaciones,

entonces los estimados de los

intervalos de confianza resul-tantes podrían tener muchos

errores.

326

Capítulo 7 Estimaciones y tamaños de muestra

Dada la forma en que se define el margen de error E, existe una probabilidad de

a de que una proporción muestral sea errónea por más de E.

Intervalo de confianza (o estimado de intervalo)t°3111 para la proporción poblacional p

p—E<p<P+E donde E= zo2 n

El intervalo de confianza suele expresarse en los siguientes formatos equivalentes:

fi ± E

o

(fi — E , P + E)

En el capítulo 4, cuando las probabilidades se expresaban en forma decimal,redondeábamos a tres dígitos significativos. Aquí utilizamos esa misma regla deredondeo.

Regla de redondeo para estimados de intervalode confianza de p

Redondee los límites del intervalo de confianza para p a tres dígitos significativos.

Con base en los resultados anteriores, podemos resumir el procedimiento paraconstruir un estimado del intervalo de confianza de una proporción poblacional p

como sigue.

Procedimiento para construir un intervalo de confianza para p

Verifique que los supuestos requeridos se cumplen (la muestra es aleatoriasimple, las condiciones para la distribución binomial se satisfacen y existen almenos 5 éxitos y al menos 5 fracasos).

Remítase a la tabla A-2 y encuentre el valor crítico za/2 que corresponde alnivel de confianza deseado. (Por ejemplo, si el nivel de confianza es del95%, el valor crítico es z„ /2 = 1.96).

Evalúe el margen de error E = ZaRVNIn.

Utilizando el valor del margen de error E calculado y el valor de la proporción

muestral p, calcule los valores de fi — E y "p + E. Sustituya esos valores en el

formato general para el intervalo de confianza:

P—E<p<P+E

fi ± E

(P — E,P + E)

5. Redondee los límites del intervalo de confianza resultantes a tres dígitossignificativos.

o

o

7-2 Estimación de la proporción de una población 327

EJEMPLO Tasa de éxito de la terapia de contacto En elproblema del capítulo señalamos que los terapeutas de contacto par-ticiparon en 280 pruebas de su capacidad para percibir el campo de

energía humana. En cada ensayo se pidió a un terapeuta que identificara lamano que estaba debajo de la mano de Emily Rosa. De los 280 ensayos, losterapeutas acertaron en 123 ocasiones. Los resultados muestrales son n = 280 y

= 123/280 = 0.439286. (En vez de utilizar 0.44 para la proporción muestral,empleamos decimales adicionales para que los cálculos posteriores no se veanafectados por un error de redondeo).

a. Calcule el margen de error E que corresponde a un nivel de confianza del 95%.h. Calcule el estimado del intervalo de confianza del 95% de la proporción

poblacional p.c. Con base en los resultados, ¿qué podemos concluir acerca de la eficacia de

la terapia de contacto?

SOLUCIÓNREQUISITO 3 Primero debemos verificar que se satisfacen los requisitosnecesarios. (Antes, en esta sección indicarnos los requisitos para utilizar unadistribución normal como aproximación de una distribución binomial). Dadoel diseño del experimento, es razonable suponer que la muestra es aleatoriasimple. Las condiciones para un experimento binomial se satisfacen, ya queexiste un número fijo de ensayos (280), los ensayos son independientes (por-que el resultado de un ensayo no afecta la probabilidad del resultado de otroensayo), hay dos categorías de resultados (correcto e incorrecto) y la probabili-dad de acertar permanece constante. Asimismo, con 123 identificaciones co-rrectas en 280 ensayos, se obtienen 157 identificaciones incorrectas, de maneraque el número de éxitos (123) y el número de fracasos (157) son de al menos 5.Completamos con éxito la verificación de los requisitos. 3

El margen de error se calcula usando la fórmula 7 - 1 con za/2 = 1.96 (comose calculó en el ejemplo anterior), fi = 0.439286, q = 1 — 0.439286 =0.560714 y n = 280.

E = za/2\Ifr4

= 1.96 (0.439286)(0

0

.560714) = 0.058133

28

Construir el intervalo de confianza es bastante fácil ahora que tenernos losvalores de /3 y E. Simplemente sustituimos esos valores para obtener esteresultado:

—E<p<p +E

0.439286 — 0.058133 < p < 0.439286 + 0.058133

0.381 < p < 0.497 (redondeado a tres dígitos significativos)

Este mismo resultado podría expresarse en el formato de 0.439 ± 0.058 o(0.381, 0.497). Si queremos el intervalo de confianza del 95% para el por-centaje real de la población, podemos expresar el resultado como 38.1% < p< 49.7%. Este intervalo de confianza suele reportarse con una afirmacióncomo ésta: "Se estima que la tasa de éxito es del 44%, con un margen deerror de más o menos 6 puntos porcentuales". Tal enunciado es una expresiónverbal de ese formato para el intervalo de confianza: 44% ± 6%. El nivel deconfianza debe reportarse también, aunque rara vez se hace en los mediosde comunicación. En general, los medios de comunicación usan un nivel deconfianza del 95%, pero omiten cualquier referencia a él.

continúa

Tamaño muestral para la estimación de la proporción p

Cuando se conoce un estimado fi: Fórmula 7-2 n = [za/21 2P(71

Cuando se desconoce el estimado fi:

Fórmula 7-3 n =

E2

iza/2 1 2. 0.25 E2

328 Capítulo 7 Estimaciones y tamaños de muestra

é. Para interpretar los resultados, observe que el hecho de tratar de adivinar habríaproducido alrededor de un 50% de identificaciones correctas. Si los terapeutasde contacto realmente tienen la habilidad de percibir el campo de energía hu-mano, su tasa de éxito debería ser mayor al 50% por una cantidad significativa.Sin embargo, los terapeutas de contacto tuvieron una tasa de éxito más baja delo que se esperaría con el lanzamiento de una moneda. He aquí una aseveracióndel artículo publicado en el Journal of the American Medical Association: "Elfracaso (de los terapeutas de contacto) para demostrar la afirmación fundamen-tal de la TC (terapia de contacto) es evidencia irrefutable de que las aseveracio-nes de la TC (terapia de contacto) no tienen fundamento y de que su uso profe-sional no está justificado". Con base en los resultados del proyecto de EmilyRosa para la feria de ciencias, parece que la terapia de contacto no es efectiva.

Fundamentos del margen de error Puesto que la distribución de propor-ciones muestrales es aproximadamente normal (ya que ambas condiciones np 5y t/ � 5 se satisfacen), podemos utilizar los resultados de la sección 6-6 para con

cluir que ,u, y u están dadas por ,u, = np y o- = npq. Estos dos parámetros per-tenecen a n ensayos, pero los convertimos a una base por ensayo dividiendo entren como sigue:

Medida de proporciones muestrales: =np

= ptz

Desviación estándar de proporciones muestrales: u = V npq

n

npq pqn2

El primer resultado tal vez parezca trivial, puesto que ya estipulamos que la pro-porción real de la población es p. El segundo resultado no es trivial y resulta útilpara describir el margen de error E, pero reemplazamos el producto pq por /34 por-que no conocemos todavía el valor de p (ya que es el valor que tratamos de esti-mar). La fórmula 7-1 para el margen de error refleja el hecho de que fi tiene unaprobabilidad de 1 — a de estar dentro de za/2Vpq/n de p. El intervalo de confianzapara p, como se dio previamente, refleja el hecho de que existe una probabilidadde 1 — a de que fi difiera de p menos que el margen de error E = zai2Vpqltz.

Determinación del tamaño muestralSuponga que querernos reunir datos muestrales con el objetivo de estimar algunaproporción de la población. ¿Cómo sabemos cuántos elementos muestrales debenobtenerse? Si tomamos la expresión para el margen de error E (fórmula 7-1), yluego despejamos n, obtenemos la fórmula 7-2, la cual requiere que fi sea un esti-mado de la proporción poblacional p; pero si no se conoce un estimado como éste(como suele ser el caso), reemplazamos fi por 0.5 y reemplazamos 4 por 0.5, conel resultado que se da en la fórmula 7-3.

7-2 Estimación de la proporción de una población

Regla de redondeo para determinar el tamaño muestralPara asegurar que el tamaño muestral requerido sea al menos tan grande comodebe ser, si el tamaño muestral calculado no es un número entero, redondee alsiguiente número entero mayor.

Utilice la fórmula 7-2 cuando se puedan hacer estimaciones razonables de Pusando muestras previas, un estudio piloto o el conocimiento experto de algunapersona. Cuando esto no sea posible, utilice la fórmula 7-3. Observe que las fórmu-las 7-2 y 7-3 no incluyen el tamaño de la población N, de manera que el tamaño dela población es irrelevante. (Excepción: Cuando el muestreo es sin reemplazo yprocede de una población finita relativamente pequeña. Véase el ejercicio 49).

r- EJEMPLO Tamaño muestral para una encuesta por correo elec-trónico Las formas en las que nos comunicamos se han visto afectadas drásti-camente por el uso de máquinas contestadoras telefónicas, máquinas de fax,correo de voz y correo electrónico. Suponga que un sociólogo quiere determinarel porcentaje actual de hogares en Estados Unidos que utilizan el correo electró-nico. ¿Cuántos hogares deben encuestarse para tener una confianza del 95% deque el porcentaje muestral es erróneo por no más de 4 puntos porcentuales?

a. Utilice el siguiente resultado de un estudio pionero: en 1997, el 16.9% delos hogares estadounidenses usaban correo electrónico (según datos de TheWorld Almanac and Book of Facts).

h. Suponga que no tenemos información previa que sugiera un posible valorde p.

SOLUCIÓNEl estudio previo sugiere que fi = 0.169, entonces q = 0.831 (calculado de4 = 1 — 0.169). Con un nivel de confianza del 95%, tenemos a = 0.05, en-tonces Za/2 = 1.96. Además, el margen de error es E = 0.04 (el equivalentedecimal de "cuatro puntos porcentuales"). Puesto que tenemos un valor es-timado de p, usamos la fórmula 7-2 como sigue:

[za/2 1 2P4 11.9612(0.169)(0.831)

(redondeado)

Debemos encuestar al menos 338 hogares seleccionados al azar.

Como en el inciso a), nuevamente utilizamos za12 = 1.96 y E = 0.04, perosin conocimiento previo de P (o 4), usamos la fórmula 7-3 como sigue.

[.za/2 1 2 • 0.25 [1.961 2 • 0.25n =

E2 0.042

= 600.25 = 601 (redondeado)

INTERPRETACIÓN Para tener una confianza del 95% de que nuestro porcenta-je muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero pa-ra todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Com-parando este resultado con el tamaño muestral de 338 calculado en el inciso a),podemos ver que si no tenemos conocimiento de un estudio previo, se requiere

continúa

n —E- 0.042

= 337.194 = 338

329

330 Capítulo 7 Estimaciones y tamaños de muestra

una muestra más grande para obtener los mismos resultados que cuando se puedeestimar el valor de fi. Pero ahora recurramos al sentido común: sabemos que eluso del correo electrónico está creciendo tan rápidamente que el estimado de 1997es muy antiguo para ser de utilidad. En la actualidad, mucho más del 16.9% de loshogares estadounidenses utilizan correo electrónico. Siendo realistas, necesitamosuna muestra mayor que 338 hogares. Suponiendo que en realidad no conocemosla tasa actual de uso de correo electrónico, deberíamos seleccionar al azar 601hogares. Con 601 hogares, tendremos una confianza del 95% de que estamosdentro de cuatro puntos porcentuales del porcentaje verdadero de hogares queusan correo electrónico.

Errores comunes Cuando calcule el tamaño muestral, trate de evitar los si-guientes dos errores comunes: 1. No corneta el error de utilizar E = 4 corno elmargen de error correspondiente a "cuatro puntos porcentuales". 2. Asegúrese desustituir la puntuación z crítica por za/2 . Por ejemplo, si usted trabaja con una con-fianza del 95%, asegúrese de reemplazar z a./2 por 1.96. No corneta el error dereemplazar za12 por 0.95 o 0.05.

Tamaño de la población Muchas personas creen de manera errónea que eltamaño de la muestra debe ser algún porcentaje de la población; sin embargo, lafórmula 7-3 indica que el tamaño de la población es irrelevante. (En realidad, eltamaño de la población se utiliza algunas veces, pero sólo en casos en los que ha-cemos un muestreo sin reemplazo de una población relativamente pequeña. Véaseel ejercicio 49). Las encuestas suelen utilizar tamaños muestrales en el rango de1000 a 2000 y, aunque encuestas como éstas quizá implican un porcentaje muypequeño de la población total. logran generar resultados bastante buenos.

Cálculo del estimado puntual y de E desde un intervalo de confianzaAlgunas veces queremos comprender mejor un intervalo de confianza que podríahaberse obtenido de un artículo de una revista, o que podría haberse generado pormedio de programas de cómputo o una calculadora. Si ya conocemos los límitesdel intervalo de confianza, la proporción muestral 1-5 y el margen de error E secalculan como sigue:

Estimado puntual de p:

(límite de confianza superior) + (límite de confianza inferior) P = 2

Margen de error:

E = (límite de confianza superior) — (límite de confianza inferior)

2

EJEMPLO El artículo "High-Dose Nicotine Patch Therapy" de Dale, Hurtet al. (Journal of the American Medical Association, vol. 274, núm. 17) incluyeesta afirmación: "De los 71 sujetos, el 70% se abstuvo de fumar durante 8 se-manas (intervalo de confianza l IC1 del 95%, del 58% al 81%)". Utilice estaafirmación para calcular el estimado puntual fi y el margen de error E.

SOLUCIÓN De la afirmación dada, vemos que el intervalo de confianza del

95% es 0.58 < p < 0.81. El estimado puntual "P es el valor medio entre los lí-mites superior e inferior del intervalo de confianza, de manera que obtenemos

7-2 Estimación de la proporción de una población

(límite de confianza superior) + (límite de confianza inferior)

2

0.81 + 0.58

2= 0.695

El margen de error se calcula como sigue:

E — (límite de confianza superior) — (límite de confianza inferior)

2

0.81 — 0.58

2= 0.115

Intervalos de confianza con el mejor desempeñoNota importante: Los ejercicios de esta sección se basan en el intervalo de con-fianza que describimos antes y no en los intervalos de confianza que se describena continuación.

El intervalo de confianza descrito en esta sección tiene el formato que gene-ralmente se presenta en los cursos de introducción a la estadística, pero no tieneun desempeño tan bueno como otros intervalos de confianza. El intervalo de con-fianza Wald ajustado se desempeña mejor en el sentido de que su probabilidad decontener la verdadera proporción de población p es más cercana al nivel de con-fianza que se utiliza. El intervalo de confianza Wald ajustado emplea el siguienteprocedimiento sencillo: se suma 2 al número de éxitos x, se suma 2 al número defracasos (de manera que el número de ensayos n aumenta en 4), y luego se calculael intervalo de confianza de la misma forma descrita en esta sección. Por ejemplo,si utilizamos los métodos de esta sección con x = 10 y n = 20, obtenemos el si-guiente intervalo de confianza del 95%: 0.281 < p < 0.719. Con x = 10 y n = 20aplicamos el intervalo de confianza Wald ajustado permitiendo que x = 12 y n = 24para obtener el siguiente intervalo de confianza: 0.300 < p < 0.700. La probabili-dad de que el intervalo de confianza 0.300 < p < 0.700 incluya a p se acerca másal 95% que la probabilidad de que 0.281 < p < 0.719 incluya a p.

Otro intervalo de cónfianza que tiene mejor desempeño que el descrito enesta sección y que el intervalo de confianza Wald ajustado es el intervalo deconfianza de la puntuación de Wilson. Este intervalo posee el límite inferior delintervalo de confianza que se indica abajo, y el límite superior del intervalo deconfianza se expresa al cambiar el signo menos por un signo más. (Es fácil verpor qué este enfoque no se utiliza mucho en los cursos de introducción a la esta-dística). Utilizando x = 10 y n = 20, el intervalo de confianza de la puntuaciónde Wilson es 0.299 < p < 0.701.

2Za/2

P + 2n — Za/22

Za/2 n

Para revisar una explicación sobre estos y otros intervalos de confianza para p,véase "Approximation is Better than `Exace for Interval Estimation of BinomialProportions", de Agresti y Coull, American Statistician, vol. 52. núm. 2.

331

Uso de la tecnologíapara intervalos deconfianza

STATD1SK Seleccione Analysis, lue-go Confidence Intervals, después Propor-tion One Sample y proceda a ingresar loselementos que se le piden.

MINITAB Seleccione Stat, Basic Sta-tistics, luego 1 Proportion. En el cuadro dediálogo, haga clic en el botón SummarizedData. También haga clic en el botón de Op-tions, ingrese el nivel de confianza deseado(el predeterminado es del 95%). En vez deutilizar una aproximación normal, el proce-dimiento predeterminado de Minitab consis-te en determinar los límites del intervalo deconfianza por medio de un método exacto.

Para usar el método de aproximación nor-mal presentado en esta sección, haga clicen Options y luego en el cuadro con la fra-se: "Use test and interval based on normaldistribution".

EXCEL Utilice Data Desk XL, que esun complemento de este libro. Primero in-grese el número de éxitos en la celda Al,después ingrese el número total de ensayosen la celda Bl. Haga clic en DDXL y selec-cione Confidence Intervals. luego seleccio-ne Summ 1 Var Prop Interval (que es laforma abreviada de "intervalo de confianzapara una proporción utilizando datos resu-midos para una variable"). Haga clic en elicono que muestra un lápiz para "Num suc-cesses" e ingrese A 1 . Haga clic en el iconocon forma de lápiz para "Num trials" e in-grese Bl. Haga clic en OK. En el cuadro de

diálogo, seleccione el nivel de confianzay luego haga clic en Compute Interval.

TI-83/84 PLUS Oprima STAT, se-leccione TESTS, luego seleccione 1-Prop-Zlnt y proceda a ingresar los elementos quese piden. La siguiente pantalla correspondeal resultado del ejemplo del intervalo deconfianza presentado en esta sección.

11-83/84 Plus

1-ProPZ I nt. 38115, 49742)

.=. 4392857143n=22171

Uso de la tecnologíapara la determina-ción del tamañomuestral

STATDISK

Seleccione Analysis, des-pués Sample Size Determination. luego

Estimate Proportion. Proceda a ingresarlos elementos que se le piden en el cuadrode diálogo.

La determinación del tamaño muestral noestá disponible como una función incluidaen Minitab, Excel o la calculadora TI-83/84Plus.

332 Capítulo 7

Estimaciones y tamaños de muestra

7-2 DESTREZAS Y CONCEPTOS BÁSICOSConocimientos estadísticos y pensamiento crítico

Valor crítico. ¿Qué es un valor crítico en una distribución normal?

Margen de error. ¿Qué es un margen de error?

Intervalo de confianza. Al entrevistar a 500 personas, obtenemos 200 respuestasafirmativas a una pregunta específica, de manera que se estima que la proporción derespuestas afirmativas de toda la población es de 0.4. Dado que tenemos el valor esti-mado de 0.4, ¿por qué necesitaríamos un intervalo de confianza? Es decir, ¿qué infor-mación adicional brinda el intervalo de confianza?

Muestreo. Un estudiante encuesta a 100 compañeros de clase y les pregunta si tienendeudas pendientes. Después de calcular la proporción muestral de esta muestra den = 100 sujetos, ¿se pueden utilizar los métodos de esta sección para estimar la pro-porción de todos los adultos que tienen deudas pendientes? ¿Por qué?

7-2 Estimación de la proporción de una población

Cálculo de valores críticos. En los ejercicios 5 a S, calcule el valor crítico z ap que co-rresponde al nivel de confianza dado.

5. 99% 6. 90%

7. 98% 8. 99.5%

Exprese el intervalo de confianza 0.220 < p < 0.444 en la forma de 13 ± E.

Exprese el intervalo de confianza 0.600 < p < 0.800 en la forma de p ± E.

Exprese el intervalo de confianza (0.206, 0.286) en la forma de 13 ± E.

Exprese el intervalo de confianza 0.337 ± 0.050 en la forma de P-E<p<13 + E.

Interpretación de los límites del intervalo de confianza. En los ejercicios 13 a 16, utilicelos límites de intervalo de confianza dados para calcular el estimado puntual fi y el ~gende error E.

13. (0.868, 0.890) 14. 0.325 < p < 0.375

15. 0.607 < p < 0.713 16. 0.0144 < p < 0.0882

Cálculo del margen de error. En los ejercicios 17 a 20, suponga que una muestra seutiliza para estimar una proporción poblacional p. Calcule el margen de error E quecorresponde al estadístico y al nivel de confianza dados.

u = 500, x = 200, 95% de confianza

n = 1200, x = 800, 99% de confianza

98% de confianza; el tamaño muestra] es 1068, de los cuales el 25% son éxitos.

90% de confianza; el tamaño muestral es 2107. de los cuales el 65% son éxitos.

Construcción de intervalos de confianza. En los ejercicios 21 a 24, use los datos mues-trales y el nivel de confianza para construir el intervalo de confianza estimado de la pro-porción poblacional p.

n = 500, x = 200, 95% de confianza

n = 1200, x = 800, 99% de confianza

n = 1068, x = 267, 98% de confianza

n = 4500, x = 2925, 90% de confianza

Determinación del tamaño muestra'. En los ejercicios 25 a 28, utilice los datos para calcu-lar el tamaño muestral mínimo requerido para estimar una proporción o porcentaje derara población.

Margen de error: 0.020; nivel de confianza: 95%; fi y y desconocidas

Margen de error: 0.050; nivel de confianza: 99%; p y gdesconocidas

Margen de error: tres puntos porcentuales; nivel de confianza: 95%; de un estudioprevio. p se estima por el equivalente decimal del 27%.

Margen de error: cinco puntos porcentuales; nivel de confianza: 90%; de un estudioprevio, p se estima por el equivalente decimal del 65%.

29. Selección del género. El Genetics and IVF Institute realizó una prueba clínica delmétodo XSORT, diseñado para incrementar la probabilidad de concebir una niña. Pa-ra cuando se escribía este libro, ya habían nacido 325 bebés de padres que utilizaronel método XSORT y 295 de ellos eran niñas. Utilice los datos muestrales para cons-truir un estimado del intervalo de confianza del 99% del porcentaje de niñas nacidasde padres que utilizaron el método XSORT. Con base en el resultado, ¿parece que elmétodo XSORT es efectivo? ¿Por qué?

333

334 Capítulo 7 Estimaciones y tamaños de muestra

Selección del género. El Genetics and IVF Institute realizó una prueba clínica delmétodo YSORT, diseñado para incrementar la probabilidad de concebir un hijo varón.Para cuando se escribía este libro, ya habían nacido 51 bebés de padres que utilizaronel método YSORT y 39 eran varones. Utilice los datos muestrales para construir unestimado del intervalo de confianza del 99% del porcentaje de niños nacidos de padresque utilizaron el método YSORT. Con base en el resultado, ¿parece que el métodoYSORT es efectivo? ¿Por qué?

Posposición de la muerte. Una hipótesis interesante y del dominio público dice que losindividuos pueden posponer temporalmente su muerte para estar presentes en una festivi-dad o en un suceso importante como un cumpleaños. En un estudio de este fenómeno, sedescubrió que la semana previa y la semana posterior al Día de Acción de Gracias huboun total de 12,000 muertes, y que 6062 de ellas ocurrieron la semana anterior al Día deAcción de Gracias (según datos de "Holidays, Birthdays, and Postponement of Can-cer Death", de Young y Hade, Journal of the American Medical Association, vol. 292,núm. 24). Construya un estimado del intervalo de confianza del 95% para la proporciónde muertes ocurridas la semana anterior al Día de Acción de Gracias, con respecto a lasmuertes totales durante la semana previa y la semana posterior al Día de Acción de Gra-cias. Con base en el resultado, ¿existe algún indicador de que la gente pueda posponertemporalmente su muerte para estar presente el Día de Acción de Gracias? ¿Por qué?

Negligencia médica. Un problema importante que enfrentan los estadounidenses es lagran cantidad de demandas por negligencia médica y los gastos que éstas generan. Enun estudio de 1228 demandas por negligencia médica elegidas al azar, se descubrióque 856 de ellas se retiraron o se rechazaron posteriormente (según datos de la Physi-cian Insurers Association of America). Construya un estimado del intervalo de confianzadel 99% de la proporción de demandas por negligencia médica que fueron retiradas orechazadas. Al parecer, ¿la mayoría de estas demandas se retiraron o se rechazaron?

Genética mendeliana. Cuando Mendel realizó sus famosos experimentos genéticoscon guisantes, una muestra de vástagos consistió en 428 plantas de guisantes verdes y152 de guisantes amarillos.

Calcule un estimado del intervalo de confianza del 95% del porcentaje de plantasde guisantes amarillos.Con base en su teoría genética, Mendel esperaba que el 25% de los vástagos dieranguisantes amarillos. Dado que el porcentaje de vástagos de guisantes amarillos noes el 25%, ¿contradicen los resultados la teoría de Mendel? ¿Por qué?

34. Respuestas de encuesta confusas. En una encuesta de 1002 personas, 701 dijeronque habían votado en una elección presidencial reciente (según datos del ICR ResearchGroup). Los registros de votos mostraron que el 61% de las personas con derecho avoto realmente votaron.

Calcule un estimado del intervalo de confianza del 99% de la proporción de personasque dijeron haber votado.¿Son consistentes los resultados de encuesta con los votos reales del 61%? ¿Por qué?

35. Teléfonos celulares y cáncer. Un estudio de 420,095 daneses usuarios de teléfonocelular encontró que 135 de ellos desarrollaron cáncer cerebral o del sistema nervioso.Antes de este estudio del uso de teléfono celular, se encontró que la tasa de ese tipo decáncer era de 0.0340% para aquellos que no usan teléfonos celulares. Los datos sondel Journal of the National Cancer Institute.a. Utilice los datos muestrales para construir un estimado del intervalo de confianza

del 95% para el porcentaje de usuarios de teléfono celular que desarrollan cáncerdel cerebro o del sistema nervioso.

h. ¿Parecen tener los usuarios de teléfono celular una tasa de cáncer cerebral o delsistema nervioso diferente de la tasa de cáncer de este tipo entre aquellos que nousan teléfonos celulares? ¿Por qué?

7-2 Estimación de la proporción de una población 335

Encuesta sobre clonación. Una reciente encuesta Gallup incluyó a 1012 adultoselegidos al azar, a quienes se preguntó "si se debe permitir o no la donación de sereshumanos". Los resultados mostraron que 901 de los encuestados dijeron que no debepermitirse la donación. Un reportero de noticias desea determinar si estos resultadosde encuesta constituyen una fuerte evidencia de que la mayoría de las personas(más del 50%) se oponen a este tipo de donación. Construya un estimado del inter-valo de confianza del 99% de la proporción de adultos que considera que no debepermitirse la donación de seres humanos. Con base en el resultado, ¿existen fuertesevidencias que apoyen la afirmación de que la mayoría de la gente se opone a estetipo de donación?

Sesgo en la selección de integrantes de jurado. En el caso Castaneda contra Partida,se descubrió que en el condado de Hidalgo, Texas, durante un periodo de 11 años 870personas habían sido elegidas para formar parte del gran jurado, y que el 39% de ellaseran méxico-estadounidenses. Utilice los datos muestrales para construir un estimado delintervalo de confianza del 99% de la proporción de miembros del gran jurado que eranméxico-estadounidenses. Dado que, entre la población elegible para fungir como juez, el79.1% estaba integrado por méxico-estadounidenses, ¿parece que el proceso de selecciónde los jueces tuvo algún sesgo en contra de los méxico-estadounidenses? ¿Por qué?

Detección de fraude. Cuando trabajaba para el fiscal de distrito de Brooklyn, el in-vestigador Robert Burton analizó los primeros dígitos de montos de cheques propie-dad de empresas sospechosas de fraude. De 784 cheques, en el 61% el primer dígitoera 5. Construya un estimado del intervalo de confianza del 99% de la proporción decheques en los que el primer dígito era 5. Cuando los cheques se emiten en el trans-curso normal de transacciones honestas, se espera que el 7.9% de ellos tengan montosen los que el primer dígito sea 5. ¿Qué sugiere el intervalo de confianza?

Hogares con teléfono. En 1920 sólo el 35% de los hogares estadounidenses teníanteléfono, pero ahora la proporción es mucho más alta. Una encuesta reciente de 4276hogares elegidos al azar reveló que 94% de ellos cuentan con teléfono (según datos delU.S. Census Bureau). Utilice los resultados de la encuesta y construya un estimadodel intervalo de confianza del 99% de la proporción de hogares con teléfonos. Da-do que la encuesta sólo incluye a 4276 hogares de un total de 115 millones, ¿tenemosrealmente evidencia suficiente para decir que el porcentaje de hogares con teléfono enla actualidad es mayor que la tasa del 35% en 1920?

40. Compras por Internet. En una encuesta Gallup se entrevistó a 1025 adultos selec-cionados al azar, y el 29% de ellos dijeron que utilizaban Internet para hacer comprasal menos unas cuantas veces al año.

Calcule el estimado puntual del porcentaje de adultos que utilizan Internet para ha-cer compras.Calcule un estimado del intervalo de confianza del 99% del porcentaje de adultosque utilizan Internet para hacer compras.

c. Si una tienda al detalle tradicional desea estimar el porcentaje de adultos que compranpor Internet para determinar el impacto máximo de los compradores por Internet sobresus ventas, ¿qué porcentaje de personas que compran por Internet debe considerarse?

Determinación del tamaño de la muestra. En los ejercicios 41 a 44, calcule el tamaño demuestra mínimo requerido pura e.vtiniar una proporción o un porcentaje poblacional.

41. Tamaño de muestra para compras en Internet. Muchos estados están considerandocon cuidado los pasos que les ayudarían a recolectar impuestos por ventas en artículoscomprados a través de Internet. ¿Cuántas transacciones de ventas seleccionadas al azardeben registrarse para determinar el porcentaje que se lleva a cabo a través de Internet?Suponga que queremos tener una confianza del 99% de que el porcentaje muestral estádentro de dos puntos porcentuales del porcentaje real de la población para todas lastransacciones de ventas.

336 Capítulo 7 Estimaciones y tamaños de muestra

Tamaño de muestra para descarga de canciones. La industria de la música debeadaptarse a la creciente práctica de los consumidores de descargar canciones en vez decomprar CD. Por eso es importante estimar la proporción de canciones que se descarganactualmente. ¿Cuántas adquisiciones de canciones elegidas al azar se deben considerarpara determinar el porcentaje que se obtuvo a través de descargas? Suponga que desea-mos tener una confianza del 95% de que el porcentaje de la muestra está dentro de unpunto porcentual del porcentaje real de la población de canciones que se descargan.

Nitrógeno en neumáticos. Una campaña reciente se diseñó para convencer a lospropietarios de automóviles de que debían llenar sus neumáticos con nitrógeno en vezde aire. A un costo de aproximadamente $5 por neumático, se supone que el nitrógenotiene la ventaja de escaparse con una rapidez mucho menor que el aire, por lo que lapresión ideal se puede mantener de manera más consistente. Antes de gastar grandessumas en la publicidad del nitrógeno, sería pertinente realizar una encuesta para de-terminar el porcentaje de propietarios de automóviles que estarían dispuestos a pagarpor el nitrógeno. ¿Cuántos propietarios de automóviles elegidos al azar se debenencuestar? Suponga que deseamos tener una confianza del 98% de que el porcentajede la muestra está dentro de tres puntos porcentuales del porcentaje real de todos losdueños de automóviles que estarían dispuestos a pagar por el nitrógeno.

Techo corredizo y bolsas de aire laterales. Toyota ofrece la opción de un paquete detecho corredizo y bolsas de aire laterales para su modelo Corolla. Este paquete cuesta$1400 (el precio facturado es de $1159). Suponga que antes de ofrecer la opción de estepaquete, Toyota desea determinar el porcentaje de compradores del Corolla que estaríandispuestos a pagar $1400 adicionales por el techo corredizo y las bolsas laterales.¿Cuántos compradores del Corolla se deben encuestar si deseamos tener una confianzadel 95% de que el porcentaje muestral está dentro de cuatro puntos porcentuales delporcentaje real de todos los compradores del Corolla?

Uso de conjuntos de datos del apéndice B. En los ejercicios 45 a 48 utilice el conjuntode datos indicado del apéndice B.

Dulces M&M azules. Remítase al conjunto de datos 13 del apéndice B y calcule laproporción muestral de dulces M&M que son azules. Use este resultado para crear unestimado del intervalo de confianza del 95% del porcentaje de la población de dulcesM&M azules. ¿Es congruente el resultado con la tasa del 24% que reporta Mars, elfabricante de dulces?

46. Consumo de alcohol y tabaco en películas para niños. Remítase al conjunto de datos5 del apéndice B.

Construya un estimado del intervalo de confianza del 95% para el porcentaje depelículas infantiles de dibujos animados que presentan consumo de tabaco.Construya un estimado del intervalo de confianza del 95% para el porcentaje depelículas infantiles de dibujos animados que presentan consumo de alcohol.Compare los resultados anteriores. ¿Aparecen en un alto porcentaje el tabaco o elalcohol en las películas de dibujos animados infantiles?Utilizando los resultados de los incisos a) y b) como medidas de la descripción dehábitos no saludables, ¿qué característica importante de los datos no se incluye?

47. Precipitación en Boston. Remítase al conjunto de datos 10 del apéndice B y conside-re que los días con valores de precipitación diferentes de O son días con precipitación.Construya un estimado del intervalo de confianza del 95% para la proporción de miér-coles con precipitación y también construya un estimado del intervalo de confianza del95% para la proporción de domingos con precipitación. Compare los resultados. ¿Haymayor precipitación en alguno de esos días?

48. Exactitud de temperaturas pronosticadas. Remítase al conjunto de datos 8 del apén-dice 13. Construya un estimado del intervalo de confianza del 95% para la proporción dedías con una temperatura máxima real que difiera en más de 2° de la temperatura máxi-

7-2 Estimación de la proporción de una población

ma pronosticada un día antes. Luego, construya un estimado del intervalo de confianzadel 95% para la proporción de días con una temperatura máxima real que difiera en másde 2° de la temperatura máxima pronosticada cinco días antes. Compare los resultados.

7-2 MÁS ALLÁ DE LO BÁSICO49. Uso del factor de corrección para una población finita. En esta sección se presen-

taron las fórmulas 7-2 y 7-3, que se utilizan para determinar el tamaño muestral. Enambos casos se supuso que la población es infinita o muy grande, y que se realiza unmuestreo con reemplazo. Cuando tenernos una población relativamente pequeña, contamaño N, y el muestreo se hace sin reemplazo, modificamos E para incluir el factorde corrección por población finita que se presenta aquí y despejamos n para obtenerasí el resultado que se da a continuación. Utilice este resultado para repetir el ejercicio44, suponiendo que limitamos nuestra población a 1250 compradores del Corolla deToyota en una región.

337

E = Za/2 N — n NK1ÍZ0212 n =

iMzai2i 2 + (N — 1)E2n N — 1

Intervalo de confianza unilateral. Un intervalo de confianza unilateral para p seexpresa como p<p+ Eop>P— E, donde el margen de error E se modifica reem-plazando .z„,/2 por zot . Si Air America quiere reportar un rendimiento de puntualidad deal menos x por ciento con un 95% de confianza, construya el intervalo de confianzaunilateral apropiado y luego calcule el porcentaje en cuestión. Suponga que unamuestra aleatoria simple de 750 vuelos incluye 630 que son puntuales.

Intervalo de confianza de una muestra pequeña. Existen tablas especiales dispo-nibles para encontrar intervalos de confianza para proporciones que implican númerospequeños de casos, cuando no se puede usar la aproximación por distribución normal.Por ejemplo, dado x = 3 éxitos en n = 8 ensayos, el intervalo de confianza del 95%que se encuentra en Standard Probability and Statistics Tables and Formulae (CRCPress) es 0.085 < p < 0.755. Calcule el intervalo de confianza que resultaría si ustedusara la distribución normal erróneamente como una aproximación de la distribuciónbinomial. ¿Los resultados son razonablemente cercanos?

Interpretación de límites de intervalo de confianza. Suponga que se modificauna moneda para que favorezca las caras, y que de 100 lanzamientos se obtienen95 caras. Calcule el estimado del intervalo de confianza del 99% para la proporciónde caras que se obtendrán con esta moneda. ¿Qué es poco común en los resultadosobtenidos a través de los métodos de esta sección? ¿Sugiere el sentido común unamodificación del intervalo de confianza resultante?

Regla de tres. Suponga que en n ensayos de un experimento binomial no hay ningúnéxito. De acuerdo con la Regla de tres, tenemos un 95% de confianza de que la pro-porción real de la población tiene una frontera superior de 3/n. (Véase "A Look at theRule of Three", de Jovanovic y Levy, American Statistician, vol. 51, núm. 2).a. Si en n ensayos independientes no se obtiene ningún éxito, ¿por qué no podemos

calcular los límites del intervalo de confianza usando los métodos que se describenen esta sección?

h. Si se trata a 20 pacientes con un fármaco y no hay reacciones adversas, ¿cuál es lafrontera superior del 95% para p, la proporción de todos los pacientes que experi-mentan reacciones adversas a este fármaco?

54. Exactitud de encuesta. Un artículo del New York Times acerca de los resultados deuna encuesta afirma: "En teoría, en 19 casos de 20. los resultados de una encuesta co-mo ésta no deben diferir por más de un punto porcentual en cualquier dirección de loque podría obtenerse entrevistando a todos los votantes de Estados Unidos". Calculeel tamaño muestral sugerido por esta afirmación.