Transcript
  1. 1. Probabilidad y estadstica para ingeniera y ciencias
  2. 2. Probabilidad y estadstica para ingeniera y ciencias Novena edicin Ronald E. Walpole Roanoke College Raymond H. Myers Virginia Tech Sharon L. Myers Radford University Keying Ye University of Texas at San Antonio Traduccin Leticia Esther Pineda Ayala Traductora especialista en estadstica Revisin tcnica Roberto Hernndez Ramrez Departamento de Fsica y Matemticas Divisin de Ingeniera y Tecnologas Universidad de Monterrey Linda Margarita Medina Herrera Departamento de Fsica y Matemticas Escuela de Diseo, Ingeniera y Arquitectura Instituto Tecnolgico y de Estudios Superiores de Monterrey, Campus Ciudad de Mxico
  3. 3. Authorized translation from the English language edition, entitled PROBABILITY & STATISTICS FOR ENGINEERS & SCIENTISTS 9th Edition, by RONALD E. WALPOLE, RAYMOND H. MYERS, SHARON L. MYERS and KEYING YE, published by Pearson Education, Inc., publishing as Pearson, Copyright 2012. All rights reserved. ISBN 9780321629111 Traduccin autorizada de la edicin en idioma ingls, titulada PROBABILIDAD Y ESTADSTICA PARA INGENIERA Y CIENCIAS 9 edicin por RONALD E. WALPOLE, RAYMOND H. MYERS, SHARON L. MYERS y KEYING YE, publicada por Pearson Education, Inc., publicada como Pearson, Copyright 2012. Todos los derechos reservados. Esta edicin en espaol es la nica autorizada. Edicin en espaol Direccin Educacin Superior: Mario Contreras Editor sponsor: Gabriela Lpez Ballesteros e-mail: [email protected] Editor de desarrollo: Felipe Hernndez Carrasco Supervisor de Produccin: Juan Jos Garca Guzmn Diseo de portada: Dream Studio/Edgar Maldonado Gerencia editorial Educacin Superior Latinoamrica: Marisa de Anta NOVENA EDICIN, 2012 D.R. 2012 por Pearson Educacin de Mxico, S.A. de C.V. Atlacomulco 500-5o. piso Col. Industrial Atoto 53519, Naucalpan de Jurez, Estado de Mxico Cmara Nacional de la Industria Editorial Mexicana. Reg. nm. 1031. Reservados todos los derechos. Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico, magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del editor. El prstamo, alquiler o cualquier otra forma de cesin de uso de este ejemplar requerir tambin la autorizacin del editor o de sus representantes. ISBN VERSIN IMPRESA: 978-607-32-1417-9 ISBN VERSIN E-BOOK: 978-607-32-1418-6 ISBN E-CHAPTER: 978-607-32-1419-3 Impreso en Mxico. Printed in Mexico. 1 2 3 4 5 6 7 8 9 0 - 15 14 13 12 www.pearsonenespaol.com RONALD E. WALPOLE, RAYMOND H. MYERS, SHARON L. MYERS Y KEYING YE Probabilidad y estadstica para ingeniera y ciencias Novena edicin PEARSON EDUCACIN, Mxico, 2012 ISBN: 978-607-32-1417-9 rea: Ingeniera Formato: 18.5 23.5 cm Pginas: 816
  4. 4. AGRADECIMIENTOS Pearson agradece a los profesores usuarios de esta obra y a los centros de estudio por su apoyo y retroali- mentacin, elementos fundamentales para esta nueva edicin de Probabilidad y estadstica para ingeniera y ciencias. COLOMBIA Escuela Colombiana de Ingeniera Departamento de Matemticas Susana Rondn Troncoso Pontificia Universidad Javeriana Cali Departamento de Ciencias Naturales y Matemticas Daniel Enrique Gonzlez Gmez Mara del Pilar Marn Gaviria Sandra Milena Ramrez Buelvas Universidad Catlica de Colombia Departamento de Ciencias Bsicas Queeny Madueo Pinto Universidad de La Salle Departamento de Ciencias Bsicas Maribel Mndez Corts Martha Tatiana Jimnez Valderrama Milton Armando Reyes Villamil Myrian Elena Vergara Morales COSTA RICA Instituto Tecnolgico de Costa Rica Escuela de Ingeniera en Produccin Industrial Ivannia Hasbum Fernndez Universidad de Costa Rica Escuela de Estadstica Facultad de Ciencias Econmicas Ana Teresa Garita Salas MXICO Estado de Mxico Facultad de Estudios Superiores Cuautitln C-4 Armando Aguilar Mrquez Fermn Cervantes Martnez Hctor Coss Garduo Juan Carlos Axotla Garca Miguel de Nazareth Pineda Becerril Vicente Vzquez Jurez Tecnolgico de Estudios Superiores de Coacalco Mara de la Luz Dvila Flores Martha Nieto Lpez Hctor Feliciano Martnez Osorio Jeanette Lpez Alans Tecnolgico de Estudios Superiores de Ecatepec Hctor Rodrguez Carmona ngel Hernndez Estrada Daniel Jaimes Serrano Ramn Jordn Rocha Jalisco Universidad de Guadalajara Centro Universitario de Ciencias Exactas e Ingenieras (CUCEI) Departamento de Matemticas Agustn Rodrguez Martnez Carlos Florentino Melgoza Caedo Cecilia Garibay Lpez Dalmiro Garca Nava Deliazar Pantoja Espinoza Gloria Arroyo Cervantes Javier Nava Gmez Jorge Luis Rodrguez Gutirrez Jos ngel Partida Ibarra Jos de Jess Bernal Casillas Jos de Jess Cabrera Chavarra Jos de Jess Rivera Prado Jos Sols Rodrguez Julieta Carrasco Garca Laura Esther Corts Navarro Lizbeth Daz Caldera Maribel Sierra Fuentes Mario Alberto Prado Alonso Osvaldo Camacho Castillo Rosala Buenrostro Arceo Samuel Rosalo Cuevas Universidad del Valle de Mxico, Zapopan Departamento de Ingeniera Abel Vzquez Prez Irene Isabel Navarro Gonzlez Jorge Eduardo Aguilar Rosas Miguel Arturo Barreiro Gonzlez Sinaloa Instituto Tecnolgico de Culiacn Ciencias Bsicas Cecilia Norzagaray Gmez Instituto Tecnolgico de Los Mochis Ciencias Bsicas Jess Alberto Bez Torres
  5. 5. Contenido Prefacio .......................................................................................................xv 1 Introduccin a la estadstica y al anlisis de datos..............................1 1.1 Panorama general: inferencia estadstica, muestras, poblaciones y el papel de la probabilidad ............................................................................................................1 1.2 Procedimientos de muestreo; recoleccin de los datos....................................................7 1.3 Medidas de localizacin: la media y la mediana de una muestra..................................11 Ejercicios...................................................................................................................13 1.4 Medidas de variabilidad.................................................................................................14 Ejercicios...................................................................................................................17 1.5 Datos discretos y continuos ...........................................................................................17 1.6 Modelado estadstico, inspeccin cientfica y diagnsticos grficos.............................18 1.7 Tipos generales de estudios estadsticos: diseo experimental, estudio observacional y estudio retrospectivo ...............................................................27 Ejercicios...................................................................................................................30 2 Probabilidad .........................................................................................35 2.1 Espacio muestral............................................................................................................35 2.2 Eventos...........................................................................................................................38 Ejercicios...................................................................................................................42 2.3 Conteo de puntos muestrales .........................................................................................44 Ejercicios...................................................................................................................51 2.4 Probabilidad de un evento..............................................................................................52 2.5 Reglas aditivas ...............................................................................................................56 Ejercicios...................................................................................................................59 2.6 Probabilidad condicional, independencia y regla del producto.....................................62 Ejercicios...................................................................................................................69 2.7 Regla de Bayes...............................................................................................................72 Ejercicios...................................................................................................................76 Ejercicios de repaso ..................................................................................................77
  6. 6. viii Contenido 2.8 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos...........................................................................................................79 3 Variables aleatorias y distribuciones de probabilidad......................81 3.1 Concepto de variable aleatoria.......................................................................................81 3.2 Distribuciones discretas de probabilidad.......................................................................84 3.3 Distribuciones de probabilidad continua .......................................................................87 Ejercicios...................................................................................................................91 3.4 Distribuciones de probabilidad conjunta .......................................................................94 Ejercicios.................................................................................................................104 Ejercicios de repaso ................................................................................................107 3.5 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................109 4 Esperanza matemtica.......................................................................111 4.1 Media de una variable aleatoria...................................................................................111 Ejercicios.................................................................................................................117 4.2 Varianza y covarianza de variables aleatorias..............................................................119 Ejercicios.................................................................................................................127 4.3 Medias y varianzas de combinaciones lineales de variables aleatorias.......................128 4.4 Teorema de Chebyshev................................................................................................135 Ejercicios.................................................................................................................137 Ejercicios de repaso ................................................................................................139 4.5 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................142 5 Algunas distribuciones de probabilidad discreta ............................143 5.1 Introduccin y motivacin...........................................................................................143 5.2 Distribuciones binomial y multinomial .......................................................................143 Ejercicios.................................................................................................................150 5.3 Distribucin hipergeomtrica.......................................................................................152 Ejercicios.................................................................................................................157 5.4 Distribuciones binomial negativa y geomtrica...........................................................158 5.5 Distribucin de Poisson y proceso de Poisson.............................................................161 Ejercicios.................................................................................................................164 Ejercicios de repaso ................................................................................................166 5.6 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................169
  7. 7. Contenido ix 6 Algunas distribuciones continuas de probabilidad .........................171 6.1 Distribucin uniforme continua...................................................................................171 6.2 Distribucin normal.....................................................................................................172 6.3 reas bajo la curva normal..........................................................................................176 6.4 Aplicaciones de la distribucin normal .......................................................................182 Ejercicios.................................................................................................................185 6.5 Aproximacin normal a la binomial............................................................................187 Ejercicios.................................................................................................................193 6.6 Distribucin gamma y distribucin exponencial .........................................................194 6.7 Distribucin chi cuadrada............................................................................................200 6.8 Distribucin beta..........................................................................................................201 6.9 Distribucin logartmica normal..................................................................................201 6.10 Distribucin de Weibull (opcional)..............................................................................203 Ejercicios.................................................................................................................206 Ejercicios de repaso ................................................................................................207 6.11 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos ........................................................................................................209 7 Funciones de variables aleatorias (opcional)...................................211 7.1 Introduccin.................................................................................................................211 7.2 Transformaciones de variables ....................................................................................211 7.3 Momentos y funciones generadoras de momentos......................................................218 Ejercicios.................................................................................................................222 8 Distribuciones de muestreo fundamentales y descripciones de datos.....................................................................225 8.1 Muestreo aleatorio .......................................................................................................225 8.2 Algunos estadsticos importantes ................................................................................227 Ejercicios.................................................................................................................230 8.3 Distribuciones muestrales............................................................................................232 8.4 Distribucin muestral de medias y el teorema del lmite central.................................233 Ejercicios.................................................................................................................241 8.5 Distribucin muestral de S2 ............................................................................................243 8.6 Distribucin t ..................................................................................................................246 8.7 Distribucin F.................................................................................................................251 8.8 Grficas de cuantiles y de probabilidad..........................................................................254 Ejercicios.................................................................................................................259 Ejercicios de repaso ................................................................................................260
  8. 8. x Contenido 8.9 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos ........................................................................................................262 9 Problemas de estimacin de una y dos muestras ............................265 9.1 Introduccin.................................................................................................................265 9.2 Inferencia estadstica ...................................................................................................265 9.3 Mtodos de estimacin clsicos...................................................................................266 9.4 Una sola muestra: estimacin de la media...................................................................269 9.5 Error estndar de una estimacin puntual....................................................................276 9.6 Intervalos de prediccin...............................................................................................277 9.7 Lmites de tolerancia....................................................................................................280 Ejercicios.................................................................................................................282 9.8 Dos muestras: estimacin de la diferencia entre dos medias.......................................285 9.9 Observaciones pareadas...............................................................................................291 Ejercicios.................................................................................................................294 9.10 Una sola muestra: estimacin de una proporcin........................................................296 9.11 Dos muestras: estimacin de la diferencia entre dos proporciones.............................300 Ejercicios ................................................................................................................302 9.12 Una sola muestra: estimacin de la varianza...............................................................303 9.13 Dos muestras: estimacin de la proporcin de dos varianzas......................................305 Ejercicios.................................................................................................................307 9.14 Estimacin de la mxima verosimilitud (opcional).....................................................307 Ejercicios.................................................................................................................312 Ejercicios de repaso ................................................................................................313 9.15 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................316 10 Pruebas de hiptesis de una y dos muestras..................................319 10.1 Hiptesis estadsticas: conceptos generales.................................................................319 10.2 Prueba de una hiptesis estadstica..............................................................................321 10.3 Uso de valores P para la toma de decisiones en la prueba de hiptesis ......................331 Ejercicios.................................................................................................................334 10.4 Una sola muestra: pruebas respecto a una sola media.................................................336 10.5 Dos muestras: pruebas sobre dos medias.....................................................................342 10.6 Eleccin del tamao de la muestra para la prueba de medias......................................349 10.7 Mtodos grficos para comparar medias .....................................................................354 Ejercicios.................................................................................................................356 10.8 Una muestra: prueba sobre una sola proporcin..........................................................361 10.9 Dos muestras: pruebas sobre dos proporciones...........................................................363 Ejercicios.................................................................................................................365 10.10 Pruebas de una y dos muestras referentes a varianzas.................................................366 Ejercicios.................................................................................................................369
  9. 9. Contenido xi 10.11 Prueba de la bondad de ajuste......................................................................................371 10.12 Prueba de independencia (datos categricos)..............................................................374 10.13 Prueba de homogeneidad.............................................................................................376 10.14 Estudio de caso de dos muestras..................................................................................380 Ejercicios.................................................................................................................382 Ejercicios de repaso ................................................................................................384 10.15 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................387 11 Regresin lineal simple y correlacin.............................................389 11.1 Introduccin a la regresin lineal.................................................................................389 11.2 El modelo de regresin lineal simple (RLS)................................................................390 11.3 Mnimos cuadrados y el modelo ajustado ...................................................................394 Ejercicios.................................................................................................................398 11.4 Propiedades de los estimadores de mnimos cuadrados ..............................................400 11.5 Inferencias sobre los coeficientes de regresin............................................................403 11.6 Prediccin ....................................................................................................................408 Ejercicios.................................................................................................................411 11.7 Seleccin de un modelo de regresin ..........................................................................414 11.8 El mtodo del anlisis de varianza...............................................................................414 11.9 Prueba para la linealidad de la regresin: datos con observaciones repetidas.............416 Ejercicios.................................................................................................................421 11.10 Grficas de datos y transformaciones ..........................................................................424 11.11 Estudio de caso de regresin lineal simple..................................................................428 11.12 Correlacin ..................................................................................................................430 Ejercicios.................................................................................................................435 Ejercicios de repaso ................................................................................................436 11.13 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................442 12 Regresin lineal mltiple y ciertos modelos de regresin no lineal.......................................................................443 12.1 Introduccin.................................................................................................................443 12.2 Estimacin de los coeficientes.....................................................................................444 12.3 Modelo de regresin lineal en el que se utilizan matrices...........................................447 Ejercicios.................................................................................................................450 12.4 Propiedades de los estimadores de mnimos cuadrados ..............................................453 12.5 Inferencias en la regresin lineal mltiple ..................................................................455 Ejercicios.................................................................................................................461 12.6 Seleccin de un modelo ajustado mediante la prueba de hiptesis .............................462
  10. 10. xii Contenido 12.7 Caso especial de ortogonalidad (opcional)..................................................................467 Ejercicios.................................................................................................................471 12.8 Variables categricas o indicadoras.............................................................................472 Ejercicios.................................................................................................................476 12.9 Mtodos secuenciales para la seleccin del modelo....................................................476 12.10 Estudio de los residuales y violacin de las suposiciones (verificacin del modelo).............................................................................................482 12.11 Validacin cruzada, Cp, y otros criterios para la seleccin del modelo.......................487 Ejercicios.................................................................................................................494 12.12 Modelos especiales no lineales para condiciones no ideales.......................................496 Ejercicios.................................................................................................................500 Ejercicios de repaso ................................................................................................501 12.13 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................506 13 Experimentos con un solo factor: generales..................................507 13.1 Tcnica del anlisis de varianza...................................................................................507 13.2 La estrategia del diseo de experimentos ....................................................................508 13.3 Anlisis de varianza de un factor: diseo completamente aleatorizado (ANOVA de un factor).................................................................................................509 13.4 Pruebas de la igualdad de varias varianzas..................................................................516 Ejercicios.................................................................................................................518 13.5 Comparaciones de un grado de libertad.......................................................................520 13.6 Comparaciones mltiples.............................................................................................523 Ejercicios.................................................................................................................529 13.7 Comparacin de un conjunto de tratamientos en bloques ...........................................532 13.8 Diseos de bloques completos aleatorizados...............................................................533 13.9 Mtodos grficos y verificacin del modelo................................................................540 13.10 Transformaciones de datos en el anlisis de varianza .................................................543 Ejercicios.................................................................................................................545 13.11 Modelos de efectos aleatorios......................................................................................547 13.12 Estudio de caso ............................................................................................................551 Ejercicios.................................................................................................................553 Ejercicios de repaso ................................................................................................555 13.13 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................559 14 Experimentos factoriales (dos o ms factores) ..............................561 14.1 Introduccin.................................................................................................................561 14.2 Interaccin en el experimento de dos factores.............................................................562 14.3 Anlisis de varianza de dos factores............................................................................565 Ejercicios.................................................................................................................575
  11. 11. Contenido xiii 14.4 Experimentos de tres factores......................................................................................579 Ejercicios.................................................................................................................586 14.5 Experimentos factoriales para efectos aleatorios y modelos mixtos ..........................588 Ejercicios.................................................................................................................592 Ejercicios de repaso ................................................................................................594 14.6 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos ........................................................................................................596 15 Experimentos factoriales 2k y fracciones .......................................597 15.1 Introduccin.................................................................................................................597 15.2 El factorial 2k : clculo de efectos y anlisis de varianza .............................................598 15.3 Experimento factorial 2k sin rplicas ...........................................................................604 Ejercicios.................................................................................................................609 15.4 Experimentos factoriales en un ajuste de regresin.....................................................612 15.5 El diseo ortogonal......................................................................................................617 Ejercicios.................................................................................................................625 15.6 Experimentos factoriales fraccionarios........................................................................626 15.7 Anlisis de experimentos factoriales fraccionados......................................................632 Ejercicios.................................................................................................................634 15.8 Diseos de fracciones superiores y de filtrado ............................................................636 15.9 Construccin de diseos de resolucin III y IV, con 8, 16 y 32 puntos de diseo...................................................................................637 15.10 Otros diseos de resolucin III de dos niveles; los diseos de Plackett-Burman........638 15.11 Introduccin a la metodologa de superficie de respuesta ...........................................639 15.12 Diseo robusto de parmetros......................................................................................643 Ejercicios.................................................................................................................652 Ejercicios de repaso ................................................................................................653 15.13 Posibles riesgos y errores conceptuales; relacin con el material de otros captulos.........................................................................................................654 16 Estadstica no paramtrica..............................................................655 16.1 Pruebas no paramtricas ..............................................................................................655 16.2 Prueba de rango con signo...........................................................................................660 Ejercicios.................................................................................................................663 16.3 Prueba de la suma de rangos de Wilcoxon ..................................................................665 16.4 Prueba de Kruskal-Wallis ............................................................................................668 Ejercicios.................................................................................................................670 16.5 Pruebas de rachas.........................................................................................................671 16.6 Lmites de tolerancia....................................................................................................674
  12. 12. xiv Contenido 16.7 Coeficiente de correlacin de rango .............................................................................674 Ejercicios.................................................................................................................677 Ejercicios de repaso ................................................................................................679 17 Control estadstico de la calidad.....................................................681 17.1 Introduccin.................................................................................................................681 17.2 Naturaleza de los lmites de control.............................................................................683 17.3 Objetivos de la grfica de control ................................................................................683 17.4 Grficas de control para variables................................................................................684 17.5 Grficas de control para atributos................................................................................697 17.6 Grficas de control de cusum.......................................................................................705 Ejercicios de repaso ................................................................................................706 18 Estadstica bayesiana.......................................................................709 18.1 Conceptos bayesianos..................................................................................................709 18.2 Inferencias bayesianas .................................................................................................710 18.3 Estimados bayesianos mediante la teora de decisin .................................................717 Ejercicios.................................................................................................................718 Bibliografa ...............................................................................................721 Apndice A: Tablas y demostraciones estadsticas................................725 Apndice B: Respuestas a los ejercicios impares (no de repaso) ...........................................................................................769 ndice.........................................................................................................785
  13. 13. xv Prefacio Enfoque general y nivel matemtico Al elaborar la novena edicin, nuestro inters principal no fue tan slo agregar material nuevo sino brindar claridad y mejor comprensin. Este objetivo se logr en parte al in- cluir material nuevo al final de los captulos, lo cual permite que se relacionen mejor. Con cierto afecto llamamos contratiempos a los comentarios que aparecen al final de los captulos, pues son muy tiles para que los estudiantes recuerden la idea general y la forma en que cada captulo se ajusta a esa imagen; as como para que entiendan las limi- taciones y los problemas que resultaran por el uso inadecuado de los procedimientos. Los proyectos para la clase favorecen una mayor comprensin de cmo se utiliza la es- tadstica en el mundo real, por lo que aadimos algunos proyectos en varios captulos. Tales proyectos brindan a los estudiantes la oportunidad de trabajar solos o en equipo, y de reunir sus propios datos experimentales para realizar inferencias. En algunos casos, el trabajo implica un problema cuya solucin ejemplifica el significado de un concepto, o bien, favorece la comprensin emprica de un resultado estadstico importante. Se am- pliaron algunos de los ejemplos anteriores y se introdujeron algunos nuevos para crear estudios de caso, los cuales incluyen un comentario para aclarar al estudiante un con- cepto estadstico en el contexto de una situacin prctica. En esta edicin seguimos haciendo nfasis en el equilibrio entre la teora y las apli- caciones. Utilizamos el clculo y otros tipos de conceptos matemticos, por ejemplo, de lgebra lineal, casi al mismo nivel que en ediciones anteriores. Las herramientas analti- cas para la estadstica se cubren de mejor manera utilizando el clculo en los casos donde el anlisis se centra en las reglas de los conceptos de probabilidad. En los captulos 2 a 10 se destacan las distribuciones de probabilidad y la inferencia estadstica. En los captulos 11 a 15, en los cuales se estudian la regresin lineal y el anlisis de varian- za, se aplica un poco de lgebra lineal y matrices. Los estudiantes que utilizan este libro deben haber cursado el equivalente a un semestre de clculo diferencial e integral. El lgebra lineal es til aunque no indispensable, siempre y cuando el instructor no cubra la seccin sobre regresin lineal mltiple del captulo 12 utilizando lgebra de matrices. Al igual que en las ediciones anteriores, y con la finalidad de desafiar al estudiante, muchos ejercicios se refieren a aplicaciones cientficas y de ingeniera a la vida real. Todos los conjuntos de datos asociados con los ejercicios estn disponibles para descargar del sitio web http://www.pearsonenespaol.com/walpole.
  14. 14. xvi Prefacio Resumen de los cambios en la novena edicin varios captulos se agregaron proyectos para la clase. Los estudiantes tienen que ge- nerar o reunir sus propios datos experimentales y realizar inferencias a partir de ellos. a comprender los mtodos estadsticos que se presentan en el contexto de una si- tuacin real. Por ejemplo, la interpretacin de los lmites de confianza, los lmites de prediccin y los lmites de tolerancia se exponen utilizando situaciones de la vida real. los que ya se incluan. El objetivo de dichos comentarios es presentar cada captulo en el contexto de la idea general y analizar la forma en que los captulos se relacio- nan entre s. Otro objetivo es advertir acerca del uso inadecuado de las tcnicas estadsticas examinadas en el captulo. - cas grficas. Tambin se incluy nuevo material fundamental sobre muestreo y diseo experimental. - treo tienen la finalidad de motivar a los estudiantes a realizar las pruebas de hip- tesis y de los valores P. Esto los prepara para el material ms avanzado sobre los temas que se presentan en el captulo 10. de regresin en un modelo que presenta una gran colinealidad con otras variables. de superficie de respuesta (MSR). El uso de las variables del ruido en la MSR permite ejemplificar los modelos de la media y la varianza (superficie de respuesta doble). mtodos bayesianos para la toma de decisiones estadsticas. Contenido y planeacin del curso Este libro est diseado para un curso de uno o dos semestres. Un plan razonable para el curso de un semestre podra incluir los captulos 1 a 10, lo cual dara como resultado un programa que concluye con los fundamentos de la estimacin y la prueba de hipte- sis. Los profesores que desean que los estudiantes aprendan la regresin lineal simple podran incluir una parte del captulo 11. Para quienes deseen incluir el anlisis de varianza en vez de la regresin, el curso de un semestre podra incluir el captulo 13 en vez de los captulos 11 y 12. El captulo 13 trata el tema del anlisis de varianza de un factor. Otra opcin consiste en eliminar partes de los captulos 5 o 6, as como el captulo 7. Al hacer esto se omitiran las distribuciones discretas o continuas, mismas que inclu- yen la binomial negativa, la geomtrica, la gamma, la de Weibull, la beta y la logartmi- ca normal. Otros contenidos que se podran omitir en un programa de un semestre son la estimacin de mxima verosimilitud, la prediccin y los lmites de tolerancia del
  15. 15. Prefacio xvii captulo 9. El programa para un semestre suele ser flexible, dependiendo del inters que el profesor tenga en la regresin, el anlisis de varianza, el diseo experimental y los mtodos de superficie de respuesta (captulo 15). Existen varias distribuciones discretas y continuas (captulos 5 y 6) que tienen aplicaciones en diversas reas de la ingeniera y las ciencias. Los captulos 11 a 18 incluyen una gran cantidad de material que se podra agregar al segundo semestre, en caso de que se eligiera un curso de dos semestres. El material sobre la regresin lineal simple y mltiple se estudia en los captulos 11 y 12, respecti- vamente. El captulo 12 puede ser muy flexible. La regresin lineal mltiple incluye temas especiales, como variables categricas o indicadoras, mtodos secuenciales para la seleccin de modelos, por ejemplo, la regresin por etapas, el estudio de residua- les para la deteccin de violaciones de supuestos, la validacin cruzada y el uso de los estadsticos PRESS, as como el de Cp y la regresin logstica. Se hace hincapi en el uso de regresores ortogonales, un precursor del diseo experimental en el captulo 15. Los captulos 13 y 14 ofrecen hasta cierto grado material abundante sobre el anlisis de va- rianza (ANOVA), con modelos fijos, aleatorios y mixtos. En el captulo 15 se destaca la aplicacin de los diseos con dos niveles en el contexto de los experimentos factoriales fraccionarios y completos (2k ). Tambin se ejemplifican los diseos especiales de selec- cin. En el captulo 15 se incluye asimismo una nueva seccin sobre la metodologa de superficie de respuesta (MSR), para ejemplificar el uso del diseo experimental con la finalidad de encontrar condiciones ptimas de proceso. Se analiza el ajuste de un modelo de segundo orden utilizando un diseo complejo central. La MSR se ampla para abarcar el anlisis de problemas sobre el diseo de un parmetro robusto. Las variables de ruido se utilizan para ajustar modelos dobles de superficie de respuesta. Los captulos 16, 17 y 18 incluyen una cantidad moderada de material sobre estadstica no paramtrica, control de calidad e inferencia bayesiana. El captulo 1 es un bosquejo de la inferencia estadstica, presentada a un nivel ma- temtico sencillo, pero de manera ms amplia que en la octava edicin con el propsito de examinar ms detalladamente los estadsticos de una sola cifra y las tcnicas grficas. Este captulo est diseado para brindar a los estudiantes una presentacin preliminar de los conceptos fundamentales que les permitirn entender los detalles posteriores de mayor complejidad. Se presentan conceptos clave sobre muestreo, recoleccin de datos y diseo experimental, as como los aspectos rudimentarios de las herramientas grficas y la infor- macin que se obtiene a partir de un conjunto de datos. Tambin se agregaron las grficas de tallo y hojas, y las de caja y bigotes. Las grficas estn mejor organizadas y etique- tadas. El anlisis de la incertidumbre y la variacin en un sistema se ilustra de forma detallada. Se incluyen ejemplos de cmo clasificar las caractersticas importantes de un sistema o proceso cientfico, y esas ideas se ilustran en ambientes prcticos, como procesos de manufactura, estudios biomdicos, y estudios de sistemas biolgicos y cientficos de otros tipos. Se efecta una comparacin entre el uso de los datos discretos y continuos; tambin se hace un mayor nfasis en el uso de modelos y de la informacin con respecto a los modelos estadsticos que se logran obtener mediante las herramientas grficas. En los captulos 2, 3 y 4 se estudian los conceptos bsicos de probabilidad, as como las variables aleatorias discretas y continuas. Los captulos 5 y 6 se enfocan en las distri- buciones discretas y continuas especficas, as como en las relaciones que existen entre ellas. En estos captulos tambin se destacan ejemplos de aplicaciones de las distribucio- nes en estudios reales cientficos y de ingeniera. Los estudios de caso, los ejemplos y una gran cantidad de ejercicios permiten a los estudiantes practicar el uso de tales distri- buciones. Los proyectos permiten la aplicacin prctica de estas distribuciones en la vida
  16. 16. xviii Prefacio real mediante el trabajo en equipo. El captulo 7 es el ms terico del libro; en l se ex- pone la transformacin de variables aleatorias, y podra ser que no se utilice a menos que el instructor desee impartir un curso relativamente terico. El captulo 8 contiene mate- rial grfico, el cual ampla el conjunto bsico de herramientas grficas presentadas y ejemplificadas en el captulo 1. Aqu se analizan las grficas de probabilidad y se ilustran con ejemplos. El muy importante concepto de las distribuciones de muestreo se presenta de forma detallada, y se proporcionan ejemplos que incluyen el teorema del lmite central y la distribucin de una varianza muestral en una situacin de muestreo independiente y normal. Tambin se presentan las distribuciones t y F para motivar a los estudiantes a utilizarlas en los captulos posteriores. El nuevo material del captulo 8 ayuda a los estu- diantes a conocer la importancia de la prueba de hiptesis mediante la presentacin del concepto del valor P. El captulo 9 contiene material sobre la estimacin puntual y de intervalos de una muestra y dos muestras. Un anlisis detallado y con ejemplos destaca las diferencias entre los tipos de intervalos (intervalos de confianza, intervalos de prediccin e interva- los de tolerancia). Un estudio de caso ilustra los tres tipos de intervalos estadsticos en el contexto de una situacin de manufactura. Este estudio de caso destaca las diferencias entre los intervalos, sus fuentes y los supuestos en que se basan, as como cules son los intervalos que requieren diferentes tipos de estudios o preguntas. Se aadi un mtodo de aproximacin para las inferencias sobre una proporcin. El captulo 10 inicia con una presentacin bsica sobre el significado prctico de la prueba de hiptesis, con un nfasis en conceptos fundamentales como la hiptesis nula y la alternativa, el papel que desem- pean la probabilidad y el valor P, as como la potencia de una prueba. Despus, se presentan ejemplos de pruebas sobre una o dos muestras en condiciones estndar. Tam- bin se describe la prueba t de dos muestras con observaciones en pares (apareadas). Un estudio de caso ayuda a los estudiantes a entender el verdadero significado de una inte- raccin de factores, as como los problemas que en ocasiones surgen cuando existen in- teracciones entre tratamientos y unidades experimentales. Al final del captulo 10 se incluye una seccin muy importante que relaciona los captulos 9 y 10 (estimacin y prueba de hiptesis) con los captulos 11 a 16, donde se destaca el modelamiento esta- dstico. Es importante que el estudiante est consciente de la fuerte relacin entre los captulos mencionados. Los captulos 11 y 12 incluyen material sobre la regresin lineal simple y mltiple, respectivamente. En esta edicin ponemos mucho ms atencin en el efecto que tiene la colinealidad entre las variables de regresin. Se presenta una situacin que muestra cmo el papel que desempea una sola variable de regresin depende en gran parte de cules son los regresores que la acompaan en el modelo. Despus se revisan los proce- dimientos secuenciales para la seleccin del modelo (hacia adelante, hacia atrs, por etapas, etctera) con respecto a este concepto, as como los fundamentos para utilizar ciertos tipos de valores P con tales procedimientos. En el captulo 12 se estudia material sobre los modelos no lineales con una presentacin especial de la regresin logstica, la cual tiene aplicaciones en ingeniera y en las ciencias biolgicas. El material sobre la re- gresin mltiple es muy extenso, de manera que, como antes se expuso, plantea una gran flexibilidad. Al final del captulo 12 se incluye un comentario que lo relaciona con los captulos 14 y 15. Se agregaron varios elementos para fomentar la comprensin del ma- terial en general. Por ejemplo, al final del captulo se describen algunas dificultades y problemas que podran surgir. Se indica que existen tipos de respuestas que ocurren de forma natural en la prctica, por ejemplo, respuestas de proporciones, de conteo y mu- chas otras, con las cuales no se debe utilizar la regresin estndar de mnimos cuadrados
  17. 17. Prefacio xix debido a que los supuestos de normalidad no se cumplen, y transgredirlos causara erro- res muy graves. Se sugiere utilizar la transformacin de datos para reducir el problema en algunos casos. Nuevamente, los captulos 13 y 14 sobre el tema del anlisis de varian- za tienen cierta flexibilidad. En el captulo 13 se estudia el ANOVA de un factor en el contexto de un diseo completamente aleatorio.Algunos temas complementarios incluyen las pruebas sobre las varianzas y las comparaciones mltiples. Se destacan las compara- ciones de tratamientos en bloque, junto con el tema de los bloques completos aleatoriza- dos. Los mtodos grficos se extendieron al ANOVA para ayudar al estudiante a complementar la inferencia formal con una inferencia pictrica que facilita la presenta- cin del material a los cientficos y a los ingenieros. Se incluye un nuevo proyecto donde los estudiantes incorporan la aleatoriedad adecuada a cada plan, y se utilizan tcnicas grficas y valores P en el informe de los resultados. En el captulo 14 se ampla el mate- rial del captulo 13 para ajustar dos o ms factores dentro de una estructura factorial. La presentacin del ANOVA en el captulo 14 incluye la creacin de modelos aleatorios y de efectos fijos. En el captulo 15 se estudia material relacionado con los diseos facto- riales 2k ; los ejemplos y los estudios de caso plantean el uso de diseos de seleccin y fracciones especiales de orden superior del factorial 2k . Dos elementos nuevos y espe- ciales son la metodologa de superficie de respuesta (MSR) y el diseo de parmetros robustos. Son temas que se relacionan en un estudio de caso que describe e ilustra un diseo doble de superficie de respuesta, as como un anlisis que incluye el uso de super- ficies de respuesta de la media y la varianza de procesos. Programa de cmputo Los estudios de caso, que inician en el captulo 8, muestran impresiones de listas de resultados por computadora y material grfico generado con los programas SAS y MINITAB. El hecho de incluir los clculos por computadora refleja nuestra idea de que los estudiantes deben contar con la experiencia de leer e interpretar impresiones de listas de resultados y grficas por computadora, incluso si el software que se utiliza en el libro no coincide con el que utiliza el profesor. La exposicin a ms de un tipo de programas aumentara la experiencia de los estudiantes. No hay razones para creer que el progra- ma utilizado en el curso coincidir con el que el estudiante tendr que utilizar en la prctica despus de graduarse. Cuando sea pertinente, los ejemplos y los estudios de caso en el libro se complementarn con diversos tipos de grficas residuales, cuantilares, de probabilidad normal y de otros tipos. Tales grficas se incluyen especialmente en los captulos 11 a 15. Complementos Manual de soluciones para el instructor. Este recurso contiene respuestas a todos los ejercicios del libro y se puede descargar del Centro de Recursos para Profesor de Pearson. Diapositivas de PowerPoint ISBN-10: 0-321-73731-8; ISBN-13: 978-0-321-73731-1. Las diapositivas incluyen la mayora de las figuras y las tablas del libro; se pueden des- cargar del Centro de Recursos para el Profesor de Pearson.
  18. 18. xx Prefacio Reconocimientos Estamos en deuda con los colegas que revisaron las anteriores ediciones de este libro y que nos dieron muchas sugerencias tiles para esta edicin. Ellos son David Groggel, de Miami University; Lance Hemlow, de Raritan Valley Community College; Ying Ji, de University of Texas at San Antonio; Thomas Kline, de University of Northern Iowa; Sheila Lawrence, de Rutgers University; Luis Moreno, de Broome County Community College; Donald Waldman, de University of Colorado-Boulder y Marlene Will, de Spalding University. Tambin queremos agradecer a Delray Schulz, de Millersville University, Roxane Burrows, de Hocking College y Frank Chmely por asegurarse de la exactitud de este libro. Nos gustara agradecer a la editorial y a los servicios de produccin suministrados por muchas personas de Pearson/Prentice Hall, sobre todo a Deirdre Lynch, la editora en jefe, a Christopher Cummings, el editor de adquisiciones, a Christine OBrien, la editora de contenido ejecutivo, a Tracy Patruno, la editora de produccin y a Sally Lifland, la editora de produccin. Apreciamos los comentarios y sugerencias tiles de Gail Magin, la correctora de estilo. Tambin estamos en deuda con el Centro de Asesora Estadstica de Virginia Tech, que fue nuestra fuente de muchos conjuntos reales de datos. R.H.M. S.L.M. K.Y.
  19. 19. 1 CAPTULO 1 Introduccin a la estadstica y al anlisis de datos 1.1 Panorama general: inferencia estadstica, muestras, poblaciones y el papel de la probabilidad Desde inicios de la dcada de los ochenta del siglo pasado y hasta lo que ha transcurrido del siglo xxi la industria estadounidense ha puesto una enorme atencin en el mejora- miento de la calidad. Se ha dicho y escrito mucho acerca del milagro industrial en Japn, que comenz a mediados del siglo xx. Los japoneses lograron el xito en donde otras naciones fallaron, a saber, en la creacin de un entorno que permita la manufactura de productos de alta calidad. Gran parte del xito de los japoneses se atribuye al uso de mtodos estadsticos y del pensamiento estadstico entre el personal gerencial. Empleo de datos cientficos El uso de mtodos estadsticos en la manufactura, el desarrollo de productos alimenti- cios, el software para computadoras, las fuentes de energa, los productos farmacuticos y muchas otras reas implican el acopio de informacin o datos cientficos. Por su- puesto que la obtencin de datos no es algo nuevo, ya que se ha realizado por ms de mil aos. Los datos se han recabado, resumido, reportado y almacenado para su examen cuidadoso. Sin embargo, hay una diferencia profunda entre el acopio de informacin cientfica y la estadstica inferencial. Esta ltima ha recibido atencin legtima en dca- das recientes. La estadstica inferencial gener un nmero enorme de herramientas de los mto- dos estadsticos que utilizan los profesionales de la estadstica. Los mtodos estadsticos se disean para contribuir al proceso de realizar juicios cientficos frente a la incerti- dumbre y a la variacin. Dentro del proceso de manufactura, la densidad de producto de un material especfico no siempre ser la misma. De hecho, si un proceso es discontinuo en vez de continuo, la densidad de material no slo variar entre los lotes que salen de la lnea de produccin (variacin de un lote a otro), sino tambin dentro de los propios lo- tes. Los mtodos estadsticos se utilizan para analizar datos de procesos como el anterior; el objetivo de esto es tener una mejor orientacin respecto de cules cambios se deben realizar en el proceso para mejorar su calidad. En este proceso la calidad bien podra
  20. 20. 2 Captulo 1 Introduccin a la estadstica y al anlisis de datos definirse en relacin con su grado de acercamiento a un valor de densidad meta en armo- na con qu parte de las veces se cumple este criterio de cercana. A un ingeniero podra interesarle un instrumento especfico que se utilice para medir el monxido de azufre en estudios sobre la contaminacin atmosfrica. Si el ingeniero dudara respecto de la efica- cia del instrumento, tendra que tomar en cuenta dos fuentes de variacin. La primera es la variacin en los valores del monxido de azufre que se encuentran en el mismo lugar el mismo da. La segunda es la variacin entre los valores observados y la cantidad real de monxido de azufre que haya en el aire en ese momento. Si cualquiera de estas dos fuentes de variacin es excesivamente grande (segn algn estndar determinado por el ingeniero), quiz se necesite remplazar el instrumento. En un estudio biomdico de un nuevo frmaco que reduce la hipertensin, 85% de los pacientes experimentaron alivio; aunque por lo general se reconoce que el medicamento actual o el viejo alivia a 80% de los pacientes que sufren hipertensin crnica. Sin embargo, el nuevo frmaco es ms caro de elaborar y podra tener algunos efectos colaterales. Se debera adoptar el nuevo medicamento? ste es un problema con el que las empresas farmacuticas, junto con la FDA (Federal Drug Administration), se encuentran a menudo (a veces es mucho ms complejo). De nuevo se debe tomar en cuenta las necesidades de variacin. El valor del 85% se basa en cierto nmero de pacientes seleccionados para el estudio. Tal vez si se repitiera el estudio con nuevos pacientes el nmero observado de xitos sera de 75%! Se trata de una variacin natural de un estudio a otro que se debe tomar en cuenta en el proceso de toma de decisiones. Es evidente que tal variacin es importante, ya que la variacin de un paciente a otro es endmica al problema. Variabilidad en los datos cientficos En los problemas analizados anteriormente los mtodos estadsticos empleados tienen que ver con la variabilidad y en cada caso la variabilidad que se estudia se encuentra en datos cientficos. Si la densidad del producto observada en el proceso fuera siempre la misma y siempre fuera la esperada, no habra necesidad de mtodos estadsticos. Si el dispositivo para medir el monxido de azufre siempre diera el mismo valor y ste fuera exacto (es decir, correcto), no se requerira anlisis estadstico. Si entre un paciente y otro no hubiera variabilidad inherente a la respuesta al medicamento (es decir, si el fr- maco siempre causara alivio o nunca aliviara), la vida sera muy sencilla para los cient- ficos de las empresas farmacuticas y de la FDA, y los estadsticos no seran necesarios en el proceso de toma de decisiones. Los investigadores de la estadstica han originado un gran nmero de mtodos analticos que permiten efectuar anlisis de datos obtenidos de sistemas como los descritos anteriormente, lo cual refleja la verdadera naturaleza de la ciencia que conocemos como estadstica inferencial, a saber, el uso de tcnicas que, al permitirnos obtener conclusiones (o inferencias) sobre el sistema cientfico, nos permiten ir ms all de slo reportar datos. Los profesionales de la estadstica usan leyes funda- mentales de probabilidad e inferencia estadstica para sacar conclusiones respecto de los sistemas cientficos. La informacin se colecta en forma de muestras o conjuntos de observaciones. En el captulo 2 se introduce el proceso de muestreo, el cual se contina analizando a lo largo de todo el libro. Las muestras se renen a partir de poblaciones, que son conjuntos de todos los indivi- duos o elementos individuales de un tipo especfico. A veces una poblacin representa un sistema cientfico. Por ejemplo, un fabricante de tarjetas para computadora podra desear eliminar defectos. Un proceso de muestreo implicara recolectar informacin de 50 tarje- tas de computadora tomadas aleatoriamente durante el proceso. En este caso la poblacin
  21. 21. 1.1 Panorama general: inferencia estadstica, muestras, poblaciones y el papel de la probabilidad 3 sera representada por todas las tarjetas de computadora producidas por la empresa en un periodo especfico. Si se lograra mejorar el proceso de produccin de las tarjetas para computadora y se reuniera una segunda muestra de tarjetas, cualquier conclusin que se obtuviera respecto de la efectividad del cambio en el proceso debera extenderse a toda la poblacin de tarjetas para computadora que se produzcan en el proceso mejorado. En un experimento con frmacos se toma una muestra de pacientes y a cada uno se le admi- nistra un medicamento especfico para reducir la presin sangunea. El inters se enfoca en obtener conclusiones sobre la poblacin de quienes sufren hipertensin. A menudo, cuando la planeacin ocupa un lugar importante en la agenda, es muy importante el acopio de datos cientficos en forma sistemtica. En ocasiones la planeacin est, por necesidad, bastante limitada. Con frecuencia nos enfocamos en ciertas propiedades o caractersticas de los elementos u objetos de la poblacin. Cada caracterstica tiene importancia de inge- niera especfica o, digamos, biolgica para el cliente, el cientfico o el ingeniero que busca aprender algo acerca de la poblacin. Por ejemplo, en uno de los casos anteriores la calidad del proceso se relacionaba con la densidad del producto al salir del proceso. Un(a) ingeniero(a) podra necesitar estudiar el efecto de las condiciones del proceso, la temperatura, la humedad, la cantidad de un ingrediente particular, etctera. Con ese fin podra mover de manera sistemtica estos factores a cualesquiera niveles que se sugie- ran, de acuerdo con cualquier prescripcin o diseo experimental que se desee. Sin embargo, un cientfico silvicultor que est interesado en estudiar los factores que influyen en la densidad de la madera en cierta clase de rbol no necesariamente tiene que disear un experimento. Este caso quiz requiera un estudio observacional, en el cual los datos se acopian en el campo pero no es posible seleccionar de antemano los niveles de los factores. Ambos tipos de estudio se prestan a los mtodos de la inferencia estadstica. En el primero, la calidad de las inferencias depender de la planeacin adecuada del experi- mento. En el segundo, el cientfico est a expensas de lo que pueda recopilar. Por ejemplo, si un agrnomo se interesara en estudiar el efecto de la lluvia sobre la produccin de plantas sera lamentable que recopilara los datos durante una sequa. Es bien conocida la importancia del pensamiento estadstico para los administrado- res y el uso de la inferencia estadstica para el personal cientfico. Los investigadores obtienen mucho de los datos cientficos. Los datos proveen conocimiento acerca del fe- nmeno cientfico. Los ingenieros de producto y de procesos aprenden ms en sus es- fuerzos fuera de lnea para mejorar el proceso. Tambin logran una comprensin valiosa al reunir datos de produccin (supervisin en lnea) sobre una base regular, lo cual les permite determinar las modificaciones que se requiere realizar para mantener el proceso en el nivel de calidad deseado. En ocasiones un cientfico slo desea obtener alguna clase de resumen de un con- junto de datos representados en la muestra. En otras palabras, no requiere estadstica inferencial. En cambio, le sera til un conjunto de estadsticos o la estadstica descrip- tiva. Tales nmeros ofrecen un sentido de la ubicacin del centro de los datos, de la va- riabilidad en los datos y de la naturaleza general de la distribucin de observaciones en la muestra. Aunque no se incorporen mtodos estadsticos especficos que lleven a la inferencia estadstica, se puede aprender mucho. A veces la estadstica descriptiva va acompaada de grficas. El software estadstico moderno permite el clculo de medias, medianas, desviaciones estndar y otros estadsticos de una sola cifra, as como el desarrollo de grficas que presenten una huella digital de la naturaleza de la muestra. En las secciones siguientes veremos definiciones e ilustraciones de los estadsticos y descripciones de recursos grficos como histogramas, diagramas de tallo y hojas, diagra- mas de dispersin, grficas de puntos y diagramas de caja.
  22. 22. 4 Captulo 1 Introduccin a la estadstica y al anlisis de datos El papel de la probabilidad En los captulos 2 a 6 de este libro se presentan los conceptos fundamentales de la pro- babilidad. Un estudio concienzudo de las bases de tales conceptos permitir al lector comprender mejor la inferencia estadstica. Sin algo de formalismo en teora de proba- bilidad, el estudiante no podra apreciar la verdadera interpretacin del anlisis de datos a travs de los mtodos estadsticos modernos. Es muy natural estudiar probabilidad antes de estudiar inferencia estadstica. Los elementos de probabilidad nos permiten cuantificar la fortaleza o confianza en nuestras conclusiones. En este sentido, los con- ceptos de probabilidad forman un componente significativo que complementa los m- todos estadsticos y ayuda a evaluar la consistencia de la inferencia estadstica. Por consiguiente, la disciplina de la probabilidad brinda la transicin entre la estadstica descriptiva y los mtodos inferenciales. Los elementos de la probabilidad permiten ex- presar la conclusin en el lenguaje que requieren los cientficos y los ingenieros. El ejemplo que sigue permite al lector comprender la nocin de un valor-P, el cual a menudo proporciona el fundamento en la interpretacin de los resultados a partir del uso de mtodos estadsticos. Ejemplo 1.1: Suponga que un ingeniero se encuentra con datos de un proceso de produccin en el cual se muestrean 100 artculos y se obtienen 10 defectuosos. Se espera y se anticipa que ocasionalmente habr artculos defectuosos. Obviamente estos 100 artculos representan la muestra. Sin embargo, se determina que, a largo plazo, la empresa slo puede tolerar 5% de artculos defectuosos en el proceso. Ahora bien, los elementos de probabilidad permiten al ingeniero determinar qu tan concluyente es la informacin muestral respec- to de la naturaleza del proceso. En este caso la poblacin representa conceptualmente todos los artculos posibles en el proceso. Suponga que averiguamos que, si el proceso es aceptable, es decir, que su produccin no excede un 5% de artculos defectuosos, hay una probabilidad de 0.0282 de obtener 10 o ms artculos defectuosos en una muestra aleatoria de 100 artculos del proceso. Esta pequea probabilidad sugiere que, en reali- dad, a largo plazo el proceso tiene un porcentaje de artculos defectuosos mayor al 5%. En otras palabras, en las condiciones de un proceso aceptable casi nunca se obtendra la informacin muestral que se obtuvo. Sin embargo, se obtuvo! Por lo tanto, es evidente que la probabilidad de que se obtuviera sera mucho mayor si la tasa de artculos defec- tuosos del proceso fuera mucho mayor que 5%. A partir de este ejemplo se vuelve evidente que los elementos de probabilidad ayu- dan a traducir la informacin muestral en algo concluyente o no concluyente acerca del sistema cientfico. De hecho, lo aprendido probablemente constituya informacin in- quietante para el ingeniero o administrador. Los mtodos estadsticos (que examinare- mos con ms detalle en el captulo 10) produjeron un valor-P de 0.0282. El resultado sugiere que es muy probable que el proceso no sea aceptable. En los captulos si- guientes se trata detenidamente el concepto de valor-P. El prximo ejemplo brinda una segunda ilustracin. Ejemplo 1.2: Con frecuencia, la naturaleza del estudio cientfico sealar el papel que desempean la probabilidad y el razonamiento deductivo en la inferencia estadstica. El ejercicio 9.40 en la pgina 294 proporciona datos asociados con un estudio que se llev a cabo en el Virginia Polytechnic Institute and State University acerca del desarrollo de una relacin entre las races de los rboles y la accin de un hongo. Los minerales de los hongos se transfieren a los rboles, y los azcares de los rboles a los hongos. Se plantaron dos muestras de 10 plantones de roble rojo norteo en un invernadero, una de ellas contena
  23. 23. 1.1 Panorama general: inferencia estadstica, muestras, poblaciones y el papel de la probabilidad 5 plantones tratados con nitrgeno y la otra plantones sin tratamiento. Todas las dems condiciones ambientales se mantuvieron constantes. Todos los plantones contenan el hongo Pisolithus tinctorus. En el captulo 9 se incluyen ms detalles. Los pesos en gramos de los tallos se registraron despus de 140 das y los datos se presentan en la tabla 1.1. Tabla 1.1: Conjunto de datos del ejemplo 1.2 Sin nitrgeno 0.32 0.26 0.53 0.43 0.28 0.47 0.37 0.49 0.47 0.52 0.43 0.75 0.36 0.79 0.42 0.86 0.38 0.62 0.43 0.46 Con nitrgeno En este ejemplo hay dos muestras tomadas de dos poblaciones distintas. El objeti- vo del experimento es determinar si el uso del nitrgeno influye en el crecimiento de las races. ste es un estudio comparativo (es decir, es un estudio en el que se busca comparar las dos poblaciones en cuanto a ciertas caractersticas importantes). Los datos se deben graficar como se indica en el diagrama de puntos de la figura 1.1. Los valores represen- tan los datos con nitrgeno y los valores los datos sin nitrgeno. Observe que la apariencia general de los datos podra sugerir al lector que, en pro- medio, el uso del nitrgeno aumenta el peso del tallo. Cuatro observaciones con nitrge- no son considerablemente ms grandes que cualquiera de las observaciones sin nitrgeno. La mayora de las observaciones sin nitrgeno parece estar por debajo del centro de los datos. La apariencia del conjunto de datos parece indicar que el nitrgeno es efectivo. Pero, cmo se cuantifica esto? Cmo se puede resumir toda la evidencia visual aparente de manera que tenga algn significado? Como en el ejemplo anterior, se pueden utilizar los fundamentos de la probabilidad. Las conclusiones se resumen en una declaracin de probabilidad o valor-P. Aqu no demostraremos la inferencia estadstica que produce la probabilidad resumida. Igual que en el ejemplo 1.1, tales mtodos se estudiarn en el captulo 10. El problema gira alrededor de la probabilidad de que datos como stos se puedan observar, dado que el nitrgeno no tiene efecto; en otras palabras, dado que ambas muestras se generaron a partir de la misma poblacin. Suponga que esta probabi- lidad es pequea, digamos de 0.03; un porcentaje que podra constituir suficiente eviden- cia de que el uso del nitrgeno en realidad influye en el peso promedio del tallo en los plantones de roble rojo (aparentemente lo aumenta). 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 Figura 1.1: Grfica de puntos de los datos de peso del tallo.
  24. 24. 6 Captulo 1 Introduccin a la estadstica y al anlisis de datos Cmo trabajan juntas la probabilidad y la inferencia estadstica? Es importante para el lector que comprenda claramente la diferencia entre la disciplina de la probabilidad, una ciencia por derecho propio, y la disciplina de la estadstica infe- rencial. Como sealamos, el uso o la aplicacin de conceptos de probabilidad permite interpretar la vida cotidiana a partir de los resultados de la inferencia estadstica. En consecuencia, se afirma que la inferencia estadstica emplea los conceptos de probabili- dad. A partir de los dos ejemplos anteriores aprendimos que la informacin muestral est disponible para el analista y que, con la ayuda de mtodos estadsticos y elementos de probabilidad, podemos obtener conclusiones acerca de alguna caracterstica de la pobla- cin (en el ejemplo 1.1 el proceso al parecer no es aceptable, y en el ejemplo 1.2 parece ser que el nitrgeno en verdad influye en el peso promedio de los tallos). As, para un problema estadstico, la muestra, junto con la estadstica inferencial, nos permite obtener conclusiones acerca de la poblacin, ya que la estadstica inferencial utiliza ampliamente los elementos de probabilidad. Tal razonamiento es inductivo por natu- raleza. Ahora, cuando avancemos al captulo 2 y los siguientes, el lector encontrar que, a diferencia de lo que hicimos en nuestros dos ejemplos actuales, no nos enfocaremos en resolver problemas estadsticos. En muchos de los ejemplos que estudiaremos no utili- zaremos muestras. Lo que haremos ser describir claramente una poblacin con todas sus caractersticas conocidas. Las preguntas importantes se enfocarn en la naturaleza de los datos que hipotticamente se podran obtener a partir de la poblacin. Entonces, po- dramos afirmar que los elementos de probabilidad nos permiten sacar conclusiones acerca de las caractersticas de los datos hipotticos que se tomen de la poblacin, con base en las caractersticas conocidas de la poblacin. Esta clase de razonamiento es deductivo por naturaleza. La figura 1.2 muestra la relacin bsica entre la probabilidad y la estadstica inferencial. Probabilidad MuestraPoblacin Inferencia estadstica Figura 1.2: Relacin bsica entre la probabilidad y la estadstica inferencial. Ahora bien, en trminos generales, cul campo es ms importante, el de la proba- bilidad o el de la estadstica? Ambos son muy importantes y evidentemente se comple- mentan. La nica certeza respecto de la didctica de ambas disciplinas radica en el hecho de que, si la estadstica se debe ensear con un nivel mayor al de un simple libro de cocina, entonces hay que comenzar por ensear la disciplina de la probabilidad. Esta regla se basa en el hecho de que un analista no podr aprender nada sobre una poblacin a partir de una muestra hasta que aprenda los rudimentos de incertidumbre en esa muestra. Considere el ejemplo 1.1; en el que la pregunta se centra en si la poblacin, definida por el proceso, tiene o no ms de 5% de elementos defectuosos. En otras palabras, la suposicin es que 5 de cada 100 artculos, en promedio, salen defectuosos. Ahora bien, la muestra contiene 100 artculos y 10 estn defectuosos. Esto apoya o refuta la supo-
  25. 25. 1.2 Procedimientos de muestreo; recoleccin de los datos 7 sicin? Aparentemente la refuta porque 10 artculos de cada 100 parecen ser un trozo grande. Pero cmo podramos saber esto sin tener nociones de probabilidad? La nica manera en que podremos aprender las condiciones en las cuales el proceso es aceptable (5% de defectuosos) es estudiando el material de los siguientes captulos. La probabilidad de obtener 10 o ms artculos defectuosos en una muestra de 100 es de 0.0282. Dimos dos ejemplos en donde los elementos de probabilidad ofrecen un resumen que el cientfico o el ingeniero pueden usar como evidencia para basar una decisin. El puente entre los datos y la conclusin est, por supuesto, basado en los fundamentos de la inferencia estadstica, la teora de la distribucin y las distribuciones de muestreos que se examinarn en captulos posteriores. 1.2 Procedimientos de muestreo; recoleccin de los datos En la seccin 1.1 estudiamos muy brevemente el concepto de muestreo y el proceso de muestreo. Aunque el muestreo parece ser un concepto simple, la complejidad de las preguntas que se deben contestar acerca de la poblacin, o las poblaciones, en ocasiones requiere que el proceso de muestreo sea muy complejo. El concepto de muestreo se examinar de manera tcnica en el captulo 8, pero aqu nos esforzaremos por dar algu- nas nociones de sentido comn sobre el muestreo. sta es una transicin natural hacia el anlisis del concepto de variabilidad. Muestreo aleatorio simple La importancia del muestreo adecuado gira en torno al grado de confianza con que el analista es capaz de responder las preguntas que se plantean. Supongamos que slo hay una poblacin en el problema. Recuerde que en el ejemplo 1.2 haba dos poblaciones implicadas. El muestreo aleatorio simple significa que cierta muestra dada de un tamao muestral especfico tiene la misma probabilidad de ser seleccionada que cualquiera otra muestra del mismo tamao. El trmino tamao muestral simplemente indica el nmero de elementos en la muestra. Evidentemente, en muchos casos se puede utilizar una tabla de nmeros aleatorios para seleccionar la muestra. La ventaja del muestreo aleatorio simple radica en que ayuda a eliminar el problema de tener una muestra que refleje una poblacin diferente (quiz ms restringida) de aquella sobre la cual se nece- sitan realizar las inferencias. Por ejemplo, se elige una muestra para contestar diferentes preguntas respecto de las preferencias polticas en cierta entidad de Estados Unidos. La muestra implica la eleccin de, digamos, 1000 familias y una encuesta a aplicar. Ahora bien, suponga que no se utiliza el muestreo aleatorio, sino que todas o casi todas las 1000 familias se eligen de una zona urbana. Se considera que las preferencias polticas en las reas rurales difieren de las de las reas urbanas. En otras palabras, la muestra obte- nida en realidad confin a la poblacin y, por lo tanto, las inferencias tambin se tendrn que restringir a la poblacin confinada, y en este caso el confinamiento podra resultar indeseable. Si, de hecho, se necesitara hacer las inferencias respecto de la entidad como un todo, a menudo se dira que la muestra con un tamao de 1000 familias aqu descrita es una muestra sesgada. Como antes sugerimos, el muestreo aleatorio simple no siempre es adecuado. El enfoque alternativo que se utilice depender de la complejidad del problema. Con frecuen- cia, por ejemplo, las unidades muestrales no son homogneas y se dividen naturalmente en grupos que no se traslapan y que son homogneos. Tales grupos se llaman estratos, y
  26. 26. 8 Captulo 1 Introduccin a la estadstica y al anlisis de datos un procedimiento llamado muestreo aleatorio estratificado implica la seleccin al azar de una muestra dentro de cada estrato. El propsito de esto es asegurarse de que ningu- no de los estratos est sobrerrepresentado ni subrepresentado. Por ejemplo, suponga que se aplica una encuesta a una muestra para reunir opiniones preliminares respecto de un referndum que se piensa realizar en determinada ciudad. La ciudad est subdividida en varios grupos tnicos que representan estratos naturales y, para no excluir ni sobrerrepre- sentar a algn grupo de cada uno de ellos, se eligen muestras aleatorias separadas de cada grupo. Diseo experimental El concepto de aleatoriedad o asignacin aleatoria desempea un papel muy importante en el rea del diseo experimental, que se present brevemente en la seccin 1.1 y es un fundamento muy importante en casi cualquier rea de la ingeniera y de la ciencia experimental. Estudiaremos este tema con detenimiento en los captulos 13 a 15. Sin embargo, es conveniente introducirlo aqu brevemente en el contexto del muestreo alea- torio. Un conjunto de los llamados tratamientos o combinaciones de tratamientos se vuelven las poblaciones que se van a estudiar o a comparar en algn sentido. Un ejem- plo es el tratamiento con nitrgeno versus sin nitrgeno del ejemplo 1.2. Otro ejemplo sencillo sera placebo versus medicamento activo o, en un estudio sobre la fatiga por corrosin, tendramos combinaciones de tratamientos que impliquen especmenes con recubrimiento o sin recubrimiento, as como condiciones de alta o de baja humedad, a las cuales se somete el espcimen. De hecho, habran cuatro combinaciones de factores o de tratamientos (es decir, 4 poblaciones), y se podran formular y responder muchas preguntas cientficas usando los mtodos estadsticos e inferenciales. Considere primero la situacin del ejemplo 1.2. En el experimento hay 20 plantones enfermos implicados. A partir de los datos es fcil observar que los plantones son diferentes entre s. Dentro del grupo tratado con nitrgeno (o del grupo que no se trat con nitrgeno) hay variabi- lidad considerable en el peso de los tallos, la cual se debe a lo que por lo general se de- nomina unidad experimental. ste es un concepto tan importante en la estadstica infe- rencial que no es posible describirlo totalmente en este captulo. La naturaleza de la variabilidad es muy importante. Si es demasiado grande, debido a que resulta de una condicin de excesiva falta de homogeneidad en las unidades experimentales, la variabi- lidad eliminar cualquier diferencia detectable entre ambas poblaciones. Recuerde que en este caso eso no ocurri. La grfica de puntos de la figura 1.1 y el valor-P indican una clara distincin entre esas dos condiciones. Qu papel desempean tales unidades experimentales en el pro- ceso mismo de recoleccin de los datos? El enfoque por sentido comn y, de hecho, es- tndar, es asignar los 20 plantones o unidades experimentales aleatoriamente a las dos condiciones o tratamientos. En el estudio del medicamento podramos decidir utilizar un total de 200 pacientes disponibles, quienes sern claramente distinguibles en algn sentido. Ellos son las unidades experimentales. No obstante, tal vez todos tengan una condicin crnica que podra ser tratada con el frmaco. As, en el denominado diseo completamente aleatorio, se asignan al azar 100 pacientes al placebo y 100 al medica- mento activo. De nuevo, son estas unidades experimentales en el grupo o tratamiento las que producen la variabilidad en el resultado de los datos (es decir, la variabilidad en el resultado medido), digamos, de la presin sangunea o cualquier valor de la eficacia de un medicamento que sea importante. En el estudio de la fatiga por corrosin las unidades experimentales son los especmenes que se someten a la corrosin.
  27. 27. 1.2 Procedimientos de muestreo; recoleccin de los datos 9 Por qu las unidades experimentales se asignan aleatoriamente? Cul es el posible efecto negativo de no asignar aleatoriamente las unidades experi- mentales a los tratamientos o a las combinaciones de tratamientos? Esto se observa ms claramente en el caso del estudio del medicamento. Entre las caractersticas de los pa- cientes que producen variabilidad en los resultados estn la edad, el gnero y el peso. Tan slo suponga que por casualidad el grupo del placebo contiene una muestra de personas que son predominantemente ms obesas que las del grupo del tratamiento. Quiz los individuos ms obesos muestren una tendencia a tener una presin sangunea ms elevada, lo cual evidentemente sesgar el resultado y, por lo tanto, cualquier resul- tado que se obtenga al aplicar la inferencia estadstica podra tener poco que ver con el efecto del medicamento, pero mucho con las diferencias en el peso de ambas muestras de pacientes. Deberamos enfatizar la importancia del trmino variabilidad. La variabilidad ex- cesiva entre las unidades experimentales disfraza los hallazgos cientficos. En seccio- nes posteriores intentaremos clasificar y cuantificar las medidas de variabilidad. En las siguientes secciones presentaremos y analizaremos cantidades especficas que se calcu- lan en las muestras; las cantidades proporcionan una idea de la naturaleza de la muestra respecto de la ubicacin del centro de los datos y la variabilidad de los mismos. Un an- lisis de varias de tales medidas de un solo nmero permite ofrecer un prembulo de que la informacin estadstica ser un componente importante de los mtodos estadsticos que se utilizarn en captulos posteriores. Estas medidas, que ayudan a clasificar la natu- raleza del conjunto de datos, caen en la categora de estadsticas descriptivas. Este material es una introduccin a una presentacin breve de los mtodos pictricos y gr- ficos que van incluso ms all en la caracterizacin del conjunto de datos. El lector de- bera entender que los mtodos estadsticos que se presentan aqu se utilizarn a lo largo de todo el texto. Para ofrecer una imagen ms clara de lo que implican los estudios de diseo experimental se presenta el ejemplo 1.3. Ejemplo 1.3: Se realiz un estudio sobre la corrosin con la finalidad de determinar si al recubrir una aleacin de aluminio con una sustancia retardadora de la corrosin, el metal se corroe menos. El recubrimiento es un protector que los anunciantes afirman que minimiza el dao por fatiga en esta clase de material. La influencia de la humedad sobre la magnitud de la corrosin tambin es de inters. Una medicin de la corrosin puede expresarse en millares de ciclos hasta la ruptura del metal. Se utilizaron dos niveles de recubrimiento: sin recubrimiento y con recubrimiento qumico contra la corrosin. Tambin se conside- raron dos niveles de humedad relativa, de 20% y 80%, respectivamente. El experimento implica las cuatro combinaciones de tratamientos que se listan en la siguiente tabla. Se usan ocho unidades experimentales, que son especmenes de alumi- nio preparados, dos de los cuales se asignan aleatoriamente a cada una de las cuatro combinaciones de tratamiento. Los datos se presentan en la tabla 1.2. Los datos de la corrosin son promedios de los dos especmenes. En la figura 1.3 se presenta una grfica con los promedios. Un valor relativamente grande de ciclos hasta la ruptura representa una cantidad pequea de corrosin. Como se podra esperar, al parecer un incremento en la humedad hace que empeore la corrosin. El uso del procedimiento de recubrimiento qumico contra la corrosin parece reducir la corrosin. En este ejemplo de diseo experimental el ingeniero eligi sistemticamente las cuatro combinaciones de tratamiento. Para vincular esta situacin con los conceptos con los que el lector se ha familiarizado hasta aqu, deberamos suponer que las condiciones
  28. 28. 10 Captulo 1 Introduccin a la estadstica y al anlisis de datos que representan las cuatro combinaciones de tratamientos son cuatro poblaciones sepa- radas y que los dos valores de corrosin observados en cada una de las poblaciones constituyen importantes piezas de informacin. La importancia del promedio al captar y resumir ciertas caractersticas en la poblacin se destacar en la seccin 1.3. Aunque a partir de la figura podramos sacar conclusiones acerca del papel que desempea la hu- medad y del efecto de recubrir los especmenes, no podemos evaluar con exactitud los resultados de un punto de vista analtico sin tomar en cuenta la variabilidad alrededor del promedio. De nuevo, como sealamos con anterioridad, si los dos valores de corro- sin en cada una de las combinaciones de tratamientos son muy cercanos, la imagen de la figura 1.3 podra ser una descripcin precisa. Pero si cada valor de la corrosin en la figura es un promedio de dos valores que estn ampliamente dispersos, entonces esta variabilidad podra, de hecho, en verdad eliminar cualquier informacin que parezca difundirse cuando tan slo se observan los promedios. Los siguientes ejemplos ilustran estos conceptos: 1. La asignacin aleatoria a las combinaciones de tratamientos (recubrimiento/ humedad) de las unidades experimentales (especmenes). 2. El uso de promedios muestrales (valores de corrosin promedio) para resumir la informacin muestral. 3. La necesidad de considerar las medidas de variabilidad en el anlisis de cual- quier muestra o conjunto de muestras. Tabla 1.2: Datos para el ejemplo 1.3 Promedio de corrosin en miles de ciclos hasta la rupturaRecubrimiento Sin recubrimiento 20% 975 80% 350 Con recubrimiento qumico contra la corrosin 20% 1750 80% 1550 Humedad 0 1000 2000 20% 80% Humedad Corrosinpromedio Sin recubrimiento Con recubrimiento qumico contra la corrosin Figura 1.3: Resultados de corrosin para el ejemplo 1.3.
  29. 29. 1.3 Medidas de localizacin: la media y la mediana de una muestra 11 Este ejemplo sugiere la necesidad de estudiar el tema que se expone en las seccio- nes 1.3 y 1.4, es decir, el de las estadsticas descriptivas que indican las medidas de la ubicacin del centro en un conjunto de datos, y aquellas con las que se mide la variabilidad. 1.3 Medidas de localizacin: la media y la mediana de una muestra Las medidas de localizacin estn diseadas para brindar al analista algunos valores cuantitativos de la ubicacin central o de otro tipo de los datos en una muestra. En el ejem- plo 1.2 parece que el centro de la muestra con nitrgeno claramente excede al de la muestra sin nitrgeno. Una medida obvia y muy til es la media de la muestra. La me- dia es simplemente un promedio numrico. Denicin 1.1: Suponga que las observaciones en una muestra son x1 , x2 , ..., xn . La media de la mues- tra, que se denota con x, es x = = n i 1 xi n = x1 + x2 + + xn n . Hay otras medidas de tendencia central que se explican con detalle en captulos posteriores. Una medida importante es la mediana de la muestra. El propsito de la mediana de la muestra es reflejar la tendencia central de la muestra de manera que no sea influida por los valores extremos. Denicin 1.2: Dado que las observaciones en una muestra son x1 , x2 , ..., xn , acomodadas en orden de magnitud creciente, la mediana de la muestra es x = x(n+1)/2, si n es impar, 1 2 (xn/2+xn/2+1), si n es par. Por ejemplo, suponga que el conj

Top Related