apunte completo

143
FACULTAD DE INGENIERÍA DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS ÁREA ESTADÍSTICA PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES Prof. Juan Moncada Herrera Segundo semestre de 2008

Upload: edo-vidal-cid

Post on 04-Jul-2015

871 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Apunte completo

FACULTAD DE INGENIERÍA DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS

ÁREA ESTADÍSTICA

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES

Prof. Juan Moncada Herrera

Segundo semestre de 2008

Page 2: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 2

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES

Page 3: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 3

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

INDICE DE CONTENIDOS

INTRODUCCIÓN 4

Capítulo 1. CONCEPTOS BÁSICOS DE PROBABILIDADES 1.1. PRELIMINARES................................................................................................................... 5 1.2. CONCEPTOS DE PROBABILIDAD.................................................................................... 8 1.3. EJERCICIOS Y PROBLEMAS............................................................................................. 10

Capítulo 2. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES 2.1. VARIABLES ALEATORIAS................................................................................................ 14 2.2. DISTRIBUCIONES DE PROBABILIDADES...................................................................... 15 2.3. FUNCIONES DE VARIABLES ALEATORIAS .................................................................. 18 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA..................... 19 2.5. EJERCICIOS Y PROBLEMAS............................................................................................. 23

Capítulo 3. ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES 3.1. ENSAYOS BERNOULLI...................................................................................................... 25 3.2. LA DISTRIBUCIÓN BINOMIAL......................................................................................... 26 3.3. LA DISTRIBUCIÓN DE POISSON...................................................................................... 27 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA....................................................................... 28 3.5. EJERCICIOS Y PROBLEMAS............................................................................................. 29

Capítulo 4. ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES 4.1. LA DISTRIBUCIÓN UNIFORME........................................................................................ 31 4.2. LA DISTRIBUCIÓN NORMAL............................................................................................ 32 4.3. LA DISTRIBUCIÓN EXPONENCIAL................................................................................. 35 4.4. LA DISTRIBUCIÓN GAMMA............................................................................................. 35 4.5. LA DISTRIBUCIÓN DE WEIBULL..................................................................................... 36 4.6. LA DISTRIBUCIÓN JI–CUADRADO................................................................................. 37 4.7. LA DISTRIBUCIÓN T–STUDENT...................................................................................... 38 4.8. LA DISTRIBUCIÓN F–FISHER........................................................................................... 39 4.9. EJERCICIOS Y PROBLEMAS............................................................................................. 40

ANEXOS A. TEMAS COMPLEMENTARIOS ........................................................................................ 41 A.1. ESPACIOS MUESTRALES FINITOS ........................................................................ 41 A.2. VECTORES ALEATORIOS ........................................................................................ 42 A.3. LA FUNCIÓN GAMMA ............................................................................................. 43

B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS ........................... 45 C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS .......................... 46 D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR ........................... 47 E. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................. 48

Page 4: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 4

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

INTRODUCCIÓNINTRODUCCIÓNINTRODUCCIÓNINTRODUCCIÓN La “incertidumbre” que se tiene frente a gran parte de los hechos que nos ocurren diariamente, en

variados ámbitos de nuestra vida, nos ha llevado a estudiar este fenómeno en busca de afirmaciones precisas sobre la naturaleza de este entorno incierto. Para ello, es necesario desarrollar un lenguaje específico que nos permita comunicarnos con estos hechos. Así, es posible pensar en la “Probabilidad” como el lenguaje a través del cual es posible hablar de incertidumbre.

Esta Primera Unidad Temática, contiene los principales elementos conceptuales y prácticos

asociados a este lenguaje de las probabilidades, así como también a su “comportamiento” en este entorno incierto, llamado distribución. A lo largo de esta unidad, el lector encontrará conceptos y aplicaciones que le permitirán formarse una idea de su importancia, tanto formal como práctica.

Para facilitar la consecución de los objetivos de esta unidad la hemos estructurado en cuatro

capítulos, en cada uno de ellos encontrarás la presentación de los conceptos particulares que lo componen, junto con las aplicaciones necesarias para su comprensión, hacia el final un módulo de ejercicios y problemas te permitirá practicar lo aprendido para finalmente, a través de un instrumento de evaluación, asegurar el logro de los objetivos propuestos.

Ante la posible necesidad de conocer algunos temas afines a esta unidad, se incorpora un

módulo de anexos con temas complementarios, resúmenes de las principales distribuciones, tanto discretas como continuas, para finalizar con la entrega de sugerencias bibliográficas en caso de requerir una complementación para los temas tratados.

Page 5: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 5

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 1

CONCEPTOS BÁSICOS DE PROBABILIDADES

Objetivos del capítulo: 1. Reconocer y aplicar correctamente el concepto de probabilidad. 2. Evaluar probabilidades de ciertos eventos. 3. Valorar la importancia de las probabilidades en el contexto científico.

Jacob Bernoulli (1654 – 1705), Abraham de Moivre (1667 – 1754), el reverendo Thomas Bayes (1702 – 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simon, marqués de Laplace (1749 – 1827), unificó todas estas primeras ideas y compiló la primera teoría general de probabilidades, la cual fue aplicada con éxito en las mesas de juego, y en lo que es más importante: el estudio de problemas sociales y económicos. La industria de los seguros, que surgió en este siglo, requería un conocimiento preciso acerca de los riesgos de pérdida, con el fin de calcular las primas. Medio siglo más tarde, muchos centros de aprendizaje estudiaban la “probabilidad” como una herramienta para el entendimiento de los fenómenos sociales.

En la actualidad, la teoría matemática de la probabilidad es la base de las aplicaciones estadísticas

tanto en investigaciones sociales como en la toma de decisiones y una indispensable herramienta de apoyo al desarrollo y trabajo científicos.

Uno de los aspectos más relevantes en el proceso de definición o perfeccionamiento de métodos, es el relacionado con la fundamentación lógica de cada elemento que constituye el “Universo de Trabajo”. Esta etapa, en el caso de las Probabilidades, se encuentra superada desde hace mucho tiempo, y lo que aquí se presenta es sólo un resumen de los elementos principales de esta fundamentación. En este sentido presentaremos dos enfoques muy utilizados en la presentación del concepto de Probablidad, aunque se enunciarán otros. Uno de ellos está basado en lo que se conoce como enfoque clásico, y el otro está basado en lo que se conoce como desarrollo axiomático.

1.1. PRELIMINARES1.1. PRELIMINARES1.1. PRELIMINARES1.1. PRELIMINARES

En un principio el desarrollo de las Probabilidades estuvo directamente relacionado con juegos de azar. Este es el principio fundamental de la Probabilidad (el azar). Por esta razón los ejemplos iniciales clásicos para la introducción al concepto se encuentran, precisamente, en juegos de dados, lanzamiento de una moneda, diversas loterías, etc; teniendo todos estos temas algo en común: “el azar”. A menudo se le conoce también con el nombre de probabilidad a priori, debido a que, si se siguen utilizando ejemplos previsibles como: monedas, dados, naipes, etc, es posible establecer las respuestas de antemano, es decir a priori, sin necesidad de efectuar el experimento.

Para el desarrollo de estas ideas se requiere la definición de algunos conceptos básicos relacionados:

Definición 1.1. Un experimento es cualquier acción que implica o determina algún resultado. Se denotará con la letra griega ξ (epsilon). Definición 1.2. Al conjunto de todos los resultados posibles de un experimento se le denomina espacio muestral. Se le simbolizará por la letra griega Ω (omega), o bien simplemente por la letra S. Es de concenso general que un espacio muestral esté constituído por elementos singulares o fundamentales, en el sentido de

Page 6: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 6

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

ser “irreducibles”, es decir, que no sean una composición de, a su vez, otros elementos simples. Cada una de estas partes o componentes del espacio muestral se llama punto muestral.

Un espacio muestral puede ser discreto o continuo. Es discreto si es un conjunto finito o infinito numerable. Se dice que es continuo si es un conjunto formado por puntos muestrales que son continuidad (intervalos reales, por ejemplo). Por ejemplo, si un experimento consiste en lanzar una moneda y registrar lo que muestra la parte superior, entonces este experimento tiene un espacio muestral finito, conformado por los elementos fundamentales CARA y SELLO. Por lo tanto es discreto. Lo mismo ocurriría si el experimento consiste en lanzar la moneda y registrar el número de lanzamientos hasta que aparezca la primera CARA. En este caso, el espacio muestral es 1, 2, 3, ...; puede haber infinitos lanzamientos (nunca aparecerá una CARA). Este es un espacio muestral infinito numerable (contable). Ahora, si el experimento consiste en encender una ampolleta y registrar el tiempo de funcionamiento, entonces los resultados observados son intervalos (reales) de tiempo que, como es sabido, constituyen un infinito no numerable. En este último caso, el espacio muestral es continuo. Definición 1.3. Un evento es cualquier “parte” o subconjunto de un espacio muestral. Para su denominación se utilizarán las letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z. Puede observarse que a cualquier evento se le puede asignar un conjuto de puntos muestrales, que son un subconjunto de un espacio muestral, pero el recíproco de esta afirmación no necesariamente es verdad. En el caso de espacios muestrales discretos, todos los subconjuntos son eventos, pero en el caso de espacios continuos es posible encontrar puntos muestrales incompatibles con la relación evento–conjunto. Sobre estos aspectos se recomiendan lecturas avanzadas sobre Teoría de Probabilidades, tema que, debe dejarse claro, está muy lejos de los objetivos de estas notas.

En los comentarios subsiguientes a la definición de evento, ha quedado clara la forma de relacionar eventos con subconjuntos, y los cuidados que se deben tener al definir las componentes de un experimento. En este contexto, y siempre resguardando las debidas diferencias entre un espacio de trabajo y otro, todas las operaciones definidas en la Teoría de Conjuntos son también “aplicables” a los eventos. Por ejemplo, cuando se habla de la probabilidad de que en un día dado llueva, lo que se evalúa es la probabilidad de un día lluvioso particular. En este caso el evento es “día lluvioso”, que no parece, al menos en una primera impresión, un conjunto, de la forma en que tradicionalmente se entiende conjunto. No obstante, asociado a cada evento o suceso existe un conjunto. En el ejemplo, el conjunto asociado es el de todos los días lluviosos. Por ello es que, en general, a cada suceso o evento se asocia un conjunto y se puede, por lo tanto, hacer corresponder aquellas definiciones y propiedades. Recordamos las siguientes definiciones:

Unión: Dados dos eventos A y B de Ω, la unión entre A y B se define como el evento consistente de las características tanto de A como de B. En el caso que los eventos son conjuntos, la unión corresponde al conjuto de todos los elementos que pertenecen a A o a B. La unión entre A y B se denota por A ∪ B. Intersección: Dados dos eventos A y B de Ω, la intersección entre A y B, denotada A ∩ B, se define como el evento consistente de todas las características comunes a A y a B. En el caso que los eventos son conjuntos, la intersección corresponde al conjuto de todos los elementos que pertenecen, simultáneamente, a A y a B. Diferencia: Dados dos eventos A y B de Ω, la diferencia entre A y B, denotada por A – B, se define como el evento consistente de todos los elementos de A que no pertenecen a B. Complemento: El complemento de un evento A corresponde a todas aquellas características del experimento que no son registradas en A. En el contexto de la Teoría de Conjuntos corresponde a Ω – A. El complemento de A se simboliza por Ac o bienA.

Page 7: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 7

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Estrictamente hablando, de las anteriores definiciones sólo las tres primeras corresponden a operaciones, ya que una operación “actúa” sobre dos eventos. El complemento no es más que la definición de un evento particular.

En lo sucesivo, y salvo excepciones que se advertirán oportunamente, los eventos serán entendidos como conjuntos en el contexto de la Teoría de Conjuntos. Esta consideración puede, en muchos casos, ayudar a la resolución de problemas tanto como a su comprensión. Particularmente útil puede resultar, en algunos casos, la utilización de propiedades, como las relaciones de De Morgan, y de representaciones, como las de Euler–Venn, para una mejor comprensión y resolución de problemas y propiedades relativas a eventos. Algunas de estas propiedades son:

A∪B = B∪A A∩B = B∩A A∪A = A A∩A = A A∪Ac = Ω A∩Ac = φ A∪Ω = Ω A∩Ω = A A∪φ = A A∩φ = φ

(A∪B)c = Ac∩Bc (A∩B)c = Ac∪Bc A∪(B∩C) = (A∪B) ∩ (A∪C) A∩ (B∪C) = (A∩B) ∪ (A∩C) A – B = A ∩ Bc

Definición 1.4. Sean A y B dos eventos de un espacio Ω. A y B son disjuntos si y sólo si A ∩ B = φ. Observaciones: a) Si el número de elementos de un evento E es mayor que 1, entonces E se llama evento aleatorio.

Similarmente, si el número de elementos de Ω es superior a 1, entonces el experimento se dice aleatorio. b) Si el evento E = Ω, entonces E se dice evento seguro. c) Si el evento E = φ (vacio), entonces E se llama evento nulo o evento vacío.

En este contexto son también importantes ideas tales como el hecho que no existan dos resultados equivalentes en forma simultánea para un experimento dado. Por ejemplo, en el lanzamiento de una moneda es bien sabido que no se puede obtener una cara y un sello al mismo tiempo. Esta propiedad es la que se conoce como exclusividad, y los eventos se dicen mutuamente excluyentes. Definición 1.5: La medida de un evento o de un subconjuto E de Ω es una función m : c(Ω) → IR, que satisface las siguientes propiedades:

m(E⊂ Ω) ≥ 0 m(Ω) = 1

Algunas medidas de uso común son:

m(E) = Número de elementos de E, si E es contable. m(E) = Área de E, si E es una región plana. m(E) = Volumen de E, si E es un sólido.

Con todas las aclaraciones conceptuales anteriores, se puede abordar con cierta precisión y formalidad el concepto clásico de probabilidad.

Page 8: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 8

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

1.2. CONCEPTOS DE PROBABILIDAD1.2. CONCEPTOS DE PROBABILIDAD1.2. CONCEPTOS DE PROBABILIDAD1.2. CONCEPTOS DE PROBABILIDAD

Existen varias formas o enfoques de definción de probabilidad. Entre ellos se tiene el concepto clásico de probabilidad, que se soporta en el concepto de medida de un evento. En efecto, sea ξ un experimento definido en un espacio muestral Ω, en el que se ha definido una medida m. La probabilidad de un evento E perteneciente a Ω, expresado en términos de su medida, es:

)()()( Ω=

m

EmEP , donde m(Ω) ≠ 0

Este planteamiento clásico de la “probabilidad” puede ocacionar algunos problemas en la vida real, desordenada y con algunos hechos extraños y poco probables. Rapidamente es posible darse cuenta de lo necesario que resulta la experimentación para encontrar algún patrón de comportamiento. Lo cual hace que sea de mucha utilidad otra forma de definirla. Ya en el siglo XIX los estadísticos británicos realizaron las primeras mediciones para lo que hoy llamamos frecuencia relativa de presentación de un evento. Según este enfoque, la probabilidad de un evento es la proporción de veces que ocurrirá el evento en una repetición infinita del experimento. Esto significa que si un evento se dice tener probabilidad 0.56, quiere decir que si el experimento se repite en similares condiciones un cantidad infinita de veces, en el 56% de las veces se observará el evento en estudio. Formalmente si N representa el número de veces que se realiza el experimento, entonces la probabilidad del evento E está dada por

N

EdesocurrenciadeNúmeroEP

Nlim)(

∞→

=

Aunque elegante, esta definición tiene una serie de problemas relativos a su operacionalidad.

Particularmente cuestionables son los problemas de convergencia asociados, lo que hace difícil su aplicación al cálculo de probabilidades. En este sentido parece más práctica la definición clásica.

Otro enfoque, que está cobrando adeptos en los últimos años, es la probabilidad como evaluación subjetiva. Esta forma de definición recoge el conocimiento o experiencia previa que el analista tiene del fenómeno o experimento en estudio y lo utiliza como una forma de evaluación de las posibilidades de ocurrencia de un evento particular. Su principal crítica es la subjetividad que subyace a tales evaluaciones. En este contexto se sitúan los métodos bayesianos. Tampoco es un tema que se encuentre dentro de los propósitos de estas notas.

Por último, mencionamos el enfoque o método axiomático de la probabilidad. Según este método, las probabilidades se definen a partir de ciertas reglas lógico–matemáticas que conforman una estructura bien definida y sólidamente respaldada: son los axiomas de probabilidad. Esta interpretación de la Probabilidad está basada en la presentación de un conjunto de axiomas, los que se apoyan fuertemente en la Teoría de Conjuntos. Aquí se formalizan las ideas anteriores, para dar lugar a un tratamiento lógico-deductivo de gran potencia en sus fundamentos y fuerza en sus conclusiones. Por estas razones será el método o enfoque que se utilizará en estas notas, aunque no se descarta el uso de los otros enfoques, siempre que exista coherencia y concordancia entre ellos.

En un esquema axiomático, la probabilidad se define como una función que satisface una serie de axiomas, a partir de los cuales se pueden deducir otra serie de propiedades y aplicaciones que, eventualmente, pueden conducir también a los resultados previstos para los enfoques anteriores.

Page 9: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 9

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Definición 1.6: Sea Ω cualquier espacio muestral y E cualquier evento de Ω. Se llama función de probabilidad sobre el espacio muestral Ω a cualquier función P: c(Ω) → IR, (c(Ω) es el conjunto potencia de Ω) tal que: 1) P(E) ≥ 0. 2) P(Ω) = 1. 3) P( ∪ Ei) = ∑ P(Ei), cuando: Ei ∩ Ej = φ, ∀ i ≠ j.

Estos tres axiomas caracterizan completamente a una función de probabilidad, y puede notarse su relación con la interpretación clásica de probabilidad. El número P(E) se llama la probabilidad de E. Algunas consecuencias importantes de estos axiomas se resumen en la proposición 1.1. Proposición 1.1: Sean E, E1 y E2 eventos de un espacio muestral Ω, en el que se ha definido una probabilidad P. Entonces se verifican las siguientes relaciones:

i) P(φ) = 0. ii) 0 ≤ P(E) ≤1. iii) P(Ec) = 1 – P(E) iv) P(E1 ∪ E2) = P(E1) + P(E2) – P(E1 ∩ E2).

Demostraciones: Se dejan de ejercicio todas las demostraciones. La utilización de resultados de la Teoría de Conjuntos puede ayudar a las demostraciones. ♦

Las definiciones y propiedades anteriores sólo han establecido las reglas por las que se rige el cálculo de probabilidades, pero no establecen una forma o método de ese cálculo. En una situación particular de un evento E, parece ser evidente que la probabilidad de E es la suma de todas las probabilidades de los puntos muestrales que conforman E. Esto es ya un gran avance en el cálculo de probabilidades, pero no es lo definitivo. Por ejemplo, ¿cuál es la probabilidad de obtener una CARA en el lanzamiento de una moneda?. Seguramente Ud. dirá que ½. Pero dar esa respuesta supone una serie de consideraciones en torno al experimento, muchas de las cuales, y hay que reconcerlo, tienen una fuerte base experiencial. Seguramente supone una moneda con “caída regular”, es decir que no caerá “de canto”. Por otro lado, habrá supuesto también que se trata de una moneda regular (no cargada), en el sentido que no tiene un lado más probable que el otro. Esta última propiedad será muy recurrente en muchos problemas relativos a juegos de azar. Formalmente se habla de eventos equiprobables. Esto significa que dos resultados cualesquiera tienen las mismas posibilidades de ocurrir, independientemente de la naturaleza del resultado mismo. Claro está que no siempre será pertinente este supuesto. Por último, digamos que en la definición de probabilidad habrá que tener en consideración el conocimiento y la experiencia que en relación al fenómeno existe, y que se debe tener especial cuidado con las suposiciones que sobre él se formulen. Ejemplo 1.1. Considérense el experimento ξ: “lanzar dos dados y anotar los puntos que muestran las caras superiores” y el evento E : “obtener un par cuya suma sea 7”. Solución. El espacio muestral asociado está determinado por: Ω = (1,1), (1,2), ..., (2,1), (2,2), ..., (3,1), ..., (4,1),..., (5,1), .., (6,1),...,(6,6). Por su parte el evento E corresponde a E = (1,6), (2,5), (3,4), (4,3), (5,2), (6,1),...,(6,6).

En el enfoque clásico, 36

6)( )(

)( == Ωm

EmEP , puesto que Ω tiene 36 elementos, esto es, m(Ω) = 36, y que E

tiene 6 elementos, es decir, m(E) = 6.

Page 10: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 10

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

En el esquema axiomático por su parte, necesitamos saber cuál es la probabilidad de cada elemento de Ω. Si se supone que cada resultado es igualmente probable, entonces cada elemento de Ω tiene probabilidad igual 1/36, y por tanto la probabilidad de E es la suma de las probabilidades de sus puntos muestrales,

366 .♦

Ejemplo 1.2. Los alumnos de un curso disponen de dos libros para estudiar, uno teórico y uno práctico. El libro teórico lo usa el 70%, el libro práctico el 60% y el 40% utiliza ambos libros. Representación gráfica mediante el Diagrama de Venn

A partir del diagrama resultan evidentes los siguientes hechos: – El 30% de los alumnos usa sólo el libro A, mientras que el 20% de ellos usa sólo el libro B. – El 10% de estudiantes no usa ninguno de los dos libros. ♦ Ejemplo 1.3. Un sistema contiene dos componentes A y B. El sistema funciona si cualquiera de sus componentes funciona. Se sabe que la probabilidad de que la componente A funcione es 0.9; que funcione B, es 0.8, y la de que ambas componentes funcionen simultáneamente, es 0.72. Se pide hallar la probabilidad de que el sistema funcione. Solución. Lo que se tiene, en definitiva, es que P(A) = 0.9, P(B) = 0.8 y P(A∩B) = 0.72. Lo que se pide es P(A∪B). Entonces, al aplicar la propiedad iv) anterior, se tiene que P(A∪ B) = 0.9 + 0.8 – 0.72 = 0.98. Esto es, la probabilidad de que el sistema funcione es del 98%. ♦

1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS

Como una forma de aplicar los conceptos antes tratados, y de reforzar aquellos aspectos que a nuestro juicio son los más relevantes, presentamos a continuación una serie de ejercicios y problemas prácticos para ser trabajados en forma personal o grupal. Las respuestas, y en algunos casos un esbozo de solución, se presentan al final de la misma lista. Es aconsejable trabajar los problemas sin observar previamente los resultados o soluciones.

1. Considere los siguientes experimentos y describa el espacio muestral asociado a cada uno de ellos:

a. ξ1: “Se lanza un dado y se observa el puntaje asociado a la cara superior” b. ξ2: “Se lanza una moneda cuatro veces y se observa la sucesión de caras y sellos” c. ξ3: “Se extrae una carta de una baraja de 52, donde su pinta no importa, y se observa el número de

ella”

A

B

10%

Ω 100%

30% 20% 40%

Page 11: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 11

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

2. Los resultados de un experimento se distribuyen según se indica en el siguiente diagrama de Venn. En base a esta representación:

a. Describir verbalmente los eventos A, B, A∪B y A∩B. b. Calcular las probabilidades de cada evento de la parte a.

3. Si la probabilidad de que una persona entrevistada en un centro comercial esté en contra de un proyecto

industrial con gran impacto en el ecosistema es de 0.7. ¿Cuál es la probabilidad de que entre 4 personas entrevistadas en ese lugar, las primeras 3 estén en contra y la última a favor del proyecto?

4. Si A es el evento un empleado está bien capacitado y B se define como el empleado cumple su cuota de

producción, exprese simbólicamente las probabilidades de los siguientes eventos: a. Un empleado bien capacitado cumpla la cuota de producción. b. Un empleado que cubre la cuota de producción no esté bien capacitado. c. Un empleado que no está bien capacitado no cubra la cuota de producción.

5. Demostrar que si A, B y C son independientes, entonces P(A∪B∪C) = 1 – P(Ac)P(Bc)P(Cc).

6. Demostrar que si P(C) ≠ 0, entonces: P(A∪B/C) + P(A∩B/C) = P(A/C) + P(B/C)

7. En cierta carrera universitaria se sabe que el 25% de los estudiantes reprueba matemática, el 15% reprueba estadística y un 10% reprueba ambas asignaturas. Si se selecciona al azar un estudiante, y éste resultó haber reprobado estadística, entonces: a. ¿Cuál es la probabilidad de que repruebe también matemáticas? b. ¿Cuál es la probabilidad de que repruebe matemática o estadística? c. Si de entre el 4% de los hombres y el 1% de las mujeres miden más de 1,80m; además, se sabe que el

60% de los estudiantes son mujeres. Si se selecciona al azar un estudiante y resultó ser más alto de 1,80 mts; ¿cuál es la probabilidad de que resulte ser mujer?

8. La probabilidad de que en Temuco llueva un día del año, seleccionado aleatoriamente es 0.25. El pronóstico local del tiempo atmosférico, entregado por la estación meteorológica de la ciudad es correcto el 60% de las veces en que el pronóstico es de lluvia y el 80% de las veces en que se hacen otros pronósticos. a. Indique claramente los sucesos involucrados, así como las probabilidades asociadas a ellos. b. Si un día es seleccionado aleatoriamente, ¿cuál es la probabilidad que el pronóstico dado sea correcto? c. ¿Cuál es la probabilidad de que un día en que el pronóstico fue dado correctamente, haya

correspondido a un día lluvioso?

9. Se selecciona aleatoriamente un número real en I = [0,2], y cada número en I tiene igual probabilidad de ser seleccionado. Sean los eventos A: el número se selecciona entre 0 y 1; y B: el número se selecciona entre 0.5 y 2. Calcular las siguientes probabilidades: a. P(A) b. P(B) c. P(A ∪ B) d. P(A ∩ B)

A B

23

8 6 13

Page 12: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 12

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

10. Mostrar que si A ⊆ B, entonces P(A) ≤ P(B). 11. El problema de la reunión. Dos personas, A y B, han acordado reunirse en un lugar específico entre las

12:00 y las 13:00 horas. La primera persona que llegue espera a la otra por 20 minutos, después de lo cual, si no llega ésta, se va. ¿Cuál es la probabilidad que las personas se reúnan si sus llegadas durante la hora indicada ocurren de manera aleatoria, y sus tiempos de llegada son independientes? Analice la importancia de estos dos últimos supuestos en la solución del problema.

Respuestas a algunos problemas propuestos

1. a) Ω: 1, 2, 3, 4, 5, 6 ; c) Ω: A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K 2. ii) P(B) = 19/50 3. Sea el evento Ai: la persona i–ésima está en contra del proyecto. Se sabe que P(Ai) = 0.7. Lo que se pide

es P(A1∩A2∩A3∩A4c). Suponiendo independencia entre las personas entrevistadas, se tiene que

P(A1∩A2∩A3∩A4c) = 0.1029.

4. Dados A: empleado bien capacitado y B: empleado que cumple su cuota de producción, entonces el

evento un empleado que cubre la cuota de producción no esté bien capacitado es Ac|B, y la probabilidad será P(Ac/B).

5. Sug.: Calcular P(A∪B∪C) y aplicar propiedad de independencia de los tres eventos. 6. Hacer uso de la definición de probabilidad condicional de P(A∪B/C). 7. Sean los eventos A: alumno reprueba matemática y B: alumno reprueba estadística. Las probabilidades

de estos eventos son P(A) = 0.25, P(B) = 0.15 y P(A∩B) = 0.10, entonces: a. P(A/B) = 0.67 b. P(A ∪ B) = 0.4

8. b) P(B) = 0.75 ; c) P(A/B) = 0.2 9. La medida apropiada en este caso es la longitud del segmento correspondiente (ver figura). Entonces:

a. P(A) = ½ b. P(B) = 1.5/2. c. P(A ∪ B) = 1 d. P(A ∩ B) = 0.25.

10. Demostraciones de este tipo, como se habrá visto, pueden significar ciertos “arreglos” que no siempre son

fáciles de detectar, y puede existir más de una forma de ellos. En este caso particular, un punto de partida

Page 13: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 13

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

puede ser la identidad B = (Ac ∩ B) ∪ A, que se puede verificar fácilmente. Se puede verificar también que esta descomposición de B es una partición, así que se puede aplicar la definición 1.6, parte 3, para deducir que P(B) = P(Ac ∩ B) + P(A). Pero como P(Ac ∩ B) es una cantidad no negativa, entonces, simplemente por definición de desigualdad, se tiene el resultado.

11. Definir los eventos x : Tiempo (instante) de llegada de A y y : Tiempo de llegada de B. Notar que la

reunión se concreta si |x–y| ≤ 20. También notar que 0 ≤ x,y ≤ 60. Algunas consideraciones geométricas conducen a 5/9 como la probabilidad pedida.

Page 14: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 14

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 2

VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES

Objetivos del capítulo: 1. Identificar y definir variable aleatoria. 2. Estudiar y determinar propiedades asociadas a las variables aleatorias. 3. Valorar la importancia de las variables aleatorias en el estudio de problemas del ámbito

científico.

En el capítulo anterior se presentó y revisó el concepto de probabilidad, como una medida del grado de incertidumbre involucrado en la ocurrencia de ciertos fenómenos. Ese grado de incertidumbre está presente en gran parte de la actividad humana en general, y en la actividad científica en particular. De esa incertidumbre surge, a su vez, la variabilidad en casi todo cuanto nos rodea. Y esta variabilidad es la que da sentido a la investigación, al estudio sistemático de ciertas disciplinas, al conocimiento, finalmente. Si todo fuera uniforme, entonces no tendría sentido el estudio o el conocimiento. En esta variabilidad está la esencia de nuestra vida, y de nuestro quehacer, sea cotidiano, o programado cuidadosamente.

En el presente capítulo se persentarán métodos y técnicas que recogen el soporte fundamental de la variabilidad para examinar y evaluar sus grados de incerteza: la información. Pero la información no es posible concretarla sino en variables y observaciones o registros. Sobre este tema trata, esencialmente, este capítulo, y particularmente sobre las variables aleatorias y la forma en que las probabilidades de ocurrencia de los registros correspondientes se distribuyen.

2.1. VARIABLES ALEATORIAS2.1. VARIABLES ALEATORIAS2.1. VARIABLES ALEATORIAS2.1. VARIABLES ALEATORIAS Definición 2.1. Sea ξ un experimento aleatorio, con espacio muestral asociado Ω y dotado de probabilidad P. Se llama variable aleatoria a una función X que asigna a cada elemento ω ∈ Ω un número real x, es decir: X: (Ω, P) → ‘ ω a X(ω) = x Observación: Generalmente las variables aleatorias se designan con letras mayúsculas y un valor particular de ella con su respectiva letra minúscula.

Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio. Puesto que asociar números con los puntos de un espacio muestral sólo es una manera de definir una función sobre los puntos del espacio muestral, las variables aleatorias en realidad son funciones y no variables. Sin embargo, conceptualmente, la mayoría de los principiantes encuentran más fácil considerar las variables aleatorias tan sólo como cantidades que pueden tomar valores distintos dependiendo de la probabilidad asociada. Definición 2.2. Al conjunto de todos los valores que asume la variable aleatoria X, denotado por RX , se denomina recorrido de la variable aleatoria X, es decir: RX = x ∈ ‘x / X(ω) = x, con ω ∈ Ω

Page 15: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 15

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Ejemplo 2.1. Se define el experimento ξ: “lanzar dos monedas y registrar lo que cae cada una”. Se desea determinar el espacio muestral asociado a ξ, definir la variable aleatoria involucrada y determinar su recorrido. Solución. El espacio muestral asociado a ξ será: Ω = (C,S), (S,C), (C,C), (S,S) Si a cada ω se le asigna un valor numérico, de 0 a 2, cantidades aleatorias determinadas por el experimento, consideradas como valores que toma la variable, podemos definir la variable aleatoria X: “Número de caras obtenidas”, cuyos valores serán: X(C,C) = 2 X(S,C) = X(C,S) = 1 X(S,S) = 0 Luego, su recorrido es RX = 0, 1, 2. ♦

Se acostumbra clasificar las variables aleatorias de acuerdo con el número de valores que pueden tomar, en este contexto podemos distinguir variables aleatorias discretas y continuas las que se definen a continuación. Definición 2.3. Una variable aleatoria X se dice discreta si su recorrido RX es finito o infinito numerable, en caso contrario se dice que es continua. 2.2. DISTRIBUCIONES DE PROBABILIDADES2.2. DISTRIBUCIONES DE PROBABILIDADES2.2. DISTRIBUCIONES DE PROBABILIDADES2.2. DISTRIBUCIONES DE PROBABILIDADES A cada variable aleatoria hay asociadas unas funciones especiales que informan de ciertas características de las probabilidades y su relación con los valores de la variable. Todas ellas dan lugar al concepto de distribución de probabilidades o simplemente de distribución de la variable. El concepto de distribución es uno de los más importantes en el estudio de las variables aleatorias. Por ello, en lo que sigue, se presentarán en detalle aquellas funciones que “hablan” de la distribución de probabilidades, y de sus propiedades más importantes. Cuando sea necesario, se harán las distinciones para los casos discreto y continuo.

Antes de presentar aquellas funciones, es importante referirse a una componente de definición que resulta fundamental en la comprensión del concepto de distribución. Se trata del concepto de parámetro. Al momento de comenzar a estudiar una población, parece evidente que hay ciertas situaciones o fenómenos que son de interés para el estudioso, pero no es suficiente obtener un cúmulo de información si esta no puede ser de alguna manera resumida para ser utilizada, lo cual se realiza a través de un parámetro que es un rasgo, característica o descripción del fenómeno estudiado en la población de interés.

Para ilustrar el concepto anterior, definamos como población de interés un bosque de grandes dimensiones, con distintas especies. Los dueños necesitan conocer de antemano, aún en forma aproximada, la cantidad de trozos que dispone para el cumplimiento de contrato con un comprador. Pareciera razonable pensar que no es posible cuantificar exactamente la cantidad de trozos, dada la extensión del terreno. Pero si es posible encontrar un indicador que caracterice a esa cantidad, pudiendo ser éste, la media o promedio de trozos, siendo este parámetro la cantidad que caracteriza dicho fenómeno.

En consecuencia, en la definición e identificación de una distribución los parámetros juegan un papel

fundamental. Como se irá mostrando en la medida que se avance en el estudio de estas notas, las

Page 16: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 16

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

distribuciones se identifican por sus parámetros, y el reconocimiento de estos será el principal trabajo y problema en el estudio de ciertas distribuciones conocidas. Definición 2.4. Sea X una variable aleatoria discreta, con recorrido RX. Se llama función de cuantía a una función PX (x) = P(X = x) que satisface las siguientes condiciones: i) P(x) ≥ 0 ∀ x ∈ RX

ii) ∑∈

=xRx

xp 1)(

Observación: Para una variable aleatoria discreta, la función de cuantía en cualquier punto es una probabilidad. Por ello, a veces a esta función también se le llama función de probabilidades. Ejemplo 2.2. Sea X una variable aleatoria con función de probabilidades dada por:

xnx

n

x

pppnxp −−

= )1(),;( , donde n ∈ , 0 < p < 1

Verificar que la función propuesta es una función de probabilidades. Solución. Para probar si p es una función de cuantía, debe satisfacer las condiciones de la definición 2.4. En efecto: i) p(x; n, p) ≥ 0, ya que cada componente del producto que la define es positivo.

ii) Por Teorema del binomio, [ ] 1)1(1)1(),;(0

=−+=−

= −

∈∑ ∑ nxn

Rx

xn n

x

ppppnxpx

. ♦

Definición 2.5. La función de distribución acumulada de una variable aleatoria discreta X, denotada por F, es una función real F: ‘ → ‘ definida por

∑≤

=≤=xx

i

i

xpxXPxF )()()(

y que satisface las siguientes condiciones: i) 1)(0 ≤≤ xF

ii) )()( yFxFyx <⇒< Notar que la función de distribución acumulada evaluada en algún punto del recorrido de la variable, es una probabilidad que indica o resume la información que de la variable se tiene hasta el valor que se indique. Aunque no se trata de una “probabilidad acumulada hasta. ...”, valores como P[X > x] también se entienden como probabilidades acumuladas (“acumulación más allá de...”). Proposición 2.1. La función de distribución acumulada de una variable aleatoria discreta X posee las siguientes propiedades: i) )(1)( xFxXP −=>

ii) 1)( =∞F

iii) 0)( =−∞F

Page 17: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 17

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

iv) )()()( 1221 xFxFxXxP −=<<

v) )1()()( −−== xFxFxXP Demostración. Todas las demostraciones se dejan de ejercicio. Todas ellas se basan en propiedades elementales de sumatorias y series. ♦ Definición 2.6. Sea X una variable aleatoria continua. Una función f : RX → ‘ se llama función de densidad de X si satisface las siguientes condiciones:

i) 0)( ≥xf ; ∀ x.

ii) ∫∞

∞−= 1)( dxxf

iii) Para cualquier par de números reales a y b con a < b, se tiene ∫=≤≤b

a

dxxfbXaP )()( .

Representación gráfica de la propiedad iii) de la función de densidad Observación: Una función de densidad no representa una probabilidad. Más aún, existen funciones de densidad que evaluadas en algún punto toman valores mayores a la unidad. Ejemplo 2.3. El comportamiento diario de cierto contaminante, en un río de la zona se modela de acuerdo a la siguiente función de densidad:

0;½)( 2 >=−

xexf

x

Además se sabe que ocurrirá un problema de contaminación si los registros del contaminante exceden los 6 mg/103 lts. ¿Cuál es la probabilidad de que ocurra un problema de contaminación en un día cualquiera? Solución. Si definimos la variable aleatoria X: “cantidad diaria del contaminante por cada 103 lts” y sabiendo que el problema de contaminación se genera cuando X excede los 6 mg/103 lts, entonces la probabilidad buscada es:

dxedxeXPxx

∫ ∫∞ ∞

−− ==>6 6

21

21 22)6(

Haciendo la sustitución 2xu −= , y por lo tanto dxdu 2

1−= , se tiene dxdu =− 2 , y entonces:

∞−

−=−=−=> ∫6

6

21 22)6(

x

eedueXP uu

= - ( e- ∞/2 – e-6/2) = e -3

= 0.04979. ♦

Page 18: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 18

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Definición 2.7. Se llama función de distribución acumulada de una variable aleatoria continua X a una función real F: ‘ → ‘ definida por:

∫ ∞−=≤=

x

dttfxXPxF )()()(

donde t es una variable artificial de integración.

Observación: Dado que para cualquier variable aleatoria continua X, ∫ ===x

xdttfxXP 0)()( , entonces

)()()( xFxXPxXP =<=≤ Proposición 2.2. La función de distribución acumulada de una variable aleatoria continua X posee las siguientes propiedades: i) 0)( =−∞F

ii) 1)( =∞F

iii) )()()( aFbFbXaP −=<<

iv) )()( xFdx

dxf X=

v) 1)(0 ≤≤ xF Demostración. Todas las demostraciones se dejan de ejercicio. Ellas se basan en propiedades elementales de la integral. ♦ Al igual que en el caso discreto, la función de distribución acumulada asociada a una variable aleatoria continua es una probabilidad.

2.3. FUNCIONES DE VARIABLES ALEATORIAS2.3. FUNCIONES DE VARIABLES ALEATORIAS2.3. FUNCIONES DE VARIABLES ALEATORIAS2.3. FUNCIONES DE VARIABLES ALEATORIAS

Son frecuentes los problemas en los que el interés se centra más que una variable aleatoria, en una función de ella. Por ejemplo, puede requerirse el estudio de la variable X² a partir del conocimiento que se tenga de X. Hay que notar que X² es una función de X.

Dada una variable aleatoria, supondremos que una función de ella es también una variable aleatoria, pero no necesariamente con las mismas propiedades de la variable original. Son estos aspectos los que se resumen en la siguiente proposición. Proposición 2. 3. Sea X una variable aleatoria continua, con función de densidad f. Sea también g una función monótona (no decreciente) y no negativa en el recorrido de X. Entonces la función de densidad de g(X) está dada por

( )dy

dxxgfxf XXg )()( 1

)(−= .

Demostración. La función de distribución acumulada de g(X) corresponde a ])([)()( xXgPxF Xg ≤= . Como g(X)≤x y X

≤ g-1(X) son sucesos equivalentes, entonces ))(()]([)( 11)( xgFxgXPxF XXg

−− =≤= . La aplicación del

Teorema Fundamental del Cálculo Diferencial conduce al resultado: ♦

Page 19: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 19

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Ejemplo 2.4. X es una variable aleatoria continua con función de densidad dada por fX(x) = 1, ∀x∈[0,1]. Se pide hallar la función de distribución acumulada de X². Solución. La función de distribución acumulada de X² requiere de la distrubución acumulada de X, por lo que deber la obtención de ésta el primer problema a resolver. Aplicando definiciones se obtiene que la función de distribución de X es FX(x) = x. Con esto, se puede obtener que la función de distribución de Y = X² es

yyfY

1)( = , para y>0. ♦

2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA La función de densidad de una variable aleatoria continua o la función de cuantía de una variable aleatoria discreta, describen completamente el comportamiento de la variable en estudio. Sin embargo, asociadas a cualquier variable existen ciertas constantes que también la caracterizan, dado que estos valores proporcionan información acerca de la naturaleza de la variable en cuestión. Estas características fijas o constantes son las que se denominan, genéricamente, medidas numéricas. Dentro de las medidas numéricas asociadas a una variable aleatoria se tienen, básicamente, tres grupos: las medidas de tendencia central, las medidas de posición y las medidas de variabilidad o dispersión. Todas ellas dan cuenta, en alguna forma, de las características de la distribución (de probabilidades) de la variable. Medidas de Tendencia Central Las medidas de tendencia central asociadas a una variable aleatoria resumen características de centralidad de la variable. Esto es, dan cuenta de aquellas características que pueden considerarse como típicas, como propias de la generalidad de la información. En otras palabras, informan de la capacidad de “concentración” de la información en torno, precisamenete, de aquellos valores o medidas. Algunas de estas características, las más relevantes por cierto, se presentan en las siguientes definiciones. Definición 2.8. Sea X una variable aleatoria con valores observados x1, x2,...,xn, se define la esperanza o valor esperado de X como:

[ ] ∑∈

=xRX

xxpXE )( ; si X es discreta con p(x) su función de cuantía asociada.

[ ] ∫∞

∞−= dxxxfXE )( ; si X es continua con función de densidad f (x).

Observación. La esperanza de una variable aleatoria corresponde al centro de la distribución de probabilidades de ella, por lo que también se le llama promedio o simplemente media. Además, conviene aclarar que no es una función de X, sino un número fijo y una propiedad de la distribución de probabilidades de X. Ejemplo 2.5. Sea X una variable aleatoria que es la suma de las caras de dos dados, cuando estos se lanzan. Determinar e interpretar E[X]. Solución. Si X: “suma de las caras de dos dados”, entonces el espacio muestral asociado es Ω: 2, 3, ...,12 y su

función de probabilidades es p(x) = 36

76 x−−, para x = 2, 3,...,12.

Page 20: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 20

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Entonces ∑=

=++++==12

2361

362

362

361 7)(12)(11....)(3)(2)()(

x

xxpXE

Esto significa que al lanzar dos dados, el valor esperado es 7. ♦ Proposición 2.4. Sea X una variable aleatoria, y a, b y k constantes reales cualesquiera. Entonces la esperanza satisface las siguientes propiedades: i) [ ] [ ]XaEaXE =

ii) [ ] kkE =

iii) [ ] [ ] kXEkXE +=+

iv) [ ] [ ] bXaEbaXE +=+ Demostración: Se dejan de ejercicio. ♦ Ejemplo 2.6. Se sabe que el tiempo necesario para reparar una pieza, de un equipo utilizado en un proceso de manufactura, es una variable aleatoria X cuya función de densidad está dada por:

)(

51 5)(

x

exp−

= con x = 0, ..., +∞

Si la pérdida en dinero, es igual al cuadrado del número de horas utilizadas en la reparación. Se requiere determinar e interpretar el valor esperado de las pérdidas por reparación. Solución. Si X es el tiempo necesario para reparar una pieza, entonces la pérdida es X2. Con esto, el valor esperado buscado es:

[ ] )()()(255)(²0 5

)(25

250

)(250

)(

512 555 ∫∫∫

∞ −∞ −+∞ −=== xxxx dedxedxexXE

xxx

La última integral es una función gamma (ver Temas Complementarios para más información sobre esta función). Específicamente en este caso, esta última integral es

)3(25Γ= = 25 · 2! = 50

Luego la pérdida esperada por reparación es de 50 unidades monetarias. ♦ Definición 2.9. Para una variable aleatoria X si existe un número X0.5 tal que:

21

5.021

5.0 )()( ≥≤∧≤< XXPXXP ; si X es discreta., o bien

21

5.0 ) =≤ XPX ; si X es continua,

entonces X0.5 se llama mediana de la distribución de X. Definición 2.10. La moda de una variable aleatoria X es el valor Xm que maximiza la función de probabilidades si X es discreta, o la función de densidad si X es continua. Observaciones. i) La moda de una distribución puede no existir.

ii) Si X es continua la moda es la solución de 0)( =dx

xdf si 02

2 )( <xd

xfd

Page 21: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 21

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

De lo contrario, si la segunda derivada es positiva, el valor recibe el nombre de antimoda. iii) Si existe más de una moda, la distribución de probabilidades recibe el nombre de multimodal.

Medidas de posición

Aunque una medida de tendencia central, adecuada y pertinente, naturalemente, puede proporcionar mucha información acerca de una variable, generalmente será necesaria alguna otra información para completar el conociento que sobre la variable se busque. Entre distintas posibilidades o alternativas se tienen a las medidas de posición. Como su nombre lo indica, resumen características de ubicación o de posicionamiento, relativo, de los valores de la variable. De entre estas medidas, resumimos aquí las más importantes y usuales. Valores extremos Las medidas de posición más elementales son el máximo y el mínimo, que corresponden a los valores máximo y mínimo, respectivamente, de la variable. Percentiles

Un percentil de orden αααα, denotado qα , es un valor (puede ser un valor de la variable, o bien no) tal que la probabilidad acumulada hasta qα es α. Entre estas medidas, las más utilizadas son los cuartiles, que son percentiles de orden α = 0.25, α = 0.50 y α = 0.75. Hay, por tanto, tres cuartiles, que denotaremos por Q1, Q2 y Q3. Otros percentiles muy utilizados son los deciles, nueve mediciones D1, D2, ..., D9 que particionan la distribución en 10 clases o grupos con la misma cantidad de información.

Resulta simple visualizar que algunos de los percentiles coincidirán, ya sea con los cuartiles o con los deciles, por lo que generalmente son ellos los que se utilizan. Medidas de Variabilidad

Si bien las medidas de tendencia central o de posición pueden constituir un adecuado resumen de la información contenida en una variable, por lo general ese resumen será insuficiente hasta que no se utilice una medida de la dispersión de la información. Esto es, parece muy necesario conocer cuán dispersa se encuentra la información para que, junto a su tendencia central, se tenga un resumen lo más pertinente y completo posible. Algunas de estas medidas se presentan en lo que sigue. Definición 2.11. El rango de una variable aleatoria X es la diferencia entre máximo y mínimo.

El rango, que denotaremos como R(X), es una medida de dispersión muy elemental, aunque en ocaciones puede ser suficiente para formarse una idea de la dispersión de la información. Por ejemplo, si la variable corresponde a calificaciones, en la escala de 1 a 7, el rango puede ayudar a la interpretación o resumen de esa información. Sin embargo, una de las más importantes medidas de dispersión es la varianza, que se define en la siguiente definición. La varianza es una medidad del grado de dispersión de la información de una variable en torno a su media. Por este hecho, mide cuán alejadas están las observaciones del centro de la distribución. Definición 2.12. Supuesta la existencia de E[X], se define la varianza de una variable aleatoria X, denotada por Var[X] o σ2 , como:

][][])[(][ 222 XEXEXEXVar X −=−= µ

Page 22: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 22

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Observación. A la raíz cuadrada de la varianza de X, σ, se le llama desviación estándar de X, o desviación típica de X. Proposición 2.5. Sea X una variable aleatoria con media µ y varianza σ2X , y sea k un número real cualquiera. Entonces: i) Var[k] = 0 ii) Var[X + k] = Var[X] iii) Var[kX] = k2 Var[X]

Demostración: Se dejan de ejercicio. ♦ El proceso de estandarización

El proceso de estandarización es un procedimiento mediante el cual se transforma una variable aleatoria a objeto de anular algunos efectos que en la interpretación pueden tener ciertas medidas. Esto cobrará especial importancia en las aplicaciones relativas a distribuciones comunes, que se tratarán más adelante, y en el capítulo sobre estadística descriptiva de la Unidad 2.

Formalmente corresponde a la transformación σ

µ−→

XX , donde X es una variable aleatoria con

media µ y desviación típica σ. La resultante de esta transformación se llama variable estandarizada o variable tipificada. La transformación definida por X–µ se llama centrado, mientras que la definida por X/σ se llama reducción. En el primer caso, la variable obtenida es una variable centrada, mientras que en el segundo caso, la variable obtenida es una variable reducida. Una variable estandarizada es, entonces, una variable centrada y reducida.

El efecto de esta transformación se traduce en una variable aleatoria con media 0, desviación típica 1 y a–dimensional. En efecto, la característica de a–dimensional es evidente, y, por otra parte, aplicando las proposiciones 2.3 y 2.4, se tienen las otras dos características. Por la importancia de estas últimas, las enunciamos formalmente en la siguiente proposición: Proposición 2.6. Si Z es una variable estandarizada, entonces E[Z] = 0 y Var[Z] = 1. Demostración. Se deja como ejercicio. ♦ Desigualdad de Tschebyshev

Las relaciones y propiedades relativas tanto a medidas de centralidad como a dispersión, sólo ponen de manifiesto características matemáticas, no por ello importantes, pero no proporcionan una forma de interpretación eficaz, salvo elementales apreciaciones. Por ejemplo, es evidente que si una variable aleatoria tiene una varianza nula, entonces esa variable es una constante, y por tanto toma siempre el mismo valor. Con un análisis generalizador, se puede decir que mientras más cercano a cero se encuentre el valor de la varianza, entonces más similares son los valores de la variable. Específicamente, serán más parecidos o similares a la media, ya que la varianza mide la dispersión de los valores de la variable respecto de la media.

De cualquier modo, parece ser que un resumen de la información contenida en la variable pasa por

conocer al menos dos tipos de medida: de centralidad y de dispersión. Uno de los resultados, en probabilidades y en estadística, más importantes en este sentido es la Desigualdad de Tschebyshev.

Page 23: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 23

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Teorema 2.1. (Desigualdad de Tschebyshev). Sea X una variable aleatoria con distribución con media µ y varianza σ². Para una cosntante mayor que 1 k, se tiene

²

11]|[|

kkXP −≥≤− σµ

El teorema establece que, para una variable aleatoria X, la información contenida dentro del intervalo real [µ–

kσ ; µ+kσ], para una constante adecuada k, es al menos el %100)²11(k

− .

Demostración.

Si f(x) es la función de densidad de X, entonces ∫∞

∞−

−=−= dxxfxXE )()(])[( 222 µµσ . Puesto que el

integrando es no negativo, el valor de la integral sólo puede disminuir cuando el intervalo de integración se reduce. Por lo tanto:

∫∫∫ ≥−≥−≥−

=≥−≥εµ

εµεµ

εεµσx

xx

dxxfdxxfdxxfx )()()()( 222 2

Dado que )|(|)( εµεµ

≥−=∫≥−

XPdxxfx

, entonces2

2

)(ε

σεµ ≤≥−XP . ♦

2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 1. Una empresa que arrienda equipos para la tala de bosques, estudia la frecuencia con que son utilizadas sus

máquinas. Según los registros la demanda diaria de la máquina 3, MQ3, que es la máquina más utilizada, fluctúa entre 0 y 3 veces por día, con probabilidades respectivas de 10%, 50%, 25% y 15%. a. Indicar claramente cuál es la variable aleatoria X asociada al caso y definir explícitamente la función

de cuantía. b. Calcular la probabilidad de que la máquina MQ3 sea requerida al menos 2 veces al día. c. Calcular la probabilidad de que la máquina no sea requerida en un día cualquiera. d. Calcular e interpretar E[X]. e. Calcular e interpretar SX.

2. Una máquina utilizada para eliminar la humedad de cierta variedad de plantas, posee 6 quemadores, de los

cuales 2 están defectuosos. Si se seleccionan al azar dos de estos quemadores, extraídos de la máquina e inspeccionados, y si definimos la variable aleatoria X: número de unidades defectuosas observadas, obtener: a. P(X > 2) b. P(X < 1) c. La función de distribución acumulada d. Calcular e interpretar E[X] e. Calcular e interpretar SX.

3. Las ventas X de un determinado producto se modelan de acuerdo a la siguiente función:

==

...0

4,3,2,1;10

1)(

coe

xxxp

a. Hacer la gráfica de la función y demostrar que es una función de cuantía. b. Calcular e interpretar E[X] c. Calcular e interpretar SX.

Page 24: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 24

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

4. Se tiene información sobre el tiempo X, en horas, de la llegada del primer cliente a un parque, cuya función se define como:

≤≤

=...0

10;2)(

coe

xxxf

a. Defina la variable aleatoria. b. Demostrar que la función corresponde a una función de densidad. c. Calcular la probabilidad de que el primer cliente llegue antes de media hora.

Solución a algunos problemas propuestos

1. b) 4.0)2( =≥XP

a) E[ X ] = 1.45 ≈ 1, lo cual significa que la demanda promedio de la máquina es de 1 vez al día.

2. b) 4.0)1( =<XP

d) E[ X ] = 1

3. b) E[ X ] = 1

4. c) P( X< 0.5) = 0.25

Page 25: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 25

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 3

ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES

Objetivos del capítulo: 4. Reconocer y aplicar modelos discretos comunes en situaciones concretas. 5. Estudiar y aplicar correctamente propiedades asociadas a algunos modelos discretos

conocidos. 6. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos

empíricos.

Muchos experimentos o fenómenos aleatorios derivan en una variable aleatoria con una distribución de probabilidades típica o característica. Así por ejemplo, la variable aleatoria definida como el número de "caras" que resulta al lanzar una moneda regular, tendrá siempre la misma distribución de probabilidades (cara → ½; sello → ½). Más general aún: si la probabilidad con que aparece una "cara" fuese igual a p, entonces la distribución de probabilidades de la variable será

"cara → p; sello →(1-p)"

Esto último generaliza la situación del lanzamiento de una moneda a experimentos en los que los

únicos dos posibles resultados son de naturaleza excluyente (y también independientes uno de otro), y que podríamos nominar "éxito" y "fracaso". En este tipo de experimentos (y por lo tanto, variables) podemos tener procesos de control, en los que la unidad de observación se clasifica en "defectuosa" o "no defectuosa", y la variable es Número de artículos defectuosos (o no defectuosos).

Por otra parte, se sabe que una distribución de probabilidades es conocida cuando se conoce su función de probabilidades (de cuantía o de densidad), su distribución acumulada, su función generadora de momentos, etc. En todos esos casos, además, es necesario conocer sólo un par de elementos de tal función (elementos que llamamos parámetros). Tal es el caso de la distribución anterior, que será conocida totalmente en cuanto se conozca p.

La variable definida como "Edad de la persona" en un grupo de personas, por ejemplo, casi siempre tendrá una distribución de probabilidades que depende de dos parámetros (esta distrubución se verá más adelante). La variable definida como el número de accidentes que ocurren en un cruce transitado, también tiene una distribución de probabilidades que, bajo ciertos supuestos, será siempre del mismo tipo, dependiendo sólo de un parámetro.

En síntesis, existen muchas variables aleatorias para las que, conocido el experimento aleatorio que la genera y sus parámetros, la distribución es siempre de una misma clase.

Algunas de estas variables, o más propiamente llamadas distribuciones, son el tema central de este capítulo.

3.1. ENSAYOS BERNOULLI3.1. ENSAYOS BERNOULLI3.1. ENSAYOS BERNOULLI3.1. ENSAYOS BERNOULLI

Se llama Ensayo Bernoulli (llamado así a este tipo de experimentos en honor de Jackes Bernoulli, matemático suizo que vivió hacia la última mitad del siglo XVII (1654–1705)) a todo experimento que tiene sólo dos posibes resultados, genéricamente llamados "éxito" y "fracaso". La variable aleatoria asociada a este

Page 26: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 26

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

tipo de experimentos se define como Número de éxitos en el ensayo (notar que X es discreta). De esta manera, si X es la variable correspondiente, entonces X=0,1. Además, si la probabilidad de observar un éxito (X=1) es p, entonces podemos anotar: p(0)=1–p y p(1)=p. Más aún, p(x) = px(1–p)1-x, para x = 0,1.

Para la variable aleatoria X puede obtenerse fácilmente la media, varianza, y todas las otras

características asociadas. Si X es una variable aleatoria con distribución Bernoulli de parámetro p, anotaremos X~Ber(p).

Ejemplo 3.1. Sea X~Ber(p). Determinar E[X]. Solución. E[X] = Σxp(x) = 0·p(0) + 1·p(1) = 0·(1–p) + 1·p = p. ♦

3.2. LA DISTRIBUCIÓN BINOMIAL3.2. LA DISTRIBUCIÓN BINOMIAL3.2. LA DISTRIBUCIÓN BINOMIAL3.2. LA DISTRIBUCIÓN BINOMIAL

La variable aleatoria binomial, o simplemente distribución binomial, se define como el número de éxitos observados en n ensayos Bernoulli independientes. Alternativamente, una variable aleatoria con distribución binomial corresponde a la suma de n variables aleatorias con distribución Bernoulli.

Formalmente, un experimento binomial debe cumplir con los siguientes supuestos:

1. El experimento consta de n ensayos Bernoulli estadísticamente independientes. 2. Cada ensayo tiene sólo dos posibles resultados ("éxito" ó "fracaso"). 3. La probabilidad de éxito en cada ensayo es la misma, e igual a p.

Si p es la probabilidad de éxito, se puede probar que la función de probabilidades (o función de

cuantía) de la variable, digamos X, es:

nxppx

nxp xnx ,,2,1,0;)1()( L=−

= −

Notar que los parámetros de esta distribución son n y p. Es frecuente simbolizar la probabilidad de

fracaso 1–p por q.

Esta distribución es muy aplicada en procesos de control de calidad y todos aquellos fenómenos que resultan de una suma de ensayos del tipo Bernoulli. Para indicar que X es una variable aleatoria con distribución binomial, y de parámetros n y p, se anota X ~ bin(n;p). Ejemplo 3.2. Si el 20% de las piezas producidas por una máquina son defectuosas, determinar la probabilidad de que, de 4 piezas escogidas al azar: a) 1 sea defectuosa b) Más de dos sean defectuosas c) Determinar e interpretar E[X]. Solución. Como las piezas producidas por la máquina pueden ser o no defectuosas, la variable en estudio sólo tiene dos posibles resultados, por lo tanto esta variable aleatoria será una variable que se ajusta a un modelo

Page 27: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 27

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

binomial. Así X: “número de piezas defectuosas”. Luego, los dos parámetros que definen la distribución son: n = 4 y p = 0.2. Así:

a) ( ) 4096.0)2.01(2.01

41 141 =−

== −XP ; así la probabilidad de que en una muestra de 4 piezas se

encuentre 1 defectuosa es de aproximadamente un 41%. b) 0272.09728.01)2.0,4;2(1)2(1)2( =−=−=≤−=> bXPXP ; así la probabilidad de que en una

muestra de 4 piezas, se encuentren más de 2 defectuosas es de un 3% aproximadamente. c) [ ] 8.0)2.0(4 === npXE ; así el número esperado de piezas defectuosas en muestras de tamaño 4 es de 1

aproximadamente. ♦

3.3. LA DISTRIBUCIÓN DE POISSON3.3. LA DISTRIBUCIÓN DE POISSON3.3. LA DISTRIBUCIÓN DE POISSON3.3. LA DISTRIBUCIÓN DE POISSON

La distribución de Poisson es otra distribución discreta, cuyo nombre se debe al matemático francés Simeon Denis Poisson (1781–1840), quien la introdujo en 1837. Tiene grandes aplicaciones en variados campos, especialmente en Biología y Medicina.

Si X es el número de ocurrencias de un evento aleatorio en un intervalo de tiempo o espacio (o

volumen), a una tasa constante λ, la probabilidad que ocurran exactamente x eventos por unidad de tiempo o espacio (volumen) está dada por:

K,2,1,0;!

)( ==−

xx

exp

xλλ

Notar que esta distribución tiene sólo un parámetro: λ. Si X es una v.a. con distribución de Poisson de parámetro λ, entonces se anota X ~ c(λ).

Puede observarse, a partir de la definición, que: 1. Los eventos ocurren de manera independiente. 2. Teóricamente es posible que el evento pueda ocurrir infinitas veces en el intervalo. 3. La probabilidad que ocurra un evento en un intervalo es proporcional a la longitud del intervalo Son muchas las aplicaciones que tiene la distribución de Poisson, como representación estadística de

fenómenos, especialmente de tipo físico–biológico. Entre ellos, y muy a modo de ejemplo, el número de bacterias en un cultivo, el número de llamadas que circulan por una red de transmisión, el número de cuerpos celestes en un volumen cósmico, etc. Ejemplo 3.3. En la central telefónica de cierta empresa se reciben en promedio 5 llamadas por minuto. a) Calcular la probabilidad de que se registren más de 7 llamadas en un minuto. b) Calcular e interpretar E[X]. Solución. Si se define la variable aleatoria X: “número de llamadas recibidas” y se advierte que sigue un modelo poisson, entonces λ = 5 x minuto. Así: a) ( ) ( ) 1334.08666.01)5;7(1717 =−=−=≤−=> pXPXP ; la probabilidad de que se reciban más

de 7 llamadas es de un 13% aproximadamente. b) [ ] 5== λXE ; el número esperado de llamadas por minuto es de 5.

Page 28: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 28

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Aproximación de la Distribución Binomial por medio de la Distribución de Poisson

Como se habrá advertido, cuando el número de ensayos Bernoulli es muy grande (ya sobre 30 ó 40), el uso de la relación funcional para calcular probabilidades binomiales se hace casi imposible. Este problema de cálculo puede resolverse usando una ley de aproximación de esta distribución, mediante la distribución de Poisson, la que se formula en el siguiente teorema: Teorema 3.1. Sea X una variable con distribución binomial de parámetros n y p. Si existe una constante λ tal que p = λ/n, entonces:

L,1,0;!

),;(

0

==−

∞→

xx

epnxp

x

p

nlim

λλ

Demostración. La demostración requiere de algunos resultados alegebraicos que, a nuestro juicio, no aportan mayormente a la comprensión de los conceptos probabilísticos en estudio. También requiere de algunos resultados de cálculo, específicamente de límite. Demostraciones pueden encontrarse en la bibliografía sugerida en el anexo. ♦ En términos prácticos, el teorema establece que en una situación límite (n → ∞; p → 0) la fórmula de la distribución binomial es la función de probabilidades de una variable Poisson, con parámetro λ = np. Ejemplo 3.4. Si la probabilidad que un individuo sufra una reacción desfavorable por una inyección de cierto suero es de 0.001, determinar la probabilidad que de 200 personas 2 o más sufran la reacción. Solución: En realidad, si X es el número de personas que sufren una reacción desfavorable por una inyección de suero, entonces, de entre 200, X ~ bin(n=200; p=0.001). Lo que se pide es la probabilidad que X≥2, esto es, P[X ≥ 2]. Pero P[X ≥ 2] = 1–P[X < 2] = 1–P[X ≤ 1]. Por otra parte, P[X ≤ 1] implica el cálculo de grandes factoriales, y habitualmente las tablas de probabilidades para la binomial no porporcionan éstas para un p tan pequeño como 0.001. Pero admitiendo que n = 200 es grande y que p = 0.001 es pequeño, se puede utilizar la aproximación anterior y resolver el problema usando como distribución aproximada de X una distribución c (λ = 200(0.001) = 0.2). Así, observado la tabla de probabilidades de la distribución poisson, P[X ≤ 1] = 0.0175. ♦

3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA Cuando se hacen extracciones con reposición los resultados son independientes, por lo que este tipo de experimentos, en estricto, conducen a la distribución binomial. Experimentos en los que la extracción o selección de la unidad de observación es sin reposición son también de gran importancia, pero ellos conducen a otra distribución de probabilidades: la distribución Hipergeométrica. Esta distribución se relaciona con experimentos con dos o más resultados, en los que la probabilidad de éxito cambia de ensayo a ensayo (no hay independencia).

Considérese una población de N unidades de observación, k de las cuales poseen cierta característica (y N - k no la poseen). Si se hace una elección aleatoria de una unidad en esta población, el resultado debe ser una de las k (éxitos) o una de las N - k (fracasos). Pero si se hacen n selecciones al azar, sin reposición, cada elección subsecuente es dependiente y la probabilidad de éxito cambia en cada extracción. En estas condiciones, si deseamos obtener x unidades del tipo k (éxitos), en una muestra aleatoria de tamaño n, el número de éxitos en esta situación se llama variable aleatoria hipergeométrica. Sus parámetros son, como se habrá notado, N, n y k. Su función de probabilidades es:

Page 29: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 29

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

NnxNkx

n

N

xn

kN

x

k

xp ≤≤≤≤≤≤

= 0;0;)(

Los experimentos que dan como resultado una variable con esta distribución incluyen, generalmente,

el conteo del número de "éxitos" en una muestra tomada de un lote pequeño. Algunos ejemplos pueden ser el número de varones que forman parte de un comité de cinco, seleccionados al azar entre veinte empleados; o bien, el conteo de sistemas de alarma marca A, vendidos en tres operaciones en un almacén en el que había dos sistemas marca A y cuatro sistemas marca B.

Ejemplo 3.5. En un estudio biológico se emplea un grupo de 10 individuos. El grupo contiene 4 personas con sangre tipo A y 6 con tipo B. ¿Cuál es la probabilidad que una muestra aleatoria de 3 contenga 1 persona con sangre tipo A? Solución: Notemos que la variable tiene distribución hipergeométrica, con N = 10, n = 3 y k = 4. Se pide P[X = 1].

Pero P[X = 1] = 1.0

3

10

13

410

1

4

=

3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 1. Si X ~ bin(n;p), demostrar que E[X] = np y que Var[X] = np(1-p). 2. Para una variable aleatoria X ~P(λ), deducir las relaciones E[X] = λ y Var[X] = λ. 3. Si dos variables aleatorias se distribuyen conforme a un modelo Poisson, y son independientes, ¿puede

concluirse que la suma de ellas sigue el mismo modelo? 4. El número de imperfecciones en el tejido de una tela tiene distribución de Poisson con un promedio de 4

(imperfecciones) por yarda cuadrada. a. Calcular la probabilidad que una muestra de una yarda cuadrada tenga por lo menos un defecto. b. Calcular las probabilidades que una muestra de tres yardas cuadradas tenga al menos un defecto.

5. Una empresa de la zona se dedica a la crianza de una especie particular de llamas, para mercados

extranjeros. Lamentablemente no se tiene información respecto de el número de individuos que mueren en el proceso de crecimiento. Sólo se sabe que en promedio mueren alrededor de 8 individuos. Si se extrae una muestra de 25 individuos, a. ¿Cuál es la probabilidad de que el número de individuos que no sobrevivan al proceso de crecimiento

exceda los 10 individuos? b. ¿Cuál es la variabilidad dentro de la cual debiera fluctuar el número de individuos muertos?, explique

su resultado.

Page 30: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 30

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

6. Al inspeccionar la aplicación de cobre en un proceso productivo continuo, se descubre un promedio de 0.2 imperfecciones por minuto. Calcular las probabilidades de encontrar: a. Ninguna imperfección en un minuto dado. b. Una imperfección en tres minutos. c. Al menos dos imperfecciones en 5 minutos. d. A lo mucho una imperfección en 15 minutos.

7. En una empresa se arman lotes de 40 componentes cada uno, los que se consideran aceptables si no

contienen más de 3 defectuosos. El procedimiento de muestreo del lote consiste en seleccionar 5 componentes aleatoriamente y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la probabilidad de que exactamente 1 defectuoso se encuentre en la muestra, si existen 3 en todo el lote?

Solución a algunos problemas propuestos 5. a) 23.0)10( =>XP aproximadamente.

c) Var[X] = 2.33; es decir el número de muertos debiera variar en, aproximadamente, 2 individuos en torno al valor promedio.

6. b) P(X = 1) = 0.33; dado que λ en este caso es 0.66. 7. P(X = 1) = 0.3011

Page 31: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 31

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 4

ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES

Objetivos del capítulo: 7. Reconocer y aplicar modelos continuos comunes en situaciones concretas. 8. Estudiar y aplicar correctamente propiedades asociadas a algunas distribuciones continuas

conocidas. 9. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos

empíricos.

Al igual que en la caso discreto, hay infinidad de experimentos a los que se les puede asociar una variable de tipo continuo. Particularmente, hay muchos fenómenos que pueden "modelarse" por medio de una distribución de probabilidades de una variable continua. Tal es el caso, por ejemplo, de la edad en un grupo particular de personas (también la estatura, el peso, etc.); el tiempo de espera en una oficina de atención a público, el tiempo de falla de ciertas piezas electrónicas, etc. En general, suelen modelarse adecuadamente por medio de distribuciones continuas muchos fenómenos naturales (físicos, biológicos, etc.). Este capítulo trata, precisamente, de algunos de estos modelos, o más propiamente llamados distribuciones. Se presentan conceptos, ejemplos ilustrativos y algunas situaciones prácticas para el reforzamiento y aplicación por parte del alumno. 4.1. LA DISTRIBUCIÓN UNIFORME

Es sin duda la distribución continua más simple. En un intervalo (a,b) supone que cada valor es

igualmente probable. Sus aplicaciones van desde modelar el tiempo de llegada de un autobus a una estación de terminal, hasta la simulación por computadora de determinados fenómenos, incluidos fenómenos con determinada distribución. Por esto último, la distribución uniforme es la base de los sitemas computacionales de simulación.

En el intervalo real (a;b) la función de densidad de una variable aleatoria con distribución uniforme

está dada por )(1

)( ),( xIab

xf ba−= .

Para indicar que X se distribuye uniformemente en (a;b) se usa la notación X ~ U(a;b).

Ejemplo 4.1. Cuando deja de funcionar una tarjeta de circuito integrado, un sistema de cómputo se detiene hasta que se entregue una tarjeta nueva. El tiempo de entrega X está uniformemente distribuído en el intervalo de uno a cinco días. El costo C de esa falla y la parada comprende un costo fijo co de la refacción y un costo que aumenta en forma proporcional a X2, de modo que C = co + c1X

2 . Calcular el costo esperado de una determinada falla del componente.

Solución: Lo que se pide es E[C] = co + c1E[X2]. Pero como X~U(1;5), entonces ∫ =

==5

1

22

3

31

4

1][

xdxxXE .

Por lo tanto, el costo esperado es E[C] = co + c13

31 . ♦

Page 32: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 32

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

4.2. LA DISTRIBUCIÓN NORMAL

Existe una gran variedad de fenómenos que, repetidos un número grande de veces, han demostrado

que se pueden modelar por una determinada distribución de probabilidades. Ello ha dado origen al estudio de una similar variedad de variables aleatorias estrechamente relacionadas con tales fenómenos. En el caso discreto, por ejemplo, existe un número relativamente grande de fenómenos que se pueden modelar por una variable aleatoria discreta. El lanzamiento de una moneda es uno de los más clásicos fenómenos (experimentos) cuya distribución de probabilidades obedece a una regla bien específica, la llamada Regla de Bernoulli. Si el experimento consiste en lanzar 20 veces la misma moneda, entonces este experimento se puede modelar por la distribución de una v.a. discreta que se reconoce como Distribución Binomial.

De entre todas las variables aleatorias con una distribución de probabilidades conocida, sin duda la más importante es la llamada variable aleatoria normal. Sin temor a equivocarnos en el uso del lenguaje, indistintamente se habla de variable aleatoria normal o de distribución normal.

Por medio de este modelo (el modelo normal), se pueden estudiar diversas variables, tales como la estatura de las personas de una determinada población, el ritmo cardíaco en personas sin afecciones importantes aparentes, la velocidad del flujo sanguíneo, el número de hojas en una clase de plantas, la cantidad de árboles de cierta especie en un área específica. En general, mediciones relacionadas con datos meteorológicos, mediciones efectuadas en organismos vivos (animales o vegetales), mediciones físicas de partes manufacturadas, ciertos test de habilidad o inteligencia, pueden ser estudiadas como parte de esta distribución. Sin embargo, debe tenerse mucho cuidado al suponer una distribución normal, ya que de no ser así, las conclusiones obtenidas pueden distar mucho de la realidad, y ser, por lo tanto, absolutamente contradictorias en algunos casos.

En 1733, De Moivre descubrió la fómula de la Distribución de Probabilidades de una v.a. Normal.

Después la estudió Laplace, y en 1809 Gauss la citó en uno de sus artículos, bastando esto para que también se la conozca como Distribución Gaussiana. Durante el siglo XIX se empleó de manera extensa por científicos que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemente seguían un patrón que sugería la distribución normal.

Esta distribución se caracteriza por dos parámetros, µ y σ, y la función de distribución de probabilidades es la siguiente:

−−

= 2)(²2

1exp

2

1),|( µ

σσπσµ xxf

para 0;; >∞<<−∞∞<<∞− σµx .

Los parámetros µ y σ determinan en forma completa la distribución de probabilidades de una v.a. normal. Un estudio elemental de cálculo aplicado a esta función lleva a establecer las siguientes conclusiones:

a. El gráfico de f (la densidad de la normal) es simétrico respecto a la recta x = µ. b. El máximo de f se obtiene en x = µ c. Los valores x = µ ± σ son las abcisas de los dos puntos de inflexión de la curva. d. El gráfico de f tiene forma de campana, como se ilustra en la figura siguiente.

Todas estas características configuran una forma gráfica muy particular de la función de densidad de una variable aleatoria normal. El siguiente es un gráfico típico de este tipo de densidades (los de la familia

Page 33: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 33

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

normal). Por su forma de campana, y en honor a Gauss, a esta familia de curvas se le conoce también con el nombre de campana de Gauss.

Curva típica de una función de densidad Normal El gráfico de la normal (o por lo menos su apariencia) es uno de los primeros elementos de

diagnóstico de normalidad (o no-normalidad) de un conjunto de datos. Esto es importante tener en cuenta, ya que es de fundamental importancia en la Inferencia Estadística, como se verá posteriormente. En este sentido, el histograma de un conjunto de observaciones puede resultar realmente útil en el diagnóstico de normalidad. Se espera, bajo normalidad, que él (el histograma) presente una forma aproximada a la de la figura anterior.

Si X es una variable aleatoria Normal, con parámetros µ y σ, entonces se anota X ~ N(µ ;σ) ó bien X ~ N(µ ; σ²).

Teorema 4.1. Si X ~ N(µ ;σ), entonces E(X) = µ y Var(X) = σ². Demostración. La demostración requiere el uso de coordenadas polares y algunos resultados de álgebra lineal, por lo que se deja su revisión en algunos de los textos sugeridos en el anexo.♦ Función de Distribución Acumulada

La función de distribución acumulada de la normal corresponde, por definición, a P[X ≤ x] = F(x) y está dada por la integral

dyyxFx

−−

= ∫ ∞−

2)(²2

1exp

2

1),|( µ

σσπσµ

Esta integral no puede evaluarse en forma cerrada, pero sí se pueden encontrar valores aproximados

para ella, usando métodos numéricos. En la figura siguiente ilustra la relación entre probabilidades acumuladas de la distribución normal y

áreas bajo la curva de densidad de la variable.

Probabilidad acumulada como área bajo la curva

Page 34: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 34

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

La Variable Aleatoria Normal Estándar

Como existe un número infinito de combinaciones de valores de µ y σ, la evaluación de P[X ≤ x] se hace imposible. Sin embargo esto puede simplificarse mediante el proceso de estandarización, visto en el capítulo 3 de la unidad 1.

La variable estandarizada correspondiente se denota por Z y recibe el nombre de variable aleatoria normal estándar. Su función de distribución acumulada, denotada por Φ(z) = P(Z ≤ z), se encuentra extensamente tabulada para un gran número de valores de Z (una muestra de esta tabulación se encuentra en el anexo). Además, estos mismos valores se encuentran implementados en la mayoría de los Software que se relacionan con elementos estadísticos, y en muchas calculadoras de tipo científico. Ejemplo 4.2. Sea X una variable aleatoria que representa la inteligencia medida por medio de pruebas CI. Si X ~ N(100, 10), hallar las probabilidades que X sea menor que 85. Solución: Lo que se pide es P(X < 85). Pero esto es equivalente a calcular:

P[( X-100)/10 < (85-100)/10] = P(Z<-1.5) = Φ(-1.5).

Este valor se encuentra en tablas, o se puede obtener por medio de alguna aplicación computacional. De la Tabla, el valor aproximado es 0.0668.

La figura siguiente muestra la región asociada a la probabilidad normal estándar calculada.

Gráfico mostrando Φ (-1.5)

La región achurada en la parte de la derecha del gráfico muestra la equivalencia, gracias a la simetría,

entre Φ(–1.5) y 1 – Φ(1.5). Este hecho se expresa en términos generales como Φ(z) = 1 – Φ(–z), y es una importante relación de cálculo. ♦

Algunas Propiedades De La Distribución Normal

Por su naturaleza y sus múltiples aplicaciones, es de suponer que la distribución normal satisface un número importante de propiedades. Así es efectivamente, y a continuación enunciamos algunas de ellas.

Teorema 4.1. (De De Moivre–Laplace): Sea X~bin(n;p). Entonces ∞←⇐−

−= nN

pnp

npXY )1,0(~

)1(

Observación: La aproximación sugerida es cuanto mejor si np > 5 y p ≤ 0.5, o bien n(1-p) > 5 y p > 0.5. Demostración. Para la demostración consultar la bibliografía indicada en el anexo. ♦ Proposición 4.1. Sea X ~ N(µ ; σ²). Entonces Y = a + bX ~ N(a + bµ ; b²σ²).

Page 35: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 35

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Demostración. Usar la función generatriz de momentos. ♦

Proposición 4.2. Si Xi es una colección de variables aletorias N(µi ; σi²) independientes (muestra aleatoria),

entonces );(~ 2∑∑∑ iii NX σµ

Demostración. Se sugiere usar inducción y aplicar proposición 4.1. ♦

Proposición 4.3. Si Xi es una muestra aleatoria tal Xi~N(µi;σi²),∀i y ai∈ℜ, entonces );(~ 22∑∑∑∑ + iiiiii aaNXa σµ

Demostración. Se deja de ejercicio. ♦

4.3. LA DISTRIBUCIÓN EXPONENCIAL

Aunque la distribución normal tiene aplicaciones en múltiples campos o áreas de estudio, en modo

alguno ello significa que todo proceso empírico, particularmente, pueda ser modelado por medio de esta distribución. Por ejemplo, la duración de ciertas componentes electrónicas tienen una distribución que no es, precisamente, normal: pocas de ellas tendrán vidas útiles muy cortas, muchas tendrán una vida cercana al promedio, y muy pocas tendrán una vida útil extraordinariamente larga.

En otra situación, y continuando con situaciones ilustrativas, el ingeniero de transporte que observa el flujo de tráfico, frecuentemente se interesa en la longitud del intervalo de tiempo entre los arribos de vehículos a un punto. Por ejemplo, si un intervalo es demasiado corto, hará que un vehículo que intente cruzar o introducirse en el flujo de tráfico, se detenga o interrumpa el flujo. Este tipo de comportamientos puede modelarse adecuadamente por una distribución llamada exponencial.

Sea X el tiempo que transcurre hasta el primer evento Poisson, mismo que ocurre a una tasa constante λ. Entonces la probabilidad que X >x es equivalente a que en el intervalo de tiempo de longitud x no ocurra evento Poisson alguno. Esto es, cY(0), donde Y es una variable aletoria de Poisson con parámetro λx. En símbolos, x

X exF λ−−= 1)( . De aquí se deduce que la función de densidad de X está dada por:

0;)( ≥= − xexf xλλ .

Esto define la distribución exponencial, que denotaremos por Ε(λ). Describe el tiempo que transcurre hasta el primer suceso Poisson. Por lo tanto es una distribución continua. Dada la estacionariedad y la independencia de los procesos Poisson, e-λx es la probabilidad de que no ocurra ningún suceso en un intervalo cualquiera de tiempo de longitud x, comience o no en cero.

Por razones que se entenderán mejor cuando se presente la distribución gamma, es frecuente denotar

el parámetro λ por θ1 . En este contexto, la función de densidad de la distribución exponencial es

0;1

)( ≥=−

xexfxθ

θ.

4.4. LA DISTRIBUCIÓN GAMMA

Un tipo o modelo de distribución más general que el modelo exponencial, a la hora de modelar

fenómenos como los descritos a propósito de la distribución exponencial, es la distribución Gamma. Su función de densidad viene dada por:

Page 36: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 36

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

>>−Γ=

casootroen

xxxxf

0

0,0exp)(

1);|(

1 θαθθαθα

α

α

Los parámetros de esta distribución son α y θ. La cantidad Γ(α) es la función gamma en α. Algunos

detalles de la función gamma se presentan en el anexo. Para indicar que la variable aleatoria X tiene una distribución gamma con parámetros α y θ, se anota X

~ Γ(α ; θ).

Volvamos a la distribución gamma. Entre muchas otras aplicaciones de la distribución gamma se pueden mencionar: – Aplicaciones a problemas de física, tales como tiempo que transcurre entre dos eventos dados de un

fenómeno Poisson; tensión a la ruptura de ciertos materiales, etc. – Problemas relativos a lineas de espera. – Ingresos familiares, edad a la que un hombre contrae matrimonio por primera vez, etc.

Sus principales características son:

– Media igual a αθ – Varianza igual a αθ²

– Función generatriz de momentos igual a αθ −−= )1()( ttmX

– ( )θθ

α

xx

kxXP

k

k

−=≤ ∑−

=

exp!

11][

1

0

. Esta es una aproximación a la distribución acumulada.

La distribución de Erlang: Un caso especial de la distribución gamma es cuando α∈ Z+. Esta distribución es conocida con el nombre de distribución de Erlang. 4.5. LA DISTRIBUCIÓN DE WEIBULL

Establecida por el físico suizo del mismo nombre, la distribución de Weibull se ha empleado en los

últimos años como modelo para situaciones del tipo tiempo–falla, relacionados con componentes mecánicos y electrónicos.

Page 37: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 37

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Otra razón por la cual esta distribución es útil en el estudio probabilístico para tiempos de vida útil de componentes o sistemas, se encuentra en la distribución gamma. En efecto, ésta (la distribución gamma) puede servir como modelo para las situaciones señaladas. Sin embargo, la función del índice de riesgo (definida arriba) para la distribución gamma tiene una cota superior que limita su aplicabilidad a los sistemas reales. Por esta razón, y otras, a menudo son otras las distribuciones que dan mejores modelos de los datos de tiempos de vida útil. Una distribución de éstas es la de Weibull.

Una variable aleatoria X se dice que tiene distribución de Weibull si su función de densidad tiene la forma:

0;)( 1 >=−

− xexxf

x

θγ

γ

θ

γ

con γ y θ positivos. Notar que esto son los parámetros. Cuando γ = 1, la densidad se transforma en la densidad de una exponencial. Para γ > 1, la función es similar a la densidad de una distribución gamma, pero tiene algunas propiedades matemáticas un tanto distintas.

Una manera cómoda de ver las propiedades de la densidad de la distribución de Weibull es usar la transformación Y = Xγ. Si γ = 2, entonces puede observarse que Y = X² tiene una disrtibución exponencial. Esto es, inversamente, si se inicia con una variable aleatoria Y distribuída exponencialmente, entonces la raíz cuadrada de Y tendrá distribución de Weibull γ = 2.

La distribución de Weibull es una distribución que regularmente se utiliza en problemas de tiempos de vida, debido a las propiedades de su función del índice de riesgo.

4.6. LA DISTRIBUCIÓN JI-CUADRADO

Otra distribución de particular interés, especialmente por sus aplicaciones en la inferencia estadística,

es la distribución Ji–cuadrado (o Chi–cuadrado), que presentamos a contuación: Sea X una variable aleatoria. Se dice que X tiene distribución Ji–cuadrado si y sólo si su función de

densidad está dada por la expresión

>

Γ=

−−

...0

0;)2(2

1

)(22

2

2

coe

xexxf

νν

Page 38: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 38

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

El parámetro de esta distribución es ν, y se le conoce con el nombre de grados de libertad. Notar que el parámetro es un número entero.

Para indicar que X tiene una distribución Ji–cuadrado con ν grados de libertad se anota X ~ χ²(ν).

Puede notarse que la densidad de una distribución Ji–cuadrado es un caso particular de la densidad de

una distribución gamma. En efecto, si en la densidad gamma hacemos 2

να = y θ = 2, entonces la densidad

gamma es la densidad de una variable chi–cuadrado.

La distribución acumulada de una variable aleatoria Ji–cuadrado se encuentra tabulada para algunos percentiles y un gran número de grados de libertad.

Otra forma de obtener (o más bien construir) una variable con distribución Ji–cuadrado, es mediante la transformación Y = Z², donde Z es una variable aleatoria con distribución normal estándar. Esto es, una variable aleatoria Ji–cuadrado se puede obtener como el cuadrado de una variable normal estándar. En este caso, la variable Ji–cuadrado tiene un grado de libertad. Una generalización se obtiene mediante la suma de k variables aleatorias normales estándares, todas independientes. En este caso, la Ji–cuadrado resultante es una distribución con k grados de libertad. Esta definición es muy útil en muestreo, como en su oportunidad veremos.

4.7. LA DISTRIBUCIÓN T-STUDENT

Hay una manera fácil de definir una variable aleatoria con distribución t–student, nombre debido al seudónimo con que W. Gosset la publicó después de desarrollarla en 1908. Esta manera es:

Una variable aleatoria T con distribución t–Student se obtiene como la razón entre una variable aleatoria normal estándar y la raíz cuadrada de una Ji–cuadrado, independiente de la primera, donde ésta última ha sido previamente dividida por sus grados de libertad. La t–Student tiene, en consecuencia, un

parámetro, y es el mismo que el de la Ji–cuadrado (los grados de libertad). En símbolos, ν

ν

tX

ZT ~= ,

donde X es una Ji–cuadrado con ν grados de libertad.

La función de densidad, poco útil para efectos prácticos, puede verse en la mayoría de los textos de Estadística. En particular, en Canavos, página 235; Freund–Walpole, página 296.

Page 39: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 39

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Al igual que la Ji–cuadrado, la función de distribución acumulativa de una variable t–Student se encuentra tabulada para ciertos percentiles y un importante número de grados de libertad.

Puede demostrarse que esta distribución es simétrica respecto del origen (cero), asintótica respecto de la recta x = 0, y de forma gráfica muy similar al gráfico de la densidad de una normal estándar. Se sugiere hacer uso de software para obtener gráficos de la densidad de esta distribución para algunos valores de su parámetro. Es especialmente interesante el comportamiento del gráfico a medida que aumentan sus grados de libertad.

4.8. LA DISTRIBUCIÓN F-FISHER

La distribución F se obtiene o se construye de la siguiente manera: Sean X ~ χ2(ν1) y Y ~ χ²(ν2) dos

variables aleatorias independientes. Entonces la variable aleatoria definida como

2

1

ν

νY

X

F = se dice que tiene

distribución F de Fisher o de Snedecor. Sus parámetros son dos: los grados de libertad del numerador y los grados de libertad del denominador.

Su aplicación, al igual que las dos distribuciones anteriores, se justifica en procesos de inferencia. Su función de distribución acumulada, también, se encuentra tabulada para algunos niveles de probabilidad y una gran combinación de grados de libertad.

Page 40: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 40

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

4.9. EJERCICIOS Y PROBLEMAS

1. Demostrar que si X ~ U(a;b), entonces 2][ baXE += y 2)(12

1][ abXVar −= .

2. Verificar que para una variable aleatoria X ~ Ε(θ), que θ=][XE y 2][ θ=XVar . 3. La vida de servicio durante la que un determinado tipo de termisor produce resistencias dentro de sus

especificaciones sigue una distribución de Weibull con γ = 2 y θ = 50 (mediciones en miles de horas). a. Hallar las probabilidades de que uno de esos termisores, que se ha de instalar en un sistema, trabaje en

forma correcta durante más de 10 mil horas. b. Calcular la vida esperada para termisores de este tipo.

4. Deducir la función generatriz de momentos de una distribución Ji–cuadrado. Soluciones a algunos problemas propuestos 1. Las demostraciones se basan en la evaluación de algunas integrales muy elementales. 2. Al igual que el caso anterior, usar integración. 3. a. 0.14; b. 6270 horas

Page 41: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 41

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

ANEXOS

A. TEMAS COMPLEMENTARIOS

En el capítulo 1, sobre probabilidades, se pudo apreciar que el cálculo de probabilidades tiene mucho que ver con la cantidad de elementos de un espacio muestral o de un evento, en el caso de espacios discretos. Determinar la cardinalidad (número de elementos) de un suceso a veces puede resultar no tan trivial. Por ejemplo, es fácil deducir el número de elementos del espacio muestral asociado al lanzamiento de un dado, e incluso puede resultar fácil determinar la cardinalidad del espacio muestral asociado al experimento de lanzar dos dados. Sin embargo, si el experimento consiste en definir una función entre dos conjuntos, entonces la determinación de la cardinalidad del espacio muestral puede complicarse por la cardinalidad de cada conjunto considerado en la definición de las funciones.

Puede resultar casi demasiado obvio decir que el cálculo de probabilidades requiere, entre otros

conceptos, de saber “contar”. Pero a veces este simple proceso de conteo puede significar enormes esfuerzos. Afortunadamente existen métodos matemáticos que facilitan este proceso de conteo y, por lo tanto, permiten un mejor y eficaz tratamiento de las probabilidades. Estas herramientas son los principios de conteo, que en este capítulo se presentan en relación a espacios muestrales finitos y discretos.

A.1. ESPAA.1. ESPAA.1. ESPAA.1. ESPACIOS MUESTRALES FINITOSCIOS MUESTRALES FINITOSCIOS MUESTRALES FINITOSCIOS MUESTRALES FINITOS

En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas: el primero se genera al intentar realizar una lista de todo lo que puede suceder en una situación determinada, y el segundo consiste en determinar cuántas cosas diferentes pueden suceder, sin necesidad de hacer efectivamente la lista. Este último es de especial importancia pues en ocaciones necesitamos sólo el número de posibilidades y no la lista completa. Principios multiplicativos

Existen algunas formas útiles en algunas situaciones y que facilitan considerablemente el “conteo”. Algunas de estas formas se agrupan en lo que se conoce como principios multiplicativos del conteo. También existen los principios aditivos, pero aquí no se tratarán. Principio básico: Si una selección consta de dos pasos, de los cuales el primero se puede efectuar de m formas, y la segunda se puede realizar de n formas, entonces, existen m · n formas de selección. Principio multiplicativo: Si una selección consta de k pasos, de los cuales el primero puede efectuarse de n1 formas, el segundo de n2 formas, y el k – ésimo se puede realizar de nk formas, entonces la selección total se puede hacer de n1 · n2 ·...· nk maneras. Ejemplo A.1. En una editorial, que empasta un libro de estadística aplicada, el cliente puede escoger entre 20 colores distintos y 8 grosores de las tapas. ¿De cuántas formas distintas un cliente puede hacer el libro? Solución. Ya que m = 20 y n = 8, entonces hay 20 · 8 = 160 maneras distintas de hacer el libro. ♦ Ejemplo A.2. En un casino universitario para el almuerzo se ofrecen 2 tipos de carne, 4 tipos de ensalada, 3 tipos de postre y 5 tipos de jugo. ¿Cuántos almuerzos distintos es posible seleccionar? Solución. Dado que n1 = 2, n2 = 4, n3 = 3 y n4 = 5; puede haber 2 · 4 · 3 · 5 = 120 almuerzos distintos. ♦

Page 42: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 42

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Permutaciones Definición A.1. Si se seleccionan r objetos de un conjunto de n objetos distintos, cualquier ordenamiento de estos objetos se conoce como permutación. El número total de ordenamientos en esas condiciones es igual:

)!(

!)1)...(2)(1(

rn

nrnnnnPrn −

=+−−−=

Ejemplo A.3. ¿De cuántas formas distintas es posible ordenar 12 libros, en grupos de 4? Solución. Para n = 12 y r = 4, es posible ordenarlos de 12 · 11 · 10 · 9 =11.880 formas. Otra forma de hacerlo es:

)!412(

!12412 −=P = 11.880. ♦

Nota: El número de permutaciones de n objetos distintos, en grupos de n a la vez:, es !nPnn =

Ejemplo A.4. ¿ De cuántas maneras se pueden asignar a 10 profesores, diez cursos de estadística? Solución. Si n = 10, se pueden asignar de: 3628800!101010 ==P . ♦ Combinaciones Definición A.4. El número de combinaciones en que se pueden seleccionar r objetos de un conjunto de n objetos distintos se llama combinatoria y se obtienen:

)!(!

!

rnr

nC

n

r

rn −=

=

Ejemplo A.5. ¿De cuántas maneras un alumno puede seleccionar tres libros de una lista de 8, indicados para un curso? Solución. Se supone que en esta ocasión el orden en que se seleccionan los tres libros no es importante, luego si n = 8 y

r = 3, las formas de seleccionar son 56!3

6· 7· 88

3

38 ==

=C .♦

A.2. VECTORES ALERATORIOSA.2. VECTORES ALERATORIOSA.2. VECTORES ALERATORIOSA.2. VECTORES ALERATORIOS

Un vector aleatorio X es un vector cuyas componentes son variables aleatorias. Así, por ejemplo, el vector X'=(X1,X2)' es un vetor cuyas componentes X1 y X2 son variables aleatorias. La notación X' es para indicar que se trata de un vector columna.

Page 43: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 43

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Para un vector aleatorio X tiene sentido definir su función de probabilidades si todas sus componentes son discretas, y la función de densidad de X si todas las componentes son continuas. Cualquiera de estas dos eventuales funciones satisfacen las siguientes propiedades: i. La función de probabilidades (densidad) es no negativa.

ii. 1)'()(

=∑xR

xp si X es discreto, o bien 1)'()(

=∫xR

xf , si X es continuo.

La función de distribución acumulada se define de manera análoga que en el caso univariado.

Densidades conjunta, marginal y condicional

En la tabla anterior se registra lo que para un vector aleatorio se llama función de probabilidad conjunta (o función de densidad conjunta, si se trata de variables o componentes continuas). Al igual que en probabilidades, la distribución de cada una de las componentes del vector es la función de probabilidades marginal (o densidad marginal). En el ejemplo, la función de probabilidades marginal de X1 es el vector (0.6;0.4)', mientras que la marginal de X2 es el vector (0.5;0.5)'.

Definición A.5. La densidad condicional de (X1;X2)’ se define por )(

);()|(

0

01021

2xf

xxfxXxf

X

== .

Independencia de variables aleatorias Dos variables aleatorias son independientes si la densidad conjunta de ellas es el producto de las respectivas marginales. A.3. LA FUNCIÓN GAMMAA.3. LA FUNCIÓN GAMMAA.3. LA FUNCIÓN GAMMAA.3. LA FUNCIÓN GAMMA

También se le conoce, simplemente, como función gama. Se simboliza (o denota) y define de la siguiente manera:

∫∞

=

− >−=Γ0

1 0;)exp()(x

t tdxxxt

Es una función muy práctica en la evaluación de integrales impropias. Entre sus propiedades más importantes (por no decir ¡sorprendentes!) están: • !)1( nn =+Γ , ∀ n ∈ IN

• )()1( xxx Γ=+Γ ; ∀ x ∈ IR+

• π=Γ )21(

Ejemplo A.6. Evaluar la integral ∫∞ −

0

25

dxex x .

Solución. Notar que la integral es )27(Γ , ya que 12

725 −= . Por tanto, )

2

5(

2

5)12

5()27( Γ=+Γ=Γ .

Pero, a su vez, )2

3(

2

3)1

2

3()

2

5( Γ=+Γ=Γ . Aplicando nuevamente la misma propiedad, se tiene que

)2

1(

2

1)1

2

1()

2

3( Γ=+Γ=Γ

Page 44: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 44

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Ahora, completando la serie, π8

15)2

1(

2

1

2

3

2

5)2

5(

2

5)2

7(

0

25

=Γ=Γ=Γ=∫∞ − dxex x

Otra forma de evaluar esta integral es usando la técnica de Integración por partes, sucesivamente, lo cual puede "complicarse" un poco. ♦

Ejercicios y problemas Ejercicios y problemas Ejercicios y problemas Ejercicios y problemas 1. Sean X y Y dos variables aleatorias con función de densidad conjunta definida por:

≤≤−

=...0

1,0)1(3),(

coe

yxxyxyxf

Verificar propiedades de f. Hallar además, las distribuciones marginales correpondientes, la función de distribución acumulada y la media del vector.

2. Consulte, en un texto de probabilidades, los conceptos de covarianza y de correlación, y aplíquelos al

ejercicio anterior. ¿Puede deducirse que las variables del ejercicio anterior sean independientes (estadísticamente)? Explique.

3. Revisar los siguientes ejemplos de Freund–Walpole: ESTADÍSTICA MATEMÁTICA CON

APLICACIONES. Prentice-Hall Hispanoamericana, S.A. México, 1990: EJEMPLO 3.13; EJEMPLO 3.14; EJEMPLO 3.15; EJEMPLO 3.16; EJEMPLO 3.22 y EJEMPLO 3.24.

4. Desarrollar los siguientes ejercicios del texto referido en el ejercicio 3 anterior:

a. 1, 2, 3, 4, 7, 8, 12, 24, 25 y 26 de la sección 3.5. b. 1, 2, 4, 5, 17, 19 de las páginas 131, 132, 134 y 135.

5. Sean el vector aleatorio X ' = (X1 , X2)' y la función definidos a continuación:

X2 0 2

0 0.2 0.3 X1 1 0.4 0.1

Verificar que la función es una función de probabilidades.

Page 45: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 45

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS

Distribución Definición/Usos Función de probabilidades Esperanza Varianza

Bernoulli

Ensayos individuales con dos posibles resultados (éxito; fracaso). Ej. Extraer una lámpara y observar su condición (buena o defectuosa)

1,0;)1()( 1 =−= − xppxp xx

p

p(1-p)

Binomial Realización de n ensayos Bernoulli independientes, todos con probabilidad de éxito constante.

,...2,1,0;)1()( =−

= − xpp

x

nxp xnx

np

np(1-p)

Poisson Ocurrencia de eventos en el tiempo o en el espacio, de una manera aleatoria e independiente, y a tasa constante.

K,2,1,0;!

)( ==−

xx

exp

xλλ

λ

λ

Hipergeométrica Adecuada en muestreo sin reposición, y en poblaciones finitas. NnxNkx

n

N

xn

kN

x

k

xp ≤≤≤≤≤≤

= 0;0;)(

N

kn

)1

)(1)((−−

−N

nN

N

k

N

kn

Page 46: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 46

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS

Distribución Definición/Usos Esperanza Varianza Dist. Acumulada

Uniforme

Valores igualmente probables 2][ baXE +=

2)(12

1][ abXVar −=

Elemental

Normal

Mediciones físico–biológicas; ciertos test de inteligencia; errores de medición; y muchas otras situaciones empíricas.

µ

σ²

Tablas

Calculadora Software

Gamma

Tiempos de espera; problemas de tráfico, etc.

αθ

αθ²

( )θθ

α

xx

kxXP

k

k

−=≤ ∑−

=

exp!

11][

1

0

Exponencial

Tiempo entre dos eventos Poisson

θ

θ²

Elemental

Weibull

Problemas de tráfico, etc.

)1

1(1

γθ γ +Γ

– exp1 θ

γ

x−−

Ji–cuadrada

Inferencia estadística. Análisis de Tablas de contingencia

ν

Tablas

Calculadora Software

T–Student

ν

ν

tX

ZT ~=

Inferencia estadística

0

2;2

>−

νν

ν

Tablas

Calculadora Software

F–(Snedecor) Fisher 2

1

ν

νY

X

F =

Inferencia estadística

2;2

22

2 >−

νν

ν

Tablas

Calculadora Software

Page 47: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 47

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR

Probabilidades acumuladas para algunos valores de la variable aleatoria normal estándar Z z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 __________________________________________________________ 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 0.9 .8159 .8186 .8212 .8238 .8264 .8189 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9906 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998 3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998

Page 48: Apunte completo

PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 48

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

E. SUGERENCIAS BIBLIOGRÁFICAS

Para unA revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:

1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988. 2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A.

México, 1990. 3. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México,

1993.

Page 49: Apunte completo

FACULTAD DE INGENIERÍA DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS

ÁREA ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

Prof.: Juan Moncada Herrera

Segundo semestre de 2008

Page 50: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 3

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

Page 51: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 4

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

INDICE DE CONTENIDOS

INTRODUCCIÓN ............................................................................................................................. 5

Capítulo 1. ESTADÍSTICA DESCRIPTIVA 1.1. LA INFORMACIÓN .............................................................................................................. 6 1.2. LA ESTADÍSTICA ................................................................................................................ 7 1.3. ESTADÍSTICA UNIVARIANTE .......................................................................................... 15 1.4. ESTADÍSTICA BIVARIANTE ............................................................................................. 25 1.5. EJERCICIOS Y PROBLEMAS.............................................................................................. 37

Capítulo 2. ESTIMACIÓN DE PARÁMETROS 2.1. ESTIMACIÓN PUNTUAL DE PARÁMETROS.................................................................. 42 2.2. ESTIMACIÓN POR INTERVALOS .................................................................................... 45 2.3. EJERCICIOS Y PROBLEMAS ............................................................................................ 46

Capítulo 3. HIPÓTESIS ESTADÍSTICAS 3.1. CONCEPTOS PRELIMINARES ........................................................................................... 48 3.2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES ....................... 51 3.3. INFERENCIAS RESPECTO DE PROPORCIONES ............................................................ 52 3.4. PRUEBAS DE HIPÓTESIS: Muestras pareadas ................................................................... 54 3.5. PRUEBAS DE BONDAD DE AJUSTE ................................................................................ 56 3.6. EJERCICIOS Y PROBLEMAS.............................................................................................. 61

ANEXOS A. INTERVALOS DE CONFIANZA COMUNES ..................................................................... 64 B. PRUEBAS DE HIPÓTESIS COMUNES ................................................................................ 65 C. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................... 66

Page 52: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 5

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

INTRODUCCIÓNINTRODUCCIÓNINTRODUCCIÓNINTRODUCCIÓN

En el tema Variables Aleatorias y distribuciones de Probabilidades se trataron conceptos relativos a probabilidades y variables aleatorias y distribuciones. De ellos, quizá el último tema, distribuciones de probabilidades, fue el que más relacionó los conceptos con situaciones prácticas. Esas aplicaciones, sin embargo, se plantearon sobre la base del conocimiento de las características de definición de las variables asociadas: los parámetros. En algunas situaciones la obtención de los parámetros pudo significar algún procedimiento más bien racional o analítico, pero en ningún caso un desconocimiento absoluto o muy importante de él. Corresponde ahora acuparnos de aquellos problemas que tienen un asidero un tanto más empírico. En este tipo de situaciones, como se verá a lo largo de esta unidad, lo fundamental estará, precisamente, en el desconocimiento de los parámetros. Como se sabe, cualquier afirmación o validación de ella requiere, en términos estadísticos, conocer de los parámetros de la distribución correspondiente. Deben hacerse esfuerzos, entonces, por lograr un acercamiento a esos parámetros lo más eficaz y eficiente posible, como una forma útil de llegar, finalmente, a levantar el conocimiento subyacente al problema que sea objeto de estudio. Básicamente de todo aquel proceso de acercamiento al parámetro, desde la forma de obtener la información necesaria para ello, sus análisis pertinentes y las conclusiones derivadas de esos procesos, trata esta segunda unidad. Se hace un llamado a leer el documento con atención, a trabajar en los problemas propuestos y rehacer aquellos ya resueltos. Esa práctica es la que irá consolidando una forma de trabajar, y por sobre todo, de pensar inteligentemente cada situación que en materia de investigación se vaya presentando.

Page 53: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 6

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 1 ESTADÍSTICA DESCRIPTIVA

Objetivos del capítulo: 1. Valorar la importancia de los métodos descriptivos en la comprensión y síntesis de la

información. 2. Valorar la importancia de la inferencia estadística en la investigación científica. 3. Reconocer y aplicar métodos y procedimientos de resumen de información. 4. Interpretar resúmenes y representaciones de información.

1111.1.1.1.1. LA INFORMACIÓN. LA INFORMACIÓN. LA INFORMACIÓN. LA INFORMACIÓN

Información al menos en el contexto de estas notas, es aquello que de alguna forma u otra nos da cuenta de alguna realidad, abstracta o concreta. En algunos casos la información puede llegarnos vestida de algún comentario al pasar, de un vistazo raudo a la primera página de un diario, a alguna característica que nos llamó la atención en nuestro cotidiano caminar. Otras veces nos llega a través de un medio más elaborado de comunicación, como un noticiero, un comentario estructurado de actualidad, o alguno panel de comentaristas especializados, En estos casos, es imporante notar nuestra voluntaria disposición a la recepción de la información. Una forma más elaborada por la que podemos obtener o recibir información, ocurre cuando somos nosotros quienenes definimos qué información deseamos poseer, y en función de este objetivo la definimos, le generamos, etc. Esto último, en sus definiciones más simples, corresponde o es papel de la Investigación. Pero, ¿para qué necesitamos la información? Esta pregunta es clave. Podríamos decir que para tomar decisiones, pero corremos el riesgo de no considerar en nuestra justificación algunos otros aspectos tanto o más importantes que una toma de decisiones. Puede ocurrir, por ejemplo, que el objetivo final de la información sea transformar nuestro medio de vida o de acción, y ya no decidir si cambiarlo o no. Por estas y muchas otras razones, es fundamental tener claridad respecto de la pregunta anterior. No olvidemos que a causa de la información se construyen puentes y caminos (información de la porosidad del suelo, de su resitenca, etc.), un gobierno decide si endeudarse o no (información de tipo económico, tendencias de precios, de inflación, y tanta otra). Por información se comete y se han cometido asesinatos (recuérdese la Guerra Fría), se han declarado las Guerras (y también se han terminado). En fin, hay muchas razones y muchos escenarios sobre los cuales se puede entender la información, o más bien SU MAJESTAD, LA INFORMACIÓN. Dada su enorme importancia, en todo contexto, el hombre ha hecho esfuerzos, desde siempre, por tener un acceso cada vez más directo a ella (a la información). Se han eliminado barreras, se ha dispuesto para cada vez más personas, etc. Un ejemplo de esto último lo constituye la Supercarretera de la Información, conocida mundialmente como INTERNET. Internet es un mundo sin fronteras, sin costo, sin orden. En síntesis, como alguien dijera, la más auténtica y necesaria Anarquía. Pero no se somete a la burocracia ni a las leyes, algunas veces absurdas, que se encargan de distribuirla. Internet es hoy día el ejemplo concreto de la importancia y utilidad de la información, y está abierta tanto para obtener información, como para proveerla. Exactamente. Cualquiera de nosotros puede "poner" información en esta Red del Mundo, y cualquier información. Lo que todo usuario de Internet (o de la información, más generalmente) necesita, es saber qué busca o qué necesita. Pero esto requiere de la respuesta a una cuestión previa: ¿Para qué?

Page 54: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 7

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Bajo una perspectiva científica, la última pregunta debe analizarse en un contexto en el que la identificación o definición de un problema es relevante, por no decir vital. Es este problema o interrogante lo que permitirá definir la información. Pensemos en la siguiente situación: "Al profesor A le ha correspondido la jefatura del Curso B. Desde un comienzo ha detectado ciertos problemas de conducta, los que ha ido tratando con celo y profesionalismo, sobre todo por medio de charlas o lecciones de convivencia social. A pesar de lo mucho que ha hecho, no ha logrado controlar el curso en la forma que él desearía. Hay una pregunta que ronda por su mente: ¿Por qué?. Es la causa del problema lo que le aproblema, y por ello ha decisdido enfrentar el cómo analizar la situación" En lo anterior se ve un problema. En realidad lo que el maestro ha hecho es un diagnóstico de una situación, lo que en modo alguno significa que se conoce el problema. Éste estará controlado en la medida que conozcamos las causas que lo originan. El maestro entonces procede a elaborar una estrategia que le permita definir con claridad el problema, y por ende, delimitarlo. Para ello, consulta con profesores que anteriormente hayan trabajado con el curso, y también con quienes lo están haciendo en la actualidad. Además, ha construido un cuestionario, lo más completo posible a su entender, con el que recogerá información relativa a lugar de procedencia del alumno, nivel socioeconómico de los padres, nivel educacional de los padres y familiares, situación laboral y conyugal de los padres, hermanos, etc. En resumen, lo que busca es información, información que le permita perfilar al alumnado, que le permita explicar una realidad. Lograr explicar la realidad del curso es un proceso que puede resultar vital para el cambio de actitud de loa alumnos del curso. Por ello, los medios utilizados en el tratamiento de la información, así como la calidad de ésta, son fundamentales para el logro de los objetivos propuestos. También es fundamental la calidad de los instrumentos de recolección u obtención de información, ya que es un hecho que la calidad de los resultados es función de la calidad de los instrumentos utilizados en la obtención y tratamiento de la infor-mación. Al momento de analizar la información, nuestro profesor retornará, irremediablemente, a la realidad (el curso), y será sólo aquí que las conclusiones obtenidas tendrán sentido, porque él les habrá dado un sentido, y sobre esta base tomará las decisiones.

1.2. LA ESTADISTICA1.2. LA ESTADISTICA1.2. LA ESTADISTICA1.2. LA ESTADISTICA

Dada su importancia en materia de análisis y procesamiento de información, haremos una pausa en el caminar hacia el análisis para observar con algo más de detenimiento el concepto de estadística. Para ello, nada mejor (a mi juicio) que la lectura de unas notas que hace algunos años me facilitó un colega, el que a su vez las extrajo quién sabe de qué polvoriento archivo, pero que a nuestro juicio contienen en si un valiosísimo aporte para la comprensión, aunque parcial, de esta disciplina. ¿Qué es Estadística? La mayoría de la gente está familiarizada con el término estadística usado para indicar y registrar hechos numéricos y cifras: por ejemplo, las alturas de los rascacielos de la ciudad, el precio diario de artículos seleccionados en un almacén, el tonelaje de carga encargada a un barco durante los últimos 15 años o aún el número de yardas ganadas por el equipo campeón en un juego de fútbol. Sin embargo, este uso del término no es el foco central del tema. La estadística principalmente trata con situaciones en que la ocurrencia de algún evento no puede predecirse con certeza. Nuestras conclusiones son frecuentemente inciertas porque nos basamos en datos o información incompleta -valorar la actual tasa de desempleados en una región basado en una inspección de unos pocos miles de gente es un ejemplo. Incerteza surge también cuando observaciones repetidas de un fenómeno produce resultados variables aún cuando intentemos controlar los factores que regulan el evento que está siendo observado. Por ejemplo, los pinos de un año no tienen todos la misma altura, aún cuando hayan germinado y crecido en el mismo semillero bajo idénticas condiciones

Page 55: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 8

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

meteorológicas y de terreno. El tiempo para cortar el césped, el peso de un pollo de seis semanas criado en una granja y el período de alivio de una fiebre después de tomar cierta medición son otros ejemplos de situaciones en las cuales aparece la variabilidad en observaciones repetidas. La estadística es un cuerpo de conceptos y métodos usados para coleccionar e interpretar datos relativos a un área particular de investigación y para extraer conclusiones en situaciones en que estén presentes la incerteza y la variación. Históricamente, la palabra "estadística" se deriva de la palabra latina "status" que significa "estado". Por varias décadas, estadística fue asociada únicamente con la exposición de hechos y cifras económicas, demográficas y situaciones políticas predominantes de un país. Aún hoy día, una gran cantidad de informes gubernamentales que contienen documentación numérica masiva y llevan títulos como "Estadísticas de la Producción Agraria" y "Estadística Laboral" son residuos del origen de la palabra "estadística". Una importante parte del público en general todavía tiene el concepto erróneo que la estadística está exclusivamente asociada con traumáticos arreglos de números y a veces desconcertantes series de gráficos. Por lo tanto, es esencial recordar que la teoría y metodología de la estadística moderna han hecho gigantes avances fuera de la mera compilación de tablas y gráficos numéricos. Como un tema, ahora la estadística abarca conceptos y métodos que son de gran importancia en toda investigación que involucre recolección de datos, mediante un proceso de experimentación y observación, y realizar inferencias u obtener conclusiones mediante el análisis de tales datos. La exposición numérica ha llegado a ser un aspecto menor de la estadística y pocos, si los hay, profesionales estadísticos gastan su vida únicamente construyendo tablas y gráficos. Estadística en la vida diaria El descubrimiento de hechos a través de la colección e interpretación de datos, no está limitada a investigadores profesionales, sino que ha penetrado a la vida diaria de toda la gente que hace lo posible, consciente o inconsciente, por entender materias de interés referente a la sociedad, condiciones de vida, el ambiente y el mundo en general. El enterarnos acerca del estado del desempleo, contaminación por desechos industriales, el rendimiento de los equipos de fútbol, la efectividad de los analgésicos y otros intereses de la vida contemporánea recogen hechos y cifras y luego las interpretamos o intentamos entender las interpretaciones que otros hacen. Así, estamos aprendiendo cada día a través de un frecuente análisis implícito de información. Fuentes de información varían desde la experiencia individual a informes en los medios informativos, documentos gubernamentales, y artículos en revistas especializadas. Pronósticos del tiempo, informes de mercado, índices del costo de vida y los resultados de encuestas públicas de opinión son otros ejemplos. Los métodos estadísticos sin empleados ampliamente en la preparación de tales informes. Informes que son basados en sólidos razonamientos estadísticos y la cuidadosa interpretación de las conclusiones serán genuinos e informativos. Frecuentemente, sin embargo, el deliberado o inadvertido mal uso de la estadístiva conduce a conclusiones erróneas y distorsionadas de la realidad. Para el público en general, los consumidores básicos de estos informes, es esencial algunas ideas de razonamiento estadístico para una adecuada interpretación de los datos y evaluación de las conclusiones que son extraídas. El razonamiento estadístico da criterios para determinar qué conclusiones están realmente basadas en datos y cuáles no. En todos los campos de estudios en donde las inferencias son extraídas de análisis de los datos, la credibilidad de las conclusiones también depende en gran medida del uso de los métodos estadísticos en la etapa de colección de los datos. Los métodos estadísticos juegan un papel importante en un estado democrático moderno. Por ejemplo, si los dirigentes elegidos pueden determinar los deseos de sus electores mediante un adecuado y rápido método de muestreo, así la formulación de los programas políticos pueden estar más acorde con la voluntad del pueblo.

Page 56: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 9

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Estadística e investigación científica La importancia fundamental de la metodología estadística es mejor apreciada cuando se inspecciona a la luz del proceso general del saber: el método científico. Aunque la investigación científica no esté rígidamente estructurada, puede describirse como un proceso de gasto de esfuerzo para aprender acerca de regularidades ocultas de algunos aspectos los cuales aparecen en un mundo caótico. Modelos o teorías son postulados tentativos que tratan de explicar un fenómeno, deducciones lógicas son derivadas desde el modelo postulado y luego medidas con los descubrimientos reales, el modelo es modificado y continúa la búsqueda de unas mejores explicaciones. Los detalles del proceso científico son tan diversos como las disciplinas en estudio, pero algunos pasos básicos que forman la base de la mayoría de las investigaciones científicas son las siguientes: – Especificación de objetivos: Cuando el estado actual de conocimiento respecto a algo de interés es

considerado inadecuado, los métodos de investigación pueden ser considerados para mejorar la comprensión. Esto podría además ser enfocado sobre metas más específicas tales como demostrar una nueva teoría o escrutar una teoría existente con respecto al alcance de las deducciones lógicas extraídas, verificándolas mediante descubrimientos reales. En algunas situaciones, la meta puede ser simplemente la creación de una base de datos de información que en forma precisa refleja el estado actual del asunto. Por ejemplo, las cantidades promedio de tiempo gastado semanalmente en recreación podrían ser recopiladas para estudiar las componentes del uso del tiempo de los estudiantes. Otras veces, el objetivo puede ser más extenso y no sólo adquirir una comprensión de los factores que influyen en un ambiente, sino también determinar las posibilidades de su uso en el control o modificación de algunas facetas del fenómeno. Un objetivo de esta forma es la comprensión de la química de los desperdicios sólidos dispuesta en una planta y su uso consiguiente para la purificación del agua de un río circundante.

– Recolección de información: La información objetiva, dependiendo del propósito del estudio, es decisiva en cualquier investigación. Este proceso puede involucrar una amplia variedad de actividades, abarcando desde elaborados experimentos en ambientes controlados, a ensayos de terreno, investigaciones socioeconómicas y encuestas y también registros históricos. En la era actual la progresiva instrumentación y mecanización en la cantidad de observaciones es un hecho habitual. La información es típicamente recolectada en la forma de datos, los cuales numéricamente miden algunas características o registran alguna característica cualitativa poseida por los individuos o elementos bajo estudio o ambos.

– Análisis de los datos: Los datos coleccionados mediante un apropiado proceso de experimentación u observación sirven como la fuente básica para adquirir nuevos conocimientos acerca de la materia bajo estudio. Es entonces necesario examinar el conjunto de datos y extraer información pertinente en las conclusiones surgidas en la especificación de objetivos. Un cuidadoso análisis de datos es decisivo para establecer el nuevo conocimiento adquirido y para evaluar su validez y sus debilidades.

– Informe de los descubrimientos: La significancia de la información suministrada por los datos debe entonces ser ponderada en el contexto que se conocía en la etapa inicial de la investigación cuando se especificaron los objetivos.

– Objetivos: Los análisis de datos están diseñados para responder a preguntas como: "¿Qué generalidades pueden extraerse del fenómeno bajo estudio a partir de las evidencias suministradas por los datos?". "¿Contradicen los datos una conjetura ya establecida?". "¿Los datos sugieren una nueva teoría para explicar el fenómeno?". Los resultados del análisis son luego empleados para responder estas preguntas y también para medir el grado de incerteza involucrada en las respuestas obtenidas. La ciencia frecuentemente toma la forma de revisión sugerida de una teoría existente la cual puede necesitar una investigación adicional a través de la colección y análisis de los hechos.

Así la naturaleza básica del conocimiento es típicamente una repetición de este ciclo en una u otra forma. Raramente, es una verdad descifrada en una o aún en pocas operaciones del ciclo y cambiando las condiciones en muchos campos demanda una continuación indefinida del proceso de repetición.

Page 57: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 10

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

El papel de la Estadística en la investigación científica La esencia de la estadística se compone del arte y la ciencia de la recoleccion, interpretación y análisis de datos y la habilidad para extraer generalidades lógicas relativas al fenómeno bajo investigación. Desde el punto de vista de las etapas esenciales del método científico descrito, es claro que la estadística penetra el dominio de toda investigación cientifica. Específicamente en la etapa de recolección de información, la estadística guía al investigador hacia los caminos y medios apropiados para recoger datos o información, incluyendo una determinación de tipo y extensión de los datos, de modo que las conclusiones extraídas de un análisis pueden ser establecidas con un cierto grado de precisión. En las áreas de estudio en las cuales la experimentación es costosa, el tipo y cantidad de datos requeridos para suministrar un nivel deseado de verosimilitud en las conclusiones se debe determinar cuidadosamente con anticipación. En otras áreas, también tales decisiones son decisivas para la validez y eficacia esencial de las conclusiones extraídas de un análisis de los datos. La rama de la Estadística que trata con la planificación de los experimentos se llama diseño de experimento y la que trata con la definición recolección de información diseño de muestreo. Después que los datos han sido recolectados hay una gran necesidad por los métodos estadísticos. Algunos de estos métodos están diseñados para resumir la información contenida en los datos y llamar la atención sobre las características sobresalientes y no hacer caso de los detalles no esenciales. Un grupo más importante de métodos para analizar los datos están dedicados a extraer generalidades o inferencias respecto del fenómeno bajo estudio. El tópico que trata con los métodos estadísticos que resumen y describen las características sobresalientes de los datos usualmente se conoce como estadística descriptiva. Aunque históricamente la primera actividad, hoy día resúmenes descriptivos son sólo una estrecha parte de la esfera de actividades que caen bajo el alcance del tema de la estadística. Uno de los principales avances en la materia es, actualmente, la evaluación de la información presente en los datos y la valoración del nuevo aprendizaje ganado a partir de esta información. Esta es el área estadística inferencial y sus métodos asociados son conocidos como los métodos de la inferencia estadística. El uso de estos métodos proporciona una base de razonamiento para interpretar lógicamente los hechos observados, para fijar la amplitud en la cual estos hechos soportan o conducen un modelo postulado y para sugerir precisas revisiones de la teoría existente o quizá para planificar investigaciones adicionales. Las diferentes áreas de la estadística mencionadas anteriormente no son entidades disjuntas pensadas para usar cada una en etapas únicas de una investigación. Más bien, ellas están integradas en un sistema entrelazado de actividades donde los métodos usados en un área pueden tener fuertes influencias de aquellos usados en las otras áreas. Para decidir sobre el proceso y la dimensión de los datos que serán recolectados, se debe tener una percepción de los procedimientos deductivos contemplados para usar y la potencia de las inferencias anheladas. Por otro lado, los métodos de análisis de datos y extractores de conclusiones son fuertemente contingentes con el proceso por el cual fueron generados los datos. Situaciones ilustrativas de la recolección y análisis de datos Para clasificar las generalidades precedentes se darán aquí algunos pocos ejemplos. Ellos ilustran algunas situaciones típicas en que el proceso cognitivo de investigar un fenómeno involucran la recolección y análisis de datos en que los métodos estadísticos son consecuentemente conocimiento auxiliar indispensable para una relación sobre analisis se sugiere ver el anexo. – Producción de Vegetales: Experimentos que involucran la fertilización de diferentes tipos genéticos de

especies vegetales para producir híbridos de alto rendimiento son de considerable interés para los científicos agrícolas. Como un ejemplo simple, supongamos que la producción de dos variedades de

Page 58: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 11

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

híbridos serán comparados bajo condiciones climáticas específicas. La única forma para conocer el rendimiento relativo de estas dos variedades es sembrarlas en un cierto número de sitios, coleccionar los datos sobre sus rendimientos y luego analizarlos.

– Diagnósticos Clínicos: La detección precoz es de eminente importancia para el tratamiento quirúrgico exitoso de muchos cánceres. Debido a que frecuentes chequeos en hospitales son caros e inconvenientes, los m‚dicos buscan procesos de diagnósticos efectivos que los pacientes puedan autoadministrarse. Para determinar los méritos de los nuevos procesos en término de sus tasas de éxito en detectar casos verdaderos y evitar detecciones falsas, el proceso debe ser ampliamente probado en un gran número de personas, que deben entonces sobrellevar chequeos en hospitales para comparación.

– Programas de Entrenamiento: Programas de entrenamiento o enseñanza en muchos campos, diseñados para un tipo específico de clientes (estudiantes, trabajadores industriales, grupos de monitores, incapacitados físicos, niños retrasados, etc.) son continuamente controlados, evaluados y modificados para mejorar su utilidad en la sociedad. Para conocer acerca de la efectividad comparativa de diferentes programas, es esencial coleccionar datos sobre el logro o desarrollo de habilidad de materias en la completación de cada programa.

– Migración Animal: Los biólogos estudian los hábitos migratorios de aves y animales marcándolos con números de identificación en localizaciones geográficas relevantes y posteriormente rastreándolos en otras localizaciones. Los datos obtenidos por tales métodos no sólo nos ayudan a entender el mundo animal sino que ellos también alertan a los conservacionistas de situaciones que requieren acciones para proteger a las especies dañadas.

– Inspecciones Socioeconómicas: En las áreas interdisciplinarias de la sociología, economía y ciencias políticas, se emprenden estudios en aspectos tales como el bienestar económico de diferentes grupos étnicos, patrones de gasto en diferentes niveles de ingreso y actitudes hacia la legislación pendiente. Tales estudios son típicamente basados en datos obtenidos mediante entrevistas o contactando una muestra representativa de personas seleccionada mediante un proceso estadístico de una gran población que forma el dominio de estudio. Los datos son luego analizados y se hacen interpretaciones del punto en cuestión.

Población y muestra Aunque los ejemplos anteriores están extraídos de una amplia variedad de campos y solamente se dan superficiales descripciones del alcance y objetivos de los estudios, son fácilmente visibles algunas características comunes. Primero, la característica fundamental más aparente en todas estas áreas de estudios es el hecho que la colección de datos mediante un proceso apropiado de experimentación u observación es esencial para adquirir nuevos conocimientos. Segundo, es inevitable alguna cantidad de variabilidad en los resultados a pesar del hecho que las mismas condiciones o similares prevalecen durante las repeticiones de cada experimento u observación. Por ejemplo, en el caso de los vegetales, es irreal esperar que cada planta de una variedad particular tenga exactamente el mismo rendimiento, ya que la naturaleza no sigue una ley rígida. Análogamente, un programa de entrenamiento para individuos con condiciones similares produce variabilidad en las medidas de sus logros. La presencia de alguna variación inherente a los resultados y bajo condiciones experimentales constantes tiende a obscurecer el efecto de un cambio en estas condiciones. Un ingrediente importante del análisis estadístico de datos es la formulación de modelos apropiados que representen la variabilidad intrínseca encontrada en la naturaleza. Una tercera característica notable de los ejemplos del punto anterior es el hecho que es físicamente imposible o prácticamente no factible coleccionar y estudiar un conjunto de datos pertenecientes a un área específica de investigación. Cuando se obtienen los datos de experimentos de laboratorios o ensayos de terreno, no importa cuantas experimentaciones han sido realizadas, siempre puede obtenerse un número mayor. En opiniones públicas o

Page 59: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 12

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

en estudios de gastos de los consumidores una colección completa de información podría emerger sólo si los datos fueran recolectados de cada individuo en la nación. Por ejemplo, para coleccionar un conjunto completo de datos relativos al daño sufrido por todos los coches de un cierto modelo y año por colisiones en una velocidad específica, cada coche de ese modelo salido por las líneas de producción debería ser sometido a colisión. El conjunto completo de observaciones que podría coleccionarse haciendo repeticiones ilimitadas de un experimento o manteniendo un registro minucioso de todos los elementos dentro del alcance del estudio es demasiado enorme que podemos, en el mejor de los casos, visualizarlo en nuestra imaginación. Tal inmenso conjunto de datos puede ser considerado como la fuente de información completa, pero las limitaciones de tiempo, recursos y medios y a veces la naturaleza destructiva de la prueba, significa que debemos trabajar con información incompleta lo cual corresponde a los datos que son realmente recolectados en el curso de un estudio experimental. Las ideas fundamentales emanadas de nuestra discusión aclaran una distinción entre el conjunto de datos que es realmente obtenido a través de un proceso de observación y la enorme colección de todas las observaciones potenciales que se pueden originar en un contexto dado. La nomenclatura estadística para la primera es muestra y para la última es población, población estadística o población objetivo. (Una definición general de una población debe ser pospuesta hasta que se introduzcan varios otros conceptos). Para enfatizar la distinción entre muestra y población en esta etapa consideraremos situaciones en que cada medida (o registro de un rasgo cualitativo) en un conjunto de datos se origina de una fuente distinta llamada unidad de muestreo o más simplemente unidad. Estas fuentes pueden ser árboles, animales, granjas, familias u otros elementos, dependiendo del dominio del estudio. Los datos muestrales consisten entonces de medidas correspondientes a una colección de unidades que son incluidas en un experimento real. Esta colección forma parte de una colección mucho más grande de unidades, acerca de la cual deseamos hacer inferencias. El conjunto de medidas que podrán resultar si todas las unidades de la colección mayor pudieran ser observadas, se define como la población. Una población (población estadística) es el conjunto completo de medidas posibles o el registro de algún rasgo cualitativo correspondiendo a la colección entera de unidades para las cuales serán hechas las inferencias. La población representa el objetivo de una investigación y el objetivo del proceso de colección de datos es extraer conclusiones acerca de la población. Una muestra de una población estadística es el conjunto de medidas que son realmente recolectadas en el curso de la investigación. Algunos detalles adicionales deberían clasificar las diferencias entre los conceptos de población y muestra. Es importante notar que en contraste con su uso ordinario el término "población" en Estadística no implica una colección de seres vivos. Una población estadística es una colección de números que representan la totalidad de mediciones de alguna característica del grupo completo de unidades que son objeto de una investigación. La característica puede o no estar asociada con una población humana. En el estudio del rendimiento de un tipo particular de vegetal bajo condiciones climáticas específicas la población estadística de rendimientos es la colección de todas las medidas de producción que imaginariamente puedan ser recogidas si el vegetal fuera extensamente cultivado en todas las localizaciones geográficas con condiciones climáticas particulares y este proceso fuera repetido año tras año. En este contexto la población estadística no tiene nada que ver con cualquier población humana. Además deseamos aprender acerca del concepto abstracto de la totalidad de las medidas de producción. Una muestra es una parte de esta población infinita o el conjunto de las medidas de rendimiento realmente registradas en el curso de un experimento que resulta de sembrar un número de vegetales en unas pocas localizaciones con las condiciones climáticas dadas. Obviamente los datos muestrales variarán cuando se repita este experimento en ocaciones diferentes, mientras que la población (aún cuando no existe en la realidad) es considerada como un cuerpo estable de números a

Page 60: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 13

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

pesar de que el conjunto puede ser inmensamente grande e irregistrable. El costo de la mantención anual de coches de todas las familias de Estados Unidos durante 1977 es un ejemplo de este tipo de población. Desde nuestra percepción de una población estadística como el compendio de todas las observaciones potenciales en alguna faceta de la naturaleza, el proceso de investigación experimental puede ser considerado como un esfuerzo por obtener una comprensión de la población sobre la base de información incompleta recolectada mediante el muestreo. El tema de la estadística de la metodología para realizar inferencias inductivas respecto de la población a través de la colección y análisis de los datos muestrales. Estos métodos permiten deducir generalizaciones plausibles y luego medir el grado de incerteza bajo estas generalizaciones. Los conceptos estadísticos son tambien esenciales durante la etapa de planificación de una investigación cuando deba tomarse decisiones, como el modo y la dimensión del proceso de muestreo, de manera que los datos adecuadamente informativos puedan ser generados dentro de las limitaciones de los recursos disponibles. Los objetivos principales de la Estadística son:

(a) Realizar inferencias de una población a partir de un análisis de la información contenida en los datos de la muestra, y

(b) hacer evaluaciones del grado de incerteza involucrado en estas inferencias. Un tercer objetivo, no menos importante, es deseñar el proceso y la dimensión del muestreo de modo que las observaciones constituyan una base para extraer inferencias válidas y precisas.

El diseño del proceso de muestreo es frecuentemente el paso más importante, especialmente en experimentos controlados en que diferentes factores que influyen en las mediciones pueden ser preplanificados. Un buen diseño para el proceso de colección de datos permite hacer un íntegro análisis y eficientes inferencias mientras que los sofisticados métodos de análisis de datos en sí mismo no salvan a mucha información de los datos producidos por experimentos deficientemente planificados. Estadística interactuando con otros campos Los primeros usos de la estadística en la estereotípica recopilación y pasiva presentación de datos, ha sido grandemente reemplazada por el moderno papel de suministrar herramientas analíticas con las cuales los datos pueden ser eficientemente recolectados, entendidos e interpretados. Los conceptos y métodos estadísticos permiten validar las conclusiones acerca de la población que se obtuvieron a partir de la muestra. Dado su extenso objetivo, el tema de la estadística ha penetrado en todos los campos del esfuerzo humano en que la verificación de afirmaciones y la ramificación de la información debe ser fundamentada en evidencias basadas o apoyadas en los datos. Los pocos ejemplos breves dados en el punto 5 no intentan demarcar la esfera de las aplicaciones estadísticas sino que se presentan para ilustrar la diversividad de aplicaciones estadísticas. El uso de métodos estadísticos en diferentes áreas de las humanidades, ciencia e ingeniería ha producido muchos tópicos interactivos, tales como la bioestadística, sicometría, ingeniería estadística, estadística económica, econometría y demografía. En muchas otras áreas en que los nombres compuestos no han surgido todavía, la materia de estadística juega un papel fundamental. Los conceptos básicos y el centro de la metodología son casi idénticas en todas las diversas áreas de la estadística aplicada. Surgen diferencias en el énfasis, debido a que ciertas técnicas son más útiles en una cierta área que en otra. Sin embargo, debido a la fuerte similaridad metodológica, los ejemplos extraídos de un

Page 61: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 14

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

amplio rango de aplicaciones estadística son útiles para crear una comprensión básica de diferentes métodos estadísticos, su uso potencial y sus vulnerabilidades al mal uso. Algo más sobre terminología estadística Ya se han presentado conceptos tales como muestra, población y otros. A continuación formalizaremos un poco más algunos de estos conceptos. Población: Entenderemos población como el conjunto de toda la información disponible o posible de disponer en un momento dado o en una situación dada. Esta información puede ser cuantitativa o cualitativa, dependiendo de si es de naturaleza numérica o no-numérica, respectivamente. Podemos decir que la información es la clave de éste y otros conceptos. Particularmente, la información es la que puede ser cuantitativa o cualitativa. Aquello que contiene la información se conoce con el nombre del variable. Entonces, otra forma de referirnos a lo anterior es: la población no es más que un conjunto de variables, y las variables pueden ser cuantitativas o cualitativas (o numéricas o no-numéricas). Muestra: Una muestra es un subconjunto de la población. En este sentido una muestra puede contener algunas variables de las que conforman la población o parte de todas ellas. Por ejemplo, en un estudio sobre la concentración de almidón en el trigo, la población puede consistir de la cantidad de granos/espiga, peso del grano, color del grano, diámetro del grano y concentración de almidón por espiga(ppm); observaciones realizadas sobre un total de 100 espigas. Aquí las cien espigas delimitan la cantidad de observaciones que se efectuarán sobre las otras variables, pero en sí no constituyen la población, sino el tamaño de ella. Lo que verdaderamente constituye la población son las observaciones que sobre las variables se efectúen. Al respecto, las variables son cantidad de granos/espiga, peso del grano, color del grano, diámetro de grano y concentración de almidón por espiga (notemos la presencia de variables cuantitativas y cualitativas en esta población). Una muestra de esta población puede consistir de 20 observaciones sobre todas las variables, o bien una cantidad de observaciones sobre tres de las seis variables. Una cuestión importante es determinar la "mejor" muestra, tema que no es de este curso. Parámetros y estadísticos: Cuando se obtienen medidas de resumen en una población, tales como promedios, totales, etc., estas características reciben el nombre de parámetros. Si estas medidas son obtenidas a partir de una muestra, entonces reciben el nombre de estadísticos o estadísticas o estadígrafos. En resumen, los parámetros son características (numéricas) fijas de la población, en cambio las estadísticas son características numéricas de la muestra (por lo tanto son variables, ya que dependerán de la muestra). En investigación es frecuente el problema de "decir o conocer" algo en relación a los parámetros, esto es, acercarse al conocimiento de estos. También es evidente que frente a un conjunto de observaciones o datos, deseemos organizar estos de manera que podamos decir con ellos lo que deseamos decir, y sólo eso; como así mismo lograr que ellos (los datos) nos revelen información oculta. La parte de la Estadística que se encarga de resolver el primero de estos problemas es conocida con el nombre de Inferencia Estadística, mientras que la que se encarga de lo segundo es la Estadística Descriptiva. Esta última es de suma importancia en cualquier fase de la investigación, ya que no se trata de describir sólo datos relativos a poblaciones, sino todo tipo de información, sea ésta poblacional o muestral. Su propósito fundamenal es la organización, resumen y presentación de la información, de modo de rescatar lo particular de entre lo general, o vice versa, sin caer en extremos como perder la idea general a fin de destacar lo particular, o generalizar a extremo de perder una visión más puntual de los datos. En una primera parte del curso nos encargaremos de proporcionar los elementos básicos del proceso descriptivo de la información.

Page 62: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 15

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

1.3. ESTADÍSTICA UNIVARIA1.3. ESTADÍSTICA UNIVARIA1.3. ESTADÍSTICA UNIVARIA1.3. ESTADÍSTICA UNIVARIANTENTENTENTE

La información disponible por medio de algún procedimiento de obtención (investigaciones, recopilaciones, diseño o muestreo, etc.) puede, por lo general, clasificarse en dos grandes categorías: información cualitativa (no numérica) e información cuantitativa (numérica). La primera se refiere a auella información que resume, describe o simplemente “informa” de cualidades o atributos de las unidades de observación. Ejemplos de este tipo de información son “color de ojos de niños”, “género de las personas”, “parentesco”, etc. La relación fundamental entre unidad de observación y característica observada es la de pertenencia (el sujeto pertenece a tal categoría o posee tal característica). La segunda categoría de información se refiere a todas aquellas características cuya unidad de medida posee propiedades propias de un subconjunto de los números reales. Por ejemplo, estatura (medida en centímetros, metros, etc.), longitud, tiempo, etc. Este tipo de información se caracetriza, por lo tanto, porque la observación posee una unidad de medida asociada. A pesar de las acepciones anteriores, y de la aparente exclusividad de naturaleza por parte de algunas variables usadas en los ejemplos, hay que tener presente que la conversión de un tipo de información en otro puede ser posible. Por ejemplo, si la variable es “ingreso bruto mensual de la familia”, esta variable puede ser, indistintamente, cualitativa o cuantitativa. En efecto, un economista puede “medir” esta variable en pesos ($), mientras que un asistente social podría referirse a ella como distintas categorías socioeconómicas (pobres, indigentes, etc.) y cada observación ser asociada, por tanto, en alguna de tales categorías. En este último caso la variable resume una cualidad del sujeto consultado. Más aún, es posible que una variable definida inicialmente como cuantitativa sea tratada, como parte del procesamiento, desde el punto de vista cualitativo. Lo inverso no es válido. Esto es, podrá transformarse en cualitativa una varuiable cuantitativa, pero no podrá “convertirse2 en cuantitativa una variable cualitativa. En el resto de este capítulo se tratarán las dos formas básicas de organización y resumen de información: forma gráfica y forma numérica. Actualmente se habla de formas digital y analógiga para referirse a esas formas. Estos enfoques adoptan formas especiales según sea el tipo a naturaleza de información a procesar, razón por la que se presentarán separadamente para los casos cualitativo y cuantitativo. En cualquier caso, las representaciones se hacen sobre la base de información cuantitativa. Esto significa que parte importante del análisis de información cualitativa consiste en cuantificarla a obejto de efectuar los análisis correspondientes. DATOS CUALITATIVOS Cuando nos enfrentamos a datos de natualeza categórica o cualitativa, como se dijiera, se debe cuantificar la información para obtener las represenbtaciones gráficas y numéricas que se requieran. Esto resulta fácil toda vez que las variables en estudio contienen una cantidad finita o limitada de valores (las modadlidades). Por ejemplo, si la variable en estudio es Sexo, entonces las modalidades serán dos: Hombre; Mujer, o Masculino y Femenino. Frente a ese tipo de variables, la cuantificación permite, además, construir representaciones y esquemas que mejor resuman la infrmación, o que permitan perfilar mejor al objeto en estudio. Tal cuantificación consiste en construir tablas de frecuencias (cantidad de unidades de observación que poseenla característica en estudio). Ejemplo 1.1. De la sola observación de los registros (lista) de un Libro de Clases, en un curso específico, se puede extraer la siguiente información respecto de la variable Sexo: 20 alumnos son niños y 23 son mujeres. Estas cifras hablan de la composición del curso (constituyen las frecuencias), que se puede representar en una forma tabular como sigue: Tabla de frecuencias

Sexo Frecuencia Masculino 20 Femenino 23

Page 63: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 16

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Una representación gráfica, de la misma información, puede ser más interesante. A continuación, un gráfico de sectores en el que se resume la información:

47%

53%

Masculino

Femenino

Respecto de la “lectura” de la información (o mejor dicho, del resumen) se pueden observar ventajas y desventajas de una y otra forma de representación. Por ejemplo, una ventaja de la Tabla de Frecuencias es su objetividad. El lector “lee” las cifras, y ellas son objetivas. Son el resultado de un proceso que no admite dudas, a menos, claro está, que los cálculos no estén correctos, en cuyo caso la fuente de error no proviene del análisis sino de una errónea aplicación del algoritmo de contar. Una de sus desventajas es la necesidad imperiosa de “leer” esa información. Mientras no se haga una lectura completa de ella, no se podrán hacer las compraciones. La segunad representación, en cambio, tiene como una de sus ventajas la facilidad de lectura de la información (no se requieren cálculos para hacer las comparaciones). Su principal desventaja es, no obstante, su subjetividad. Resulta obvio que debe tenerse especial cuidado de utilizar este este tipo de gráficos, ya que ellos no son adecuados cuando las diferencias no son muy evidentes, o cuando se dispone de muchas categorías a representar. Otra forma muy común de representación gráfica de información de este tipo es el gráfico de barras, como la que se muestra a continuación:

18

19

20

21

22

23

Masculino Femenino

Composición de género del curso

Aparte de estas formas de representación pueden existir otras, y, además, es tarea del analista buscar o idear sus propias formas de representar la información. No se puede olvidar el objetivo de cualquiera de estas representaciones: sintetizar un resumen a objeto de transmitir un mensaje lo más claro y pertinente posible. ♦ La importancia de los gráficos en Estadística es fundamental. El principio es muy sencillo: "Un gráfico puede decir más que mil palabras". Es tarea del analista "adornar" y complementar adecuadamente aquel mensaje con el mejor y más claro lenguaje posible.

Page 64: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 17

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

DATOS CUANTITATIVOS Cuando los datos son de naturaleza numérica (cuantitativa), es necesario encontrar formas adecuadas de resumir la información. Estas son, al igual que en el caso de información cualitativa, de tipo numérico y también de tipo de gráfico. Tratamiento Numérico Como se estableciera en el capítulo sobre variables aleatorias, de la Unidad 1, la descripción y resumen de un conjunto de información de tipo numérico puede hacerse en base a medidas numéricas descriptivas. Las medidas numéricas descriptivas que se abordan en estas notas, en relación al análisi de información, son: medidas de tendencia central, medidas de posición y medidas de variabilidad. Medidas de tendencia central Cuando se describe un conjunto de datos, no se intenta expresar demasiado ni muy poco, sino sólo la realidad. La forma de describir aquella realidad puede, eso sí, depender de los fines que se pretendan con el análisis, es decir descripciones estadísticas breves o muy elaboradas. En ocasiones, los datos se presentan en su forma original y es posible que “hablen” por si solos; otras veces esta situación se presenta como distribución de la frecuencia o bien como gráficas. No obstante ello, la mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados, que puedan hablar por ellos. Surge así la necesidad de resumir los datos a través de un único número, que describa a su modo, el conjunto entero de datos. Este tipo de número que seleccionamos dependerá de la característica particular que se quiera describir. Tal vez en un estudio nos interese establecer el valor que excede sólo el 25% de los datos; en otro, aquel valor que no sobrepase al 10% de los datos y en otro caso el valor que describa el centro de los datos o aquel que se presenta con mayor frecuencia. Las medidas que describen estas características se conocen con el nombre de medidas de tendencia o de localización, siendo las que describen el centro o punto medio las llamadas “Medidas de Tendencia Central”. Para un conjunto de datos X = x1, x2, ..., xn, las principales medidas que resumen la tendencia central de ese conjunto son:

Media: ∑=

=n

iix

nX

1

1

Mediana: X0.5 = Valor central (promedio de valores centrales) de la serie ordenada de X

Moda: Valor(es) más frecuente(s) de X (datos cuanti-tativos y cualitativos)

Los conjuntos de datos (distribución) con más de una moda se llaman multimodales. Medidas de posición

Como su nombre lo indica, las medidas de posición permiten resumir características relativas a la posición que ciertas observaciones, o conjuntos de ellas, tienen o adquieren en la distribución de los datos. Entre estas medidas las más importantes son los valores extremos y los percentiles, llamadas también, fractiles. Los valores extremos más utilizados (y obvios) son el máximo, que se denotará por Max(X), y que corresponde a la observación (dato) de mayor valor numérico; y el mínimo, que se denotará por min(X), y que corresponde a la observación de valor numérico menor.

Page 65: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 18

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Los percentiles, por su parte, corresponden a valores que “particionan” la distribución de la serie ordenada de observaciones, de tal modo que cada “parte” en esa partición tiene una frecuencia (relativa o porcentual) determinada. De ahí el nombre de percentiles, porque dividen porcentualmente (percentílicamente) a la serie de datos. De entre los percentiles, los más utilizados son los cuartiles (particionan a la serie de observaciones en cuatro clases de igual frecuencia: 25% de datos cada clase o grupo), los quintiles (particionan la serie de datos en cinco conjuntos de igual frecuencia: 20% cada grupo), los deciles (particionan la serie en diez clases de igual frecuencia: 10% de observaciones en cada clase o grupo). Matemáticamente, los percentiles se obtienen mediante una correspondencia biunívoca entre la serie ordenada de observaciones y el intervalo real [0.00 ; 100] (esquema siguiente).

Algunos autores definen a la mediana como una medida de posición, argumentando que es el percentil de orden 50%, o equivalentemente, el segundo cuartil, etc. Medidas de variabilidad

Las medidas más utilizadas para sintetizar las características de variabilidad de un conjunto de datos de naturaleza cuantitativa X = x1, x2, ..., xn son:

Rango: R(X) = Max(X) – min(X)

Varianza: ∑ −−

= 22 )(1

1xx

nS i

Desviación estándar: SSXed == 2).(.

Coeficiente de variación: %100)(X

SXCV =

Medidas de forma: Simetría y Kurtosis

En relación a la forma de una distribución, son principalmente dos los aspectos que pueden interesar en el estudio de una distribución: el grado o nivel de simetría (distribución armónica y bien espaciada de las observaciones en torno a un valor dado), y el grado de agudeza o puntiagudez, referido a la capacidad de concentrar las observaciones en torno de una valor. Una medida de la primera característica (o de una anticaracterística), es el coeficiente de asimetría o coeficiente de sesgo, mientras que una medida de la segunda es el coeficiente de kurtosis. Para una serie de datos X, se definen estos indicadores por:

Coeficiente de sesgo:

estándardesviación

mdianamediaCS

)(3 −= (de Pearson)

13

321 2

QQ

QQQCS

+−=

Kurtosis: 4

4)(

Sn

xx

Ki∑ −

=

Page 66: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 19

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Observaciones: – Existen varios coeficientes de asimetría. El más utilizado es el presentado aquí, que se atribuye a Pearson. – Una distribución puede recibir distintos nombres, según sea el valor del CS (ver figura 1). – Por lo general, |CS|≤3. – Una distribución se dice simétrica si CS=0; asimétrica negativa, si CS<0; y asimétrica positiva si CS>0. – De acuerdo a su forma, las distribuciones se clasifican en mesocúrticas, platicúrticas y leptocúrticas (ver

figura 2).

Figura 1: Curvas según coeficiente de asimetría

Figura 2: Curvas según coeficiente de curtosis

Resumen tabular: Tablas de frecuencia Hay situaciones en las que la cantidad de información es muy grande, o bien no existe una variable de clasificación que facilite su análisis. En estos casos se hace necesario algún procedimiento de agrupación de los datos de modo de hacer más comprensible su estructura. Esto es lo que se conoce como análisis en base a datos agrupados. La agrupación obedece a criterios subjetivos, y una agrupación dada puede no representar bien la información, por lo que deberá buscarse agrupaciones alternativas. Gracias a la Computación e Informática, esto se ve facilitado enormemente. La presentación de una agrupación particular de datos continuos puede hacerse en lo que se llama Tabla de Frecuencias. Esta tabla de frecuencias es una disposición tabular–rectangular en la que se identifican los grupos en los cuales se ha distribuído la información y las caracaterísticas más relevantes de esos grupos, llamados tambén clases. Cuando estas clases son intervalos bien definidos se les llama intervalos de clase.

Page 67: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 20

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Entre los elementos distintivos de la tabla de frecuencia, que en sí es información de resumen, se tiene la frecuencia de cada clase, que puede expresarse en forma absoluta (número de unidades en la clase) o en forma relativa (porcentaje de unidades de observación en la clase). Otro elemento distintivo de la tabla es la marca de clase, que corresponde a un representante de la clase correspondiente. Puede ser el valor promedio de la clase, puede ser la mediana de la clase, o alguna otra cantidad que represente bien a la clase. Es habitual que el punto medio de la clase sea la marca de clase. A continuación se presenta un ejemplo que ilustra la forma y estructura de una agrupación de datos en una tabla de frecuencias. Ejemplo 1.2. Las siguientes cifras corresponden a pesos (en kg) de 50 niños de entre 2 y 3 años de edad.

13.9 17.1 13.4 15.5 14.4 15.3 17.5 13.9 14.9 15.4 13.7 14.0 14.2 16.8 15.2 14.9 14.8 15.5 16.8 14.4 13.4 14.4 13.7 15.6 15.3 14.9 16.9 15.8 14.7 15.0 15.2 14.0 16.1 15.3 17.7 14.6 15.2 14.0 14.5 15.2 15.1 14.5 15.7 15.6 16.0 17.0 16.5 15.8 15.8 16.1

Es obvio, que al "mirar" los datos es muy poco lo que se ve. Se hace necesario un análisis en base a datos agrupados. Pero antes de proceder al agrupamiento de la información, se pueden obtener características numéricas básicas de la información.Con la ayuda de un software estadístico, se obtiene:

Variable: Peso de niños

--------------------------------------

Sample size 50

Average 15.224

Median 15.2

Mode 15.2

Variance 1.14064

Standard deviation 1.06801

Minimum 13.4

Maximum 17.7

Range 4.3

Coeff. of variation 7.01528

------------------------------------

Notar que estos pesos tienen una distribución bastante simétrica, pués son similares la media, la moda y la mediana. Frequency Tabulation

--------------------------------------------------------------------------------

Lower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequency

---------------------------------------------------------------------------------

1 13.000 13.625 13.313 2 .0400 2 .0400

2 13.625 14.250 13.938 8 .1600 10 .2000

3 14.250 14.875 14.563 8 .1600 18 .3600

4 14.875 15.500 15.188 15 .3000 33 .6600

5 15.500 16.125 15.813 9 .1800 42 .8400

6 16.125 16.750 16.438 1 .0200 43 .8600

7 16.750 17.375 17.063 5 .1000 48 .9600

8 17.375 18.000 17.688 2 .0400 50 1.0000

--------------------------------------------------------------------------------- ♦

Page 68: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 21

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Medidas numéricas a partir de un resumen tabular

La tabla de frecuencias, con más o menos elementos descriptores, es un resumen. Puede ser necesario, en algunas ocaciones, obtener medidas descriptivas más específicas a partir de ella, como por ejemplo, medidas de tendencia central o de variabilidad. Parece natural que se necesita de una forma alternativas a las ya vistas de obtener esos estadísticos, ya que no se cuenta con información original o “en bruto” como para aplicar las fórmulas de cálculo conocidas. A continuación se presentan algunas medidas descriptivas básicas a partir de una tabla de frecuencias.

Media: ∑=

=n

iiinm

nX

1

1, donde mi es la marca de la clase i y ni la frecuencia absoluta respectiva.

Mediana: La mediana requiere, primero, de identificar la clase mediana. Ésta es aquella clase en la que se encuentra el valor central de la serie ordenada. Notar que sólo podrá observarse la clase, y no el valor central. La mediana corresponde entonces al valor

Cn

FnLX

Med

15.0

5.0 −−+= , donde L es el límite inferior de la clase mediana, n es el total

de observaciones, F-1 es la frecuencia acumulada hasta la clase inmediatamente anterior a la clase mediana, nMed es la frecuencia absoluta de la clase mediana y C es la amplitud (largo) de la clase mediana.

Moda: Más bien se habla de clase modal, y corresponde a la clase de más alta frecuencia.

Varianza: La varianza de una distribución, a partir de datos agrupados, se obtiene de manera similar

al caso de datos no agrupados. Sólo deben usarse los estadísticos adecuados.

Percentiles: Aunque existe una forma algebraica de obtención de percentiles a partir de una tabla de

frecuencias, existe una forma gráfica, que se verá más adelante, que es mucho más

eficiente en la obtención de este tipo de medidas.

Observación: Todas las medidas obtenidas a partir de una tabla de frecuencias son aproximaciones de las respectivas medidas obtenidas a partir de los datos originales. Ejemplo 1.3. A partrir de la tabla del ejemplo 1.2 anterior, la media es 15.238. En relación a la mediana, la clase mediana es la cuarta clase, que tiene un límite inferior igual 14.785, una frecuencia absoluta de 15 y una amplitud de 0.625. Por lo tanto su valor es 15.16667. Por último, la clase modal también es la clase 4. A juzgar por estas caraterísticas, la distribución de los datos parece bastante simétrica. ♦ Desigualdad De Tschebyshev Un resumen estadístico debe ser una síntesis de la realidad. Como tal debe reunir los aspectos más relevantes de aquella y transmitirlos pertinentemente. Éste es el objetivo de todo resumen. En consecuencia, debe ser también un reencuentro con la realidad. Pero para lograr ese reencuentro hace falta saber leer el mensaje que contiene el resumen. Una de las herramientas más poderosas para esa lectura se presenta a continuación, en la forma de una proposición matemática primero, y en una formulación empírica después. Aunque exige ciertas condiciones a los datos, hay infinidad de situaciones en las que su uso ayuda considerablemente a la inerpretación.

Page 69: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 22

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Proposición 1. (Desigualdad de Tschebyshev). Sea X = x1, x2, ..., xn un conjunto de observaciones con una media X y una desviación estándar S. Entonces para una constante k>1, el porcentaje de información que se

encuentra a kS de la media X es al menos %100)11( 2k− .

Una formulación práctica de la Desigualdad de Tschebyshev es:

Regla empírica de Tschebyshev:

Si la distribución de X es simétrica en torno de su media X , entonces: – Aproximadamente el 67% de los datos se encuentra a una desviación típica de X . – Aproximadamente el 95% de los datos se encuentra a dos desviaciones típicas de X . – Aproximadamente el 99% de los datos se encuentra a tres desviaciones típicas de X .

Ejemplo 1.4. Si una distribución, relativamente simétrica, se resume en una media igual a 7 y una desviación típica de 0.4, ¿qué se puede concluir de las observaciones? Solución. Dado que la distribución es simétrica, entonces, mediante aplicación de la regla empírica de la desigualdad de Tschebyshev, se puede establecer que, aproximadamente, el 95% de los datos oscila entre 7–2·0.4 y 7+2·0.4. Esto es, la mayor parte de los datos oscila entre 6.2 y 7.8. ♦ Tratamiento Gráfico En muchos casos, la forma más adecuada y atractiva de presentar la información numérica es a través de gráficos y diagramas. Estos tienen la gran ventaja de que permiten una asimilación visual de las características de los datos estudiados bastante más rápida que la simple contemplación de resúmenes tabulares.

La elección del tipo de gráfico más adecuado para resumir cierta información, dependerá en gran medida del objetivo que se pretenda con él y del uso que a éste se le dará. Por ejemplo, ante la necesidad de mostrar la evolución de una variable a través de un período de tiempo determinado, se tienen los gráficos de línea o lineales. Situando el tiempo en el eje horizontal y la variable de interés en el eje vertical, se obtiene una secuencia temporal para esta última. En la figura siguiente se presenta un resumen gráfico referido al promedio mensula de material prticulado en Temuco durante los 12 meses del año 2003. En él se visualiza un claro aumento de enero a mayo, para comenzar luego una disminución.

Promedio mensual pm10 en Temuco

Año 2003

0102030405060708090100

Enero

Febrero

Marzo

Abril

Mayo

Junio

Julio

Agosto

Septiembre

Octubre

Noviembre

Diciembre

Fuente: Escuela de Ingenería Ambiental, UCTemuco

Page 70: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 23

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

A menudo nos puede interesar explorar la relación lineal entre dos variables, es decir cómo se comporta una variable (dependiente) en función de otra variable (independiente), situación que puede ser analizada a través del diagrama de dispersión, tal como se presenta en el ejemplo 1.5. Ejemplo 1.5. Un centro experimental desea establecer la relación existente entre los montos invertidos en investigación y desarrollo, y las utilidades obtenidas por estos conceptos, en los últimos 9 años. Información, en millones de pesos, resumida en la tabla siguiente:

Inv. en Inv. y Desarrollo Utilidades 2 20 3 25 4 30 5 31 3 26 7 34 9 36 11 38 10 37

12108642

Inv. en Inv. y Desarrollo

40

36

32

28

24

20

Utilidades

Inversión en Investigación y Desarrollo vs Utilidades

A través de este resumen gráfico es posible establecer la relación directa o positiva existente entre las variables en estudio, es decir, en la medida que la inversión en investigación y desarrollo aumente, también lo harán las utilidades del centro de investigación. El gráfico de cajas es una herramienta de gran utilidad para el análisis de uno o más conjuntos de datos. Construido a través de las medidas de posición, permite formarse una idea respecto de la distribución de la(s) variable(s) en estudio. Tomando la información del ejemplo 1.4 ilustraremos esta situación.

UtilidadesInversión

40

30

20

10

0

Millones de Pesos

Gráfico de Cajas

para la Inversión en Inv. y Desarrollo

Al intentar analizar y resumir un gran volumen de información, no podemos olvidar a los tradicionales histogramas y ojivas, cuyo gran objetivo es mostrar la distribución de frecuencias de los datos estudiados. Su construcción se realiza, directamente, a partir de la tabla de frecuencias. A continuación se muestran las formas características de estas representaciones, y posteriormente se ilustra con un ejemplo su construcción.

Page 71: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 24

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Los gráficos adecuados para el análisis de grandes volúmenes de información pueden ser los ya vistos, además de otras reprentaciones como gráficos de lineas, y los tradicionales histogramas y ojivas. Estos últimos se pueden construir a partir, directamente, de la tabla de frecuencias. Son por excelencia los homólogos gráficos de la tabla de frecuencias. A continuación se muestran las formas características de esas representaciones, y posteriormente se ilustra con un ejemplo su construcción.

HISTOGRAMA

OJIVA PORCENTUAL ASCENDENTE

Un histograma y una ojiva (distribución acumulada) para los datos del ejemplo 1.3 se presentan a continuación.

Histograma de frecuencias relativas

Peso de 50 niños

Frecuencia relativa

13 14 15 16 17 18

02

46

810

Distribución acumulada

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

0.800

0.900

1.000

13.100 14.100 15.100 16.100 17.100

Ejercicio. Consideremos los datos de la tabla adjunta. En ella se registran los pesos, en kilogramos, de cien personas adultas.

89 78 65 75 66 70 80 85 90 98 63 74 61 73 68 75 85 83 85 69 71 84 60 76 79 81 79 84 78 77 88 95 65 91 85 100 110 75 76 87 87 83 84 81 79 78 75 77 83 86 84 81 88 76 83 90 61 87 79 79 83 79 91 77 69 81 71 97 65 81 78 78 79 78 70 85 92 83 85 78 77 95 69 79 80 38 93 75 83 77 68 99 75 83 99 68 83 78 78 83

Page 72: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 25

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

La variable aquí en estudio, peso de las personas, no tiene asociada una variable de clasificación que facilite su análisis, especialmente gráfico, que es el mayor problema. Podemos determinar el peso promedio (o peso medio), valores extremos, mediana (o valor central), rango (diferencia entre máximo y mínimo), variabilidad o dispersión, etc., pero no tendríamos una forma gráfica adecuada para todos los datos. Es necesario, sin desechar las medidas anteriores, un análisis en base a datos agrupados, es decir, hay que agrupar los datos. Se sugiere intentar una agrupación, y en base a la Tabla de Frecuencias obtenida, construir el histograma y la ojiva. ♦

1.4. ESTADÍSTICA BIVARIANTE1.4. ESTADÍSTICA BIVARIANTE1.4. ESTADÍSTICA BIVARIANTE1.4. ESTADÍSTICA BIVARIANTE Es muy común que la explicación de un fenómeno o realidad requiera del conocimiento de algún aspecto de ella. Por ejemplo, puede ser deseable conocer o explicar el comportamiento de los alumnos (en la sala de clases) por medio de su realidad familiar, por ejemplo. En este caso, como en la mayoría de los que aquí serán tratados, existe un par de variables que en algún modo resumen o permiten resumir bien el objeto o problema en estudio. El análisis consiste en establecer la forma en que se relacionan o asocian tales variables. De este aspecto y sus derivados tratan las secciones siguientes. CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON El problema es determinar si dos variables cuantitativas o numéricas se encuentran o no relacionadas entre sí. Este es el problema de asociación. Por ejemplo, el pediatra sabe que existe una relación (asociación) entre peso y talla de niños de cierta edad. Y no sólo sabe que existe una asociación, sino también sabe qué forma tiene esa asociación. Un profesor puede desear establecer si existe o no relación entre el nivel de ingresos familiares y el éxito académico que los alumnos pudieran tener en la universidad. En fin, existen muchas situaciones en las que el conocimiento de una asociación entre variables puede explicar un fenómeno, y en cierta manera, permitir el control de ese fenómeno. En estas notas se presenta el análisis de un tipo particular de asociación: La asociación lineal, llamada más comúnmene, correlación lineal. El estudio de la correlación lineal corresponde al análisis de correlación lineal. Formalmente el análisis de correlación corresponde al conjunto de técnicas estadísticas empleado para medir la intensidad de la relación o asociación lineal entre dos variables. Un aspecto inicial del análisis lo constituye la determinación intuitiva o a priori de esta asociación. Por ejemplo, pareciera lógico pensar que el promedio de calificaciones de educación media de un estudiante esté relacionado con las calificaciones obtenidas en la universidad (al menos en sus primeros semestres). Una vez que se ha establecido la posibilidad de existencia de correlación lineal, se recomienda construir un diagrama de dispersión de los datos. En muchos casos las sospechas iniciales pueden ser corroboradas o refutadas por medio de un gráfico. De los gráficos siguientes, el (a) resume y manifiesta, al parecer, una relación lineal positiva entre las variables correspondientes. Los diagramas en (b) y (c), en cambio, no ponen en evidencia, al menos en apariencia, relación lineal alguna. Particularmente, en diagrama (b) más bien evidencia una asociación curvilinea (cuadrática), mientras que en (c) no se advierte ninguna tendencia en particular.

Page 73: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 26

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

El diagrama de dispersión, como herramienta de detección de correlación o asociación entre dos variables, es más bien una técnica intuitiva. Se necesita de una medida (numérica) de correlación lineal, de una cantidad que resuma y cuantifique esta asociación en base a los datos observados. Una medida de esta asociación muy utilizada es el coeficiente de correlación lineal de Pearson, definido a continuación: Definición. Sean X y Y dos variables aleatorias de las que se han registrado, en forma simultánea, n observaciones. Esto es, se tienen n pares ordenados (x,y) del vector aleatorio (X,Y). El coeficiente de correlación muestral de Pearson se denota y define por:

YX

n

iii

SSn

YXnYX

r)1(

1

−=∑=

donde SX y SY son las desviaciones estándares muestrales de X y de Y, respectivamente. El coeficiente de correlación así definido representa la proporción de la reducción a la variabilidad de Y cuando esta variabilidad es explicada por medio de una relación lineal con X. El cálculo de r, así como la construcción de un diagrama de dispersión, se facilitan considerablemente con el uso de calculadoras y software. La mayoría de las calculadoras científicas permiten el cálculo directo de r, mediante el módulo LR. Observaciones

1) El coeficiente de correlación de Pearson r satisface –1 ≤ r ≤ 1 2) r =1 significa correlación lineal perfecta, y positiva, entre las dos variables. 3) r = –1 significa correlación lineal perfecta, y negativa, entre las dos variables. 4) r = 0 significa ausencia total de correlación lineal.

El porcentaje de variabilidad de Y explicado por la variabilidad en X lo mide el coeficiente de determinación, que corresponde a r2. La cantidad 1–r2 se denomina coeficiente de no determinación. Ejemplo 1.6. Los datos siguientes son X: Puntaje en un sistema de aprendizaje, Y: Costo asociado al logro del puntaje. La idea es estudiar la relación que pudiera existir entre X y Y.

X 16 14 22 10 14 17 10 13 19 12 18 11 Y 77 70 85 50 62 70 52 63 80 57 81 54

Solución. En primer lugar exploraremos si se evidencia o no alguna tendencia en los datos. Esto puede lograrse con la ayuda del diagrama de dispersión, que se muestra a continuación.

Page 74: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 27

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

24211815129

Puntaje, X

90

80

70

60

50

Costo de obtención del puntaje, Y

RESULTADOS DE UN PROCESO DE APRENDIZAJE

Es evidente que si existe alguna asociación lineal entre X y Y, ésta debe ser lineal (ver gráfico siguiente). Sobre esta base, la medida de la asociación lineal está dada por r = 0.95754. Además, el coeficiente de determinación es r²=0.916892. Esto significa que, aproximadamente, el 92% de la variación en el costo se explica por la variación en el puntaje. ♦ Representación Gráfica de la Correlación Lineal

Sin duda que los mensajes con una componente analógica (gráfica) juegan un importante papel en las interpretaciones de resultados. En este sentido puede ser más ilustrativo un gráfico que una tabla con una serie de datos. Sin embargo, no puede concluirse que las componentes analógicas sean de mayor importancia que las componentes digitales en un mensaje. Habrá que analizar la forma más pertinente que usaremos para comunicar lo observado.

Puede demostrarse, con herramientas matemáticas que escapan a los objetivos de este curso, la siguiente importante relación respecto del coeficiente de correlación lineal de Pearson:

)cos();( θρ =cc YX donde θ es el ángulo que forman los vectores directores asociados a las variables Xc y Yc, y éstas son variables centradas, es decir, a cada valor de ellas se les ha restado su media. Esta relación es muy importante, puesto que permite "ver" las correlaciones, en tanto que estimar su valor aproximado.

Algunas consideraciones: 1. Dado que, geométricamente, la correlación se asocia con el coseno del ángulo que las variables forman,

entonces a medida que dicho ángulo aumenta en magnitud, la correlación disminuye. Recíprocamente, menor medida del ángulo implica una mayor correlación.

2. En ausencia de correlación (independencia total, ρ = 0), el ángulo entre las variables mide 90° (el coseno de un ángulo que mide 90° es 0). Esto es, las variables se presentan ortogonales. En síntesis, independencia se asocia con ortogonalidad.

3. Cuando el ángulo que forman las variables mide 180° (ángulo extendido), entonces el coseno vale –1, y en este caso veremos las variables orientadas en sentido opuesto, pero colineales, es decir, hay una relación lineal inversa.

4. La representación gráfica de la correlación sólo es posible en un espacio de dos o tres dimensiones. 5. Ya que la representación analógica se construye a partir de vectores centrados, y eventualmente reducidos

Page 75: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 28

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

(de varianza unitaria), se espera observar estas variables (o vectores) al interior de un círculo unitario y con sus extremos en un círculo, llamado círculo de correlaciones.

En caso de espacios de dimensión mayor a dos (incluso tres), quizá una “proyección” de las asociaciones en un plano sea suficiente para formarse una idea de esa asociación. En estos casos, cuanto más cercanos al círculo de correlaciones se encuentren los extremos de los vectores, mejor será la “representación” del vector en el plano, y más contundente será la conclusión. La figura adjunta ilustra las ideas anteriores. Es pecíficamente, las variables X1 y X2 parecen estar altamente relacionadas (de forma positiva), aunque la variable X1 no estaría bien representada en ese plano. Por su parte, estas mismas dos variables estarían relacionadas negativamente con X3, y X2 y X4 serían independientes.

CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN Definiciones y Propiedades El coeficiente de correlación producto-momento de Pearson, analizado anteriormente, exige que ambas variables sean continuas. Charles Spearman, ideó una medida de correlación para datos de nivel ordinal o de rango. Es decir, datos que están o que pueden ordenarse por algún algoritmo de orden ascendente o descendente. Dicha medida se conoce como Coeficiente de Correlación de Rangos de Spearman, y se denota y define por:

)1²(

61

2

−−= ∑

nn

drs

donde d: diferencia entre los rangos de cada par; n: número de pares observados Al igual que el r de Pearson, el rs de Spearman satisface las siguientes propiedades: 1. Satisface que –1≤ rs ≤1. 2. rs = ±1 significa correlación lineal perfecta entre las dos variables. 3. rs = 0 significa ausencia total de correlación lineal. Ejemplo 1.7. Los datos siguientes muestran los puntajes obtenidos por 5 trabajadores en sendas pruebas de destreza y de producción semanal.

Nombre Puntuación Producción Trabajador Destreza Semanal Pedro 62 800 José 92 900 Daniel 70 840 Samuel 50 775 Susana 86 875

Para utilizar el coeficiente de correlación de rangos de Spearman, se deben jerarquizar las observaciones. En

Page 76: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 29

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

este caso ordenaremos en forma ascendente las series, tal como se muestra en la siguiente tabla:

Nombre Puntuación Producción Rango para Trabajador Destreza Semanal Destreza Producción Pedro 62 800 4 4 José 92 900 1 1 Daniel 70 840 3 3 Samuel 50 775 5 5 Susana 86 875 2 2

El gráfico de Destreza versus Producción (gráfico siguiente) muestra una correlación lineal aparentemente perfecta. Puntajes altos (bajos) se relacionan o corresponden entre sí. Lo anterior es fácil de corroborar numéricamente, ya que notando que cada diferencia de rango d es cero, se tendrá también que d² = 0, así que

1)1²5(5

)0(61 =

−−=sr . ♦

0

1

2

3

4

5

0 1 2 3 4 5

Las observaciones que tienen el mismo rango (empates) pueden constituirse en un serio problema a la hora de utilizar este coeficiente de correlación. Si hay un importante número de empates, se puede utilizar el siguiente procedimiento de corrección:

T = 12

³ tt −

donde t es el número de observaciones empatadas para un mismo rango. Luego de esto se obtiene una corrección para el coeficiente de correlación dada por:

rs= 2

22

²²

²

∑ ∑∑ ∑ ∑−+

yx

dyx i

donde ; yTnn

yTnn

x yx ∑∑ ∑∑ −−

=−−

=12

³²;

12

³²

∑ xT es la suma de los valores de para los rangos empatados de X,

∑ yT es la suma de los valores de para los rangos empatados de Y.

Es recomendable utilizar este coeficiente de correlación sólo una vez que se haya corregido el problema de "empates".

Page 77: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 30

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIACASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIACASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIACASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA Se dispone de dos variables cualitativas, cada una con un número específico de modalidades o categorías. Entonces se procede a contar el número de co–ocurrencias de las distintas modalidades y se registran en una tabla de doble entrada: la Tabla de Contingencia o Tabla Cruzada. Hablar de asociación o relación entre dos variables cualitativas es hablar de Tablas Cruzadas o de Tablas de Contingencia. Aunque un Análisis de Contingencia puede ser en cierto modo complejo, las tablas de contingencia pueden tratarse desde una perspectiva descriptiva, sin pasar por el natural análisis de contingencia. Los aspectos descriptivos de una tabla de contingencia se basan en la tabla cruzada, que es lo primero de un análisis de contingencia. No obstante, cualquiera sea el análisis inicial, lo que se desea explorar por medio de una tabla del tipo Individuos x Variables Cualitativas es la relación entre las variables o las modalidades de ellas.

Variables cualitativas Individuos X1 X2 ... Xp

1 2 ... n

Una primera diferencia con los coeficientes presentados anteriormente es que el contenido de una tabla cruzada (o de contingencia) está conformado por frecuencias. En efecto, el cruce de dos variables cualitativas corresponde a un resumen de las co–ocurrencias de las distintas modalidades de las variables. Por ejemplo, si las variables son Sexo (dos modalidades, M y F) y Carrera (tres modalidades: C1, C2 y C2), entonces el cruce de ellas se puede resumir en una tabla con la siguiente estructura:

Carrera

Sexo C1 C2 C3

M F

En cada "celda" de esta tabla se registra el número de co–ocurrencias de las modalidades. En síntesis, mientras en los análisis de correlación anteriores el interés se centra en las variables, en el caso que estamos presentando el interés se centra en los individuos. Más aún, se trata aquí de colectivos de individuos más que de individuos singulares. Sin embargo, al igual que en los casos anteriores, el problema a estudiar es muy similar. Específicamente, se puede establecer que el problema principal de una tabla de contingencia es:

DADAS DOS O MÁS CARACTERÍSTICAS DE LA POBLACIÓN, Y EN BASE A LAS FRECUENCIAS U OBSERVACIONES CORRESPONDIENTES:

¿EXISTE ALGUNA RELACIÓN ENTRE TALES CARACTERÍSTICAS, O MÁS BIEN SON ELLAS INDEPENDIENTES?

Nuevamente la idea de distancia es fundamental en la construcción de un resumen que mejor dé cuenta de las asociaciones entre variables, y entre colectivos de individuos. Podemos decir que el problema principal es describir las distancias entre los elementos de la tabla, o resumir las comparaciones que en ella se hagan. En efecto, cuando examinamos las relaciones entre variables, lo que se está haciendo es examinar la "distancia" a

Page 78: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 31

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

la que se encuentran esas variables. Así por ejemplo el problema de independencia asociado a una tabla de contingencia no es más que un problema de distancia: la distancia entre la tabla observada y una tabla que representa la situación perfecta de independencia. Sin duda que el concepto de esa distancia puede ser el problema. En este sentido habrá que buscar alguna forma de "medir" esa distancia. Por su parte, y casi sin darnos cuenta, cuando abordamos el problema de correlación, lo hacemos determinando el peso que los diferentes grupos de individuos tienen en la tabla, lo que es equivalente a calcular la distancia entre distintos colectivos de individuos. De la Encuesta a la Tabla de Datos Retomemos el problema inicial, el cual es resumir la información de la tabla de datos. La confección o construcción de la tabla de datos para este análisis parte de un protocolo de encuesta. Es la codificación de la encuesta lo que constituye la materia prima de esa tabla de datos. Por ejemplo, si disponemos de las variables: CARRERA: A ADSC. RELIGIOSA: C1 B C2 C D entonces la información proporcionada por los individuos encuestados puede registrarse en una planilla parecida a la siguiente:

TABLA 1: Tabla de Códigos Condensados para Carrera y Adscripción Religiosa

Ind Carrera Adsc.Rel 1 B C2 2 C C2 3 A C1 4 A C2 5 A C2 6 D C2 7 B C2 8 D C2 9 C C2 10 C C2 11 A C1 12 D C1 13 D C1 14 B C1 15 C C1

Esta es una de las primeras tablas en el tratamiento de encuestas, y se llama Tabla de Códigos Condensados. La Tabla de Códigos Condensados no es un resumen, es simplemente la codificación de las respuestas. La Tabla de Frecuencias o Tabla de Contingencia: Un Primer Resumen Una tabla que sí constituye un resumen (y por tanto implica pérdida de información), es la Tabla de Frecuencias o también llamada Tabla de Contingencia. Esta tabla contiene las co-ocurrencias de las distintas modalidades de las variables. Por ejemplo, la tabla de frecuencias asociada a la información anterior es:

Page 79: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 32

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Tabla 2: Tabla de Contingencia para Carrera versus Adscripción religiosa CARRERA

ADSC. C1

RELIG. C2

TOTALES FILAS

A 2 2 4 B 1 2 3 C 1 3 4 D 2 2 4 TOTALES COLUMNA

6 9 15

Aspectos Descriptivos de una Tabla de Contingencia Antes de proceder a un análisis más estadístico de una tabla de contingencia, puede resultar interesante un análisis descriptivo de ella, especialmente de las frecuencias marginales de la tabla. El siguiente ejemplo pone de relieve algunos aspectos descriptivos que pueden ser útiles en la interpretación de la información de una tabla de contingencia. No hay que olvidar que este punto del análisis es realmente esencial. Ejemplo 1.8. En el año 1994 el movimiento mercantil artesanal de tres zonas se resume en la siguiente tabla (adaptación de un problema citado en Crivisqui, E.: Análisis Factorial de Correspondencias. 1993). Las ventas en cada zona se describen como Exportaciones. Las compras hechas de artículos producidos en otras zonas aquí son llamadas Importaciones o Autoconsumo.

Tabla 3: Tabla de contingencia para el mercado artesanal de tres zonas Ventas en cada zona Producción de Art.

de lana en cada zona A B C Producción total

A 75 25 54 154 B 56 78 189 323 C 89 132 202 423

Total Ventas 220 235 445 900

Gráfico 1: Producción de artículos de lana en cada zona

El análisis puede hacerse desde, al menos, dos perspectivas: en relación a la producción y en relación a la comercialización.

Page 80: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 33

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Respecto de la producción, en el gráfico 1 puede observarse que la Zona A produjo 154, en tanto que la Zona B, 323; y la zona C se muestra como la zona con mayor producción de entre las tres. En el gráfico 2 se hace una representación conjunta de ambos procesos: exportación e importación. En él se aprecia, con bastante claridad, la naturaleza exportadora de la zona B, mientras que la zona A se presenta como una zona preferentemente importadora. Nótese que la información proporcionada por el gráfico 2 es mucho más "informativa" que la proporcionada por el gráfico 1

Gráfico 2: "Exportaciones - Importaciones" según zona

Representación digital de la información de una tabla El objetivo de un análisis estadístico es, por cierto, la comparación. En este sentido, si se desea extraer y representar adecuadamente la información de aquella tabla habrá que neutralizar el efecto amplificador que en las comparaciones induce el tamaño de la población o de la muestra observada. Esto se logra dividiendo cada elemento (celda) de la tabla por el tamaño poblacional o muestral. La tabla resultante será llamada en adelante Tabla de Frecuencias (relativas).

Tabla de frecuencias relativas asociada a la Tabla 2

ADSCRIPCIÓN RELIGIOSA

CARRERA C1 C2 TOTALES FILA

A 152 15

2 154

B 151 15

2 153

C 152 15

2 154

D 152 15

2 154

TOTALES COLUMNA 156 15

9 1

Page 81: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 34

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

En la tabla de frecuencias (relativas), los totales fila o columna son llamados vector de peso o Centro de Gravedad de la tabla. Tablas de perfiles en línea y en columna Asociada a una tabla de contingencia (o de frecuencias) existen otras dos tablas: La Tabla de Perfiles en Línea y la Tabla de Perfiles en Columna. Un Perfil Línea (o perfil fila) es la distribución de frecuencias de la fila en relación al total marginal fila correspondiente. Por su parte, un Perfil Columna es la distribución de frecuencias de la columna en relación al total marginal columna correspondiente. Las tablas de perfiles asociadas a la Tabla 2 son las siguientes:

Tabla de perfiles fila

ADSCRIPCIÓN RELIGIOSA

CARRERA C1 C2

A 42 4

2 1

B 31 3

2 1

C 41 4

3 1

D 42 4

2 1

TOTALES COLUMNA

6 9

Tabla de perfiles columna

ADSCRIPCIÓN RELIGIOSA

CARRERA C1 C2 TOTALES FILA

A 62 9

2 4

B 61 9

2 3

C 61 9

3 4

D 62 9

2 4

TOTALES COLUMNA 1 1

Correlación Condicional Algunas veces puede ocurrir que mediante el uso de algún procedimiento de análisis (como el uso de χ2 , por ejemplo) se haya detectado un asociación importante entre las variables en estudio, y ésta no exista como tal. En situaciones como éstas puede suceder que una o más variables, no consideradas en el estudio, sean las que realmente den cuenta de la relación por la asociación que ella tiene con las que constituyen la base del análisis. Por lo tanto, cuando se tengan tres o más variables interrelacionadas, es necesario neutralizar el

Page 82: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 35

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

efecto de una de ellas en el estudio de la asociación de las otras. Este procedimiento es conocido como Correlación Condicional o Correlación Parcial. En esta sección veremos el impacto que en la comprensión de la información contenida en una tabla de contingencia pueden tener esos factores externos a las variables involucradas en la tabla. Por ejemplo, en la situación anterior, ¿qué efecto tiene en sexo del paciente en recuperación? Sin duda que la respuesta a esta interrogante podrá encontrarse sólo si se tiene esta última información. Ejemplo 1.9. (La paradoja de Simpson)1. Se estudió la sentencia (condenación a muerte o no) de 4764 asesinatos juzgados en Florida de 1973 a 1979 (Cf. Kripendorf: "Information Theory and Statistics". Wiley, 1986). Según la raza del asesino, se observaron los resultados de la siguiente tabla:

Asesino\condenación a muerte Si No Tasa Blanco 72 2185 3.2% Negro 59 2448 2.4%

Lo anterior puede inducir a pensar que la sentencia es más severa para un asesino blanco que para un asesino negro. Sin embargo, cuando se tomó en cuenta la raza de la víctima, se se obtuvo lo siguiente:

Raza\condenación a muerte Si No Tasa Victima Asesino Blanco Blanco 72 2074 3.4% Negro 48 239 16.7%

Negro Blanco 0 111 0.0% Negro 11 2209 0.5%

Esto pone en evidencia que, cualquiera sea la raza de la víctima, la sentencia es más severa para un asesino negro que para uno blanco.

1 Ejemplo extraído de apuntes de curso del Seminario de Capacitación de Docentes PRESTA. Concepción, 1997.

Page 83: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 36

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Resumen Las principales características de la correlación lineal de Pearson son: Ambas variables deben ser cuantitativas continuas. El coeficiente de correlación lineal de Pearson varía siempre entre 0 y 1. Valores de cercanos a indican asociación importante e inversa. Es decir, valores grandes (pequeños) de

una variable se asocian con valores pequeños (grandes) de la otra. Valores de próximos a indican correlación lineal importante y directa. Esto es, valores grandes

(pequeños) de una variable asociados con valores grandes (pequeños) de la otra. La importancia de la correlación depende del número de observaciones efectuadas. Así, un coeficiente 4

podrá ser importante (significativo) en una situación, pero nada importante en otra situación. Mientras más heterogénea sea la población, más fuerza existirá en la correlación. Es necesario conocer la naturaleza del problema antes de juzgar un coeficiente de correlación. Para establecer la significación de una correlación es necesario efectuar las pruebas de hipótesis

correspondientes. Para efectuar un análisis inferencial de un coeficiente de correlación se requiere que ambas variables

tengan varianzas homogéneas y distribuciones normales. La correlación entre dos variables puede observarse en una representación gráfica de los vectores

centrados asociados a las variables. En este caso la correlación está determinada por el ángulo que forman esos vectores.

El coeficiente de correlación de Spearman: Se aplica cuando las variables, siendo cuantitativas, son particularmente ordinales. Al igual que el de Pearson, varía siempre entre 0 y 1. En general se interpreta de la misma manera que el de Pearson. No debe usarse si es más pertinente el uso del coeficiente de correlación de Pearson, ya que es menos

fiable que éste. En pocas palabras, si es posible usar Pearson, úsese Pearson. Debe utilizarse sólo después de haber corregido por empates. En relación a tablas de contingencia: Hacer comparaciones entre elementos de una tabla de contingencia, sin antes tratar la información allí

contenida, puede significar comparar elementos no comparables. Los perfiles ponderados, en línea y en columna, permiten establecer comparaciones entre elementos

comparables. La distancia euclideana entre perfiles ponderados, o la distancia del Chi-cuadrado entre perfiles, permite

describir, sin distorsión la información contenida en una tabla. Al comparar elementos comparables, se está haciendo una lectura correcta de la información. Cuando se hace una representación gráfica de los elementos de una tabla de perfiles ponderados, hay

que tener en cuenta que los puntos representados está dotados de peso. Esto es, son puntos-masa. Entonces hay que tener cuidado con las interpretaciones de las distancias observadas en esa representación.

Una tabla de perfiles ponderados puede representarse en dos espacios de representación: uno en el que se representan los perfiles línea, y otro en el que se representan los perfiles columna.

Page 84: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 37

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

1.5. EJERCICIOS Y PROBLEMAS1.5. EJERCICIOS Y PROBLEMAS1.5. EJERCICIOS Y PROBLEMAS1.5. EJERCICIOS Y PROBLEMAS 1. Para cada una de las variables siguientes, indica naturaleza (cualitativa o cuantitativa) y valores que puede

tomar: a. Color de ojos de personas adultas. b. Peso de niños al nacer c. Número de hermanos de los estudiantes de la UCT d. Región de procedencia de los alumnos ingreso '97 de la UCT. e. Edad de los asistentes a un curso de capacitación f. Origen étnico de los alumnos de una escuela rural g. Grado de ruralidad del estudiantado universitario de Temuco. h. Número de cursos en el colegio B. i. Sexo de los alumnos de cada curso del colegio B. j. Tipo de mercaderías que se vende en "negocios" de barrios.

2. Se desea investigar la relación que puede existir entre el sexo del alumno y el rendimiento del alumno en

cursos del primer ciclo de enseñanza básica. Para este caso, define las variables a considerar y los posibles valores que cada una puede tomar.

3. Supón que el peso, en kg, de un grupo de personas, de edades similares, se ha resumido en el siguiente

cuadro: Promedio Desviación estándar 17 kg 4 kg

a. ¿Qué se puede concluir acerca de la edad de este grupo de individuos? b. Suponer que la distribución del peso de este grupo es aproximadamente simétrica (¿qué significa

esto?) y determinar valores extremos de la edad (¿cuáles serían estos extremos si no hubiere simetría?). ¿Puede afirmarse algo más respecto de la mayoría de estos individuos (por ejemplo, de su situación socio–económica)?

4. En el segundo semestre de 1993, un curso de estadística para alumnos de una carrera técnica de nuestra

universidad obtuvo las notas finales que se resumen a continuación. Se pide "hablar" del rendimiento de ese curso.

65432

nota_final

30

20

10

0

Número de alumnos

Distribución de la Nota Final

Características de resumen de Notas Finales del curso ----------------------------------------------- Sample size (N) 50 Num missings 0 Minimum 2.0000 Maximum 5.8000 Std deviation 0.7936 Quartiles: First quartile: 4.0000 Second quartile: 4.4000 Third quartile: 4.8250

Page 85: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 38

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

5. Un estudio de evaluación del impacto de un sistema de alimentación en niños de edad pre–escolar contempló la incidencia del sexo del niño en la respuesta (en este caso, la talla, en cm). Un resumen de lo observado es:

Sexo Promedio Desv. Típica Femenino 69 3 Masculino 73 8

a. Referirse, por separado, a niños y niñas en relación a sus características físicas. Señalar condiciones

que deben cumplir los datos para que sean válidas tales conclusiones. b. ¿Qué grupo de pequeños es más homogéneo en cuanto a su talla? Explicar. c. Calcular errores estándares de cada promedio y relacionarlo con los comentarios anteriores.

6. La información resumida a continuación, en los distintos box–plot, es relativa a una serie de

características de niños de Quinto Nivel de Enseñanza Primaria en el sistema educacional de España (en una localidad específica de la región de Cataluña). Originalmente2 la investigación estuvo dirigida a perfilar los hábitos de lectura de estos niños. Aquí se han seleccionado aquellas variables descriptivas más generales, y no dan cuenta exhaustiva, por tanto, de los hábitos de lectura. Se pide hacer un análisis de esta información.

Resúmenes gráficos (Gráficos de caja) referidos a la variable Inteligencia

Inteligencia Verbal según Nivel Socieconómico

0

10

20

30

40

50

60

70

80

90

100

intver

1 2 3 4

2 Los datos fueron proporcionados por el programa internacional PRESTA, y se enmarcan en el contexto de la tesis doctoral de Nuria Rajadell Puiggros, Universidad de Barcelona, 1990

Page 86: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 39

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Inteligencia No Verbal según Nivel Socieconómico

0

10

20

30

40

50

60

70

80

90

100

intnover

1 2 3 4

Inteligencia No Verbal según tipo de Escuela

20

40

60

80

100

intnover

1 2

Inteligencia Verbal según tipo de Escuela

0

10

20

30

40

50

60

70

80

90

100

intver

1 2

Page 87: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 40

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

7. Una empresa dedicada a la consultoría dispone de personal para hacer visitas en terreno. Lleva un registro diario de las distintas visitas y también de las frecuencias en las que aquellas visitas cumplieron con su objetivo y de aquellos casos en los que no se cumplió con el objetivo. ¿Cuál es la mejor medida de tendencia central a efectos de programar las visitas a terreno en esta empresa?

8. Producto del gran interés comercial de mercados extranjeros por la especie trucha arcoiris, su producción

y cultivo se ha masificado en los últimos años, así como también la búsqueda de eficiencia en ellos. Tal situación ha motivado una gran cantidad de estudios y experimentos, por parte de universidades y empresas privadas. Así en la piscicultura de Río Bueno, en la Región de los Ríos, se realizó un experimento con el fin de evaluar la eficiencia del tipo de alimentación. Para ello se utilizaron dos jaulas, en la primera de ellas a los individuos se les administró alimento extruido en cantidades normales (6 bolsas diarias) y en la segunda se les administró también alimento extruido pero a saciedad (10 bolsas diarias). La información obtenida se resume en el siguiente informe:

Cantidad N ormalA Sac iedad

Cantidad de Alimento

4

3

2

1

Kilos

Gráfico de Cajas para el Peso

Trucha Arcoiris

484542393633

Alimentación A Saciedad

12

9

6

3

0

Frecuencia

Histograma para la Longitud

Trucha Arcoiris

484440363228

Cantidad Normal de Alimento

12

10

8

6

4

2

0

Frecuencia

Histograma Para la Longitud

Trucha Arcoiris

Longitud (A. Normal) Longitud (A. Saciedad) Peso (A. Saciedad) Peso (A. Normal) Mínimo 28.6 35.2 1.22 2.0 Máximo 46.1 46.5 3.35 3.12

a) Identifica claramente las variables involucradas en el experimento y su naturaleza. b) Realiza un análisis descriptivo respecto de la longitud de los individuos en estudio. c) Realiza un análisis descriptivo respecto del peso de los individuos en estudio. d) Concluye respecto del tipo de alimentación más eficiente para la especie en estudio.

Page 88: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 41

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 2 ESTIMACIÓN DE PARÁMETROS

Objetivos del capítulo: 1. Valorar la Inferencia Estadística como un proceso válido en la investigación científica. 2. Reconocer la importancia del proceso de estimación en la Inferencia estadística. 3. Usar, eficientemente, métodos y recursos de estimación para hacer inferencias válidas.

La Inferencia es ese proceso, científico (y más que estadístico), que permite el "tránsito" desde una muestra a la población representada en esa muestra. De esta frase resultan importantes algunos conceptos como: muestra, proceso y tránsito hacia la población. Lateralmente está presente, en este contexto, el problema estadístico o de investigación. Esto último es el punto de partida de un trabajo. Un gran supuesto es que existe algo (parcial o casi total) de esa población que se desea explorar o conocer. Es este desconocimiento de la realidad el que justifica la investigación.

Sin embargo, no todos los aspectos de un fenómeno, en realidad, pueden ser desconocidos, ya que si ese fuere el caso, entonces tampoco tendría sentido estudiarlo, porque no existe. De cualquier modo, ante la posibilidad de desarrollar una investigación, existen siempre ciertos aspectos que el investigador conoce del problema. Este conocimiento puede ser directo o indirecto. Directo, en el sentido que existe fuentes confiables de información (anteriores) que permiten desde ya un acercamiento a ese problema. Indirecto, en el sentido que hay conocimiento lateral acerca del problema. Por ejemplo, puede tratarse de estudiar un modelo de comportamiento específico, pero la distribución de ese modelo no se conoce, pero se sabe cuáles podría ser "candidatos" a modelo. Hay que recordar, en este punto, que una población, representada por variables, llegará a ser conocida (estadísticamente) en tanto se conozacan sus parámetros de definición. De modo entonces, que desde una visión estadística, la investigación persigue la estimación de parámetros, sobre la base de información empírica. Es aquí, en la condición empírica, que surge el concepto de muestreo. El muestreo es la base fundamental de la inferencia: debe existir lo particular, para luego hacer las generalizaciones pertinentes. El muestreo más utilizado en la investigación en campos aplicados, como el área forestal, química, ambiental, etc., es el muestreo probabilístico. De estos muestreos, sin duda el muestreo aleatorio simple es la base.

Page 89: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 42

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Por medio del muestreo se obtiene una "parte" representativa de la población, a objeto de, desde esta parte, hacer las generalizaciones a la población que la información contenida en la muestra permita. Es fundamental, entonces, la calidad de la muestra. Se ha establecido que muestras aleatorias proporcionan buenos resultados en orden a hacer inferencias. Se entiende por muestra aleatoria un conjunto de variables independientes e idénticamente distribuídas (iid). Esto significa, en primer lugar, que una muestra es una colección de variables, digamos niiX ,1= ; y en segundo

lugar, que cada una de estas variables es independiente de cualquiera otra y todas tienen la misma distribución. En este escenario se desarrollará el proceso inferencial Sabiendo que una población está totalmente determinada si se conocen sus parámetros de definición, resulta una natural consecuencia, entonces, que el conocimiento de esos parámetros sea uno de los más importantes objetivos de la investigación. El problema es que esos parámetrosno están disponibles, y habrá que obtenerlos de algún modo, o, en su defecto, obtener estimadores de ellos. Esto último es lo que se abordará en estas notas (y en el curso). Hay básicamente dos formas de obtener un acercamiento a los parámetros: uno es a través de una estimación puntual, que significa obtener un valor "estimado" de él; y otra es por medio de alguna afirmación proposicional–probabilística del mismo. Por ejemplo, decir que el parámetro puede variar entre un valor y otro. En el primer caso se habla de Estimación Puntual, y en el segundo de Estimación por Intervalos.

2.1. ESTIMACIÓN PUNTUA2.1. ESTIMACIÓN PUNTUA2.1. ESTIMACIÓN PUNTUA2.1. ESTIMACIÓN PUNTUAL DE PARÁMETROSL DE PARÁMETROSL DE PARÁMETROSL DE PARÁMETROS Estimación Puntual: Primeros pasos de la Inferencia a. Métodos de estimación Puntual

Considérese una población determinada, estadísticamente, por un parámetro θ (o vector de parámetros).

Denotaremos porθ este estimador. Hay varias formas de obtener un estimador para un parámetro, alguas de las cuales se muestran en lo que sigue.

• Método de momentos (Debido a Karl Pearson (1894)): Sea q(θ ) una función de θ que se desea

estimar. Si se tiene q(θ ) = h(µ1, µ2, ..., µr), entonces ),,,()ˆ( 21 rMMMhq K=θ , donde µi es el i–

ésimo momento poblacional (µi = E[Xi]) y Mi es el i–ésimo momento muestral ( ∑=

j

iji X

nM

1).

• Método de Mínimos Cuadrados: Su objetivo es minimizar la distancia euclideana entre la función paramétrica que se desea estimar y un referente dado. Es muy utilizado en regresión. Una de sus características es que no requiere de supuestos distribucionales, lo que no ocurre con el método de momentos.

• Método de Máxima Verosimilitud: Se fundamenta en la maximización de la función de

verosimilitud de la muestra. Esta función, para una muestra aleatoria niiX ,1= de una población con

parámetro de interés (o vector de parámetros) θ se define como ∏== );();()( θθθ ixfxfL ,

Page 90: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 43

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

donde f es la función de densidad (o de probabilidades) de la variable aleatoria; y x es un símbolo para denotar el vector )',,( 1 nxx K . La solución del proceso en θ es el Estimador Máximo Verosímil

(EMV) de θ . La principal característica del método es que requiere del conocimiento de la distribución de la población, el que no siempre está disponible. Además, no siempre existe un EMV. Propiedad: Los estimadores MV poseen la propiedad de invarianza. Esto significa que si g es una

función inyectiva y si θ es el EMV deθ , entonces g(θ ) lo es de g(θ ).

b. Propiedades de los Estimadores Puntuales Al estimar un parámetro ocurre que, con mucha frecuencia, dependiendo del método, se obtengan distintos estimadores. El probema es entonces disponer de un criterio que permita seleccionar a uno de esos estimadores. En este sentido puede optarse por aluno de los dos criterios dados a continuación (Error Cuadrático Medio y Eficiencia). Sin embargo, hay otras propiedades, quizá anteriores a estos dos criterios, que facilitan la obtención de un estimador. Son a veces llamadas propiedades deseables de los estimadores puntuales (Insesgamiento, varianza mínima, suficiencia, etc.). Por último, puede ser interesante examinar algunas propiedades especiales del estimador (como consistencia y eficiencia). En base a toda esta información, y siempre en relación al problema estudiado, se deberá optar por algunos de los estimadores.

• Error Cuadrático Medio. El ECM para un estimadorθ se define como 2]ˆ[)ˆ( ϑθθ −= EECM .

Después de algunas simplificaciones, puede escribirse [ ]2]ˆ[)ˆ()ˆ( ϑθθθ EVarECM −+= . La

cantidad [ ]]ˆ[ϑθ E− se llama sesgo de θ .

• Eficiencia relativa de 2θ respecto de 1θ : )ˆ()ˆ(

2

1

θθ

VarVar

.

Las medidas anteriores son útiles en la comparación de estimadores. A continuación se presentan algunas propiedades deseables de los estimadores. Propiedades que se espera posean ellos. No puede esperarse que un estimador dado posea todas estas propiedades. De seguro, un estimador particular poseerá sólo algunas de estas propiedades. Será función del investigador determinar, de entre una serie de estimadores, cuál de ellos es "mejor" bajo alguno de los criterios señalados o por señalar. A continuación se presentan algunas de estas propiedades (deseables) de los estimadores puntuales. Se define sólo la de insesgamiento, y se dejan las otras para consulta del alumno. • Insesgamiento. Es una de las recorridas propiedades. Casi siempre es un criterio de selección. Un

estimador θ deθ se dice insesgado si su sesgo es cero. Esto es, si θθ =]ˆ[E .

• Consistencia, Suficiencia • Eficiencia Observación: Los EMV no siempre son insesgados.

Page 91: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 44

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Ejercicio: Obtener el EMV de la media de una distribución normal de varianza unitaria, y estudiar si es o no insesgado. Solución: Sea niiX ,1= una muestra aleatoria de una población N(µ;1). Entonces la función de

verosimilitud de la muestra es

−−

= ∑−

22 )(2

1exp)2()( µπµ i

nxL . Aplicando logaritmo natural (sólo

para simplificaru poco la relación) se obtiene ∑ −−−

= 2)(2

1)2ln(

2)(ln µπµ ix

nL . La derivada parcial

de esta última expresión es ∑ − 2)( µix . Reslviendo la ecuación 0)(ln

ˆ

=∂

=µµµ

µL, se tiene finalmente

x=µ . Es decir, el EMV de la media de una población normal de varianza 1 es la media muestral. Por otra parte, es fácil ver que µ=][XE , lo cual indica que el EMV en este caso, es insesgado. ♦

c. Aspectos Distribucionales de los Estimadores Puntuales

Una de las propiedades más importantes, desde el punto de vista de la Inferencia estadística, que se espera posean los estimadores puntuales, son de tipo distribucional. Por esta razón, siempre se selecciona, de una lista posible de estimadores, aquel que posee estas propiedades. Por ejemplo, puede ser que una combinación lineal (distinta de la media aritmética) de las variables sea un buen estimador de la media poblacional. Sin embargo, dado que la media muestral posee distribución normal en el límite, es tal vez más interesante esta última como estimador que cualquiera otra combinación de variables. Como en una gran frecuencia de casos nos enfrentaremos con medias y varianzas poblacionales (los que además, como ya se habrá visto, son estimadores insesgados de sus respectivos parámetros), parece razonable abordar el problema de distribución de estos estimadores. Distribución de la Media Muestral: Como se plantea a modo de ejercicio, es fácil demostrar que, en una población normal:

Z~n/

-X

σ

µ, cuando la desviación estándar poblacional es conocida

tnS/

-X1-n~

µ, cuando la desviación estándar poblacional es desconocida.

Teorema Central Del Límite: Este teorema es uno de los más importantes en materia distribucional en el contexto de la inferencia. Establece que en una población con media y varianza conocidas, y en muestras de tamaño infinito, la media muestral tiene distribución aproximadamente normal, con una media igual a la media poblacional y una varianza igual a

n2σ . En la práctica, el resultado se logra con muestras de tamaño supueriores a 30 o 40.

Page 92: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 45

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Distribución de la Varianza Muestral: En una población normal, no es difícil verificar que

212

2

~)1(−

−n

Sn χσ

. Notar que este estadístico no requiere del conocimiento del parámetro µ.

Teorema (De Moivre-Laplace): Si X~bin(n,p), entonces, cuando n tiende a infinito (n grande), se tiene:

(0,1))pVar(

p-p=Z N~

ˆ

ˆ

Observación: La aproximación anterior es buena ya sea que np > 5 y p ≤ 0.5, o bien n(1–p) > 5 para p<0.5.

La relación anterior también es válida si enn

p)-p(1=]pVar[ˆ se sustituye p por su estimador.

El estadístico (0,1))pVar(

p-p=Z N~

ˆ

ˆse usará entonces para hacer inferencias acerca de p.

2.2. ESTIMACIÓN POR INTERVALOS2.2. ESTIMACIÓN POR INTERVALOS2.2. ESTIMACIÓN POR INTERVALOS2.2. ESTIMACIÓN POR INTERVALOS Como se dijera oportunamente, otra forma de estimar un parámetro es mediante alguna afirmación proposicional, que tiene una representación matemática a través de un intervalo real. Esto consiste en la cosntrucción de un subconjunto de los números reales que se llama Intervalo de Confianza. Por ejemplo, en lugar de decir que la media de una población normal es estimada por la media muestral, se podría decir que ésta "oscila" entre una valor a y un valor b. Pero, aún encontrando estos valores a y b, puede suceder que la afirmación en base a una muestra M1 sea mucho más hacertada que en base a una muestra M2. Esta capacidad de "acertar" debe medirse, y la herramienta que lo permite son las probabilidades. Esto es, se debe asignar (y conocer) la probabilidad con que la media, realmente, oscila entre los valores indicados. Esta probabilidad da cuenta de la confianza de la afirmación. Por ello es que el intervalo se llama Intervalo de Confianza. Más específicamente, si la confianza es del orden de (1–α)100%, entonces se habla de Intervalo del (1–α)100% de confianza. Un intervalo de confianza es, en consecuencia, una afirmación proposicional que tiene una frecuencia del (1–α)100%. Esto significa que si se extrajeran infinitas muestras aleatorias del mismo tamaño, el (1–α)100% de los intervalos construídos cubrirán al verdadero valor del parámetro, razón por la que, en algunos textos, se habla de probabilidad de cubrimiento para referirse a ella. Esta probabilidad de cubrimiento se llama Nivel de Confianza, y el valor α100% es el Nivel de Significación. ¿Cómo construir un intervalo de confianza? Hay varias formas de hacer esto. La más utilizada es la llamada Regla del Pivote, que constiste en encontrar una cantidad, llamada pivote, que es función del estimador y del aprámetro, y que tiene una distribución conocida (independiente del parámetro).

En una forma un tanto más práctica, se trata de encontrar dos funciones, )ˆ(θiL y )ˆ(θsL de modo tal que la

probabilidad que el intervalo aleatorio cuyos lmímites inferior y superior sean )ˆ(θiL y )ˆ(θsL sea igual a 1–α.

Notar que la probabilidad que el parámetro pertenezca al intervalo es 1 o 0. Por ello debe tenerse cuidado al hacer las afirmaciones relativas a esta forma de estimación. Observación: Notar que un intervalo de confianza se limita a parámetros reales, no a vectores de parámetros.

Page 93: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 46

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Se resume a continuación la construcción de un intervalo de confianza para una función g simétrica del

parámetro θ de una distribución. Sean θ el parámetro de una población, y g una función paramétrica que se desea estimar. Sean, además, 1–α

el nivel de confianza, g(θ ) la función que estima bien a g(θ ), y D la distribución (simétrica) de g(θ ).

Entonces el intervalo tiene la forma ( )ˆ(θiL ; )ˆ(θsL ). Al resolver las inecuaciones correspondientes (se

recomienda revisar bibliografía para una completa deducción de estas formas), se concluye que estos límites son:

)]ˆ([)ˆ()ˆ(2

θθθ α geeDgLi += y )]ˆ([)ˆ()ˆ(21

θθθ α geeDgLs −+=

donde 2

αD es el percentil de orden 2

α de la distribución D y )]ˆ([ θgee es el error estándar de g(θ ).

Ejemplo 2.1: Consideremos una muestra aleatoria de tamaño n de una distribución normal, con varianza desconocida. Entonces un intervalo de confianza para la media poblacional µ de esta población, en base e la muestra dada, es:

++

−−−)();(

1;211;2XeetXXeetX

nn αα

Notar que como la distribución t–Studente es simétrica y que el error estándar (desviación estándar) de la

media muestral es nS , eontonces el intervalo encontrado es equivalente a:

+−

−−−− n

StX

n

StX

nn 1;211;21; αα

Supongamos ahora que, en una situación práctica, que se obtiene, en una muestra aleatoria de tamaño 36 de una población normal, una media muestral igual 8 y una desviación estándar igual a 1.8. Entonces un

intervalo del 95 de confianza para la media poblacional es: )36

8.18;

36

8.18( 975.0975.0 ZZ −−

De la tabla normal se obtiene que Z0.975=1.96. Por lo tanto, el intervalo aproximado es (7.41;8.59). Esto significa que, en base a estos datos, es altamente probable (95%) que la media poblacional tome valores que van desde 7.41 a 8.59. Equivalentemente, si se muestreara infinitas veces, en las mismas condiciones, en el 95% de los casos obtendríamos intervalos de este tipo (conteniendo al parámetro). ♦

2.3. EJERCICIOS Y PROBLEMAS2.3. EJERCICIOS Y PROBLEMAS2.3. EJERCICIOS Y PROBLEMAS2.3. EJERCICIOS Y PROBLEMAS 1. Obtener los estimadores por momentos de los parámetros de las siguientes distribuciones. Además, en

cada caso, estudie propiedades que posee el estimador: a. Distribución Bernoulli. b. Distribución de Poisson. c. Distribución uniforme continua entre 0 y θ.

2. Encuentre y estudie propiedades de los EMV de los parámetros de:

a. La distribución Poisson. b. La distribución Bernoulli.

c. Distribución exponencial de parámetroθ . ¿Cuál es el EVM de E(θ )? d. Distribución normal.

Page 94: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 47

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

3. Considera una población (infinita) con media µ y varianza σ². En base a una muestra aleatoria de tamaño n de esta población, digamos niiX ,1= :

a. Muestra que X es un estimador insesgado de la media poblacional µ.

b. Muestra que nXVar2

][ σ= .

c. Demuestra que ∑ −−

= 22 )(1

1XX

nS i es un estimador insesgado de σ².

Nota: S² no será un estimador insesgado de σ² cuando la población sea finita. Además, S nunca será un estimador insesgado de σ.

d. Calcula la eficiencia asintótica de la mediana con respecto a la media, e interprete esa eficiencia.

(Sug.: en poblaciones de tamaño grande se tiene que n

XVar4

][2

5.0

πσ= ).

e. Demuestra que S² es un estimador consistente de σ². 4. Sea niiX ,1= una muestra aleatoria de una población con media µ y varianza σ². Considere los siguientes

estimadores de θ=µ : 2

2ˆ;ˆ 46121

XXXX

+−== θθ .

a. ¿Alguno de estos estimadores es insesgado? b. ¿Cuál estimador es el "mejor"? ¿En qué sentido es mejor?

5. Verifica que el EMV de σ² en una población normal es sesgado. Determinar la magnitud del sesgo y

relacione el hecho anterior con la forma que en este curso hemos usado para la varianza empírica (muestral).

6. Se ha obtenido una muestra de tamaño 20, de una población cuya función de densidad de probabilidad

está dada por: tef λλλ −= *)( , donde t es el tiempo, en segundos, de reacción de un catalizador sometido a prueba. La muestra obtenida es: 6, 7, 2, 8, 3, 10, 2, 4, 3, 9, 6, 7, 5, 8, 9, 6, 3, 7, 8, 8. Determinar el estimador máximo verosimil del parámetro λ.

7. La reglamentación nacional ambiental respecto del tratamiento de aguas, aplicable a una planta industrial,

indica que el agua reciclada no debe, en promedio, exceder los 28.9°C antes que pueda ser lanzada al río que corre junto a la planta. De 70 muestras de agua reciclada, se encontró que su promedio de temperatura fue de 30.2°C. Si se sabe que la desviación estándar poblacional es de 7.5°C y usando un nivel de confianza del 95%, ¿existe evidencia que permita concluir que la planta cumple con la reglamentación nacional?

8. En un proceso químico se comparan dos catalizadores para verificar su efecto en el resultado de la

reacción del proceso. Se preparó una muestra de 12 procesos utilizando el catalizador 1 y una de 10 utilizando el catalizador 2. En el primer caso se obtuvo un rendimiento promedio de 85, mientras que en el segundo caso el rendimiento promedio fue de 81. Suponiendo normalidad en las distribuciones poblacionales y con desviaciones estándar de 4 y 5 respectivamente. Con una confianza del 96% ¿se podría decir que ambos catalizadores presentan similares rendimientos?

Page 95: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 48

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Capítulo 3 HIPÓTESIS ESTADÍSTICAS

Objetivos del capítulo: 4. Reconocer la importancia de las hipótesis estadísticas en el proceso inferencial. 5. Identificar distintas componentes de una hipótesis estadística. 6. Formular, adecuada y pertinentemente, hipótesis estadísticas. 7. Construir y efectuar pruebas de hipótesis estadísticas

Hemos establecido las bases de un proceso de inferencia a partir de observaciones obtenidas de una población normal, básicamente. En forma específica, hemos establecido los mecanismos de la inferencia en relación a medias y varianzas poblacionales. La construcción de un intervalo de confianza es tal vez una de estas técnicas que mayor aceptación pudiera tener. Sin embargo no siempre estamos interesados en estimar de esta forma un determinado parámetro, sino que quisiéramos saber si, por ejemplo, los datos sustentan o no cierta afirmación en relación a tal parámetro. Por ejemplo, supongamos que una organización independiente desea saber si, en realidad, el precio del pan ha subido o no durante los últimos seis meses. Tal vez la construcción de un intervalo de confianza para el valor promedio del pan podría ayudar a la solución del problema, pero existe otra forma más eficiente y quizá menos complicada de hacerlo. Es por medio de lo que se conoce como Prueba de Hipótesis. 3.1. CONCEPTOS PRELIMINARES ¿Qué es una hipótesis estadística? Podemos decir que una hipótesis estadística es una proposición, formulada en términos de parámetros. Recordemos que, desde un punto de vista de la lógica (Aristotélica), una proposición es una expresión del lenguaje a la que se le pueden asignar sólo uno de dos posibles "valores de verdad": Verdadero o Falso. Esto es precisamente lo que corresponde a una hipótesis estadística: Una afirmación acerca de los parámetros de una población, como por ejemplo el caso del precio del pan citado más arriba.

Ejemplo 3.1: Supongamos que nuestro interés es el promedio de una población normalmente distribuída. Entonces, si suponemos que X es la variable en estudio, lo que tenemos es X~N(µ;σ²). Específicamente, supongamos que deseamos saber o inquirir si µ=µ0. Entonces ésta es nuestra hipótesis, que podemos simbolizar como H0: µ=µ0. ♦ Es lógico pensar que, frente a una hipótesis como la anterior exista otra hipótesis, a modo de "contraparte", en que se afirma lo contrario o se niega lo que establece la primera. Si denotamos esta "contraparte" por Ha, entonces, para H0: µ=µ0, Ha podría expresarse como Ha: µ≠µ0, o bien como Ha: µ<µ0, o tal vez como Ha: µ>µ0. Cualquiera sea esta "contraparte", se llama hipótesis alternativa, y H0 es la hipótesis nula. Si una hipótesis se expresa en términos de igualdad, como aquí es H0, ésta se llama a su vez hipótesis sencilla o simple. La hipótesis expresada como Ha: µ<µ0 es una hipótesis unilateral (a izquierda), la expresada por Ha: µ>µ0 es una hipótesis unilateral (a derecha), y la hipótesis Ha: µ≠µ0 es bilateral. En este curso las hipótesis nula serán siempre sencilas.

Page 96: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 49

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

¿Qué es una prueba de hipótesis? Componentes básicas En el proceso inferencial con base en hipótesis estadísticas, el objetivo central es contrastar las hipótesis nula y alternativa. Esto es lo que se conoce con el nombre de Prueba de Hipótesis. Una prueba de hipótesis es un procedimiento que permite establecer si la hipótesis nula es una afirmación razonable (y por tanto no debiera rechazarse), o no lo es (y debiera rechazarse). Los elementos que permiten determinar lo razonable o no de la hipótesis son la evidencia muestral y la teoría de las probabilidades, especialmente la ralativa a distribuciones de probabilidades. El procedimiento de prueba, llamado también test de hipótesis, empieza con la formulación de las hipótesis nula y alternativa, reconociendo además el tipo de hipótesis (Test Unilateral o Test Bilateral), lo que es determinado por la hipótesis alternativa (no olvidemos que la hipótesis nula será siempre del tipo simple). Como una prueba de hipótesis es en sí un procedimiento de inferencia estadística, entonces debemos identificar el estadístico que permite o facilita la inferencia. Por ejemplo, si la hipótesis se formula en términos de medias poblacionales (la inferencia es acerca de medias poblacionales), entonces los posibles estadísticos a utilizar serán el estadístico normal estándar o la t-Student, dependiendo, respectivamente, de si son o no conocidas las varianzas poblacionales. El estadístico a utilizar es llamado Estadístico de Prueba, debido a su finalidad. Un paso siguiente es establecer (decidir subjetivamente) el Nivel de Significación que tendrá el test, digamos α. Este nivel de significación corresponde a la probabilidad de rechazar una hipótesis verdadera, y se le conoce también como Probabilidad de Error de Tipo I (Algunos autores utilizan, en lugar del nivel de significación, el nivel de confianza, 1–α). Se espera que el nivel de significación sea lo menor posible, dentro de lo razonable. Por ejemplo, niveles de significación mayores al 10% (confianza menor del 90%) son "poco creíbles", mientras que niveles de significación inferiores al 1% son "menos precisos". El nivel de significación conjuntamente con la distribución del Estadístico de Prueba, determinan uno o dos valores fractiles, dependiendo del tipo de test (un valor fractil si el test es unilate-ral; dos, si es bilateral), los que a su vez determinan un conjunto de valores distribucionales que fijan teóricamente lo que se puede considerar razonable o no para rechazar una hipótesis nula. Este conjunto de valores distribucionales se llama Región Crítica, y lo denotaremos por Rc. La figura (a) anterior muestra la forma de la región crítica para un test bilateral. Por su parte, las figuras (b) y (c) siguientes ilustran la forma de la región crítica para un test unilateral a izquierda, y unilateral a derecha, respectivamente.

Ejemplo 3.2: Supongamos que estamos interesados en probar la hipótesis nula H0: µ1=µ2 versus la alternativa Ha: µ1≠µ2, en las poblaciones X1~N(µ1; σ1) y X2~N(µ2;σ2), ambas independientes. Para la prueba se extraen sendas muestras aleatorias de tamaños n1 y n2, respectivamente. Si fijamos 1–α=0.95 y suponemos desconocidas las varianzas, pero homogéneas, entonces, como el test es bilateral y la distribución del esta-dístico de prueba es t-Student, con n1+n2–2 g.l., tenemos dos fractiles, dados por las cantidades ±t1-α/2;n1+n2-2 =±t0.975;n1+n2-2 y la región crítica tendrá la forma de la figura (b). En el caso que n1=23 y n2=18, n1+n2–2=40 grados de libertad, por lo tanto t1-α/2;n1+n2-2 = 2.021. La región crítica en este caso estará constituída por todos los valores del estadístico de prueba que son o inferiores a -2.021 o superiores a 2.021. ♦

Page 97: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 50

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Regla de decisión El problema que sigue por resolver, es cómo utilizar la evidencia muestral (información empírica) para decidir si rechazar o no la hipótesis nula. El principio en el que se sustenta una prueba de hipótesis es que La hipótesis nula es siempre verdadera, mientras no se pruebe lo contrario. Con este principio en cuenta, el valor del estadístico de prueba, bajo H0, determinará si la evidencia que él resume es suficiente para apoyar el rechazo de H0 o no. Si este valor pertenece a la región crítica, parece lógico que debiera rechazarse la hipótesis nula. Por lo tanto ésta es la Regla de Decisión: Si, bajo la hipótesis nula, el valor del Estadístico de Prueba pertenece a la Región Crítica, entonces rechazar la hipótesis nula en favor de la alternativa; caso contrario, reservar el juicio (aunque en muchos textos se habla de aceptar la hipótesis). Errores asociados a una prueba de hipotesis

Cuando se decide rechazar una hipótesis, esta decisión se toma en base a una muestra aleatoria extraída de la población en estudio. Por tratarse de un proceso no excento de errores, de diverso tipo, puede ocurrir que erróneamente hayamos llegado a tal conclusión, en cuyo caso estaremos rechazando una hipótesis verdadera. Por otro lado, si no se rechaza una hipótesis, es porque el proceso no pudo detectar (o no había) evidencia en su contra, pero no estamos seguros de si verdaderamente estamos frente a una hipótesis verdadera. Estos son, pués, los dos tipos de errores más frecuentes en un proceso de prueba de hipótesis: Rechazar una hipótesis Verdadera y No Rechazar una Hipótesis Falsa. El primero es lo que llamamos Error Tipo I, y el segundo corresponde a lo que se llama Error Tipo II. Cada una de estas acciones tiene una probabilidad. Se acostumbra denotar por α la probabilidad de Error Tipo I y por β la probabilidad de Error Tipo II (Nótese la semejanza con un proceso judicial, y evalúese la gravedad de uno y otro tipo de error).

En el diagrama 1 se resume el proceso de inferencia basado en una prueba de hipótesis, y en el diagrama 2 se presentan las consecuencias de una y otra decisión, en relación al rechazo o no rechazo de una hipótesis.

Diagrama 1: Sugerencia de pasos a seguir en una prueba de hipótesis

Paso 1

Formular las hipótesis nula y alternativas

Paso 2

Identificar el Estadístico de Prueba

Paso 3

Seleccionar Nivel de Confianza o de Significación

Paso 4

Determinar la Región Crítica

Paso 5

Tomar una decisión

Page 98: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 51

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Diagrama 2: Estados de la Naturaleza y consecuencias de acciones en una prueba de hipótesis

Estados de la Naturaleza

Decisión

H0 Verdadera

H0 Falsa

Rechazar H0

Error Tipo I

α

Acción Correcta

1–β

No Rechazar H0

Acción Correcta 1–α

Error Tipo II

β

3.3.3.3. 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALESLACIONES NORMALESLACIONES NORMALESLACIONES NORMALES El procedimiento general de prueba de una hipótesis fue presentado en la sección anterior, por lo que no es necesario insistir en sus aspectos teórico–formales tratándose de determinadas pruebas, como lo son las pruebas asociadas a aparámetro de una distribución conocida. Lo único que debe preocupar, en ese contexto, es la construcción de los estadísticos correspondientes y de los demás elementos de la prueba. Por tal razón, en esta sección se presentan algunos ejemplos que ilustran el uso de los respectivos procedimientos para algunos parámetros. Ejemplo 3.3: Se está sometiendo a prueba el rendimiento de un nuevo modelo de automóvil. Para ello se eligen aleatoriamente cinco autos del proceso de producción, y se someten a un recorrido de 30 mil kilóme-tros, obteniendo los siguientes rendimentos, en km/lts: 13.8, 14.6, 13,9, 14.5 y 14.2. La empresa fabricante asegura que el rendimiento esperado de este modelo es de 14.7 km/lts. ¿Costituyen estos datos evidencia sustancial en contra de la afirmación del fabricante? Solución: Si representamos por X: Rendimiento del automóvil, entonces puede suponerse que X~N(µ;σ), y el problema anterior se puede reformular en términos de hipótesis como H0: µ=14.7 vs Ha: µ<14.7, ya que en verdad lo que el fabricante afirma es que su auto "rinde al menos 14.7 km/lts". Como se está haciendo inferencia acerca de una media poblacional, y s es desconocida, entonces el estadístico de prueba es

tnS/

-X1-n~

µ.

Notemos también que el test es bilateral a izquierda, así que, si fijamos 1–α=0.95, entonces el valor crítico es tα/2;n-1=t0.05;4=-2.132. Por su parte, el valor del estadístico de prueba, supuesto H0 verdadera, es tc=(14.2–14.7)/(0.35/2.24)=–3.19. Como este valor pertenece a la región crítica, entonces la decisión es rechazar la hipótesis nula. Esto es, rechazamos la afirmación del fabricante, con un 95% de confianza. Observemos que si 1–α=0.90, entonces la evidencia contenida en los datos no permitiría rechazar la hipótesis H0. ♦ Ejemplo 3.4: Una empresa inmobiliaria tiene que construir una gran cantidad de edificios, de alta calidad. El proceso de fiscalización será en extremo riguroso, por lo que la empresa ha de seleccionar de la mejor forma la calidad de los insumos. Por ejemplo, para la adquisición de bloques de cemento ha seleccionado a dos compañías fabricantes de este tipo de bloques, A y B, que le merecen confianza y seguridad. La compañía fabricante que se adjudique la propuesta será aquella cuyos bloques muestren, en promedio, la mayor resistencia en libras por pulgada cuadrada (psi). En el caso de resistencias iguales, se optará por comprar la mitad de lo requerido a una empresa y la mitad a la otra. Para el efecto, se le solicitó a cada compañía una muestra (aleatoria) de bloques. La Compañía A envió 81 bloques, los que arrojaron una media de 1070 psi y una desviación típica de 63 psi. La Compañía B envió 64 bloques, los que proporcionaron una media de 1020 psi y una desviación estándar de 57 psi.

Page 99: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 52

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Solución: Sea X1: Resistencia de los bloques provenientes de A; X2: Resistencia de los bloques provenientes de B. Suponiendo que la resistencia es una variable que se distribuye normal, y que la producción de las compañías es independiente una de otra, el problema se puede reducir al contraste de las hipótesis H0:µ1=µ2 vs Ha: µ1≠µ2, donde µ1 y µ2 son las medias poblacionales de X1 y X2, respectivamente. Entonces el estadístico

de prueba es t

n

1+

n

1S

)-(-)X-X(2-n+n

21p

2121

21~

µµ el que, en consideración de los tamaños de muestra y en virtud

del Teorema del Límite Central, puede aproximarse por una normal estándar. Un problema puede tener el análisis anterior: la distribución de este estadístico es la indicada siempre que las varianzas sean homogéneas. Por lo tanto, supuesto poblaciones normales e independientes, se debe verificar (y ates de cualquier otro análisis), la homogeneidad de varianzas poblacionales. En efecto, el estadístico

utilizado para este propósito es

22

22

21

21

σ

σ

S

S

F = que tiene distribución F con n1–1 g.l. en el numerador y n2–1g.l.

en el denominador. En el caso analizado, haciendo 1–α=0.95, entonces tenemos que F1–α;80,63=F0.95;80,63=1.50. Ahora, como fc=1.22, entonces no se rechaza la hipótesis de igualdad de varianzas, por lo que podemos continuar con el análisis de las dos medias poblacionales. Si hacemos 1–α=0.95, entonces, con 81+64-2=143 g.l., los valores críticos, aproximados, son ±1.978 (notar que la prueba es bilateral), y la evidencia muestral se resume en tc=4.95 (si se hubiese utilizado aproximación normal, esta valor habría cambiado a 5.01). Como este valor pertenece a la región crítica, entonces se rechaza la hipótesis, lo que es equivalente a establecer, con un 95% de confianza, que la resistencia promedio de los bloques no es la misma. La empresa contratista deberá, entonces, seleccionar sólo un abastecedor (¿Cuál?). ♦

3.3.3.3.3. INFERENCIAS RESPECTO DE PROPORCIONES3. INFERENCIAS RESPECTO DE PROPORCIONES3. INFERENCIAS RESPECTO DE PROPORCIONES3. INFERENCIAS RESPECTO DE PROPORCIONES Caso de Una Proporción

En muchas situaciones prácticas puede ser de interés referirse a una caracterírtica particular de la población, en términos de proporción o porcentaje. Por ejemplo, puede ser de interés estimar la porporción de agricultores cuya actividad agrícola principal es la ganadería. En este caso la variable de interés no es continua, y más bien representa una característica (atributo) que un valor numérico. Sea una población Bernoulli de parámetro p, de la cual se extrae una muestra aleatoria de tamaño n, y sea X la variable Número de éxitosen los n ensayos. Entonces esta variable tiene distribución binomial. Su función de probabilidades es de la forma

p(x|n,p) =

x

npx(1–p)n–x

para x=0,1,...n, y 0<p<1.

El estimador del parámetro p puede demostrarse que es n

X=p .

Ejemplo 3.5: Imaginemos una población de la que deseamos estimar la proporción de familias que cultivan maíz. Si se selcciona una m.a. de tamaño 40 familias de esta población y se encuentra que 26 de ellas cultivan maíz, entonces la proporción estimada de personas que cultivan maíz es 26/40 = 0.65 = 65%.

Page 100: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 53

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Notemos que en n

X=p , X~bin(n,p), por lo que p=np

n

1=]pE[ˆ y

n

p)-p(1=

n

pq=npq

n

1=]pVar[

2ˆ .

El Teorema De Moivre-Laplace permite establecer que N(0,1))pVar(

p-p=Z ~

ˆ

ˆ, con lo que este estadístico

se deberá usar para hacer inferencias acerca de p. En particular, un intervalo de confianza del (1-a)100% para

p está dado por n

)p-(1pzp /2-1

ˆˆˆ α± . ♦

Ejemplo 3.6: Un congresista desea estimar su popularidad en cierto sector de la población. Especifica que la proporción de electores que lo apoyarán debe calcularse dentro de ±2% de la proporción de la población y con una confianza del 95%. En las elecciones pasadas recibió el 40% de los votos de este sector, y duda que esto haya sufrido cambios sustanciales. ¿A cuántos electores habrá que encuestar? Solución: Como se sabe, el error máximo permisible está dado por la desviación del estimador respecto del parámetro. Específicamente, para el caso de estimación de proporciones, éste corresponde a la expresión:

n

)p-(1pz=)pe.e(z=e /2-1/2-1

ˆˆˆ αα ±±

donde e.e.( p ) es el error estándar de p .

Si de esta relación se despeja n, encontramos que )e

z()p-(1p=n

2

ˆˆ

Como 1–α=0.95, entonces z1–α/2=z0.975=1.96, y ya que el estimador de p es 0.40, al sustituir estos valores en la fórmula para n, obtenemos que el mínimo de encuestas a aplicar, con los requerimientos dados, es n>2304.95, ó n=2305. ♦ Ejemplo 3.7: Se cree que el 55% de los estudiantes de la UCT son de fuera de Temuco. Se encuesta a 400 estudiantes de los cuales 228 resultan ser de fuera de Temuco. ¿Apoyan estos datos la creencia inicial? Solución: Este es un problema de pruebas de hipótesis. Las hipótesis correspondientes son H0:p=0.55 vs Ha:p≠0.55.

El estadístico de prueba es p)/n-p(1

p-p=Z

ˆ, que como hemos establecido, tiene distribución N(0,1). Si

α=0.05, entonces z1–α/2=z0.975=1.96, y por tratarse de un test bilateral, los valores críticos son -1.96 y 1.96. El valor del estadístico de prueba, supuesto verdadera la hipótesis nula, es zc=0.804 ∉Rc. Por lo tanto, no existe evidencia suficiente como para asegurar que el porcentaje de estudiantes de la UCT que no son de Temuco es distinto del 55%. ♦ Ejemplo 3.8: Supóngase quue 1600 de 2000 electores que se han muestreado dijeron que planean votar por el candidato A. Si el nivel de confianza es 1–α=0.95, entoncs un intervalo de confianza para la proporción de personas que votarían por A en esta población es (0.782;0.818) (Nótese que n es grande). Esto es, entre un 78.2% y un 81.8% de los votantes votaría por el candidato A. Si el tamaño poblacional es 200 mil electores, por ejemplo, entonces el total de personas que votarían por A oscila entre 156400 y 163600. ♦

Page 101: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 54

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Caso de dos proporciones: diferencia Sean X1~bin(n1,p1) y X2~bin(n2,p2) dos poblaciones binomiales independientes. Entonces se puede demostrar que el estadístico que permite hacer inferencias acerca de la diferencia p1–p2 está dado por:

N(0,1)

n

)p-(1p+

n

)p-(1p

p-p=Z

2

cc

1

cc

21 ~ˆˆˆˆ

ˆˆ, donde

2

2ˆnn

XX=p1

1c +

+.

Ejemplo 3.9: En laboratorios del departamento de acuicultura, se realiza un experimento para evaluar el porcentaje de ovas fecundadas, usando un control de semen almacenado durante tres días (CSA3) y un control de semen almacenado durante seis días (CSA6). Tras hacer dichas mediciones se obtuvieron los siguientes resultados: de las 35 ovas en estudio, 25 de ellas fueron fecundadas usando CSA3; mientras que al usar CSA6 resultaron fecundadas 28. Pruebe, con un nivel de significación del 4%, cuál de los dos períodos de almacenamiento permite fecundar una mayor cantidad de ovas. Solución. A través de una prueba de hipótesis para la diferencia de proporciones, podemos dar respuesta a esta interrogante, sabiendo que en el primer tratamiento la proporción estimada es de 0.71 mientras que en el segundo tratamiento la proporción estimada es de 0.8. Las hipótesis correspondientes serán: 210 : ppH = v/s 211 : ppH < , basadas en la evidencia muestral

entregada.

El estadístico de prueba será: ))(1(

ˆˆ

2

111

21

nnpp

ppZ

+−

−= cuya distribución ya discutida es N(0,1) y su valor de

zc = – 0.88. Si α = 0.05, y teniendo claro que la hipótesis alternativa es unilateral (una cola), siendo de interés la cola izquierda, entonces 05.0=αz = -1.65. Siendo el valor del estadístico de prueba – 0.88, supuesta

verdadera la hipótesis nula, el cual ∉ a la región crítica. Por tanto, no existe evidencia suficiente para asegurar que la proporción de ovas fecundadas es sustancialmente menor usando el método CSA3. 3.4. MUESTRAS PAREADAS Hemos presentado en las secciones anteriores los elementos más fundamentales de un proceso de Prueba de Hipótesis, como una forma de hacer inferencia acerca de parámetros de una población. En particular se presentaron situaciones en las que la inferencia comprometía a dos poblaciones. En estos casos era necesario hacer ciertas verificaciones acerca de la población. Por ejemplo, se supuso que las muestras (poblaciones) debían ser independientes, estar normalmente distribuídas y tener varianzas homogéneas. Una vez verificado o justificado estos supuestos, sólo entonces corresponde continuar el proceso de inferencia acerca de medias poblacionales, particularmente acerca de µ1–µ2.

La verificación de los supuestos de independencia y normalidad no es posible efectuarla aún, por lo que se postpondrá para más adelante. Sin embargo, algunas veces no es posible disponer de muestras independientes, ya que el problema así lo establece. Por ejemplo, supongamos que deseamos estimar la eficacia de un programa de adiestramiento laboral, al interior de una determinada empresa. Los analistas proponen dos formas de evaluación: Una consiste en seleccionar u grupo aleatorio de trabajadores y aplicarles un test de rendimiento antes de aplicar el programa de adiestramiento; y luego, después de aplicado el adiestramiento, seleccionar al azar otro grupo y aplicarles el test de rendimiento. El otro plan consiste en aplicar el test de

Page 102: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 55

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

rendimiento al mismo grupo, antes y después del adiestramiento. Cada uno de estos diseños tiene sus ventajas y desventajas, y en cualquier caso las hipótesis a contrastar se reducen a H0: µ1–µ2=0 vs Ha: 1–µ2≠0. Pero supongamos que se selecciona el segundo. Entonces es claro que las muestras (grupos) aquí no son independientes, pués la persona a quien se aplica el pre y post test, es la misma. Por consiguiente nuestras observaciones son más bien pares de observaciones, hechas sobre el mismo sujeto. Por esta razón se habla comúnmente de muestras pareadas. Frente a esta situación se debe buscar un procedimiento que resuma en la mejor forma la evidencia en cotra de la hipótesis nula, esto es, debemos definir o determinar el estadístico de prueba adecuado para el análisis de muestras como éstas.

El análisis en base a muestras pareadas es aconsejable cuando se tienen estudios que comprendan sujetos o individuos similares genéticamente, por no decir el mismo individuo, como por ejemplo crías de la misma camada, plantas del mismo semillero-fruta, etc. Es más, frente a una situación en la que es evidente parear las muestras, éstas se deben parear.

Sean X1 y X2 dos variables aleatorias, distribuídas normalmente y con varianzas homogéneas. Definamos la variable D=X1i–X2i; X1i ∈X1 , X2i ∈X2, variable aleatoria que consiste de todas las diferencias entre los e-lementos de los pares ordenados respectivos. Una deducción formal de la características de forma y escala de D está lejos de los objetivos de este curso, por lo que sólo nos limitaremos al uso de los estadísticos muestrales de D, a partir de una muestra aleatoria de tamaño n. Específicamente, se definen los estadísticos

dn

1=D i∑ y

1-n

D-ni

2d

=S

2

D

∑ , la media y la desviación estándar de D, respectivamente, donde di es la i-

ésima observación de D, para i=1,...,n. Entonces el estadístico a utilizar en el proceso de inferencia acerca de µ1–µ2 será

tn/s

)-(-D=T 1-n

d

21 _µµ

que cuando n tiende a infinito (o mejor dicho, es grande) puede aproximarse a una normal estándar. Ejemplo 3.10: Supongamos que en el ejemplo acerca del plan de adiestramiento, que sirvió de motivación para esta sección, se seleccionó aleatoriamente un grupo de 10 trabajadores para realizar la experiencia. El índice de eficiencia, antes y después de aplicado el plan de capacitación laboral, se muestra en la tabla siguiente, junto con la diferencia D:

Indice de Eficiencia Trabajador N1

Antes

Después

Diferencia D

1 2

3 4 5 6 7 8 9 10

128 105 119 140 98 123 127 115 122 145

135 110 131 142 105 130 131 110 125 149

7 5 12 2 7 7 4 -5 3 4

Page 103: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 56

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Lo que se pretende evaluar aquí es si el programa de capacitación produjo algún efecto diferencial en la eficiencia de los trabajadores, lo que se puede expresar por medio de las hipótesis H0:µ1-µ2=0 vs Ha: µ1-µ2>0. A partir de los datos se obtiene 60.4=d y 40.4=ds , y el valor del estadístico de prueba, bajo la hipótesis

nula, es tc=3.30. Si ahora α=0.05, entonces el valor crítico para esta prueba corresponde a t1-α;n-1=t0.95;9=1.833. Como la evidencia empírica, dada por tc=3.30, está en la región crítica, entonces se debe rechazar la hipótesis de efecto nulo de la capacitación, en favor de la alternativa. Esto es, existe razón estadísticamente suficiente, al 5% de significación, como para asegurar que el programa de capacitación produjo un efecto diferencial en la eficiencia de los trabajadores. ♦ 3.5. PRUEBAS DE BONDAD DE AJUSTE La mayoría de los procesos inferenciales antes vistos requieren, entre otros supuestos, el de normalidad. Un análisis que sobrepase consideraciones de tipo intuitivo o experiencial, y que se extiende más allá de la normalidad, puede expresarse como un conjunto de hipótesis del tipo: Ho: Los datos se ajustan a una distribución específica Ha: Los datos no siguen la distribución especificada Bajo esta perspectiva, el análisis de cualquier supuesto distribucional, en particular el de normalidad, corresponde a un contraste de hipótesis. Más general aún, frente a un conjunto de obser-vaciones el problema de bondad de ajuste es establecer (o determinar) cuán bien se ajustan las observaciones a una distribución específica. Sea FX la distribución de los datos X y sea Fo la distribución del modelo propuesto, la que generalmente es sugerida por los datos. Entonces la pregunta inicial es equivalente a la hipótesis:

0H : Fx (x) = F0 (x)

Y la hipótesis alternativa es, en consecuencia,

Ha : Fx (x) ≠ Fo (x)

Un test de bondad de ajuste debe consistir entonces en un procedimiento que evalúe estadís-ticamente el grado de concordancia (o disimilaridad) entre lo observado y el modelo sugerido o propuesto. En lo que sigue se presentan dos de estos tests, ambos de naturaleza no paramétrica, es decir, en base a estadísticas sin una distrubución de probabilidades conocida. Dos tests de bondad de ajuste Como ya se dijera, un test de bondad de ajuste debe evaluar estadísticamente el grado de concordancia o de discordancia entre la distribución de los datos y la distribución propuesta. Como es sabido, en la gran mayoría de los test, una medida de dispersión adecuada permite esta evaluación. Específicamente, una medida promedio de la dispersión entre lo observado y lo que se espera bajo la distribución propuesta, resume bien este grado de concordancia. Un desarrollo de esta forma de procedimiento, bajo condiciones especiales sobre los datos, se presenta más detalladamente a continuación.

Page 104: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 57

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

a. Prueba Chi-Cuadrado de bondad de ajuste

Esta prueba se aplica cuando se tiene un conjunto de observaciones discretizadas. Por lo tanto, la dimensión de tal conjunto debe ser lo suficientemente grande como para asegurar una discretización aceptable. Debe notarse que la variable en estudio puede ser discreta o continua. Sea C un conjunto finito de atributos o características y kiiC ,1 = una partición de C. Sea, además, Xi : N°

de elementos de C que pertenece a Ci. Entonces Xi ~ bin (n (C ); P (x ∈ Ci) ) Si n (C) = n → ∞, entonces Xi – npi mide la distancia (dirigida) entre los datos y lo que se observaría, conocida la probabilidad de que una observación pertenezca a la clase i. Una medida estandarizada asociada a

esta distancia es ii

ii

qnp

npX − ∼ N (0,1), donde pi = P (x ∈ Ci ) = 1 – qi.

Una medida absoluta de esta distancia estandarizada es, en consecuencia, ii

ii

qnp

npX || −. Esta estadística podría

servir para llevar a cabo el contraste de Ho vs Ha , si se conociera su distribución. El problema surge cuando tenemos más de una observación, en cuyo caso se debería encontrar una función que resuma de mejor manera

los datos. Pero como ii

ii

qnp

npX − ∼ N (0,1), entonces

ii

ii

qnp

npX − ∼ X 2

)1(

Teorema: Bajo los supuestos anteriores, ∑=

−K

i i

ii

np

npX

1

2)(∼ X 2

1−k

Demostración: Para k = 2:

11

21)(

qnp

npX i − ∼ X 2 )1( . Nótese que p1+p2 = 1 y X1 +X2 = n . Así, q1 = p2.

Por lo tanto,

1

211 )(

np

npX −+

2

222 )(

np

npX −

= 1

211 )(

np

npX −+

2

211 ))1()((

np

pnXn −−−

=

1

211 )(

np

npX −+

2

211 )(

np

npX −

= (X1-np1)

2

+

21

11

npnp

=

11

211 )(

qnp

npX −∼ X 2

)1(

Page 105: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 58

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

De lo anterior, para el contraste de Ho :Los datos se ajustan a una distribución específica Ha : Los datos no siguen la distribución especificada sólo es necesario la construcción del estadístico chi-cuadrado y seguir los habituales procedimientos de decisión. Notación: Si Ni = Xi , es costumbre llamar a Ni lo observado y a npi lo esperado. Ni = fobs Xi = fesp Obervación: Es importante cautelar que npi > 5 . Se ha probado que n = 5 k proporciona buenos resultados, en caso de datos continuos. Ejemplo 3.11. Se sospecha que la población de cierta especie salmonídea se encuentra igualmente distribuída en sus cuatro variedades, esto es, el número de individuos por variedad tiene distribución uniforme. Para evaluar estadísticamente la sospecha se selecciona una muestra aleatoria que arrojó lo siguiente:

Variedad 1 2 3 4 N° individuos 30 24 32 20

Sea Xi : n° de elementos de la muestra que pertenecen a la clase i. Entonces X i ∼ bin (n , pi ), y la sospecha fundamental es equivalente a Ho : p1 = p2 = p3 = p4 = 0.25 vs Ha : pi ≠ 0.25 para algún i.

o más abreviadamente, Ho : pi = 0.25 vs Ha : pi ≠ 0.25, ∀ i.

Como n = 106 , entonces bajoHo , npi = 26.5 y X2

oH = 43.35.26

)5.2620(......

5.26

)5.2630( 22

=−

++−

∼ X 23

Por lo tanto, si 05.0=α , entonces X 23;95.0 = 7.82

Dpto. de Matemática y ComputaciónFacultad de CienciasÁrea Estadística

Como X 2oH = 3.43 ∉ Rc , entonces no hay evidencia en contra de una distribución uniforme de la especie en

sus cuatro variedades. ♦ Ejemplo 3.12. Se prueban 300 ampolletas para analizar sus tiempos de vida T (en horas). Se postula que T ∼ ε (θ = 200).

Page 106: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 59

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Los datos se muestran en la siguiente tabla:

T frec

C1 (0,100] 121 C2 [100,200) 78 C3 [200,300) 43 C4 [300,∞ ) 58

Aquí f (t) =0

1 – o

t = 0.005e – 0.005t, t > 0 . Por lo tanto

71 = P [ 0 < T < 100 ] = 1000∫ 0.005e – 0.005t dt= 0.39 y np1 = 117

Del mismo modo,

P2 = 0.24 np 2 = 72 P3 = 0.15 np 3 = 45 P4 = 0.22 np 4 = 66

Ahora X 2Ho = 17 y nuevamente X2

3;95.0 = 7.82.

Dpto. de Matemática y ComputaciónFacultad de CienciasÁrea Estadística

Por tanto, puede asegurarse que el tiempo de vida de las ampolletas se distribuye exponencialmente. ♦

b. Test De Kolmogorov-Smirnov o de Lilliefors La aplicación del test chi-cuadrado para daterminar estadísticamente el grado de "concordancia" entre la distribución de los datos y una distribución específica, requiere de una cantidad suficiente de observaciones como para obtener una clasificación de los mismos lo más racional posible. Sin embargo, no siempre es posible contar con la cantidad suficiente de observaciones, por lo que se hace necesaria una forma alternativa de resolver el problema de bondad de ajuste. Una alternativa se basa en la conocida Estadística de Kolmogorov-Smirnov, también llamada prueba de Lilliefors, apropiada cuando el tamaño de muestra es pequeño y los datos son de naturaleza continua. El procedimiento requiere de los estadísticos de orden, es decir, del conjunto ordenado de las observaciones (en forma ascendente) y de la distribución empírica. Para una muestra de tamaño n con observaciones o realizaciones X1 , X2 , ..., Xn , los estadísticos de orden se denotan por X(1) , X(2) , .... X(n) y la distribución empírica corresponde a:

Sn (x) =

<≤

<

+

+

)1(

)1(

)1(

1

)(

0

k

k

xx

xxkxn

kxx

Page 107: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 60

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

La estadística de Kolmogorov-Smirnov, o KS, consiste de los valores siguientes:

D +n = Máx nixF

n

iio ≤≤

− 1)( )(

D −n = Máx ni

n

ixF io ≤≤

− 11

)( )(

Dn = Máx +−nn DD ;

donde D +n es la máxima cantidad en la que la distribución empírica excede a la distribución ajustada; y D

−n

es la máxima cantidad en la que Sn subestima la distribución Fo (x ) acumulada propuesta. Esta última distribución, al igual que en el caso del test chi-cuadrado, es sugerida por los datos. Una forma simple de la estadística es Dn = Máx \ Sn (x) – Fo (x )| En estas condiciones el test es unilateral a derecha, y los valores críticos se observan en tabla o se obtienen a partir de software. Ejemplo 3.13. Después de una psicoterapia de modificación de la conducta, se aplica un test a un grupo de estos individuos para establecer la evolución de la conducta. Los individuos son clasificados en dos grupos: los que mejoraron y los que no mejoraron. Los puntajes de 10 individuos que no mejoraron su conducta fueron: Sujeto 1 2 3 4 5 6 7 8 9 10 Puntaje 6.6 5.8 5.4 5.1 5.0 4.3 3.9 3.3 2.4 1.7 La naturaleza de los datos hace pensar que X ~ N (4.35 ; 1.542) . La tabla con los valores de X(i) , la distribución empírica Sn (x) , Fo (x ) y | Sn – Fo | se muestra a continuación:

X(i) Sn (x) Fo (x ) | Sn – Fo | 1.7 0.1 0.0427 0.06 2.4 0.2 0.1020 0.10 3.3 0.3 0.2483 0.05 3.9 0.4 0.3859 0.01 4.3 0.5 0.4880 0.01 5.0 0.6 0.6628 0.06 5.1 0.7 0.6879 0.01 5.4 0.8 0.7517 0.05 5.8 0.9 0.8264 0.07 6.6 1 0.9279 0.07

D 10 = 0.10 ; 1– α = 0.95 y D 10 ;0.95 = 0.41 (ver Tabla J de Canavos, G.: Probabilidad y Estadística. Aplicaciones y Métodos). Por lo tanto, no existe evidencia en contra del supuesto de normalidad sobre los datos. ♦

Page 108: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 61

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

3.6. EJERCICIOS Y PROBLEMAS3.6. EJERCICIOS Y PROBLEMAS3.6. EJERCICIOS Y PROBLEMAS3.6. EJERCICIOS Y PROBLEMAS

1. Si una hipótesis Ho se rechaza con una probabilidad de error Tipo I de 0.05, ¿se rechazará si α = 0.01? Explica.

2. Considera el contraste de Ho:µ=20 v/s Ha: µ≠20. Si x =22, s=3.29 y n = 16, estudiar el rechazo de Ho. 3. Supón que en el problema 2 se fija α en 0.01, y que la media y varianza de las observaciones se

mantienen constantes en x =22 y s=3.29, respectivamente, al menos para un número apreciable de obser-vaciones adicionales. ¿Cuántas unidades muestrales adicionales bastarán para llevar al rechazo de Ho?

4. El departamento de seguridad de una fábrica desea saber si el tiempo promedio real que requiere el

velador para realizar su ronda nocturna es de 30 minutos. Si en una muestra tomada al azar de 32 rondas, el velador promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determina si ésta es evidencia suficiente para rechazar la hipótesis nula Ho:µ=30 en favor de la alternativa Ha: µ≠30.

5. Cinco mediciones del contenido de alquitrán de cierto tipo de cigarrillo arrojaron los siguientes

resultados: 14.5, 14.2, 14.4, 14.3, y 14.6 mg/cig. Demuestra que para α = 0.05 se debe rechazar la hipóte-sis nula Ho:µ=14.0 en favor de la hipótesis alternativa Ha: µ≠14.0. Supóngase que los datos son una muestra tomada al azar de una población normal.

6. Los pesos de reses Black Angus de cierta edad tienen en una muestra aleatoria de 24 reses una media de

253 libras y una desviación estándar de 2.38libras. Suponiendo que los pesos constituyen una muestra aleatoria de una población normal, prueba la hipótesis nula Ha: µ=250 libras contra la alternativa Ha: µ≠250 libras.

7. En un estudio de nuevas fuentes de alimentación, se informa que una libra de cierta clase de pescado

produce en promedio 2.45 onzas de FPC (concentrado proteco de pescado), que se utiliza para enriquecer diversos productos alimenticios. ¿Se soporta esta cifra en un estudio en el cual 30 muestras de esta clase produjeron en promedio 2.48 onzas de FPC (por libra de pescado) con una desviación estándar de 0.07 onzas? Explica.

8. Supóngase que las especificaciones de cierto tipo de cinta afirman que el producto tiene una resistencia

media a la ruptura de 185 libras y que cinco piezas seleccionadas al azar de diferentes rollos tienen una resistencia media a la ruptura de 183.1 libras con una desviación estándar de 8.2 libras. Suponiendo que podemos considerar los datos como una muestra tomada al azar de una población normal, prueba la hipótesis de que la resistencia promedio es de 185 libras.

9. Un fabricante asegura a una compañía que le compra un producto en forma regular, que el porcentaje de

productos defectuosos no es mayor del 5%. La compañía decide verificar la afirmación del fabricante, seleccionando de su inventario, 200 unidades de este producto y probándolas. Se encuentran 19 defectuosas. ¿Cuál debe ser la decisión de la compañía?

10. Una encuesta política reveló que 1400 personas de un total de 2500, seleccionadas aleatoriamente, tienen

preferencia por el candidato A respecto del candidato B. a. Construir un intervalo del 99% de confianza para la verdadera proporción de votantes que está a favor

del candidadto A. En base a este intervalo, ¿se puede afirmar que es probable que el candidato A gane la elección?

b. Responde a las mismas preguntas anteriores en base a una muestra aleatoria de tamaño 225.

Page 109: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 62

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

11. Una casa comercial recibe una gran partida de bolsitas de semilla. La nota de entrega dice que, a causa del proceso automatizado de empaquetado, el porcentaje de bolsitas que no cumplen los requerimientos indicados en ella es del 1%. La casa comercial desea hacer una estimación del total de bolsitas que no satisfacen los requerimientos, pero revisarlas todas es imposible, de modo que decide usar el muestreo estadístico para reolver el problema. Decide que desea un error en las estimaciones no superior al 3%, y una confianza del 95%. ¿Cuántas bolsitas deberá revisar? Desde otra perspectiva, formula y prueba las hipótesis asociadas al problema.

12. Se desea establecer si la aplicación de cierto tratamiento alimentario incide o no en el desarrollo de cierta

variedad de vacunos. Con este fin, se seleccionaron 20 terneros de 3 meses, y se distribuyeron en grupos de tamaño 10 cada uno. Uno de estos grupos fue sometido al tratamiento en cuestión, digamos Trat1, mientras que el otro fue alimentado en condiciones normales o "tradicionales". Llamemos Trat2 a este último tratamiento. Después de una cantidad dada de meses, se midió la variación en peso (diferencias de peso) que experimentaron estos terneros, obteniéndose los datos de la tabla siguiente:

Trat1 6.5 10.1 8.6 10.5 9.5 10.6 8.8 10.9 5.2 10.4 Trat2 8.9 11.1 6.8 8.0 8.2 8.0 8.2 7.1 9.2 8.6

a. Caracterizar la variación en el peso de los terneros conforme a cada uno de los tratamientos. (Revisa

supuestos) b. Determinar si el tratamiento nuevo es o no más efectivo que el sistema tradicional de alimentación, en

lo que al aumento de peso respecta. Analiza requisitos del análisis. 13. Sea X: Puntaje de untest de conducta. Se postula que X ~ N (7,2.72). Un resumen de los puntajes se

muestra en la siguiente tabla :

k = Clase fobs fesp = npi 1 2.200 – 4.625 6 2 4.625 – 7.050 5 3 7.050 – 9.474 7 4 9.475 – 11.90 5

Plantear y resolver el problema.

14. Los puntajes X correspondientes a 23 individuos seleccionados aleatoriamente de entre aquellos que

presentaron mejoría en el ejemplo 3.13, fueron los siguientes:

Ind 1 2 3 4 5 6 7 8 9 10 11 X 11.9 11.7 10.5 9.5 9.4 9.0 8.7 8.2 7.7 7.4 7.4

Ind 12 13 14 15 16 17 18 19 20 21 22 23 X 7.1 6.9 6.8 6.3 5.5 5.0 4.5 4.2 4.1 4.0 3.0 3.2

¿Puede asegurarse que estos datos provienen de una distribución normal?

15. Se realiza un experimento biológico, en base a las concentraciones de un determinado elemento químico,

para reforzar el crecimiento, en centímetros, de una planta medicinal. Para ello, se utilizaron 10 plantas de la especie en estudio, para finalmente medir su crecimiento en centímetros. El cuadro siguiente muestra los resultados obtenidos:

Concentración1 8.7 9.4 8.2 8.6 8.5 8.9 8.9 8.4 8.9 9.2

Page 110: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 63

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

Si lo que se pretende es aumentar el crecimiento de la planta en estudio y si se sabe que en condiciones naturales el crecimiento promedio de esa especie es de 7.5 centímetros, prueba si el uso del elemento químico en estudio es eficiente en el reforzamiento del crecimiento de la especie en estudio.

16. Una empresa consultora en problemas ambientales, asesora a una institución ambientalista en la compra

de un instrumento para medir la cantidad de monóxido de sulfuro en la atmósfera. El proveedor dispone de 2 instrumentos, los cuales deja a prueba por un mes para que se resuelva la compra. Durante este período se realizaron mediciones en la zona, obteniendo lecturas resumidas en el siguiente cuadro:

Instrumento A 0.86 0.82 0.75 0.61 0.89 0.64 0.68 0.65 0.81 Instrumento B 0.87 0.74 0.63 0.55 0.76 0.7 0.69 0.57 0.53

Considerando que el instrumento seleccionado será aquel que presente la menor variabilidad, concluye respecto del instrumento a comprar.

17. En relación al ejemplo 17, si se considera una segunda concentración del químico estudiado, obteniendo

los resultados resumidos en la siguiente tabla:

Concentración 2 8.3 8.4 8.2 8.1 8.5 8.9 8.9 8.4 8.9 8.2

Si la concentración más eficiente es aquella que maximiza el crecimiento de la especie en estudio, ¿cuál de ellas es más eficiente?

18. Un centro experimental animal, estudia el uso de una nueva droga para ser utilizada como anestesia en

equinos. Las experiencias con esta droga indican que se logra anestesiar al 92% de los animales, por un período de 5 horas. Para evaluar la veracidad de esta experiencia, y por lo tanto masificar su uso, se aplicó a 10 caballos una dosis de dicha droga, logrando anestesiar a 8 de ellos, por un período de 5 horas. Con el ensayo realizado ¿se logran los mismos resultados que en las experiencias realizadas anteriormente?

19. En el estuario de Reloncaví, zona costera y cordillerana del litoral de la antigua décima región, se

seleccionaron 2 bancos de prospección: Cochamó y Río Puelo, para evaluar la presencia de mercurio, a través de la especie Mytilus chilensis, vulgarmente llamado "chorito", por ser el primer eslabón indicador de la cadena trófica y un bioacumulador de mercurio (Moore, 1971; Golberg y Col, 1978; Davies y Pirie, 1980). Después de realizado el muestreo y los análisis necesarios, se obtuvieron los siguientes resultados, en ppm:

Río Puelo 0.026 0.038 0.019 0.057 0.021 0.006 0.025 0.009 0.007 0.011 Cochamó 0.011 0.00 0.015 0.00 0.00 0.01 0.013 0.00 0.014 0.011

a) Determinar cuál de los dos bancos en estudio presenta una mayor variabilidad en la concentración de

mercurio. b) Determinar cuál de los dos bancos está más contaminado por la presencia de mercurio. c) Discute respecto de los supuestos involucrados.

Page 111: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 64

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

ANEXOS

A. INTERVALOS DE CONFIANZA MÁS COMUNESA. INTERVALOS DE CONFIANZA MÁS COMUNESA. INTERVALOS DE CONFIANZA MÁS COMUNESA. INTERVALOS DE CONFIANZA MÁS COMUNES

Nivel de confianza : 1Nivel de confianza : 1Nivel de confianza : 1Nivel de confianza : 1––––α

Distribución Función

de parámetros Condición (es) Intervalo de confianza

µ σ conocida n

ZXσ

α 2/1−±

µ σ desconocida n

stX n 1;2/1 −−± α

µ 1 – µ 2 X1 , X2 independientes σ 1 , σ 2 conocidas

( )2

21

1

21

2/121nn

ZXXσσ

α +±− −

Normal

µ 1 – µ 2

X1 , X2 independientes σ 1 , σ 2 desconocidas σ 1 , σ 2 homogéneas

( )21

;12111

nnSptXX +±− − να

221 −+= nnν

( ) ( )2

11

21

222

2112

−+

−+−=

nn

SnSnS p

2σ No hay !

( ) ( )

−−

−−

− 1;

1;1;

122/

2

22

/1

2

n

Sn

n

Sn

αα χχ

22

21

σ

σ

S 21 > S22

X1 , X2 independientes

−−−− 1,1;2/12

2

21

;1,1;2/22

21

221 nnn fS

Sf

S

Sαα

1,1;2/11,1;2/

12

21

1

−−−−− =

nnnn f

α

Binomial p n grande

( )n

ppZp

ˆ1ˆˆ 2/1

−± −α

n

xp =ˆ

µ : Media poblacional n . Tamaño muestral µi : Media poblacional i ni : Tamaño de la muestra i-ésima σ : Desviación estándar poblacional iX : Media de la muestra i-ésima

σi: Desviación estándar población i Si : Desviación estándar de la muestra i p : Proporción poblacional p : Proporción muestral

Page 112: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 65

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

B. PRUEBAS DE HIPÓTESIS COMUNESB. PRUEBAS DE HIPÓTESIS COMUNESB. PRUEBAS DE HIPÓTESIS COMUNESB. PRUEBAS DE HIPÓTESIS COMUNES

Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1–––– αααα

Hipótesis Condición (es) Estadístico de prueba bajo Ho Valor(es) crítico(s)

Ha :µ ≠ µo

Ha :µ ≠ µo σ desconocida

n

SX 0µ−

1;2/1 −− nt αm

Ho :µ1 – µ2 =0 Ho :µ1 – µ2 ≠0

X1 , X2 independientes σ1 , σ2 conocidas

( )

2

21

1

21

21

nn

XX

σσ+

2/1 α−Zm

Ho : µ1 – µ2 = 0 Ha : µ1 – µ2 ≠ 0

X1 , X2 independientes σ1 , σ2 desconocidas σ1 , σ2 homogénas

( )

+

21

2

21

11

nnS

XX

p

( ) ( )2

11

21

222

2112

−+

−+−=

nn

SnSnS p

υα ;2/1−tm

ν =n1 + n2 – 2

Ho : σ = σ0 Ha : σ > σ0

No hay! ( )

20

21

σ

Sn − 2

1;2/1 −− nαχ

H0 : σ1 = σ2 H0 : σ1 > σ2

22

21 SS > X1 , X2 independientes

22

21

S

S 1,1;1 21 −−− nnf α

H0 : p = p0

H0 : p = p0

n grande ( )

n

pp

pp

ˆ1ˆ

ˆ 0

n

xp =ˆ

2/1 α−Zm

µ : Media poblacional n : Tamaño muestral µi : Media poblacional i ni : Tamaño de la muestra i – ésima σ :Desviación estándar poblacional iX : Media de la muestra i – ésima σi : Desviación estándar de la población i Si : Desviación estándar de la muestra i p : Proporción poblacional p : Proporción muestral

Page 113: Apunte completo

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 66

Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco

C. SUGERENCIAS BIBLIOGRÁFICASC. SUGERENCIAS BIBLIOGRÁFICASC. SUGERENCIAS BIBLIOGRÁFICASC. SUGERENCIAS BIBLIOGRÁFICAS Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:

1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988. 2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A.

México, 1990. 3. Peña, D.: Estadística. Modelos y Métodos. Vol. 2. Alianza Editorial S.A. Madrid, 1991. 4. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México,

1993. 5. Steel–Torrie: Bioestadística. Principios y Procedimientos. McGraw–Hill. México, 1992.

Page 114: Apunte completo

Facultad de Ingeniería

Dpto. de Cs. Matemáticas y Físicas Área Estadística

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL

Prof.: Juan Moncada Herrera

Temuco, agosto de 2008

Page 115: Apunte completo

PREÁMBULO El documento que tienes en tus manos no pretende ser más que una ayuda en tu programa de aprendizaje y crecimiento respecto de una disciplina que cada día se abre pasos agigantados entre la trama social, científica y técnica de la que formamos parte: la Estadística. Por lo tanto está muy lejos de proporcionar una revisión y presentación acabada de los principales temas de esta disci-plina. Más aún, se trata de un extracto de un documento más amplio que el autor tiene en prepa-ración. Para una adecuada utilización de estas notas te recomiendo completar su lectura con un libro de texto de referencia, como los sugeridos en la bibliografía, y desarrollar cuidadosamente los ejerci-cios y problemas propuestos.

El autor

Page 116: Apunte completo

ÍNDICE GENERAL

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL

INTRODUCCIÓN 4

EL MODELO LINEAL BÁSICO 4

AJUSTE DEL MODELO 6

ANÁLISIS EXPLORATORIO 6 ESTIMACIÓN DE PARÁMETROS 6 PROPIEDADES DE LOS ESTIMADORES 7 UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE 8 UN EJEMPLO 10

ANÁLISIS DEL MODELO 11

INFERENCIAS EN EL MODELO 11 EL ANÁLISIS DE LA VARIANZA 14 EL COEFICIENTE DE DETERMINACIÓN 16

DIAGNÓSTICO DEL MODELO 16

EJEMPLOS ILUSTRATIVOS 19

SUGERENCIAS BIBLIOGRÁFICAS 29

Page 117: Apunte completo

I A R LNTRODUCCIÓN AL NÁLISIS DE EGRESIÓN INEAL

Page 118: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 4

Prof.: Juan Moncada Herrera

INTRODUCCIÓN

Existen situaciones en las que la relación entre dos variables es de tipo "causa-efecto". En estos casos,

además de probar que efectivamente las variables están relacionadas (correlacionadas), interesa

también determinar la forma en que ellas se relacionan funcionalmente. Esta relación es de tipo

funcional, y se expresa a través de una ecuación. Si los datos muestran una tendencia lineal, entonces

la ecuación ser también lineal. En dicha relación se debe distinguir la variable oindependientepredictora dependiente de la variable . Denotaremos por a la variable (o conjunto de variables)\independientes (las que causan el efecto), y por la variable independiente (el efecto).]

El análisis anterior no sólo es válido para el caso de dos variables, sino también en el caso en que se

tienen varias variables independientes y una variable dependiente. Por ejemplo, puede ser de interés

estudiar la forma en que se relacionan las variables Edad y Peso de un niño con la variable

Rendimiento Escolar. En este ejemplo Edad y Peso son las variables independientes, y Rendimiento es

la variable dependiente. El interés fundamental en este caso será quizá la predicción del Rendimiento

conocidos la Edad y el Peso de un niño.

La parte de la Estadística que se encarga de este tipo de estudios es el . ExistenAnálisis de Regresiónvarios tipos de regresiones (lineales, polinomiales, logarítmicas, intrínsicamente lineales, etc.), pero la

más "popular" es la Regresión Lineal, la que a su vez puede ser simple o múltiple, dependiendo de la

cantidad de variables independientes.

EL MODELO LINEAL BÁSICO

Sean , variables aleatorias ( puede ser un vector aleatorio), y un espacio paramétrico (real). Se\ ] \ @llamará modelo lineal a una relación de la forma:

E[ ] ( ), Var[ ] (1)] œ 0 ß B ] œ M) 52

con una función lineal en , , , la matriz identidad.0 − B − \ M) ) @

De lo anterior se deduce que ( ) , donde es un vector aleatorio cuyas componentes] œ 0 ß B ) X Xsatisfacen:

IÐ Ñ œ !ß a3 œ "ß 8XiZ +<Ð Ñ œ 3 œ "ß 8X 5i

#, , supuesto de homocedasticidadIÐ Ñ œ ! 3 Á 4X Xi 4 , para , supuesto de independencia de errores

Una forma más simple del modelo dado en (1) es , que en una forma más] œ \ " " X9 ">

condensada puede escribirse como:

= (2)] \ F t X

donde es la , es un vector de dimensión (cuyas componentes se llaman] \ :variable dependientevariables independientes), es el vector de parámetros y es un vector de errores aleatorios, con lasF Xmismas características del modelo (1).

En base al modelo (1), en el modelo (2) se tiene que E[ ] = , Var[ ]] \ F ] œ Mt 25La ecuación (2) es la entre e . El problema de Regresión Linealecuación de regresión \ ]consiste en, a partir de un conjunto de observaciones ( , ), obtener una estimación de esta ecuación, oB Cequivalentemente, de la relación funcional.

Page 119: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 5

Prof.: Juan Moncada Herrera

Mientras en el análisis de correlación interesa establecer la medida o magnitud de la variabilidad

conjunta entre e (lo que traduce en un estudio de asociación), en el análisis de regresión el interés\ ]se centra en establecer la forma en que se desarrolla esa variabilidad. Esto es equivalente a establecer

la forma funcional de la relación causa-efecto entre y . Hay muchas situaciones en las que puede\ ]resultar adecuado un análisis de regresión. Por ejemplo, en estudios de producción en los que ésta

puede depender de factores controlables, como tipo de máquinas, habilidades de los operarios, calidad

de la materia prima, etc.; o en procesos económicos, en los que las utilidades están afectas a cambios en

el sistema cambiario, velocidad de crecimiento industrial o habitacional, etc.

Sobre la base de un conjunto de observaciones simultáneas del par ( , ), en la ecuación (2) se8 \ ]tiene que es un vector de dimensión , es una matriz x , es un vector de orden y] 8 \ 8 Ð: "Ñ F : "X es un vector de dimensión . Por esto, preferimos escribir el modelo (2) en su forma matricial:8

(3)] œ XB X

Formas particulares de este tipo de modelos son:

Modelo de Regresión Lineal Simple

En este modelo se tiene (1, ), ( ) .\ œ \ F œ ßt to 1" "

Modelo de Regresión Lineal General

En este modelo, (1, ,..., ) , ( , ..., ) .\ œ \ \ F œ ß1 o 1t t

: :" " "

Modelos Intrínsicamente Lineales

Aunque no son lineales propiamente tal, este tipo de modelos tiene una forma tal que, mediante

sencillas transformaciones, pueden linealizarse fácilmente. Los modelos más comunes de ese tipo son

de la forma:

E[ ] 0, Var[ ] .C œ /B:Ö B×/ß / œ / œ M" " 5o 12

Este último modelo se puede linealizar aplicando logaritmo a la igualdad, para obtener las ecuaciones

C œ 68ÐCÑ œ B / œ 68Ð Ñß / œ 68Ð/Ñ \ œ "ß B ß F œw w w w w w"" " " " " "o o o o 1

t t, con . Aquí, ( ) ( , ).

Modelos Polonomiales

La forma de este tipo particular de modelos es

Ejercicio: Identificar las componentes de las formas matriciales de los cuatro modelos definidos arriba.

Page 120: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 6

Prof.: Juan Moncada Herrera

AJUSTE DEL MODELO

Como ya se dijera, el análisis de modelos de regresión, particularmente los modelos de regresión lineal,

se basa en los siguientes supuestos sobre el término de error:

IÐ Ñ œ !ß a3 œ "ß 8XiZ +<Ð Ñ œ 3 œ "ß 8X 5i

#, , supuesto de homocedasticidadIÐ Ñ œ ! 3 Á 4X Xi 4 , para , supuesto de independencia de errores

Dicho análisis tiene, básicamente, dos enfoques diferentes. Por una parte se pueden desarrollar técnicas

de estimación y ajuste basados en gran medida en resultados de tipo geométrico. Aquí la geometría del

espacio y proyectiva revisten gran importancia, y se apoyan fuertemente de resultados del Algebra

Lineal. Los estimadores del modelo surgen naturalmente como consecuencia de consideraciones

geométricas a veces elementales, a veces complejas.

Por otro lado, se tiene un enfoque de tipo distribucional. En este caso se formula una serie de supuestos

que sustentarán el análisis y darán consistencia a las conclusiones, lo que también permitirá análisis de

tipo inferencial acerca del modelo o sus componentes. Esto último requiere de supuestos

distribucionales adicionales, lo que demanda un formación básica en Estadística Inferencial.

En estas notas seguiremos, preferentemente (aunque no exclusivamente) este último enfoque, y por

ajuste del modelo entenderemos el proceso que va desde el análsisis preliminar de los datos hasta la

estimación de los parámetros del modelo.

ANÁLISIS EXPLORATORIO

En esta fase se estudian características numéricas básicas de los datos, se valida la información, se

detectan y corrigen errores, se determina tendencia de los datos, si procede, se examinan eventuales

valores atípicos o extraños, etc. Es fundamental en esta parte del análisis la construcción del

diagrama de dispersión nube de puntos o , presentado anteriormente en la sección de Análisis de

Correlación Lineal.

La definición de la base de datos es fundamental, como también lo es el permanente "retorno a los

datos". Es sólo estaposibilidad de permanente confrontación con la realidad la que garantiza una base

de datos de calidad, y proporciona la confianza necesaria en los resultados.

Por esta razón es fundamental la fase preliminar de todo análisis de información, y particularmente el

análisis estadístico.

Presentaciones gráficas, tablas de resumen de información, etc., deberán preceder a cualquier análisis

sofisticado y complejo.

Otro aspecto importante de considerar en esta fase es la conceptualización y comprensión del problema,

lo que se debe buscar en las áreas afines al problema en estudio. Vital resulta, por lo tanto, el trabajo

interdisciplinario. Es lo único que puede ayudar a tener certezas en materia de conocimiento a prioridel problema abordado.

ESTIMACIÓN DE PARÁMETROS

Los parámetros del modelo lineal simple son , y . Los parámetros del modelo lineal general son" " 5o 1

" " " 5 " "o 1 1t, ,..., y . Nos referiremos a ,..., ) como el vector de parámetros. En una segunda: :" œ Ð

fase del análisis deberá estimarse y eventualmente . La técnica más usual de estimación es la de" 5Mínimos Cuadrados. Debe incluirse también en esta etapa aspectos de inferencia en relación a los

estimadores.

Existen básicamente dos métodos de estimación de los parámetros de un modelo de regresión: El

método de Mínimos Cuadrados y el de Máxima Verosimilitud. El primero consiste en minimizar el

Page 121: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 7

Prof.: Juan Moncada Herrera

cuadrado de las distancias entre el modelo y su estimador (el modelo ajustado). La solución, obtenida

vía métodos de optimización o por medio de consideraciomnes geométricas (aplicación de espacios

ortogonales), proporciona los estimadores del modelo. Se trata de método con fuerte soporte

geométrico.

Un segundo método de estimación de los parámetros es el método de Máxima Verosimilitud, que como

es sabido, requiere de supuestos distribucionales, pués se trata de maximizar la función de verosimilitud

de los datos. En ambos casos es necesario imponer ciertas restricciones a los datos. La más usual de

estas restricciones es que la suma de los residuos (diferencia entre lo ajustado y lo observado) sea cero.

El supuesto distribucional más importante es el normalidad de los errores.

Cuando se utiliza el método de Mínimos Cuadrados, y en base a un conjunto de observaciones, la8

ecuación estimada del modelo (3) es la ecuación , tal que ( es mínima para todos los] œ \ ] ] Ñs ss" #

valores de . Por esta razón también se llama a la . Usando métodos de] ]s ecuación mínimo cuadráticaoptimización, como multiplicadores de Lagrange, la minimización de ( conduce a las] ] Ñs #

ecuaciones normales, cuyas soluciones proporcionan los estimadores:

"s œ Ð\ \Ñ \ ] t -1 t

5 ( (2 tœ ] ] Ñ ] ] ÑÎÐ8 Ð: "ÑÑs s

Por otra parte, los estimadores máximo verosímil de y , respectivamente, son y" 52 t -1 tÐ\ \Ñ \ ]

( ( .] ] Ñ ] ] ÑÎ8s st

Definición: La matrix se llama . Algunas características de esta\Ð\ \Ñ \t -1 t matriz de proyecciónmatriz son:

Proposición: La matriz de proyección satisface lo siguiente:- Es simétrica e idempotente.

- T\ œ \- es simétrica e idempotenteM T8

- ( ) 0M T \ œ8

PROPIEDADES DE LOS ESTIMADORES

Proposición 1: Bajo el supuesto de normalidad en los errores y si es no-singular, entonces:\ \t

1. E( )" "s œ

2. Cov( ) )"s œ Ð\ \52 t -1

3. Var( ) donde (en geneal) es el elemento de la fila columna de la matriz" 5s œ - à - 3 " 4 "i2

33 34

( ) .\ \t -1

4. Cov( )" " 5s sß œ -i j2

34

5. Un estimador insesgado de es , donde SCE ( ( ). Esta última52 2 tSCES œ œ ] ] Ñ ] ]s s8Ð:"Ñ

cantidad es conocida como .Suma de Cuadrados del Error6. y son independientes.S2 i"s

Observación: De la parte 3. de la proposición se tiene que es el de . UnÈ- s335 "2

ierror estándarestimador de este error estándar es, entonces, .È-33S2

Page 122: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 8

Prof.: Juan Moncada Herrera

Proposición 2 0: Si ~ N( , ), entonces:X 52M

1. N ; ) )" "s Ð Ð\ \ ~ :" 52 t -1

2. ~N( c )" " 5s ßi i ii2

3. ~ [ )]

28Ð:"8Ð:"Ñ

S225

;

4. ~ ( ) ( )( ) 2" " " "s s \ \

:"

t t

25;

UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE

La regresión lineal simple estudia la relación entre una variable independiente y una dependiente. Sean

\ ] \ ] y estas variables, respectivamente. La relación entre y la expresaremos, siguiendo la idea del

modelo (3), como:

] œ \ ! " X

donde se llama , es la y es un término de , que se supone se! ! %intercepto pendiente error aleatoriodistribuye normalmente, con media cero y varianza constante . Cuando se tiene un conjunto finito de52

8 B C observaciones ( , ), entonces la relación anterior se expresa como:i i

C œ B i i i! " X

donde N(0, ), y son todos independientes entre sí, para todo i.X 5i2µ

A veces la simple sospecha de una relación lineal aparente entre dos variables no es suficiente para

iniciar un análisis de regresión. Es preciso asegurarse de que existe verdaderamente tal tendencia (a

través de un diagrama de dispersión, por ejemplo), y que existe por cierto un relación de causa-efecto

entre las dos variables.

El análisis de regresión lineal simple se encarga de encontrar una recta ajustada que mejor represente a

las relaciones anteriores y que mejor se ajuste a los datos. Denotaremos la recta ajustada por

C œ B^ ^ ^^ ^, donde y son los estimadores mínimo cuadráticos de y , respectivamente.i i! " ! " ! "

Para la obtención de y , notemos que el modelo , basado en observaciones, es^ ^! " ! " XC œ B 8i i i

un caso especial del modelo (3). En efecto,Ô × Ô × Ô ×Ö Ù Ö Ù Ö ÙÖ Ù Ö Ù Ö ÙÖ Ù Ö Ù Ö ÙÖ Ù Ö Ù Ö ÙÖ Ù Ö Ù Ö ÙÖ Ù Ö Ù Ö ÙÕ Ø Õ Ø Õ Ø

” •C " BC " B

C " B

œ Þ ÞÞ ÞÞ Þ

1 1

2 2

n n

. .

. .

. .

"

#

8

!

"

X

X

X

Page 123: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 9

Prof.: Juan Moncada Herrera

expresión que es de la forma , con [ , ]. Así que] œ \ \ œ" X 1 B

\ \ œ œ" " Þ Þ Þ "

B B Þ Þ Þ B

" B" BÞ ÞÞ ÞÞ Þ" B

8 B

B B

ti

i i2

Ô ×Õ Ø

Ô ×Ö ÙÖ ÙÖ ÙÖ ÙÖ ÙÖ ÙÕ Ø

Ô ×Ö ÙÕ Ø

!! !

" # 8

"

#

8

.

Además, ( ) ,\ \ œ

B B

B 8

t -1 1

( )

i i

i8 B B

#

! !i2

i2

Ô ×Ö ÙÕ Ø

! !!

y por lo tanto, ( ) \ \ \ ] œ

B B C

B 8 B C

t -1 t 1

( )

i i i

i i i8 B B

#

! !i2

i2

Ô ×Ô ×Ö ÙÖ ÙÕ ØÕ Ø

! ! !! !

œ

C B B B C

B C 8 B C

1

( )

i i i ii2

i i i i8 B B! !

i2

i2

Ô ×Ö ÙÕ Ø! ! ! !

! ! !De lo anterior se deduce que

! "^ ^œ œ! ! ! ! ! ! !

! ! ! !C B B B C B C 8 B C

8 B B 8 B B

i i i i i i i ii2

i i2 2

i i2 2( ) ( )

Después de ciertos "arreglos" algebraicos, se puede escribir:

! "^ ^œ C œ C B8 B C 8 B C

8 B B

!! !

i i2

i2

i2( )

Por otra parte, el estimador mínimo cuadrático de la varianza es , mientras que su52œ

!ei28#

estimador máximo verosímil es .52œ

!ei28

Proposición: Si los errores están centrados en cero y tienen varianza común , entonces:52

E( ) Var( )^ ^! ! ! 5œ œ 2SŠ ‹" B

8

#

XX

E( ) Var( )^ ^" " " 5œ œ 2 1

SXX

E( ) Var( )^ ^5 5 52 22 2œ œ 54

8#En base a esto podemos concluir que los estimadores mínimo cuadráticos de , y son insesgados,! " 52

propiedad que también se mantiene cuando se supone normalidad en los errores, a excepción del de .52

Los estimadores de las varianzas se obtienen sustituyendo por en las respectivas expresiones.^5 5

Page 124: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 10

Prof.: Juan Moncada Herrera

UN EJEMPLO

Se administra una prueba de habilidad a grupo de 5 postulantes a vendedores en una empresa, y se les

deja a prueba durante un mes, al cabo del cual se registran sus ventas semanales (en miles de dólares).

Los resultados fueron:

B % ( $ ' "!C & "# % ) ""

donde : Puntaje en la prueba; y: Ventas semanales.B

Disgrama de Dispersión

Puntaje vs Ventas

X: PUNTAJE

Y: VENTAS

3

5

7

9

11

13

2 3 4 5 6 7 8 9 10 11

Puede pensarse que las ventas semanales "dependen" del puntaje obtenido en la prueba.

Los ajustes correspondientes conducen a los siguientes valores estimados: y 1.13. Esto^ ^! "œ "Þ# œimplica que la recta ajustada es 1.2 1.13 , donde son las ventas semanales estimadas y esC œ B C B3 3 3 3

el puntaje obtenido en la prueba.

Si se graficara esta recta en el mismo diagrama anterior, habría puntos de los allí marcados que no

pertenecerían a la recta, lo cual es obvio, pues ajustamos una recta a un conjunto de datos que no tienen

una tendencia lineal perfecta.

Puntajes vs Ventas

y = 1.2+1.133*x+eps

X: PUNTAJE

Y: VENTAS

3

5

7

9

11

13

2 3 4 5 6 7 8 9 10 11

La gráfica siguiente muestra el resultado gráfico de los mismos ajustes anteriores, adicionando ahora la

banda de confianza para los valores predichos. Puede verse que existe una observación "fuera" de estabanda de confianza del 95%.

Page 125: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 11

Prof.: Juan Moncada Herrera

Regression

95% confid.

Predicted vs. Observed Values

Dependent variable: VENTAS

Predicted Values

Observed Values

3

5

7

9

11

13

4 6 8 10 12 14

El punto que está fuera de la banda de confianza debiera "estudiarse".

ANÁLISIS DEL MODELO

El encontrar una ecuación que represente la situación planteada, no significa que el ajuste sea

de gran utilidad. A veces ocurre que la ecuación encontrada no sirve para predecir. La bondad del ajuste

es, en consecuencia, un aspecto de relevancia en el análisis de regresión.

NO DEBE USARSE UNA ECUACION DE REGRESION SIN ANTES

HABER EFECTUADO UN ADECUADO DIAGNOSTICO

Este análisis consiste, en su forma más elemental, en probar si:

(1) Se hizo bien o no en suponer una relación lineal entre las variables.

(2) Los valores estimados obtenidos son realmente significativos o no.

Aspectos de homocedasticidad y normalidad de los errores corresponden a lo que se conoce como

Diagnóstico del Modelo, y se basa fundamentalmente en el Análisis de Residuos. El análisis de

residuos es quizá uno de los aspectos más importantes del ajuste de modelos, particularmente en

modelos de regresión lineal. Por razones de tiempo no se expondrán aquí detalles de este análisis, pero

indicamos que el uso de software adecuado facilita considera-blemente tal análisis, así como todos los

aspectos antes mencionados.

INFERENCIAS EN EL MODELO

Supuesta la normalidad en los errores, además de los supuestos iniciales sobre el modelo de regresión,

podemos formular hipótesis sobre los parámetros, y validar por lo tanto algunos supuestos que sobre

ellos formulemos. Los supuestos distribucionales permiten, además, la construcción de intervalos de

confianza, que pueden resultar muy útiles a la hora de juzgar la calidad del modelo ajustado.

Inferencias acerca de BETA

Como el ajuste de un modelo de regresión se basa en estimadores de los parámetros, un aspecto

importante en el análisis dice relación con las inferencias acerca de tales estimadores.

Page 126: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 12

Prof.: Juan Moncada Herrera

De la proposición 2, parte b), se deduce que un intervalo de confianza del ( )100% para es:" ! "i

si es conocido

si es desconocido"

5 5

5s „

D -

> -i

1-

1- ÈÈ

!

!

2

2

44

44S

Otro aspecto de importancia en el análisis de los estimadores dice relación con hipótesis de interés

formuladas al respecto. En este sentido uno de los problemas que reviste gran importancia es el

contraste de

H : v/s H : , para io ai i0 i i0" " " "œ Á Á !

Como ~N( ), entonces bajo H , y cuando es conocido, el estadístico de prueba, supuesto" " 5 5s ß -i i2 2

o33

H verdadera, para el contraste anterior es ~ N(0,1). Y cuando es desconocido, el estadísticoo 2" "

5

s

-i i0

2È33

5

toma la forma ~ . " "s

- 8Ð:"Ñi i0

2È33S

>

Ejemplo: Los siguientes datos corresponden al crecimiento (en mm) de una planta al variar la]temperatura ambiente desde -2°C a +2°C:\

BC

-2 -1 0 1 2

0 0 1 1 3

Estudiar la posibilidad de ajustar un polinomio de segundo grado al crecimiento.

Solución: El modelo que se pide ajustar es de la forma En forma vectorialC œ B B /Þ" " "o2

" #

se tiene:

] œ Bß B ( , )1 2o

1

2

Ô ×Õ Ø"

" X

"

En forma matricial:

Ô × Ô ×Ö Ù Ö ÙÖ Ù Ö ÙÖ Ù Ö ÙÖ Ù Ö ÙÕ Ø Õ Ø

Ô ×Õ Ø

0 1 -2 4

0 1 -1 1

1 1 0 0

1 1 1 1

3 1 2 4

,œ "

" X

"

o

1

2

donde X

X

X

X

X

X

œ

Ô ×Ö ÙÖ ÙÖ ÙÖ ÙÕ Ø

1

2

3

4

5

Recordemos que . Primero calculamos ."s œ Ð\ \Ñ \ ] Ð\ \Ñt -1 t t

Pero , así que 0 0 .

5 0 10

0 10 0

10 0 34

0

0

\ \ œ Ð\ \Ñ œt t -1

17 -235 14

110

-2 114 14

Ô ×Õ Ø

Ô ×Ö ÙÕ Ø

Page 127: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 13

Prof.: Juan Moncada Herrera

Por su parte, .

1 1 1 1 1 0 5

-2 -1 0 1 2 1 7

4 1 0 1 4 1 13

0

3

\ ] œ œtÔ × Ô ×Õ Ø Õ Ø

Ô ×Ö ÙÖ ÙÖ ÙÖ ÙÕ Ø

Por lo tanto, 0 0 .

0

0

5 0.5714

7 0.7000

13 0.2143

Ð\ \Ñ \ ] œ œ œst -1 t

17 -235 14

110

-2 114 14

"

Ô ×Ö ÙÕ Ø

Ô × Ô ×Õ Ø Õ Ø

Esto significa que 0.5714; 0.7 y 0.2143. Luego, el polinomio ajutastado es" " "s s sœ œ œo 1 2

C œ B B^ 0.5714 0.7 0.2143 2

Se ha obtenido una ecuación a la que se ajustan los datos. Falta determinar si existe evidencia suficiente

a favor de la curvatura.

Calculando la , obtenemos que 0.463, por lo que^ ^WGI œ Ð] ] Ñ Ð] ] Ñ œ ] ] \ ] WGI œsw w w w"

= œ = œ œ !Þ!& > œ > œ %Þ$!$#8Ð:"Ñà!*(& #à!*(&0.2315, y 0.48. Si , entonces es el valor crítico!

superior del test. Como 0.2143, entonces , valor que no pertenece a la región de"s œ > œ "Þ'(2 L9

rechazo. En consecuencia, los datos no contienen evidencia suficiente para incorporar un término

cuadrático en el modelo. è

Dado el modelo , es el valor estimado de para una matriz dada .^] œ ] œ œ T] ]sX X X" "X

Respecto de se formula la siguiente proposición:]

Proposición: Bajo normalidad en los errores, E[ ] , Var[ ] .^ ^] œ \ ] œ T>" 52

Definición: X Los (errores estimados) del modelo se definen comoresiduos ] œ " X

X^ ^ ( ) .œ œ ] ] œ M T ]e

Proposición: e e E[ ] , Var[ ] ( ) .œ ! œ M T 52

Estimación de la media de en un punto [1,X ,...,X ]] \ œo 1 pt

Es obvio que bajo normalidad en los errores, N( , ). Por lo tanto, un intervalo del] µ MX" 52

(1 )100% de confianza para E[ ] en ( , ) es: ] \ œ \! 1 ot

] „ \ \ \ \^ t ( )1 /2; o ot t -

8Ð:"Ñ"

! SÈEjemplo: En el ejemplo anterior, . Si , entonces = œ !Þ%()" B œ # B œ Ò"ß #ß %Ó à9

>

* *C œ !Þ&("%#* !Þ( # !Þ#"%#)' % œ #Þ)#)'Por lo tanto, un intervalo de confianza para cuando es:IÒ] Ó B œ #

#Þ)#)'„> !Þ%()" Ò"ß #ß %Ó ´ #Þ)#)'„> !Þ%()" !Þ*#!&

!

! ! #

!

"

%" Î#à# " Î#à#

"( #$& "%

""!

# ""% "%

! !* * *

ÍÍÍÍÍÌÔ ×Ö ÙÕ Ø

Ô ×Õ Ø

Page 128: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 14

Prof.: Juan Moncada Herrera

Si , entonces , y en consecuencia el intervalo de confianza para " œ !Þ*& > œ %Þ$!$ IÒ] Ó! " Î#à#!

cuando corresponde a .B œ # Ð!Þ*%)à %Þ(##%Ñ

Predicción

El intervalo t ( ) es un intervalo que estima los valores entre los cuales] „ \ \ \ \1 /2; o ot t -

8Ð:"Ñ"

! SÈpuede variar la respuesta media de dado que . Otro problema es estimar la variabilidad de ] \ œ \ ]o

en un punto dado . Este valor de es la en el punto dado , que denotaremos por\ ] \o opredicción de ]

] ] ] œ ] ] œ \ s: : : : :. Entonces un estimador de es , donde , y es un ,^ ^ ^

o o ote e" error de predicción

que es independiente de , i, con E[ ] y Var[ ] .e e ei2a œ ! œ: : 5

Bajo normalidad, se tiene que N ; ( ( ) ) . En consecuencia, un intervalo de] µ \ \ \ \ \ ":"ˆ ‰

o ot t t - 2

o" 5

confianza estimado del (1 )100% para es: ]! :

] „> \ \ \ \ "^ ( )9 8Ð:"Ñ"

1 /2; o ot t -

! SÈEjemplo: En base a los datos del ejemplo anterior, si , entonces , y porB œ # \ Ð\ \Ñ \ œ !Þ)%($w w "

9 9

lo tanto . Luego, un interalo del 95% de confianza para en esÈ" \ Ð\ \Ñ \ œ "Þ$&*$ C B œ #w w "9 9 :

Ð!Þ!$#&à &Þ'#%(Ñ C !Þ'%*) IÒ] Ó !Þ%%!" è. Nótese que el error estándar de es , mientras que el de es . ^:

En base a los resultados y ejemplos anteriores se puede decir bastante acerca de la .bondad del modeloPor ejemplo, se puede juzgar la calidad de los estimadores, de las predicciones, etc., y en base a tales

juicios, decidir si el ajuste puede considerarse confiable o no para propósitos de predicción, por

ejemplo. Sin embargo, como se verá más adelante, sólo en la etapa de diagnóstico obtendremos las

mejores herramientas para la toma de decisiones.

EL ANÁLISIS DE LA VARIANZA

Hasta aquí se ha evaluado la bondad del modelo sólo en función de la calidad de los] œ X" Xestimadores correspondientes. Además, todos los análisis se han efectuado sobre la base que el modelo

ajustado es de buena calidad. Sin embargo, esto no siempre ocurre así, por lo que es necesario evaluar

la calidad del modelo globalmente, de modo de obtener una apreciación más objetiva y completa al

respecto.

De suma importancia para el logro de este objetivo es el análisis de las siguientes hipótesis :

H :EL MODELO ES ,o ] œ "o X

H : EL MODELO ES a ] œ X" X

Dado que el modelo se ha supuesto lineal en los parámetros, las hipótesis anteriores se] œ X" Xpueden interpretar como elementos de análisis de linealidad, aunque esto último requiere de exigencias

adicionales que no siempre se deducen del análisis del contraste planteado. Una forma alternativa de

este contraste es:

H : 0 , o i" œ a3 Á ! H : 0, para algún a i" Á 3 Á !

Page 129: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 15

Prof.: Juan Moncada Herrera

Un método de análisis de esta prueba se basa en el llamado , el que se basa enAnálisis de la Varianzala partición de las sumas de cuadrados y de los grados de libertad asociados con la respuesta . Para]ello es preciso definir lo siguiente:

Suma de Cuadrados Total: SCT ( ) ( ) ( )œ ] ] ] ] œ C C1 1t 2

i=1

n

i!

Suma de Cuadrados del Error: SCE ( ) ( ) ( )^ ^ ^œ ] ] ] ] œ C C œt 2 2

i=1

n

i i! !e

Suma de Cuadrados de la Regresión: SCR ( ) ( ) ( )^ ^ ^œ ] ] ] ] œ C C1 1t 2

i=1

n!Nótese que:

SCT 0 todas las observaciones son igualesœ Ê SCE 0 no hay variación en œ Ê ] SCR 0 recta horizontal (en regresión lineal simple)œ Ê

Proposición: SCT SCR SCE, y g.l.(Total) g.l.(Error) g.l.(Regresión)œ œ

Demostración: Se deduce de la identidad ( ) ( ).^ ^] ] œ ] ] ] ]i i i i

Proposición: Si se supone que los errores se distribuyen normalmente, entonces:

J œ µ JSCR

SCEn-(p+1)

::à8Ð:"Ñ

Este es el estadístico de prueba para el contraste

H :EL MODELO ES , vs H : EL MODELO ES o a] œ ] œ " "o X XX

Las cantidades CMR y CME se llaman yœ œSCR SCEn-(p+1): Cuadrado Medio de la Regresión

Cuadrado Medio del Error Error estándar, respectivamente. A la raíz cuadrada de CME se le llama

de la estimación

La forma y fuentes de variación de la respuesta en el modelo puede resumirse en la llamada Tabla

ANOVA, de la siguiente manera:

Forma General de una Tabla ANOVA para Regresión

Fuentes de Gr. de Libertad Sumas de Cuadrados Cuadrados Medios RazónVariación g.l. SC CM J

Regresión ^ ^

Error

: ] ] 8C Ð] ] 8C ÑÎ:

8 Ð:

t t# # GQV

GQI

"Ñ ] ] ] ]

8 " œ ] ] 8C

tt

( )^

t

^

Total S

] ]] ]8Ð:"Ñ

] ]#

tt

Nota: Los grados de libertad del modelo son "el número de parámetros menos 1, o equivalentemente, elnúmero de variables independientes".

Page 130: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 16

Prof.: Juan Moncada Herrera

EL COEFICIENTE DE DETERMINACIÓN

El cuadrado de un coeficiente de correlación se llama C , y corresponde aoeficiente de Determinaciónuna medida de la capacidad de para reducir la variaciónen . Puede demostrarse que, en el modelo\ ]

] œ V œ œ V ]s^ , 1 . representa la proporción de la varianza de que es extraída por laX" 2 2SCR SCESCT SCT

variable , mediante el modelo descrito. Dicho de otro modo, permite medir el ajuste del modelo a la\nube de puntos correspondiente. Pero, al igual queel rechazo de H en el ANOVA, por sí mismo noo V#

puede validar un modelo, ni tener un cercano a 1 necesariamente implica que el ajuste obtenido seaV#

útil para predicción.

Ejemplo: Consideremos los datos relativos a versus , analizados previamente.crecimiento temperaturaLa tabla ANOVA correspondiente es:

Fuente g.l. SC CM F

Regresión 2 5.54286 2.7714

12.1250

Error 2 0.45714 0.228571

Total 4 6.00000

L9

El valor , de modo que no puede rechazarse la hipótesis . Esto0 œ "*Þ! L À œ œ !#ß#à!Þ*& 9 " #" "

significa que el modelo propuesto no es el adecuado.

Para estos mismos datos, puede verificarse que , V œ !Þ*#$)"# error estándar de laestimación œ !Þ%()!*" è.

Ejercicio: Los datos siguientes son : Altura en centímetros, y : Peso en kilogramos, de una muestra\ ]de 10 jóvenes de 18 años. Estudiar el ajuste de un modelo lineal simple para estos datos.

\ ]

169.6 71.20

166.8 58.20

157.1 56.00

181.1 64.50

158.4 53.00

165.6 52.40

166.7 56.80

156.5 49.20

168.1 55.60

165.3 77.80

DIAGNÓSTICO DEL MODELO

Como se recordará, todo el proceso de estimación del modelo se basa fundamentalmente en el grupo de

supuestos iniciales que sobre los errores se formulara. Cualquier violación de estos supuestos puede

invalidar irremediablemente las conclusiones obtenidas a partir de un modelo así estimado. Es por ello

que la fase tal vez más importante en el estudio de modelos en general, y en modelos de regresión lineal

en particular, es aquella en la que se "ponen a prueba" los supuestos. Esta es la llamada , yfase críticaen ella se debe buscar cualquier indicio de invalidación del modelo ajustado.

Aunque en la etapa de inferencias en el modelo ya se pueden obtener algunas conclusiones parciales

respecto del modelo (como por ejemplo, encontrar suficiente evidencia a favor de la hipótesis

L À œ !9 3" , lo que podría implicar que el modelo no es el que se postuló), tales inferencias se basan,

entre otros hechos, en que los errores siguen una distribución normal. Pero una prueba de normalidad

Page 131: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 17

Prof.: Juan Moncada Herrera

sobre los errores necesita de los estimadores correspondientes, y estos son los , queresiduosnaturalmente no están a disposición de estos análisis, sino una vez que se hayan hecho los ajustes

correspondientes. Esto crea una suerte de "círculo vicioso", pués aquello que permitirá evaluar si el

modelo obtenido sirve o no, se obtiene una vez que éste se ha ajustado. Por esta razón se dice que este

análisis es .a posterioriLa validación de estos supuestos , en un escenario , se llama a priori a posteriori Diagóstico delModelo.En la actualidad los análisis referentes a diagnóstico apuntan tanto a la validación de las hipótesis

iniciales como a los datos. Lo primero es lo que se conoce como , mientras que lodiagóstico clásicosegundo corresponde al .Estudio de InfluenciaEn estas notas trataremos sólo Diagóstico Clásico, ya que el de Influencia requiere de elementos

teóricos no proporcionados en cursos de Estadística Elemental. Los problemas que se analizan en este

diagnóstico son:

- Función de Regresión no lineal. La hipótesis de linealidad puede expresarse como H : El modelo NOo

ES LINEAL.- Falta de Homocedasticidad

- Errores no independientes (Autocorrelación). Durbin-Watson

- Falta de Normalidad

- Variables importantes omitidas en el modelo

- Falta de ajuste

Residuos:

Están definidos por: , o por ^ ^^X Xœ œ ] ] œ œ ] se e X"

Es sencillo probar que ( ) ,e œ ] \Ð\ \Ñ \ ] œ M T ]w " w

Elementos de : T : œ B Ð\ \Ñ B34 43w w "

B3w fila i-ésima de la matriz de datos .X

B4w columna j-ésima de la matriz de datos .X

Proposición: e e Var[ ] , Cov( ) .i œ Ð" : Ñ œ :5 52 2i33 34

Residuos Sttudentizados:

Estandarización: < œ Ä3 ":e3

335È residuo studentizado

Tamaño de muestra es grande residuos aproximadamente normales Valores rara vez fuera delÄ Äintervalo ( ) #ß #

Gráficos de Residuales:

Respuesta Estimada versus :C <^ 3 3 El gráfico más importante

Modelo Adecuado Ê ÐC ß < ÑPares en torno a una recta horizontal^

3 3

Ninguna tendencia aparente

Ð #ß #ÑRara vez fuera del intervalo (Gráfico ).a

Page 132: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 18

Prof.: Juan Moncada Herrera

Gráficos como los siguientes pueden indicar falta de linealidad en el ajuste.

Variables Independientes versus <3: Una tendencia o característica sistemática en el gráfico debiera sugerir alguna anomalía en relación a

la inclusión de la variable en el modelo.

(b) y (c), puede indicar que la varianza de los errores es una función monótona de la variable en

análisis ( ).\3

Otros Gráficos:- (f) acusan no linealidad y varianza no constante en los errores.

- (f) indicará, quizá, que un efecto cuadrático de la variable debiera incluirse en el modelo.\- (g) indicaría falta de independencia en los errores, o más bien, errores autocorrelacionados.

Autocorrelación Estadística de Durbin-WatsonÄ

La Normalidad de los Errores: Plot de Normalidad

Prueba bondad de ajuste ;#

Estadística de Kolmogorov y Smirnov

Page 133: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 19

Prof.: Juan Moncada Herrera

EJEMPLOS ILUSTRATIVOS

Como una forma de ilustrar y aplicar los resultados, análisis y comentarios anteriores, presentamos a

continuación dos ejemplos, en los que desarrollaremos las ideas más fundamentales del Análisis de

Regresión.

EJEMPLO 1

(Extraído de Canavos(1988), pag. 536). Una compañía manufacturera desea predecir el costo unitario

de fabricación de uno de sus productos como una función de la tasa de producción (que fluctúa en el]tiempo) y de los costos de material y mano de obra . Los datos se recabaron durante un periodo\ \" #

de 20 meses durante el cual la tasa de producción y los costos del material y la mano de obra

experimentaron un fluctuación muy amplia. La tasa de producción se midió como un porcentaje de la

capacidad total de producción, y se utilizó un índice apropiado para reflejar los costos del material y

mano de obra. Las observaciones se encuentran en la tabla siguiente. Obtener la mejor ecuación de

regresión para predecir el costo por unidad.

costo unitario de fabricación] À\ À" tasa de producción (que fluctúa en el tiempo)

\ À# costos de material y mano de obra

La Tabla de Datos:

] \ \"$Þ&* )( )!"&Þ(" () *&"&Þ*( )" "!'#!Þ#" '& ""&#%Þ'% &" "#)#"Þ#& '# "#)")Þ*% (! ""&"%Þ)& *" *#"&Þ") *% *$"'Þ$ "!! """"&Þ*$ "!# ""'"'Þ%& )# ""("*Þ!# (

" #

% "#(")Þ"' )& "$$")Þ&( )' "$&"(Þ!" *! "$'")Þ!$ *$ "%!"*Þ## )" "%##"Þ"# (# "%)#$Þ$# '! "&!

Page 134: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 20

Prof.: Juan Moncada Herrera

SOLUCIÓN

Los Ajustes Iniciales:Se ajustó un modelo del tipo C œ B B 3 9 " "3 # #3" " " X

C 33 es la -ésima observación la variable dependiente,

B 3 \"3 " es la -ésima observación de la variable

B 3 \#3 # es la -ésima observación de

Regression Summary for Dependent Variable: Y

R= .95601159 R²= .91395817 Adjusted R²= .90383560

Std.Error of estimate: .89419

Tabla de coeficientes:

St. Err.

B of B t(17) p-level

Intercept 20.28127 2.125250 9.54300 .000000

X1 -.13770 .015854 -8.68549 .000000

X2 .07425 .010965 6.77134 .000003

Coeficiente de determinación múltiple 91.4%ÀError estándar de la estimación .89419ÀCoeficientes y significativos" "" #

Errores estándares de los estimadores À

de es 0.015854"s1

de es 0.010965"s2

Analysis of Variance:

Sums of Mean

Squares df Square F p-level

Regress. 144.3873 2 72.19367 90.28916 .000000

Residual 13.5929 17 .79958

Total 157.9803

No hay evidencia en contra de C œ B B 3 9 " "3 # #3" " " XEl Ajuste sería: C œ #!Þ#) !Þ"$((B !Þ!(%#&Bs3 "3 #3

Page 135: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 21

Prof.: Juan Moncada Herrera

Diagnóstico del Modelo:

Gráfico 1: Residuos versus Valores Ajustados

Regression

95% confid.

Predicted vs. Residual Scores

Dependent variable: Y

Predicted Values

Residuals

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

13 15 17 19 21 23 25

* Ninguno de los residuos cae fuera de la banda de límites y +2. #* Al parecer algún efecto cuadrático o multiplicativo importante se pudo haber omitido en el modelo.

Buscando la Solución:

Gráfico 2: versus Residuales\"

Regression

95% confid.

Raw residuals vs. X1

X1 = 80.200 + .00000 * Raw residuals

Correlation: r = .00000

Raw residuals

X1

45

55

65

75

85

95

105

115

-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

Page 136: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 22

Prof.: Juan Moncada Herrera

Gráfico 3: versus Residuales\2

Regression

95% confid.

Raw residuals vs. X2

X2 = 120.35 + .00000 * Raw residuals

Correlation: r = .00000

Raw residuals

X2

70

80

90

100

110

120

130

140

150

160

-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

¡Habría que pensar en incluir un efecto cuadrático de !\"

Ajustando el Modelo Alternativo:

El nuevo Modelo: ] œ \ \ \ " " " " X9 " " # # #$"

Regression Summary for Dependent Variable: Y

R= .99027770 R²= .98064992 Adjusted R²= .97702178

Std.Error of estimate: .43710

Tabla de coeficientes:

Interc 41.55146

X1 -3.33317

X2 .50479

SQX1 2.68815

Tabla ANOVA:

Sums of Mean

Squares df Square F p-level

Regress. 154.9233 3 51.64111 270.2900 .000000

Residual 3.0569 16 .19106

Total 157.9803

¿Mejoró el ajuste?

Page 137: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 23

Prof.: Juan Moncada Herrera

Gráfico 4: Residuos versus predicciones

Regression

95% confid.

Predicted vs. Residual Scores

Dependent variable: Y

Predicted Values

Residuals

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

12 14 16 18 20 22 24 26

Gráfico 5: Plot de Normalidad de los Residuos

Normal Probability Plot of Residuals

Residuals

Expected Norm

al Value

-2.5

-1.5

-0.5

0.5

1.5

2.5

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8

Page 138: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 24

Prof.: Juan Moncada Herrera

Comparación de los Ajustes:

Gráfico 6: Valores Observados vs predichos antes de la corrección

Regression

95% confid.

Predicted vs. Observed Values

Dependent variable: Y

Predicted Values

Observed Values

12

14

16

18

20

22

24

26

13 15 17 19 21 23 25

Gráfico 7: Valores Observados vs Predichos después de la correción

Regression

95% confid.

Predicted vs. Observed Values

Dependent variable: Y

Predicted Values

Observed Values

12

14

16

18

20

22

24

26

12 14 16 18 20 22 24 26

La Ecuación Final:

C œ %"Þ&& !Þ(!!$B !Þ!($%B !Þ!!$'#%B3 "3 #3 "3#

Page 139: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 25

Prof.: Juan Moncada Herrera

EJEMPLO 2

Los datos siguientes representan el costo de calefacción y otras características de casas unifamiliares.]

: Temperatura exterior mínima\1

: Pulgadas de aislante\2

: Número de ventanas\3

: Antigüedad del calefactor\4

El problema es estimar una función lineal del consumo en términos de las otras variables.]

Costo de calefacción, según diversas características de la casa] \ \ \ \ 1 2 3 4

250 35 3 1 6

360 29 4 1 10

165 36 7 9 3

43 60 6 8 9

92 65 5 8 6

200 30 5 9 5

355 10 6 14 7

290 7 10 9 10

230 21 9 11 11

120 55 2 9 5

73 54 12 11 4

205 48 5 10 1

400 20 5 12 15

320 39 4 10 7

72 60 8 8 6

272 20 5 10 8

94 58 7 10 3

190 40 8 11 11

235 27 9 14 8

139 30 7 9 5

Sólo para efectos ilustrativos separaremos los casos lineal simple del múltiple.

Regresión Lineal Simple

El ajuste de un modelo de regresión lineal simple entre y 1 arrojó los siguientes resultados:] \

Regression Analysis - Linear model: = a+b 1] \--------------------------------------------------------------------

Dependent variable: Independent variable: 1] \--------------------------------------------------------------------

Standard T Prob.

Parameter Estimate Error Value Level

--------------------------------------------------------------------

Intercept 388.802 34.2408 11.3549 .00000

Slope -4.93419 0.837437 -5.89201 .00001

--------------------------------------------------------------------

En esta tabla observamos que los valores estimados son: A = 388.802 y B = -4.93419. La ecuación de

regresión ajustada es por lo tanto,

] \ = 388.802 - 4.93419 1

El valor T para probar la hipótesis nula de que el coeficiente de 1 es cero, es -5.89201. El valor\crítico, con n-(p+1)=20-2=18 g.l. y con un 95% de confianza, para un test bilateral, es 2.101, donde„(p+1) es el número de parámetros (p es el número de variables independientes). Por lo tanto, el valor de

Page 140: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 26

Prof.: Juan Moncada Herrera

t =-5.89201 pertenece a la región crítica, por lo que la hipótesis nula deber rechazarse. Esto significa

que el coeficiente de 1 es distinto de cero.\

La otra pregunta que hay que responderse en relación a un modelo ajustado, es si se hizo bien o no al

suponer un modelo como el especificado originalmente. La tabla ANOVA entrega todos los elementos

necesarios para tomar una decisión respecto de esta interrogante (hipótesis). Para los datos que estamos

analizando, dicha tabla es la siguiente:

Analysis of Variance

--------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio Prob. Level

Model 140214.94 1 140214.94 34.7 .00001

Residual 72700.809 18 4038.934

--------------------------------------------------------------------

Total (Corr.) 212915.75 19

Correlation Coefficient = -0.811509

R-squared = 65.85 percent

Stnd. Error of Est. = 63.5526

El valor del estadístico de prueba, la F, bajo la hipótesis nula, es 34.7. El valor crítico es una valor F

con 1 g.l. en el numerador y con 18 g.l. en el denominador. Con un 95% de confianza, el valor crítico es

4.41. Entonces deber rechazarse la hipótesis de que el modelo NO ES EL SUPUESTO

INICIALMENTE. Por lo tanto hicimos bien al suponer que los datos seguían una tendencia como la

indicada.

Por último, el valor corresponde al coeficiente de determinación, que en esteR-squared = 65.85 percent

caso indica que el 65.85% de la variabilidad en se puede explicar por medio de la variable 1.] \Todo lo anterior hace suponer que la recta ajustada es confiable para predicción.

Regresión Lineal Múltiple

Ahora analizaremos el ajuste de un modelo del tipo

= A + B1 1 + B2 2 + B3 3 + B4 4 + E] \ \ \ \

Los valores de los coeficientes y el respectivo valor t, entre otros, se muestran en la siguiente tabla:

Model fitting results for: ]-------------------------------------------------------------------

Independent variable coefficient std. error t-value sig.level

-------------------------------------------------------------------

CONSTANT 422.471898 68.079563 6.2056 0.0000

\1 -4.56175 0.807373 -5.6501 0.0000

\2 -15.214101 5.448259 -2.7925 0.0137

\3 0.672964 4.160671 0.1617 0.8737

\4 6.12764 4.143358 1.4789 0.1599

-------------------------------------------------------------------

R-SQ. (ADJ.) = 0.7524 SE= 52.676803 MAE= 36.404998 DurbWat= 1.540

En este caso el estadístico de prueba es una t-Student con 20-5=15 g.l. A un 95% de confianza, los

valores críticos son 2.131. Puede apreciarse que los valores de T asociados a los coeficientes de 3 y„ \\4 están en la región de aceptación, por lo que deber aceptarse la hipótesis de que estos coeficientes

son cero.

De la siguiente tabla ANOVA, según el valor F, podemos deducir que se hizo bien al suponer que los

datos seguían un modelo lineal.

Page 141: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 27

Prof.: Juan Moncada Herrera

Analysis of Variance for the Full Regression

------------------------------------------------------------------

Source Sum of Squares DF Mean Square F-Ratio P-value

------------------------------------------------------------------

Model 171293.0 4 42823.3 15.4327 .0000

Error 41622.7 15 2774.85

------------------------------------------------------------------

Total (Corr.) 212916.0 19

R-squared = 0.804511 Stnd. error of est. = 52.6768

R-squared (Adj. for d.f.) = 0.752381

Durbin-Watson statistic = 1.53965

Observemos que el 75.24% aproximado de la variabilidad de se puede explicar a través de , ,] \ \1 2

\ \3 4 y .

EJEMPLO 3

(Extraído de Canavos, G.(1984): . McGraw-HillProbabilidad y Estadística. Aplicaciones y MétodosInteramericana, Mexico). N.H. Prater desarrolló una ecuación de regresión para estimar la producción

de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se

identificaron cuatro variables de predicción: la gravedad del petróleo crudo( ), la presión del vapor\1

del petróleo crudo( ), el punto de 10% ASTM para el petróleo crudo( ) y el punto final ASTM para\ \2 3

la gasolina ( ). La respuesta fue la cantidad de gasolina producida expresada como un porcentaje\ ]4

respecto al total de petróleo crudo. Los datos, incluidos al final de este texto, se modificaron levemente

en su presentación sólo para facilitar cálculos.

Al ajustar un modelo de regresión múltiple a los datos, como por ejemplo en la forma

C œ \ \ \ \ 3 " " # # $ $ % % 3! " " " " % , se obtuvo, entre otros análisis, la siguiente tabla decoeficientes:

Model fitting results for: PRATER.]-------------------------------------------------------------------

Independent variable coefficient std. error t-value sig.level

-------------------------------------------------------------------

CONSTANT -69.048463 101.218363 -0.6822 0.5009

PRATER. 1 0.227512 0.099885 2.2777 0.0309\PRATER. 2 0.55641 0.368796 1.5087 0.1430\PRATER. 3 -1.493348 0.291822 -5.1173 0.0000\PRATER. 4 1.546868 0.064358 24.0352 0.0000\-------------------------------------------------------------------

R-SQ.(ADJ.) = 0.9566 SE= 22.331630 MAE= 16.762933 DurbWat= 2.166

En ella podemos apreciar los valores estimados de los respectivos parámetros, son A=-69.048,

B1=0.228, B2=0.556, B3=-1.493 y B4=1.547. Esto significa que la ecuación ajustada es

= -69.048 + 0.228 1 + 0.556 2 - 1.493 3 + 1.547 4] \ \ \ \

Observemos sin embargo, que de acuerdo al valor t indicado en esta tabla no se puede rechazar la

hipótesis de que el tercer parámetro es cero (á3). Por lo tanto este parámetro es cero, y debería

eliminarse del modelo ajustado, ya que su contribución a él es nula. Lo que corresponde después de

excluir la variable 2 del modelo, es hacer un nuevo ajuste. Al pie de esta tabla se observan los valores\del coeficiente de determinación, que es del 95.66%; y el error estándar del modelo, entre otros datos.

La siguiente tabla, como su encabezado lo dice, es la tabla ANOVA del modelo. Ella permite evaluar

estadísticamente la significancia del modelo. Específicamente la razón F permite probar si se hizo bien

al suponer un modelo lineal.

Page 142: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 28

Prof.: Juan Moncada Herrera

Analysis of Variance for the Full Regression

--------------------------------------------------------------------

Source Sum of Squares DF Mean Square F-Ratio P-value

--------------------------------------------------------------------

Model 342943. 4 85735.7 171.918 .0000

Error 13464.9 27 498.702

--------------------------------------------------------------------

Total (Corr.) 356408. 31

R-squared = 0.96222 Stnd. error of est. = 22.3316

R-squared (Adj. for d.f.) = 0.956623

Durbin-Watson statistic = 2.16626

En este caso, ya que el valor de la distribución F con 4 g.l. en el numerador y 27 g.l. en el denominador

y con un nivel de confianza del 95% es 2.73, se debe rechazar la hipótesis nula (en el ejemplo en

análisis, tenemos 5 parámetros, de modo que a la regresión le corresponden 4 g.l.). Recordemos que la

hipótesis nula asociada a un modelo de regresión es que EL MODELO NO ES LINEAL. Por lo tanto,

se hizo bien al ajustar un modelo lineal a los datos.

Si se excluyera del modelo la variable , es probable que el modelo, que así es bastante bueno, mejore\2

aún más.

Los Datos de PRATER:OBS ] \ \ \ \1 2 3 4

1 69 384 61 220 235

2 144 403 48 231 307

3 74 400 62 217 212

4 85 318 2 316 365

5 80 408 35 210 218

6 28 413 18 267 235

7 50 381 12 274 285

8 122 508 86 190 205

9 100 322 52 236 267

10 152 384 61 220 300

11 268 403 48 231 367

12 140 322 24 284 351

13 147 318 2 316 379

14 64 413 18 267 275

15 176 381 12 274 365

16 223 508 86 190 275

17 248 322 52 236 360

18 260 384 61 220 365

19 349 403 48 231 395

20 182 400 61 217 272

21 232 322 24 284 424

22 180 318 2 316 428

23 131 408 35 210 273

24 161 413 18 267 358

25 321 381 12 274 444

26 347 508 86 190 345

27 317 322 52 236 402

28 336 384 61 220 410

29 304 400 61 217 340

30 266 408 35 210 347

31 278 413 18 267 416

32 457 508 86 190 407

Page 143: Apunte completo

INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 29

Prof.: Juan Moncada Herrera

SUGERENCIAS BIBLIOGRÁFICAS

Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta

unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos:

1.Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988.

2.Freund-Walpole: Estadística Matemática con aplicaciones. Prentice-Hall Hispanoamericana, S.A.

México, 1990.

3.Scheaffer-McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica.

México, 1993.

4.Steel-Torrie: Bioestadística. Principios y Procedimientos. McGraw-Hill. México, 1992.