estadisticas angel estadistica angel borgna fernandez

129
Estadística

Upload: arielbellido

Post on 11-Aug-2015

83 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: Estadisticas Angel Estadistica Angel Borgna Fernandez

Estadística

Page 2: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 3: Estadisticas Angel Estadistica Angel Borgna Fernandez

Carpeta de trabajo

Estadística

María Eugenia ÁngelMario Enrique BorgnaGraciela Fernandez

Page 4: Estadisticas Angel Estadistica Angel Borgna Fernandez

Diseño original de maqueta: Hernán Morfese

Procesamiento didáctico: Marina Gergich / Bruno De Angelis

Primera edición: Septiembre de 2009

ISBN: 978-987-1782-08-6

© Universidad Virtual de Quilmes, 2009

Roque Sáenz Peña 352, (B1876BXD) Bernal, Buenos Aires

Teléfono: (5411) 4365 7100 | http://www.virtual.unq.edu.ar

La Universidad Virtual de Quilmes de la Universidad Nacional de

Quilmes se reserva la facultad de dis- poner de esta obra, publicarla,

traducirla, adaptarla o autorizar su traducción y reproducción en

cualquier forma, total o parcialmente, por medios electrónicos o

mecánicos, incluyendo fotocopias, grabación magnetofónica y

cualquier sistema de almacenamiento de información. Por consi-

guiente, nadie tiene facultad de ejercitar los derechos precitados sin

permiso escrito del editor.

Queda hecho el depósito que establece la ley 11.723

Impreso en Argentina

Page 5: Estadisticas Angel Estadistica Angel Borgna Fernandez

Lectura obligatoria

Es la bibliografía imprescindible que acompaña el desarrollo de los conteni-dos. Se trata tanto de textos completos como de capítulos de libros, artícu-los y "papers" que los estudiantes deben leer, en lo posible, en el momentoen que se indica en la Carpeta.

Actividades

Se trata de una amplia gama de propuestas de producción de diferentes ti-pos. Incluye ejercicios, estudios de caso, investigaciones, encuestas, elabo-ración de cuadros, gráficos, resolución de guías de estudio, etcétera.

Leer con atención

Son afirmaciones, conceptos o definiciones destacadas y sustanciales queaportan claves para la comprensión del tema que se desarrolla.

Para reflexionar

Es una herramienta que propone al estudiante un diálogo con el material, a tra-vés de preguntas, planteamiento de problemas, confrontaciones del tema con larealidad, ejemplos o cuestionamientos que alienten la autorreflexión, etcétera.

Lectura recomendada

Es la bibliografía que no se considera obligatoria, pero a la cual el estudian-te puede recurrir para ampliar o profundizar algún tema o contenido.

Pastilla

Se utiliza como reemplazo de la nota al pie, para incorporar informacionesbreves, complementarias o aclaratorias de algún término o frase del textoprincipal. El subrayado indica los términos a propósito de los cuales se inclu-ye esa información asociada en el margen.

Íconos

Page 6: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 7: Estadisticas Angel Estadistica Angel Borgna Fernandez

nndd

Introducción...........................................................................................9Mapa conceptual ..................................................................................10Problemática del campo ........................................................................10Objetivos del curso ...............................................................................11

1. Estadística descriptiva .....................................................................131.1. Los datos y su organización ...........................................................13

1.1.1. Variables estadísticas y su clasificación................................131.1.2. Ordenamiento y tabulación de los datos................................151.1.3. Representaciones gráficas ...................................................23

1.2. Medidas estadísticas.....................................................................281.2.1. Medidas de posición............................................................281.2.2. Medidas de dispersión.........................................................391.2.3. Medidas de intensidad.........................................................43

1.3. Matrices ejemplos .........................................................................51

2. Probabilidad.....................................................................................552.1. Elementos de la teoría de probabilidad ...........................................552.1.1. Experimento aleatorio .................................................................552.1.2. Definiciones de probabilidad........................................................622.1.3. Axiomatización de la probabilidad ................................................632.1.4. Tipos de probabilidad..................................................................642.2. Variable aleatoria...........................................................................692.2.1. Variable aleatoria discreta ...........................................................692.2.2. Modelos especiales de variables aleatorias discretas ...................712.2.3. Variable aleatoria continua ..........................................................762.2.4. Modelos especiales de variables aleatorias continuas ..................77

3. Inferencia estadística.......................................................................873.1. Distribución de estadísticos muestrales ..........................................873.1.1. Distribución del estadístico media muestral .................................883.1.2. Distribución del estadístico proporción muestral ...........................903.1.3. Teorema central del límite ...........................................................913.2. Problemas fundamentales de la inferencia estadística .....................943.2.1. Estimación por intervalo de confianza ..........................................943.2.2. Pruebas de hipótesis ................................................................105

4. Elementos básicos de econometría.................................................1134.1. Introducción ................................................................................1134.2. Análisis de regresión y de correlación ...........................................1144.3. Series de tiempo .........................................................................120

Referencia bibliográfica ......................................................................125

77

Índice

Page 8: Estadisticas Angel Estadistica Angel Borgna Fernandez

Anexo ................................................................................................127Tabla 1: Percentiles de la distribución normal estándar .........................127Tabla 2: Percentiles de la distribución t de Student...............................129

88

Universidad Virtual de Quilmes

Page 9: Estadisticas Angel Estadistica Angel Borgna Fernandez

99

El material de esta carpeta contiene, en su inicio –Unidad 1–, diversas formasde organización de los conjuntos de datos (apartado 1.1.). En algunos casosdatos de campo y en otros compilados, como preparación del material de basepara elaborar las medidas estadísticas (apartado 1.2.) también denominadasindicadores estadísticos, y producir información útil.

La importancia de la organización de los datos, en vistas del tratamientoposterior, reside en que permite establecer distintas líneas de trabajo en posde la calidad de la información que se busca. Una información estadística decalidad es primordial para la comprensión de las cualidades o característicasdel mundo real con perspectiva de su modelización.

A comienzos del siglo XIX el astrónomo Adolfo Quetelet –considerado el fun-dador de la estadística moderna– aplicó a las ciencias sociales los métodosestadísticos hasta entonces utilizados en las ciencias naturales, contribu-yendo a la ampliación del campo de la estadística. Sin embargo, fue a partirde mediados de la década de 1960 con el Análisis Exploratorio de Datos (EDA)– desarrollado por J. Tukey y otros– que surgió un enfoque más amplio en eltratamiento de datos, cimentado en el uso de la informática, donde el sopor-te tecnológico permitió sostener una gran masa de datos y procesarlos entiempo real, contribuyendo así al mejoramiento de la calidad de la informaciónresultante.

Luego del tratamiento descriptivo de los datos desarrollado en la Unidad1, se incorporan nociones sobre la teoría de la probabilidad –Unidad 2–.

A partir del siglo XVII comenzó a evolucionar el Cálculo de probabilidadcomo disciplina científica introduciéndose el uso sistemático de los concep-tos de azar, indeterminismo y aleatoriedad. La Estadística, que a la sazón yatenía un desarrollo de varios milenios donde el campo de trabajo era exclusi-vamente las poblaciones o universos, es decir la totalidad de los individuos oelementos involucrados en el estudio de un problema, se vio enriquecida porel desarrollo de la teoría de la probabilidad la cual le permitió extender sualcance hacia el interior de dichas poblaciones y ampliar su metodología altratamiento de los subconjuntos de ellas, las muestras.

Los trabajos de Bernoulli, Laplace, Gauss y Galton entre otros, proveyeronal cálculo de probabilidades de recursos matemáticos que permitieron dise-ñar modelos probabilísticos aplicables a diversos campos de la ciencia. Losmodelos probabilísticos, cuyo núcleo son las distribuciones de probabilidadde las variables involucradas en los problemas de estudio (apartado 2.2.),son la base de la inferencia estadística.

La inferencia estadística –Unidad 3– es el procedimiento por el cual seextrapolan o extienden a la población en estudio los resultados de una mues-tra representativa. A partir de los indicadores o estadísticos muestrales seestiman (apartado 3.2.) o se someten a prueba (apartado 3.3.) los indicado-res poblacionales también denominados parámetros.

IInn ttrroo dduucc cciióónn

Page 10: Estadisticas Angel Estadistica Angel Borgna Fernandez

Por último, se tratan algunos elementos de econometría –Unidad 4–, nocio-nes sobre la relación entre variables como el análisis de regresión lineal, elanálisis de correlación y un breve estudio sobre las series de tiempo.

El orden y sentido en que se desarrollan los distintos conceptos en el trans-curso del presente material se sintetiza en el diagrama siguiente.

Mapa conceptual

Problemática del campo

La estadística se compone de dos grandes áreas, la descriptiva y la inferencial. Por medio de la estadística descriptiva se analizan propiedades de un con-

junto de datos referidas al contexto en el que ellos se encuentran inmersos yno como entidades aisladas. Por ese motivo es muy importante antes del aná-lisis descriptivo, conocer y clarificar el entorno del que provienen los datos.Cuando hablamos del entorno estamos haciendo referencia a la población enestudio (o a una parte de ella) y a sus unidades de análisis, a los atributosque interesa estudiar y a la calidad del dato que se puede extraer.

Por otro lado, en los estudios de campo se da con frecuencia y por distin-tas causas la imposibilidad de acceder a toda la población y es en esos casosdonde los datos tienen que extraerse de un subconjunto de ella al que deno-minamos muestra. Si el objetivo del análisis de la muestra es realizar infe-rencias respecto a la población, necesariamente debe ser una muestra repre-sentativa que comportándose como una imagen reducida de esa poblaciónde estudio refleje sus características. Estas muestras son obtenidas pormétodos de muestreo aleatorio.

La estadística inferencial tiene como objetivo realizar inferencias sobre lapoblación en un ambiente de incertidumbre producto del azar y la aleatoriedad.

En síntesis, hay dos grandes problemas con los que se encuentra estecampo del saber el conocimiento del contexto de estudio y el tratamiento dela incertidumbre.

1100

Universidad Virtual de Quilmes

Page 11: Estadisticas Angel Estadistica Angel Borgna Fernandez

• Aprehender técnicas y métodos estadísticos tanto de la Estadística des-criptiva como de la Estadística inferencial.

• Emplear esas técnicas y métodos en la formalización de modelos esta-dísticos en el ámbito de las ciencias económicas.

• Aplicar el conocimiento estadístico adquirido a la vida cotidiana como partede una cultura general.

1111

OObbjjeettiivvooss ddeell ccuurrssoo

Page 12: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 13: Estadisticas Angel Estadistica Angel Borgna Fernandez

1133

Estadística descriptiva

Ob je ti vos

• Determinar y analizar distintos indicadores socioeconómicos.• Construir e interpretar gráficos estadísticos diversos.

1.1. Los datos y su organización

En este apartado se tratarán algunas de las formas de organizar los datosrecolectados o recopilados y se preparará el material de base para que en losapartados siguientes puedan elaborarse medidas estadísticas, comúnmentedenominadas indicadores estadísticos.

Los datos son tomados de una cierta población o universo objeto de estu-dio: la población objetivo.

Por ejemplo, todos los empleados de una determinada pyme constituyenuna población objetivo. Y en ese caso, cada individuo de ese universo –cadaempleado– es lo que se denomina una unidad de observación.

En el estudio de la población nos pueden interesar determinados atribu-tos comunes a los individuos como la edad, el salario, la antigüedad, etc. Losarchivos de la empresa combinados con entrevistas personales pueden habersido los instrumentos con que se relevó la información.

El paso inicial para organizar toda la información primaria obtenida delgrupo de empleados de la pyme y que la presente en su totalidad, es elabo-rar una tabla denominada matriz de datos. Una matriz de datos es un arreglode filas y columnas donde cada fila representa un individuo o unidad de obser-vación y cada columna un atributo variable (en el apartado 1.3. figuran cuatromatrices de datos llamadas a partir de ahora matrices ejemplo –ME– cadavez que se haga referencia a ellas).

Cada uno de los atributos variables que se observan en la matriz son pasi-bles de convertirse en lo que llamamos variables estadísticas.

1.1.1. Variables estadísticas y su clasificación

Las variables estadísticas se obtienen a partir de los atributos. Por ejemplo,si el atributo primario hubiese sido la fecha de nacimiento de cada empleado,para su tratamiento estadístico se diseña la variable edad en años. Por otrolado, contando con la fecha de nacimiento y la fecha de ingreso podría dise-

1

En el apartado 1.6. figu-ran varios ejemplos de

población objetivo y de unidad deobservación.

Otros instrumentos derecolección de datos son:

documentos, encuestas o simpleobservación.

Puede haber atributosque no varíen de un indi-

viduo a otro, como la pertenen-cia a la empresa, ya que todosson empleados.

Page 14: Estadisticas Angel Estadistica Angel Borgna Fernandez

ñarse la variable “edad que tenía cuando ingresó a la empresa” (en este casola variable surge de una combinación de atributos).

Para un primer tratamiento se convertirá cada atributo de las matrices ejem-plo ME en una variable estadística.

Si se observan detenidamente cada una de las variables se puede notarque algunas asumen valores numéricos y otras valores no numéricos.

A las que asumen valores numéricos las denominaremos variables cuan-titativas y a las que asumen valores no numéricos, es decir cualidades, varia-bles cualitativas.

Son ejemplos de variables cuantitativas la antigüedad, el salario quince-nal, la cantidad de personal, la longitud de las piezas de plástico, etc. Sonejemplos de variables cualitativas el sexo, el tipo de posesión de la vivienda,el rubro de las pymes, el tipo de materia prima, etcétera.

1.Clasificar como cuantitativas o cualitativas cada una de las variables delas ME del apartado 1.3.

Si se observan más detenidamente las variables de las matrices ejemplo sepuede notar que hay variables cuantitativas que asumen valores dentro delconjunto de los números reales y hay otras cuyos valores son números ente-ros. A las que asumen valores reales las denominamos cuantitativas conti-nuas y a las otras cuantitativas discretas. Por ejemplo: la “edad civil” es pornaturaleza una variable discreta pero eventualmente si se tratara la “edad bio-lógica” ésta sería por naturaleza una variable cuantitativa continua.

Con respecto a las variables cualitativas se puede notar que en algunas deellas sus valores pueden ordenarse y en otras no. Esto justifica también sub-clasificarla en cualitativas ordenables y cualitativas no ordenables. Un ejem-plo de variable cualitativa ordenable es el “nivel de detalle de terminación delas piezas plásticas” y un ejemplo de no ordenable es el “rubro de las pymes”.

2.Completar la actividad 1 con la clasificación de las variables.

¿Por qué motivo cree que es necesaria la clasificación realizada para lasvariables y cuál será su utilidad?

1144

Universidad Virtual de Quilmes

Page 15: Estadisticas Angel Estadistica Angel Borgna Fernandez

1.1.2. Ordenamiento y tabulación de los datos

A partir de aquí se seguirá la organización de los datos centrando la atenciónen cada una de las variables y teniendo en cuenta su complejidad.

Variable cualitativa no ordenable

Elegimos para esta categoría la variable “Rubro de la pyme” de la matriz deejemplo ME 3.

Los rubros relevados en la muestra son: servicios (S), industrial (I), agrí-cola (A) y comercial (C). Podría interesarnos cuántas empresas hay de cadarubro, entonces armamos la siguiente tabla denominada tabla de distribuciónde frecuencias.

El conteo realizado para la segunda columna de la tabla constituye lo que lla-maremos de aquí en más frecuencia absoluta.

Se denomina frecuencia absoluta a la cantidad de veces que aparece cadavalor de la variable en el grupo de datos estudiado. Es importante tener en cuenta que la suma de todas las frecuencias abso-lutas es igual a la cantidad total de datos.

Ampliando el concepto de frecuencia de tal manera de involucrar no sólo lascantidades con que aparece cada rubro sino también su incidencia respectodel total, surgen las denominadas frecuencias porcentuales y relativas.

La frecuencia relativa se calcula dividiendo cada frecuencia absoluta porel total de datos.La frecuencia porcentual se calcula multiplicando por 100 la respectivafrecuencia relativa.

La tabla que sigue, que llamaremos de aquí en adelante tabla de distribuciónde frecuencias o distribución de frecuencias a secas, incluye a los tres tiposde frecuencias definidas anteriormente.

1155

Estadistica

FIN DE LEER ATENTO

COMIENZO DE ACTIVIDAD 2.Completar la actividad 1 con la clasificación de las variables.FIN DE ACTIVIDAD

COMIENZO DE PARA REFLEXIONAR ¿Por qué motivo cree que es necesaria la clasificación realizada para las variables y cuál será su utilidad?FIN DE PARA REFLEXIONAR

1.1.2. Ordenamiento y tabulación de los datos

A partir de aquí se seguirá la organización de los datos centrando la atención en cada una de las variables y teniendo en cuenta su complejidad.

Variable cualitativa no ordenable

Elegimos para esta categoría la variable “Rubro de la pyme” de la matriz de ejemplo ME 3.Los rubros relevados en la muestra son: servicios (S), industrial (I), agrícola (A) y comercial (C). Podría interesarnos

cuántas empresas hay de cada rubro, entonces armamos la siguiente tabla denominada tabla de distribución de frecuencias.

Rubro Cantidad de PymesA 6C 5I 9S 4

Total 24

El conteo realizado para la segunda columna de la tabla constituye lo que llamaremos de aquí en más frecuencia absoluta.

COMIENZO DE LEER ATENTO Se denomina frecuencia absoluta a la cantidad de veces que aparece cada valor de la variable en el grupo de datos estudiado.

Es importante tener en cuenta que la suma de todas las frecuencias absolutas es igual a la cantidad total de datos. FIN DE LEER ATENTO

COMIENZO DE PASTILLA ENLa notación usual para la frecuencia absoluta es f y para la cantidad total de datos muestrales n.FIN DE PASTILLA

COMIENZO DE PASTILLA EN

La notación usual para la fre-cuencia absoluta es f y para la

cantidad total de datosmuestrales n.

Si el grupo relevado esuna población denota-

remos con N a la cantidad totalde datos.

La frecuencia relativa se abreviacon fr y el total es 1.

La frecuencia porcentualse abrevia con f% y el total

es 100.

Page 16: Estadisticas Angel Estadistica Angel Borgna Fernandez

Tabla 1.1.

Variable cualitativa ordenable

Como ejemplo para este tipo de variables tomaremos el “nivel de detalles determinación de las piezas plásticas” de la ME 4.

Tabla 1.2.

Como puede apreciarse, en la tabla de distribución de frecuencias se consig-naron los valores –o categorías– en sentido creciente, acorde con la natura-leza ordenable de la variable. En la tabla podemos leer, por ejemplo, cuántaspiezas de plástico (o qué porcentaje de ellas) cumplen con un determinadonivel de detalle de terminación.

El carácter de ordenables que adquieren las categorías nos habilita a crear loque denominaremos un arreglo de datos ordenados:

Donde: Detalle de terminación Regular: R; Bueno: B; Muy bueno: MB y Exce-lente: E.

Por una cuestión de economía de espacio hemos elegido representar el arre-glo mediante una matriz fila, pero puede usarse una matriz columna sin queello altere la esencia del ordenamiento.

Aprovechando la propiedad de ordenamiento de las categorías, sometere-mos las frecuencias de la tabla 1.2. a un mecanismo de acumulación y defi-niremos las frecuencias acumuladas absoluta, relativa y porcentual, esto escuántas piezas de plástico (o qué porcentaje) cumplen con un nivel máximode detalles de terminación.

1166

Universidad Virtual de Quilmes

Rubro f fr

f%

A 6 0,25 25C 5 0,21 21I 9 0,37 37S 4 0,17 17

Total 24 1,00 100Donde: Rubro Agrícola: A; Comercial: C; Industrial: I y Servicios: S.

Tabla 1.2.

Detalle de terminación f fr f%

Regular 5 0,25 25Bueno 5 0,25 25

Muy bueno 5 0,25 25Excelente 5 0,25 25

Total 20 1 100

Si el grupo relevado es una población denotaremos con N a la cantidad total de datos.FIN DE PASTILLA

Ampliando el concepto de frecuencia de tal manera de involucrar no sólo las cantidades con que aparece cada rubro sino también su incidencia respecto del total, surgen las denominadas frecuencias porcentuales y relativas.

COMIENZO DE LEER ATENTO La frecuencia relativa se calcula dividiendo cada frecuencia absoluta por el total de datos.

La frecuencia porcentual se calcula multiplicando por 100 la respectiva frecuencia relativa. FIN DE LEER ATENTO

COMIENZO DE PASTILLA ENfr

FIN DE PASTILLACOMIENZO DE PASTILLA EN

f%

FIN DE PASTILLA

La tabla que sigue, que llamaremos de aquí en adelante tabla de distribución de frecuencias o distribución de frecuencias a secas, incluye a los tres tipos de frecuencias definidas anteriormente.

Tabla 1.1.

Rubro f fr

f%

A 6 25C 5 21I 9S 4

Total 24 1,00 100

Variable cualitativa ordenable

Como ejemplo para este tipo de variables tomaremos el “nivel de detalles de terminación de las piezas plásticas” de la ME 4.

Tabla 1.2.

Detalle de terminación f fr f%

5 255 255 25

Excelente 5 25Total 1

Como puede apreciarse, en la tabla de distribución de frecuencias se consignaron los valores –o categorías– en sentido creciente, acorde con la naturaleza ordenable de la variable. En la tabla podemos leer, por ejemplo, cuántas piezas de plástico (o qué porcentaje de ellas) cumplen con un determinado nivel de detalle de terminación.

El carácter de ordenables que adquieren las categorías nos habilita a crear lo que denominaremos un arreglo de datos ordenados:

B B B B B MB MB MB MB MB E E E E E

Por una cuestión de economía de espacio hemos elegido representar el arreglo mediante una matriz fila, pero puede usarse una matriz columna sin que ello altere la esencia del ordenamiento.

Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de la tabla 1.2. a un mecanismo de acumulación y definiremos las frecuencias acumuladas absoluta, relativa y porcentual, esto es cuántas piezas de plástico (o qué porcentaje) cumplen con un nivel máximo de detalles de terminación.

COMIENZO DE LEER ATENTO La frecuencia absoluta acumulada –que denotamos con F– hasta una determinada categoría de la variable resulta de sumarle a su frecuencia absoluta todas las frecuencias absolutas de los valores o categorías menores.

La frecuencia relativa acumulada Fr hasta una categoría se calcula sumándole a su frecuencia relativa las frecuencias relativas de las categorías anteriores.

La frecuencia porcentual acumulada F% hasta una determinada categoría o valor se calcula sumándole a su frecuencia porcentual las frecuencias porcentuales anteriores.FIN DE LEER ATENTO

En la siguiente distribución se encuentran ya consignadas todas las frecuencias definidas anteriormente.

Tabla 1.3.

Detalle de terminación f fr f% F Fr F%

5 25 5 255 255 25 15

Excelente 5 25Total 1

Variable cuantitativa discreta

Caso 1. Edad de los trabajadores de una empresa cooperativa, (extraída de la EM 1).Para el tratamiento de esta variable procederemos como se hizo para la cualitativa ordenable.

Arreglo de datos ordenados

21 25 28 42 48 51

Distribución de frecuencias

Page 17: Estadisticas Angel Estadistica Angel Borgna Fernandez

La frecuencia absoluta acumulada –que denotamos con F– hasta una deter-minada categoría de la variable resulta de sumarle a su frecuencia absolu-ta todas las frecuencias absolutas de los valores o categorías menores.La frecuencia relativa acumulada Fr hasta una categoría se calcula sumán-dole a su frecuencia relativa las frecuencias relativas de las categoríasanteriores.La frecuencia porcentual acumulada F% hasta una determinada cate-goría o valor se calcula sumándole a su frecuencia porcentual las fre-cuencias porcentuales anteriores.

En la siguiente distribución se encuentran ya consignadas todas las frecuen-cias definidas anteriormente.

Tabla 1.3.

Variable cuantitativa discreta

Caso 1. Edad de los trabajadores de una empresa cooperativa, (extraída dela EM 1).

Para el tratamiento de esta variable procederemos como se hizo para la cua-litativa ordenable.

Arreglo de datos ordenados

Distribución de frecuencias

1177

Estadistica

B B B B B MB MB MB MB MB E E E E E

Por una cuestión de economía de espacio hemos elegido representar el arreglo mediante una matriz fila, pero puede usarse una matriz columna sin que ello altere la esencia del ordenamiento.

Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de la tabla 1.2. a un mecanismo de acumulación y definiremos las frecuencias acumuladas absoluta, relativa y porcentual, esto es cuántas piezas de plástico (o qué porcentaje) cumplen con un nivel máximo de detalles de terminación.

COMIENZO DE LEER ATENTO La frecuencia absoluta acumulada –que denotamos con F– hasta una determinada categoría de la variable resulta de sumarle a su frecuencia absoluta todas las frecuencias absolutas de los valores o categorías menores.

La frecuencia relativa acumulada Fr hasta una categoría se calcula sumándole a su frecuencia relativa las frecuencias relativas de las categorías anteriores.

La frecuencia porcentual acumulada F% hasta una determinada categoría o valor se calcula sumándole a su frecuencia porcentual las frecuencias porcentuales anteriores.FIN DE LEER ATENTO

En la siguiente distribución se encuentran ya consignadas todas las frecuencias definidas anteriormente.

Tabla 1.3.

Detalle de terminación f fr f% F Fr F%

5 25 5 255 255 25 15

Excelente 5 25Total 1

Variable cuantitativa discreta

Caso 1. Edad de los trabajadores de una empresa cooperativa, (extraída de la EM 1).Para el tratamiento de esta variable procederemos como se hizo para la cualitativa ordenable.

Arreglo de datos ordenados

21 25 28 42 48 51

Distribución de frecuencias

B B B B B MB MB MB MB MB E E E E E

Por una cuestión de economía de espacio hemos elegido representar el arreglo mediante una matriz fila, pero puede usarse una matriz columna sin que ello altere la esencia del ordenamiento.

Aprovechando la propiedad de ordenamiento de las categorías, someteremos las frecuencias de la tabla 1.2. a un mecanismo de acumulación y definiremos las frecuencias acumuladas absoluta, relativa y porcentual, esto es cuántas piezas de plástico (o qué porcentaje) cumplen con un nivel máximo de detalles de terminación.

COMIENZO DE LEER ATENTO La frecuencia absoluta acumulada –que denotamos con F– hasta una determinada categoría de la variable resulta de sumarle a su frecuencia absoluta todas las frecuencias absolutas de los valores o categorías menores.

La frecuencia relativa acumulada Fr hasta una categoría se calcula sumándole a su frecuencia relativa las frecuencias relativas de las categorías anteriores.

La frecuencia porcentual acumulada F% hasta una determinada categoría o valor se calcula sumándole a su frecuencia porcentual las frecuencias porcentuales anteriores.FIN DE LEER ATENTO

En la siguiente distribución se encuentran ya consignadas todas las frecuencias definidas anteriormente.

Tabla 1.3.

Detalle de terminación f fr f% F Fr F%

5 25 5 255 255 25 15

Excelente 5 25Total 1

Variable cuantitativa discreta

Caso 1. Edad de los trabajadores de una empresa cooperativa, (extraída de la EM 1).Para el tratamiento de esta variable procederemos como se hizo para la cualitativa ordenable.

Arreglo de datos ordenados

21 25 28 42 48 51

Distribución de frecuencias

Page 18: Estadisticas Angel Estadistica Angel Borgna Fernandez

Tabla 1.4.

Caso 2. Edad de los empleados de una fábrica automotriz. A continuación se transcriben las edades de una muestra de 80 empleadosde una fábrica automotriz.

Arreglo de datos ordenados

Si intentáramos listar en una tabla de frecuencias los 80 datos nos encon-traríamos con una gran variedad de valores. Además, sus correspondientes fre-cuencias son similares. Ante este panorama el sentido común aconseja orga-nizar los datos por franjas de edad.

1188

Universidad Virtual de Quilmes

Tabla 1.4.

Edad f fr f% Fi Fr F%

21 1 5 1 525 1 5 228 1 5 1530 1 5 434 1 5 5 2536 237 1538 1 5 11 5539 2 6540 2 1542 1 5 1648 1 5 8551 1 5 1857 1 5 19 9563 1 5

Total 20 1

Caso 2. Edad de los empleados de una fábrica automotriz. A continuación se transcriben las edades de una muestra de 80 empleados de una fábrica automotriz.

18 54 42 24 42 64 48 58 29 4941 18 42 46 44 21 55 15

29 62 25 22 49 21 41 25 4445 46 48 49 51 54 19 56 28 59

Arreglo de datos ordenados

15 18 18 19 21 21 22 24 25 25 28 29 29

41 41 42 42 42 44 44

45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64

Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gran variedad de valores. Además, sus correspondientes frecuencias son similares. Ante este panorama el sentido común aconseja organizar los datos por franjas de edad. Tabla 1.5.

Franja de edad f15 a 19 5

625 a 29 8

1612

45 a 49 86

55 a 59 42

Total

Tabla 1.4.

Edad f fr f% Fi Fr F%

21 1 5 1 525 1 5 228 1 5 1530 1 5 434 1 5 5 2536 237 1538 1 5 11 5539 2 6540 2 1542 1 5 1648 1 5 8551 1 5 1857 1 5 19 9563 1 5

Total 20 1

Caso 2. Edad de los empleados de una fábrica automotriz. A continuación se transcriben las edades de una muestra de 80 empleados de una fábrica automotriz.

18 54 42 24 42 64 48 58 29 4941 18 42 46 44 21 55 15

29 62 25 22 49 21 41 25 4445 46 48 49 51 54 19 56 28 59

Arreglo de datos ordenados

15 18 18 19 21 21 22 24 25 25 28 29 29

41 41 42 42 42 44 44

45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64

Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gran variedad de valores. Además, sus correspondientes frecuencias son similares. Ante este panorama el sentido común aconseja organizar los datos por franjas de edad. Tabla 1.5.

Franja de edad f15 a 19 5

625 a 29 8

1612

45 a 49 86

55 a 59 42

Total

Tabla 1.4.

Edad f fr f% Fi Fr F%

21 1 5 1 525 1 5 228 1 5 1530 1 5 434 1 5 5 2536 237 1538 1 5 11 5539 2 6540 2 1542 1 5 1648 1 5 8551 1 5 1857 1 5 19 9563 1 5

Total 20 1

Caso 2. Edad de los empleados de una fábrica automotriz. A continuación se transcriben las edades de una muestra de 80 empleados de una fábrica automotriz.

18 54 42 24 42 64 48 58 29 4941 18 42 46 44 21 55 15

29 62 25 22 49 21 41 25 4445 46 48 49 51 54 19 56 28 59

Arreglo de datos ordenados

15 18 18 19 21 21 22 24 25 25 28 29 29

41 41 42 42 42 44 44

45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64

Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gran variedad de valores. Además, sus correspondientes frecuencias son similares. Ante este panorama el sentido común aconseja organizar los datos por franjas de edad. Tabla 1.5.

Franja de edad f15 a 19 5

625 a 29 8

1612

45 a 49 86

55 a 59 42

Total

Page 19: Estadisticas Angel Estadistica Angel Borgna Fernandez

Tabla 1.5.

Para poder usar, más adelante, con comodidad este material llamamos a esasfranjas intervalos de clase y los describimos agregando para el conteo algu-na convención.

Tabla 1.6.

La convención que se usó para ajustar los intervalos de clase y hacerlos adya-centes, fue cerrarlos a izquierda y abrirlos a derecha. Podría haber sido alrevés, abiertos a izquierda y cerrados a derecha, pero una vez elegida una delas dos convenciones debe mantenérsela para toda la distribución.

¿Por qué es necesario mantener la convención elegida en toda la distri-bución? ¿Qué problemas acarrearía utilizar las dos convenciones en unamisma tabla?

Caso 3. En la siguiente tabla elaborada por los editores de una revista estu-diantil universitaria con base en información del Nunca Más (Informe de laCONADEP, Eudeba, 1984), se presenta la edad de las personas desaparecidasen la Argentina por la última dictadura militar (1976-1983).

1199

Estadistica

Tabla 1.4.

Edad f fr f% Fi Fr F%

21 1 5 1 525 1 5 228 1 5 1530 1 5 434 1 5 5 2536 237 1538 1 5 11 5539 2 6540 2 1542 1 5 1648 1 5 8551 1 5 1857 1 5 19 9563 1 5

Total 20 1

Caso 2. Edad de los empleados de una fábrica automotriz. A continuación se transcriben las edades de una muestra de 80 empleados de una fábrica automotriz.

18 54 42 24 42 64 48 58 29 4941 18 42 46 44 21 55 15

29 62 25 22 49 21 41 25 4445 46 48 49 51 54 19 56 28 59

Arreglo de datos ordenados

15 18 18 19 21 21 22 24 25 25 28 29 29

41 41 42 42 42 44 44

45 46 46 48 48 49 49 49 51 54 54 55 56 58 59 62 64

Si intentáramos listar en una tabla de frecuencias los 80 datos nos encontraríamos con una gran variedad de valores. Además, sus correspondientes frecuencias son similares. Ante este panorama el sentido común aconseja organizar los datos por franjas de edad. Tabla 1.5.

Franja de edad f15 a 19 5

625 a 29 8

1612

45 a 49 86

55 a 59 42

Total

Para poder usar, más adelante, con comodidad este material llamamos a esas franjas intervalos de clase y los describimos agregando para el conteo alguna convención.

Tabla 1.6.

Edad F fr f% Fi Fr F%

5 56 118 19

16 48128 68642

Total

La convención que se usó para ajustar los intervalos de clase y hacerlos adyacentes, fue cerrarlos a izquierda y abrirlos a derecha. Podría haber sido al revés, abiertos a izquierda y cerrados a derecha, pero una vez elegida una de las dos convenciones debe mantenérsela para toda la distribución.

COMIENZO DE PASTILLA EN

FIN DE PASTILLA

COMIENZO DE PARA REFLEXIONAR ¿Por qué es necesario mantener la convención elegida en toda la distribución? ¿Qué problemas acarrearía utilizar

Caso 3. En la siguiente tabla elaborada por los editores de una revista estudiantil universitaria con base en información del Nunca Más (Informe de la CONADEP, Eudeba, 1984), se presenta la edad de las personas desaparecidas en la Argentina por la última dictadura militar (1976-1983).

Tabla 1.7.

Edad al momento de la desaparición forzada f%

11 a 15

21 a 25

41 a 45

51 a 55

61 a 65

Total

El conjunto de interva-los debe ser exhaustivo

–es decir, ningún dato puede que-dar excluido– y los intervalos sonexcluyentes entre sí por eso debenser semiabiertos.

Page 20: Estadisticas Angel Estadistica Angel Borgna Fernandez

Tabla 1.7.

Notemos que en este caso no disponemos de los datos de campo y que en con-secuencia no necesitamos adoptar convención alguna para el conteo. Para futu-ros usos retocamos algunos límites de los intervalos de tal forma que seanrigurosamente adyacentes en el dominio de los números reales y tengan lamisma amplitud, y agregamos una columna con frecuencias acumuladas:

Tabla 1.8.

2200

Universidad Virtual de Quilmes

Para poder usar, más adelante, con comodidad este material llamamos a esas franjas intervalos de clase y los describimos agregando para el conteo alguna convención.

Tabla 1.6.

Edad F fr f% Fi Fr F%

5 56 118 19

16 48128 68642

Total

La convención que se usó para ajustar los intervalos de clase y hacerlos adyacentes, fue cerrarlos a izquierda y abrirlos a derecha. Podría haber sido al revés, abiertos a izquierda y cerrados a derecha, pero una vez elegida una de las dos convenciones debe mantenérsela para toda la distribución.

COMIENZO DE PASTILLA EN

FIN DE PASTILLA

COMIENZO DE PARA REFLEXIONAR ¿Por qué es necesario mantener la convención elegida en toda la distribución? ¿Qué problemas acarrearía utilizar

Caso 3. En la siguiente tabla elaborada por los editores de una revista estudiantil universitaria con base en información del Nunca Más (Informe de la CONADEP, Eudeba, 1984), se presenta la edad de las personas desaparecidas en la Argentina por la última dictadura militar (1976-1983).

Tabla 1.7.

Edad al momento de la desaparición forzada f%

11 a 15

21 a 25

41 a 45

51 a 55

61 a 65

Total

Notemos que en este caso no disponemos de los datos de campo y que en consecuencia no necesitamos adoptar convención alguna para el conteo.

Para futuros usos retocamos algunos límites de los intervalos de tal forma que sean rigurosamente adyacentes en el dominio de los números reales y tengan la misma amplitud, y agregamos una columna con frecuencias acumuladas:

Tabla 1.8.

Edad al momento de la desaparición forzada f% F%

Total

Variable cuantitativa continua

familia, de 96 familias escogidas al azar de cierta localidad.

Page 21: Estadisticas Angel Estadistica Angel Borgna Fernandez

Variable cuantitativa continua

Consideremos el siguiente conjunto de datos correspondiente a gastos porconsumo medio diario de alimentos por familia, de 96 familias escogidas alazar de cierta localidad.

Arreglo de datos ordenados

Como se puede apreciar se optó por organizar el arreglo con forma de matrizcolumna, la que además se partió en cinco tramos para economizar espacio.De forma similar a lo que se hizo anteriormente con la variable discreta del

2211

Estadistica

Notemos que en este caso no disponemos de los datos de campo y que en consecuencia no necesitamos adoptar convención alguna para el conteo.

Para futuros usos retocamos algunos límites de los intervalos de tal forma que sean rigurosamente adyacentes en el dominio de los números reales y tengan la misma amplitud, y agregamos una columna con frecuencias acumuladas:

Tabla 1.8.

Edad al momento de la desaparición forzada f% F%

Total

Variable cuantitativa continua

familia, de 96 familias escogidas al azar de cierta localidad.

Arreglo de datos ordenados

Como se puede apreciar se optó por organizar el arreglo con forma de matriz columna, la que además se partió en cinco tramos para economizar espacio.

De forma similar a lo que se hizo anteriormente con la variable discreta del Caso 2, y por idénticos motivos, se confecciona a continuación una distribución de frecuencias agrupando los datos en intervalos de clase:

Tabla 1.9.

Gasto mediodiario f f% F F%

(15 – 25] 11 11

(45 – 55] 15(55 – 65] 82

111 942 96

Total 96

Tabla de distribución conjunta

Para armar la siguiente tabla de doble entrada se consideraron las variables “Puesto de trabajo entre 2001 y 2003” y “Rubro”, ambas de la ME 3.

Page 22: Estadisticas Angel Estadistica Angel Borgna Fernandez

Caso 2, y por idénticos motivos, se confecciona a continuación una distribu-ción de frecuencias agrupando los datos en intervalos de clase:

Tabla 1.9.

Tabla de distribución conjuntaPara armar la siguiente tabla de doble entrada se consideraron las variables“Puesto de trabajo entre 2001 y 2003” y “Rubro”, ambas de la ME 3.

Tabla 1.10.

Cada uno de los números que figuran en la tabla resultó del conteo simultá-neo o conjunto de dos categorías, donde cada categoría pertenece a una varia-ble distinta.

Se puede observar que hay cuatro pymes en la muestra que son del rubroindustrial y que aumentaron los puestos de trabajo entre 2001 y 2003.

Tabla 1.11.

Las frecuencias que figuran en la tabla 1.10. se denominan frecuencias abso-lutas conjuntas y están sombreadas en la tabla 1.11. En esta última se incor-poraron además los totales por filas y columnas que son las frecuencias mar-ginales o totales.

2222

Universidad Virtual de Quilmes

Arreglo de datos ordenados

Como se puede apreciar se optó por organizar el arreglo con forma de matriz columna, la que además se partió en cinco tramos para economizar espacio.

De forma similar a lo que se hizo anteriormente con la variable discreta del Caso 2, y por idénticos motivos, se confecciona a continuación una distribución de frecuencias agrupando los datos en intervalos de clase:

Tabla 1.9.

Gasto mediodiario f f% F F%

(15 – 25] 11 11

(45 – 55] 15(55 – 65] 82

111 942 96

Total 96

Tabla de distribución conjunta

Para armar la siguiente tabla de doble entrada se consideraron las variables “Puesto de trabajo entre 2001 y 2003” y “Rubro”, ambas de la ME 3.

Tabla 1.10.

Puestos de trabajo 2001-2003

Rubro

1 1 22 12 1 4 1

Cada uno de los números que figuran en la tabla resultó del conteo simultáneo o conjunto de dos categorías, donde cada categoría pertenece a una variable distinta.

Se puede observar que hay cuatro pymes en la muestra que son del rubro industrial y que aumentaron los puestos de trabajo entre 2001 y 2003.

Tabla 1.11.

Puestos de trabajo 2001-2003

RubroTotal

1 1 22 1 92 1 4 1 8

Total 5 5 4 24

Las frecuencias que figuran en la tabla 1.10. se denominan frecuencias absolutas conjuntas y están sombreadas en la tabla 1.11. En esta última se incorporaron además los totales por filas y columnas que son las frecuencias marginales o totales.

COMIENZO DE LEER ATENTO Si bien las palabras valor, categoría y clase pueden usarse como sinónimos, en lo sucesivo seremos más rigurosos respecto del significado de cada una. En ese sentido diremos que las variables cualitativas asumen categorías y las cuantitativas toman valores o se agrupan en clases (de valores). FIN DE LEER ATENTO

1.1.3. Representaciones gráficas

Para visualizar las distribuciones de frecuencias realizadas previamente recurriremos a distintos gráficos. Como el mundo de los gráficos es muy amplio y sólo limitado por la imaginación, seleccionaremos aquellos que consideramos más convenientes según su adecuación con el tipo de variable analizada.

Variables cualitativas

Para la confección de los siguientes gráficos se utilizó la información de las tablas 1.1. y 1.2.

Gráfico circular o de torta Insertar Imagen Nº G.1.2.Insertar Imagen Nº G.1.3.

G.1.2. G.1.3.

2

Tabla 1.10.

Puestos de trabajo 2001-2003

Rubro

1 1 22 12 1 4 1

Cada uno de los números que figuran en la tabla resultó del conteo simultáneo o conjunto de dos categorías, donde cada categoría pertenece a una variable distinta.

Se puede observar que hay cuatro pymes en la muestra que son del rubro industrial y que aumentaron los puestos de trabajo entre 2001 y 2003.

Tabla 1.11.

Puestos de trabajo 2001-2003

RubroTotal

1 1 22 1 92 1 4 1 8

Total 5 5 4 24

Las frecuencias que figuran en la tabla 1.10. se denominan frecuencias absolutas conjuntas y están sombreadas en la tabla 1.11. En esta última se incorporaron además los totales por filas y columnas que son las frecuencias marginales o totales.

COMIENZO DE LEER ATENTO Si bien las palabras valor, categoría y clase pueden usarse como sinónimos, en lo sucesivo seremos más rigurosos respecto del significado de cada una. En ese sentido diremos que las variables cualitativas asumen categorías y las cuantitativas toman valores o se agrupan en clases (de valores). FIN DE LEER ATENTO

1.1.3. Representaciones gráficas

Para visualizar las distribuciones de frecuencias realizadas previamente recurriremos a distintos gráficos. Como el mundo de los gráficos es muy amplio y sólo limitado por la imaginación, seleccionaremos aquellos que consideramos más convenientes según su adecuación con el tipo de variable analizada.

Variables cualitativas

Para la confección de los siguientes gráficos se utilizó la información de las tablas 1.1. y 1.2.

Gráfico circular o de torta Insertar Imagen Nº G.1.2.Insertar Imagen Nº G.1.3.

G.1.2. G.1.3.

2

Page 23: Estadisticas Angel Estadistica Angel Borgna Fernandez

Si bien las palabras valor, categoría y clase pueden usarse como sinóni-mos, en lo sucesivo seremos más rigurosos respecto del significado decada una. En ese sentido diremos que las variables cualitativas asumencategorías y las cuantitativas toman valores o se agrupan en clases (devalores).

1.1.3. Representaciones gráficas

Para visualizar las distribuciones de frecuencias realizadas previamente recu-rriremos a distintos gráficos. Como el mundo de los gráficos es muy amplio ysólo limitado por la imaginación, seleccionaremos aquellos que consideramosmás convenientes según su adecuación con el tipo de variable analizada.

Variables cualitativas

Para la confección de los siguientes gráficos se utilizó la información de lastablas 1.1. y 1.2.

Gráfico circular o de torta

Gráfico de barras

2233

Estadistica

G.1.2. G.1.3.

Gráfico de barras

G.1.4. G.1.5.

Servicios 17%

Servicios

Agrícola 25%

Agrícola

Industrial 37%

Industrial

Comercial 21%

Comercial

0 0,1 0,2 0,3 0,4 fr

Regular

Regular

Bueno

Bueno

Muy bueno

Muy bueno

Excelente

Excelente

Detalle de terminaciónTabla 1.2.

Detalle de terminaciónTabla 1.2.

Rubro de la PyMETabla 1.1.

Rubro de la PyMETabla 1.1.

f6543210

G.1.2. G.1.3.

Gráfico de barras

G.1.4. G.1.5.

Servicios 17%

Servicios

Agrícola 25%

Agrícola

Industrial 37%

Industrial

Comercial 21%

Comercial

0 0,1 0,2 0,3 0,4 fr

Regular

Regular

Bueno

Bueno

Muy bueno

Muy bueno

Excelente

Excelente

Detalle de terminaciónTabla 1.2.

Detalle de terminaciónTabla 1.2.

Rubro de la PyMETabla 1.1.

Rubro de la PyMETabla 1.1.

f6543210

Page 24: Estadisticas Angel Estadistica Angel Borgna Fernandez

En el gráfico circular es necesario explicitar la frecuencia de cada valorde la variable porque no es un gráfico lineal como el de barras.

Variables cuantitativas

Para representar gráficamente las variables cuantitativas se utilizó la infor-mación de las tablas 1.4. a 1.9.

Gráfico de bastones

Gráfico de escalones

Histogramas de Pearson y polígonos de frecuencias

2244

Universidad Virtual de Quilmes

El ojo humano es más efi-ciente para reconocerpequeñas diferencias lineales quepara advertir diferencias angulareso de áreas, por lo que un gráficolineal como el de barras no nece-sita especificación adicional.

Desde la Biometría las contribu-ciones de Karl Pearson a la teo-ría estadística son importantesy numerosas. Fue cofundador en1901 de la revista Biometrika quese convirtió en el receptáculo detodos los aportes a la estadísti-ca provenientes de distintas cien-cias y que se sigue publi-cando hasta hoy.

Page 25: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los gráficos 1.8., 1.10. y 1.12. son histogramas, los 1.9. y 1.11. son polígo-nos de frecuencias y en el 1.13. se combinan ambos.

Tanto el histograma como el polígono de frecuencias encierran la mismaárea, el área es igual al total de los datos si se grafican las frecuenciasabsolutas, uno si se trata de las frecuencias relativas y cien si es la f% larepresentada.

Ojiva de Galton

2255

Estadistica

Gráfico 1.8. Gráfico 1.9.

Gráfico 1.10. Gráfico 1.11.

Gráfico 1.12. Gráfico 1.13.

Edad de los empleadosf Tabla 1.6.

Edad al momento de la desapariciónTabla 1.8.

Gasto medio diarioTabla 1.9.

Gasto medio diarioTabla 1.9.

Edad al momento de la desapariciónTabla 1.8.

20

15

10

35302520151050

35302520151050

35302520151050

5

0

f20

15

10

5

0

Tabla 1.6.Edad de los empleados

15 20 25 30 35 40 45 50 55 60 65

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75

15 25 35 45 55 65 75 85 95 15 25 35 45 55 65 75 85 95

El gráfico de frecuencias acumu-ladas Ojiva se debe a Francis Galton,también biómetra y maestro de K.

Pearson; cofundador conél de Biometrika.

Page 26: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráficos para representar tablas de distribución conjunta

Los siguientes gráficos sirven para representar tablas del tipo de la tabla 1.11en la que intervienen dos variables.

Gráfico de barras adyacentes y gráfico de barras segmentadas

Gráfico 1.17. Gráfico 1.18.

Puede observarse que en el gráfico de barras segmentadas se incluyóinformación sobre la frecuencia de cada segmento. Esto se debe a quelas comparaciones entre distintos segmentos son areales, no lineales, lomismo que ocurre con el gráfico circular.

2266

Universidad Virtual de Quilmes

19

Gráfico 1.14. Gráfico 1.15.

Edad acumulativaTabla 1.6.

Edad acumulativaTabla 1.8.

Gasto medio diario acumulativoTabla 1.9.

Gráfico 1.16.

Rubro y puestos de trabajo de las PyMEsTabla 1.11.

Gráfico 1.18.

Rubro y puestos de trabajo de las PyMEsTabla 1.11.

Gráfico 1.17.

100

120

100

80

60

40

20

0

120

100

80

60

40

20

0

15 25 35 45 55 65 75 85 95 105

f %

f %

f %

80

60

40

20

015 20 25 30 35 40 45 50 55 60 65 70 0 10 20 30 40 50 60 70

12345

19

Gráfico 1.14. Gráfico 1.15.

Edad acumulativaTabla 1.6.

Edad acumulativaTabla 1.8.

Gasto medio diario acumulativoTabla 1.9.

Gráfico 1.16.

Rubro y puestos de trabajo de las PyMEsTabla 1.11.

Gráfico 1.18.

Rubro y puestos de trabajo de las PyMEsTabla 1.11.

Gráfico 1.17.

100

120

100

80

60

40

20

0

120

100

80

60

40

20

0

15 25 35 45 55 65 75 85 95 105

f %

f %

f %

80

60

40

20

015 20 25 30 35 40 45 50 55 60 65 70 0 10 20 30 40 50 60 70

12345

Page 27: Estadisticas Angel Estadistica Angel Borgna Fernandez

Pirámides de población

Una pirámide de población es un gráfico que se aplica a distribuciones bivariadas donde lasvariables son “sexo” y “edad”, esta última organizada generalmente en intervalos. La siguiente distribución de frecuencias conjuntas corresponde a un grupo de 1000

personas,

Tabla 1.12.

La correspondiente pirámide de población es

Gráfico 1.19.

3.Representar gráficamente las variables de la ME 2.

2277

Estadistica

Gráfico de barras adyacentes y gráfico de barras segmentadas

Insertar Imagen Nº G.1.17.Insertar Imagen Nº G.1.18

Gráfico 1.17. Gráfico 1.18.

COMIENZO DE LEER ATENTO Puede observarse que en el gráfico de barras segmentadas se incluyó información sobre la frecuencia de cada segmento. Esto se debe a que las comparaciones entre distintos segmentos son areales, no lineales, lo mismo que ocurre con el gráfico circular.FIN DE LEER ATENTO

COMIENZO DE TEXTO APARTE Pirámides de poblaciónUna pirámide de población es un gráfico que se aplica a distribuciones bivariadas donde las variables son “sexo” y “edad”, esta última organizada generalmente en intervalos.

La siguiente distribución de frecuencias conjuntas corresponde a un grupo de 1000 personas

Tabla 1.12.

SexoEdades F M

Page 28: Estadisticas Angel Estadistica Angel Borgna Fernandez

Las construcciones que acabamos de realizar –distribución de frecuencias,arreglo de datos ordenados y gráficos sobre el eje numérico– involucran cua-tro espacios abstractos bien diferenciados, el espacio de los valores (prime-ra columna de la tabla de frecuencias), el espacio de las frecuencias (lascolumnas de frecuencias de la distribución), el espacio de los datos ordena-dos (el arreglo) y el espacio de los números reales (el eje horizontal de los grá-ficos hechos). Ellos son los espacios de definición de las medidas estadísti-cas, también denominados indicadores estadísticos, y a las cuales nosdedicaremos en el próximo apartado.

Los gráficos elaborados permiten tener una idea de conjunto del grupode datos relevados complementando la lectura de la información quehacen los indicadores estadísticos. Su objetivo principal es maximizarla extracción de la información contenida en los datos empíricos.

1.2. Medidas estadísticas

Las medidas estadísticas son resúmenes o indicadores que permiten carac-terizar el comportamiento del grupo de datos en estudio. Según el criterio dediseño existen distintos tipos de medidas, las de posición, las de dispersióny las de intensidad.

1.2.1. Medidas de posición

Las medidas de posición determinan, con distintos criterios, ubicaciones uní-vocas en el conjunto de datos.

Moda o modo

Observando las distribuciones tratadas anteriormente notamos que sobresa-le –que predomina– algún valor o categoría o clase.

La moda o modo –que denotaremos como Mo– es el valor, categoría oclase que registra la frecuencia mayor en la distribución de la variable.

En la variable “rubro de las pymes” (tabla 1.1. y gráficos G.1.2. y G.1.4.) obser-vamos que predomina la categoría industrial.

En el “nivel de terminación de las piezas de plástico” (tabla 1.2. y gráficoG.1.5.) no predomina ninguna categoría de datos, no hay moda.

La edad de los empleados (tabla 1.4 y gráfico G.1.7) más frecuente es 37años.

En la tabla 1.6. y en el gráfico G.1.8. –empleados de una fábrica– nota-mos que la clase de edad –franja etaria– que tiene mayor frecuencia es [35 –40] y repasando los datos sobre el arreglo concluimos que entre los emplea-dos de la fábrica predominan las edades que van de 35 a 39 años.

En la distribución de la tabla 1.10. y en el gráfico 1.12. se aprecian dos inter-

2288

Universidad Virtual de Quilmes

Page 29: Estadisticas Angel Estadistica Angel Borgna Fernandez

valos modales –[25-35] y [35-45]–, que interpretamos volviendo nuevamentea los datos de la siguiente manera: en la muestra predominan las familiasque tienen un gasto medio diario en alimentos de entre $26,80 y $34,65 yentre $37,20 y $43,90. Como en esta distribución los intervalos modalesresultaron ser adyacentes, con un criterio práctico puede también interpre-tarse que en la muestra predominan las familias que tienen un gasto diariomedio en alimentos de entre $26,80 y $43,90.

En el caso de la tabla 1.8., la interpretación del intervalo modal 20-25 nopuede hacerse sobre los datos originales porque no contamos con ellos (desdela publicación estudiantil, se entiende). Y decimos entonces que en el uni-verso de las personas desaparecidas por la dictadura militar 1976-1983 enla Argentina, la edad predominante al momento de la desaparición forzada esde entre 21 y 25 años (aprovechando la información de la tabla 1.7. y los grá-ficos 1.10. y 1.11.)

¿Es factible concluir que la moda es aplicable a cualquier tipo de variable?

Tanto en la tabla conjunta 1.11. como en el gráfico G.1.17 se ve que en lamuestra de 24 pymes predominan las del rubro industrial que aumentaron lospuestos de trabajo entre 2001 y 2003.

Finalmente, en el caso de la tabla 1.12. predominan las mujeres que tie-nen hasta 10 años de edad. Además, se observa que hay predominio de pobla-ción joven y eso queda reflejado en el gráfico G.1.19. (en las poblacionesdonde predominan las edades mayores la pirámide se vería invertida).

4.a. Determinar la moda de las variables de la ME 2.b. Determinar la moda de la distribución conjunta de edad y sexo dela tabla 1.12.

Media aritmética o promedio

La media aritmética, comúnmente conocida como promedio, es una medidaque incumbe sólo a las variables cuantitativas.

La media aritmética representa, en el dominio de los números reales, elpunto de equilibrio del conjunto de datos.

Vemos entonces que la edad promedio de los empleados de una cooperativaque integran la muestra del caso 1, es de 38,9 años. O que los 80 emplea-dos seleccionados al azar entre todos los de una fábrica automotriz (caso 2)tienen, en promedio, una edad de 37,4 años.

También, en la muestra de las 96 familias, el gasto medio diario en ali-mentos es, en promedio, de $44,27 por familia.

2299

Estadistica

El promedio se denotacon X si el grupo de datos

es una muestra y con µ si es todala población.

Page 30: Estadisticas Angel Estadistica Angel Borgna Fernandez

Además, de la forma más popular de calcular la media –sumando los valo-res de todos los datos y dividiendo por el total– surgen otras formas de cál-culo ligadas al empleo de las tablas de frecuencias.

A modo de ejemplificación se explicitan a continuación dos formas de calcular uno de losresultados expuestos anteriormente (edad promedio de los empleados de una cooperativa queintegran la muestra):

Si estuviéramos en una situación similar al caso 3, donde no se cuenta conlos datos, se podría calcular igualmente un promedio aproximado aplicando lamisma fórmula 1.1. pero considerando como valores de la variable xi los pun-tos medios de cada intervalo denominados a partir de aquí marca de clase.

Si se hace el cálculo se tiene que la edad promedio de los desaparecidosen Argentina por la última dictadura militar es de 28,09 años aproximadamente.

5.Determinar la media aritmética de las variables cuantitativas de la ME 2.

¿Cuál es la diferencia de calidad entre una media aritmética calculada conlos datos y la calculada a partir del agrupamiento en intervalos de clase?

Mediana

Mediana es el lugar geométrico del arreglo de datos ordenado que lo divideen dos partes iguales.

3300

Universidad Virtual de Quilmes

23

Tanto en la tabla conjunta 1.11. como en el gráfico G.1.17 se ve que en la muestra de 24 pymes predominan las del rubro industrial que aumentaron los puestos de trabajo entre 2001 y 2003.

Finalmente, en el caso de la Tabla 1.12. predominan las mujeres que tienen hasta 10 años de edad. Además, se observa que hay predominio de población joven y eso queda reflejado en el gráfico G.1.19. (en las poblaciones donde predominan las edades mayores la pirámide se vería invertida).

COMIENZO DE ACTIVIDAD 4. a. Determinar la moda de las variables de la ME 2. b. Determinar la moda de la distribución conjunta de edad y sexo de la Tabla 1.12. FIN DE ACTIVIDAD

Media aritmética o promedio La media aritmética, comúnmente conocida como promedio es una medida que incumbe sólo a las variables cuantitativas.

COMIENZO DE PASTILLA EN El promedio se denota con si el grupo de datos es una muestra y con µ si es toda la población. FIN DE PASTILLA

COMIENZO DE LEER ATENTO La media aritmética representa, en el dominio de los números reales, el punto de equilibrio del conjunto de datos. FIN DE LEER ATENTO

Vemos entonces que la edad promedio de los empleados de una cooperativa que integran la muestra del caso 1, es de 38,9 años. O que los 80 empleados seleccionados al azar entre todos los de una fábrica automotriz (caso 2) tienen, en promedio, una edad de 37,4 años.

También, en la muestra de las 96 familias, el gasto medio diario en alimentos es, en promedio, de $44,27 por familia.

Además, de la forma más popular de calcular la media –sumando los valores de todos los datos y dividiendo por el total– surgen otras formas de cálculo ligadas al empleo de las tablas de frecuencias.

COMIENZO DE TEXTO APARTE A modo de ejemplificación se explicitan a continuación dos formas de calcular uno de los resultados expuestos anteriormente (edad promedio de los empleados de una cooperativa que integran la muestra):

(1.1.)

Page 31: Estadisticas Angel Estadistica Angel Borgna Fernandez

En el arreglo ordenado de la variable “nivel de detalles de terminación de laspiezas plásticas” ubicamos la posición de la mediana,

y leemos la información que ella nos da de la siguiente manera: la mitad (infe-rior) de las piezas de plástico como máximo tienen un nivel de detalle de ter-minación Bueno y la otra mitad (superior) tiene como mínimo un nivel de deta-lle de terminación Muy Bueno.

Si ahora determinamos la mediana sobre el arreglo de datos ordenado dela variable “edad de los empleados” de la muestra de la empresa cooperativa,

leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37años y la otra mitad desde 38 años.

6.Determinar e interpretar la mediana de todas las variables de la ME 2que lo permitan.

En el caso de la variable edad de las personas desaparecidas, recordemos queno se cuenta con los datos originales. Sin embargo, si es necesario contarcon algún valor tentativo que la aproxime y que permita extraer información deforma similar a lo ya realizado, debe elegirse algún criterio para determinarla.

Para obtener la mediana si se cuenta solamente con un agrupamiento dedatos en intervalos, primero debe localizarse el intervalo mediano –el inter-valo donde caería la mediana— y luego para ese intervalo se aplica como cri-terio alguna de las fórmulas que siguen.

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalomediano, el subíndice i de las frecuencias simples se refiere al intervalo media-no y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

El intervalo mediano de las edades de los desaparecidos es [25; 30] yreemplazando valores:

3311

Estadistica

COMIENZO DE PARA REFLEXIONAR¿Cuál es la diferencia de calidad entre una media aritmética calculada con los datos y la calculada a partir del agrupamiento en intervalos de clase? FIN DE PARA REFLEXIONAR

Mediana

Mediana es el lugar geométrico del arreglo de datos ordenado que lo divide en dos partes iguales.En el arreglo ordenado de la variable “nivel de detalles de terminación de las piezas plásticas” ubicamos la posición

de la mediana,

R R R R R B B B B B MB MB MB MB MB E E E E E

10 datos Me 10 datos

y leemos la información que ella nos da de la siguiente manera: la mitad (inferior) de las piezas de plástico como máximo tienen un nivel de detalle de terminación Bueno y la otra mitad (superior) tiene como mínimo un nivel de detalle de terminación Muy Bueno.

Si ahora determinamos la mediana sobre el arreglo de datos ordenado de la variable “edad de los empleados” de la muestra de la empresa cooperativa,

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Me

leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37 años y la otra mitad desde 38 años.

COMIENZO DE ACTIVIDAD6.Determinar e interpretar la mediana de todas las variables de la ME 2 que lo permitan.FIN DE ACTIVIDAD

En el caso de la variable edad de las personas desaparecidas, recordemos que no se cuenta con los datos originales. Sin embargo, si es necesario contar con algún valor tentativo que la aproxime y que permita extraer información de forma similar a lo ya realizado, debe elegirse algún criterio para determinarla.

Para obtener la mediana si se cuenta solamente con un agrupamiento de datos en intervalos, primero debe localizarse el intervalo mediano –el intervalo donde caería la mediana— y luego para ese intervalo se aplica como criterio alguna de las fórmulas que siguen.

COMIENZO DE PASTILLA EN fórmulasEstas fórmulas pueden obtenerse rápida y sencillamente mediante interpolación lineal.FIN DE PASTILLA

Donde: a es la amplitud de los intervalos, lies el límite inferior del intervalo mediano, el subíndice i de las frecuencias

simples se refiere al intervalo mediano y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.El intervalo mediano de las edades de los desaparecidos es [25; 30] y reemplazando valores:

El valor obtenido significa que la edad máxima aproximada al momento de la desaparición forzada de la mitad de las personas desaparecidas era de 25,99 años.

EstadisticasU1.indd 22 8/26/09 6:33:19 PM

COMIENZO DE PARA REFLEXIONAR¿Cuál es la diferencia de calidad entre una media aritmética calculada con los datos y la calculada a partir del agrupamiento en intervalos de clase? FIN DE PARA REFLEXIONAR

Mediana

Mediana es el lugar geométrico del arreglo de datos ordenado que lo divide en dos partes iguales.En el arreglo ordenado de la variable “nivel de detalles de terminación de las piezas plásticas” ubicamos la posición

de la mediana,

R R R R R B B B B B MB MB MB MB MB E E E E E

10 datos Me 10 datos

y leemos la información que ella nos da de la siguiente manera: la mitad (inferior) de las piezas de plástico como máximo tienen un nivel de detalle de terminación Bueno y la otra mitad (superior) tiene como mínimo un nivel de detalle de terminación Muy Bueno.

Si ahora determinamos la mediana sobre el arreglo de datos ordenado de la variable “edad de los empleados” de la muestra de la empresa cooperativa,

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Me

leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37 años y la otra mitad desde 38 años.

COMIENZO DE ACTIVIDAD6.Determinar e interpretar la mediana de todas las variables de la ME 2 que lo permitan.FIN DE ACTIVIDAD

En el caso de la variable edad de las personas desaparecidas, recordemos que no se cuenta con los datos originales. Sin embargo, si es necesario contar con algún valor tentativo que la aproxime y que permita extraer información de forma similar a lo ya realizado, debe elegirse algún criterio para determinarla.

Para obtener la mediana si se cuenta solamente con un agrupamiento de datos en intervalos, primero debe localizarse el intervalo mediano –el intervalo donde caería la mediana— y luego para ese intervalo se aplica como criterio alguna de las fórmulas que siguen.

COMIENZO DE PASTILLA EN fórmulasEstas fórmulas pueden obtenerse rápida y sencillamente mediante interpolación lineal.FIN DE PASTILLA

Donde: a es la amplitud de los intervalos, lies el límite inferior del intervalo mediano, el subíndice i de las frecuencias

simples se refiere al intervalo mediano y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.El intervalo mediano de las edades de los desaparecidos es [25; 30] y reemplazando valores:

El valor obtenido significa que la edad máxima aproximada al momento de la desaparición forzada de la mitad de las personas desaparecidas era de 25,99 años.

EstadisticasU1.indd 22 8/26/09 6:33:19 PM

25

Si ahora determinamos la mediana sobre el arreglo de datos ordenado de la variable “edad de los empleados” de la muestra de la empresa cooperativa,

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Me

leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37 años y la otra mitad desde 38 años.

COMIENZO DE ACTIVIDAD 6. Determinar e interpretar la mediana de todas las variables de la ME 2 que lo permitan. FIN DE ACTIVIDAD

En el caso de la variable edad de las personas desaparecidas, recordemos que no se cuenta con los datos originales. Sin embargo, si es necesario contar con algún valor tentativo que la aproxime y que permita extraer información de forma similar a lo ya realizado, debe elegirse algún criterio para determinarla.

Para obtener la mediana si se cuenta solamente con un agrupamiento de datos en intervalos, primero debe localizarse el intervalo mediano –el intervalo donde caería la mediana— y luego para ese intervalo se aplica como criterio alguna de las fórmulas que siguen. COMIENZO DE PASTILLA EN fórmulas Estas fórmulas pueden obtenerse rápida y sencillamente mediante interpolación lineal. FIN DE PASTILLA

Me = l i + a

n2

F(i 1)

f i

= l i + a0,5 Fr(i 1)

fri

= l i + a50 F%(i 1)

f%i

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo mediano, el subíndice i de las frecuencias simples se refiere al intervalo mediano y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

El intervalo mediano de las edades de los desaparecidos es [25; 30] y reemplazando valores:

El valor obtenido significa que la edad máxima aproximada al momento de la desaparición forzada de la mitad de las personas desaparecidas era de 25,99 años.

COMIENZO DE PARA REFLEXIONAR ¿Es posible determinar la mediana en cualquier tipo de variable?

25

Si ahora determinamos la mediana sobre el arreglo de datos ordenado de la variable “edad de los empleados” de la muestra de la empresa cooperativa,

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Me

leemos lo siguiente: la mitad de los empleados de la muestra tienen hasta 37 años y la otra mitad desde 38 años.

COMIENZO DE ACTIVIDAD 6. Determinar e interpretar la mediana de todas las variables de la ME 2 que lo permitan. FIN DE ACTIVIDAD

En el caso de la variable edad de las personas desaparecidas, recordemos que no se cuenta con los datos originales. Sin embargo, si es necesario contar con algún valor tentativo que la aproxime y que permita extraer información de forma similar a lo ya realizado, debe elegirse algún criterio para determinarla.

Para obtener la mediana si se cuenta solamente con un agrupamiento de datos en intervalos, primero debe localizarse el intervalo mediano –el intervalo donde caería la mediana— y luego para ese intervalo se aplica como criterio alguna de las fórmulas que siguen. COMIENZO DE PASTILLA EN fórmulas Estas fórmulas pueden obtenerse rápida y sencillamente mediante interpolación lineal. FIN DE PASTILLA

Me = l i + a

n2

F(i 1)

f i

= l i + a0,5 Fr(i 1)

fri

= l i + a50 F%(i 1)

f%i

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo mediano, el subíndice i de las frecuencias simples se refiere al intervalo mediano y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

El intervalo mediano de las edades de los desaparecidos es [25; 30] y reemplazando valores:

El valor obtenido significa que la edad máxima aproximada al momento de la desaparición forzada de la mitad de las personas desaparecidas era de 25,99 años.

COMIENZO DE PARA REFLEXIONAR ¿Es posible determinar la mediana en cualquier tipo de variable?

Estas fórmulas puedenobtenerse rápida y sen-

cillamente mediante interpolaciónlineal.

Page 32: Estadisticas Angel Estadistica Angel Borgna Fernandez

El valor obtenido significa que la edad máxima aproximada al momento dela desaparición forzada de la mitad de las personas desaparecidas era de25,99 años.

¿Es posible determinar la mediana en cualquier tipo de variable?

En las variables cuantitativas, las tres medidas de posición vistas hastaahora –modo, media aritmética y mediana– también se denominanmedi-das de tendencia central por su comportamiento en relación con la zonacentral de la distribución. Si la distribución de los datos es simétrica estastres medidas se posicionan geométricamente en el mismo punto.

Análisis de la asimetría estadística de una distribución

Los gráficos que siguen permiten vizualizar los tipos de asimetrías estadísti-cas y sus denominaciones.

Gráfico 1.20.

Observando la “forma” que adoptan los gráficos G.1.6.; G.1.8.; G.1.10. yG.1.12. de las distribuciones de las variables cuantitativas analizadas, sepuede notar tanto en el G.1.10. como en el G.1.12. que hay una clara asi-metría –en ambos casos– hacia la derecha, porque en esa dirección es dondese registran los valores más alejados de la región con mayor densidad dedatos. Sin embargo, no queda muy claro si existen asimetrías en G.1.6 y G.1.8.

Las evidentes limitaciones del análisis gráfico obligan a encontrar algunaforma analítica para el estudio de la asimetría de una distribución, como lade comparar las tres medidas de tendencia central aprovechando de ellassu distinto comportamiento dinámico (concepto éste, que se aclarará másadelante).

3322

Universidad Virtual de Quilmes

Page 33: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 1.21.

Como el análisis de asimetría se realiza en el dominio de los númerosreales se necesita contar con un número real para cada una de las tresmedidas de tendencia central.

La media –por definición– es un número real, pero no así la modani la mediana para las cuales hay que emplear alguna convención quepermita asignarles un número real.

Estudiaremos analíticamente la asimetría de la “Edad de los empleados de laempresa cooperativa” (gráfico G.1.6.).

Al modo puede asignársele el número real 37 directamente porque, parala variable en tratamiento, su valor es un número.

La marca de la mediana quedó posicionada entre dos datos cuyos valoresson 37 y 38 y, si bien cualquier número real entre esos dos valores podríarepresentarla en el dominio de los números reales, convenimos en usar deaquí en más el promedio entre ambos valores, en este caso 37,5.

Como la media aritmética es un número real –tal cual se la determinó– nonecesitamos aplicarle ninguna convención para volcarla en el dominio de losnúmeros reales.

Entonces tenemos:Mo = 37 años Me = 37,5 años x = 38,9 años

Resultando: Mo ≤ Me ≤ X

Como el valor del promedio es el más alto, concluimos que hay una asimetríahacia la derecha.

Las tres medidas de tendencia central tienen –en el dominio de losnúmeros reales– comportamientos dinámicos diferenciados.

El promedio es, de las tres, la medida más sensible ante la pre-sencia de valores muy alejados de la zona de mayor densidad, los cualesla atraen rápidamente hacia ellos. Por esta particularidad la media esdeterminante en el análisis de la asimetría de una distribución; si hayasimetría hacia un lado (derecho o izquierdo), la media –consecuente-mente– se desplaza en esa dirección.

La mediana, a la sazón sacada de su dominio natural –el arreglo de

3333

Estadistica

Page 34: Estadisticas Angel Estadistica Angel Borgna Fernandez

datos ordenados– y transferida –convención mediante– al de los núme-ros reales, obviamente no tiene la misma sensibilidad que la media. Unasituación parecida se da con la moda, quien es aún más insensible quela mediana.En análisis de asimetría que presenten situaciones ambiguas o con-

fusas donde la ubicación relativa de estas medidas no se encuadre enalgunos de los tres casos prescritos anteriormente, conviene descartar lamoda y sólo comparar la mediana y la media aritmética.

7.a. Verificar analíticamente la asimetría de las distribuciones corres-pondientes a los gráficos G.1.8.; G.1.10. y G.1.12.

b. Analizar qué tipo de asimetría presentan las variables cuantitativasde la ME 2.

Cuartiles

Los cuartiles son tres lugares geométricos del arreglo de datos ordenado quelo dividen en cuatro partes iguales

Extendiendo el concepto aplicado para el posicionamiento de la mediana,en el arreglo ordenado de la variable “nivel de detalles de terminación de laspiezas plásticas” ubicamos los tres cuartiles,

y leemos la información que nos brindan de la siguiente manera: el cuarto delas piezas con menor nivel de detalle de terminación como máximo presentaun nivel Regular, la mitad de las piezas de plástico a lo sumo posee un nivelde detalle de terminación Bueno y las tres cuartas partes de las piezas deplástico tienen hasta un nivel de detalle de terminación Muy Bueno. La mitad central de los niveles de detalle de terminación de las piezas seencuentra entre Bueno y Muy Bueno. Esta información se extrae combinandoQ1 y Q3.

8.Determinar e interpretar los cuartiles de la variable “Puestos de trabajo2001-2003”, de la matriz EM 3.

Para la variable “edad de los empleados” de la muestra de la empresa coo-perativa la posición de los cuartiles es:

3344

Universidad Virtual de Quilmes

28

(derecho o izquierdo), la media –consecuentemente– se desplaza en esa dirección.

La mediana, a la sazón sacada de su dominio natural –el arreglo de datos ordenados– y transferida –convención mediante– al de los números reales, obviamente no tiene la misma sensibilidad que la media. Una situación parecida se da con la moda, quien es aún más insensible que la mediana.

En análisis de asimetría que presenten situaciones ambiguas o confusas donde la ubicación relativa de estas medidas no se encuadre en algunos de los tres casos prescritos anteriormente, conviene descartar la moda y sólo comparar la mediana y la media aritmética. FIN DE LEER ATENTO

COMIENZO DE ACTIVIDAD 7. a. Verificar analíticamente la asimetría de las distribuciones correspondientes a los gráficos G.1.8.; G.1.10. y G.1.12. b. Analizar qué tipo de asimetría presentan las variables cuantitativas de la ME 2. FIN DE ACTIVIDAD

Cuartiles

Los cuartiles son tres lugares geométricos del arreglo de datos ordenado que lo dividen en cuatro partes iguales

Extendiendo el concepto aplicado para el posicionamiento de la mediana, en el arreglo ordenado de la variable “nivel de detalles de terminación de las piezas plásticas” ubicamos los tres cuartiles,

R R R R R B B B B B MB MB MB MB MB E E E E E

5 datos Q1 5 datos Q2 = Me 5 datos Q3 5 datos

1/4 1/4 1/4 1/4

y leemos la información que nos brindan de la siguiente manera: el cuarto de las piezas con menor nivel de detalle de terminación como máximo presenta un nivel Regular, la mitad de las piezas de plástico a lo sumo posee un nivel de detalle de terminación Bueno y las tres cuartas partes de las piezas de plástico tienen hasta un nivel de detalle de terminación Muy Bueno.

La mitad central de los niveles de detalle de terminación de las piezas se encuentra entre Bueno y Muy Bueno. Esta información se extrae combinando Q1 y Q3.

COMIENZO DE ACTIVIDAD 8. Determinar e interpretar los cuartiles de la variable “Puestos de trabajo 2001-2003” , de la matriz EM 3.

Page 35: Estadisticas Angel Estadistica Angel Borgna Fernandez

Interpretando la información se tiene que el primer cuarto de los empleadostiene a lo sumo 34 años y las tres cuartas partes restantes como mínimo 36años. La mitad de los empleados de la muestra detenta hasta 37 años y laotra mitad desde 38 años y que las tres cuartas partes de los empleadosmás jóvenes como máximo tienen 40 años y el cuarto de mayor edad comomínimo cuenta con 42 años de edad.

En el caso 3, “Edad promedio de los desaparecidos en Argentina durantela última dictadura”, se procede de la misma manera que para el cálculo dela mediana, con las siguientes fórmulas de interpolación:

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalodonde se encuentra el cuartil, el subíndice i de las frecuencias simples serefiere al intervalo del cuartil y el (i-1) de las frecuencias acumuladas hacereferencia al intervalo anterior.

9.Calcular e interpretar los cuartiles de la “Edad de los desaparecidos enArgentina por la última dictadura”.

Fractiles y percentiles

Continuando con la idea de subdividir a la masa de datos en distintas parteso fracciones iguales se tienen los fractiles, que pueden expresarse como per-centiles –usando un lenguaje de porcentajes– en los casos que sea necesa-rio hacer más comprensible la información que suministran.

Fractiles son las m-1 marcas del arreglo de datos ordenado que lo dividenen m partes iguales.

Un fractil determina el máximo de una cierta fracción del conjunto de losdatos y consecuentemente, el mínimo de la fracción restante.

Percentiles son los fractiles mismos, pero expresados en un lenguaje másamigable como es el de los porcentajes.

3355

Estadistica

29

FIN DE ACTIVIDAD

Para la variable “edad de los empleados” de la muestra de la empresa cooperativa la posición de los cuartiles es:

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Q1 Q2 = Me Q3

Interpretando la información se tiene que el primer cuarto de los empleados tiene a lo sumo 34 años y las tres cuartas partes restantes como mínimo 36 años. La mitad de los empleados de la muestra detenta hasta 37 años y la otra mitad desde 38 años y que las tres cuartas partes de los empleados más jóvenes como máximo tienen 40 años y el cuarto de mayor edad como mínimo cuenta con 42 años de edad.

En el caso 3, “Edad promedio de los desaparecidos en Argentina durante la última dictadura” , se procede de la misma manera que para el cálculo de la mediana, con las siguientes fórmulas de interpolación:

Q2 = Me

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo donde se encuentra el cuartil, el subíndice i de las frecuencias simples se refiere al intervalo del cuartil y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

COMIENZO DE ACTIVIDAD 9. Calcular e interpretar los cuartiles de la “Edad de los desaparecidos en Argentina por la última dictadura” . FIN DE ACTIVIDAD

Fractiles y percentiles Continuando con la idea de subdividir a la masa de datos en distintas partes o fracciones iguales se tienen los fractiles, que pueden expresarse como percentiles –usando un lenguaje de porcentajes– en los casos que sea necesario hacer más comprensible la información que suministran.

Fractiles son las m-1 marcas del arreglo de datos ordenado que lo dividen en m partes iguales.

29

FIN DE ACTIVIDAD

Para la variable “edad de los empleados” de la muestra de la empresa cooperativa la posición de los cuartiles es:

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Q1 Q2 = Me Q3

Interpretando la información se tiene que el primer cuarto de los empleados tiene a lo sumo 34 años y las tres cuartas partes restantes como mínimo 36 años. La mitad de los empleados de la muestra detenta hasta 37 años y la otra mitad desde 38 años y que las tres cuartas partes de los empleados más jóvenes como máximo tienen 40 años y el cuarto de mayor edad como mínimo cuenta con 42 años de edad.

En el caso 3, “Edad promedio de los desaparecidos en Argentina durante la última dictadura” , se procede de la misma manera que para el cálculo de la mediana, con las siguientes fórmulas de interpolación:

Q2 = Me

Donde: a es la amplitud de los intervalos, li es el límite inferior del intervalo donde se encuentra el cuartil, el subíndice i de las frecuencias simples se refiere al intervalo del cuartil y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

COMIENZO DE ACTIVIDAD 9. Calcular e interpretar los cuartiles de la “Edad de los desaparecidos en Argentina por la última dictadura” . FIN DE ACTIVIDAD

Fractiles y percentiles Continuando con la idea de subdividir a la masa de datos en distintas partes o fracciones iguales se tienen los fractiles, que pueden expresarse como percentiles –usando un lenguaje de porcentajes– en los casos que sea necesario hacer más comprensible la información que suministran.

Fractiles son las m-1 marcas del arreglo de datos ordenado que lo dividen en m partes iguales.

Page 36: Estadisticas Angel Estadistica Angel Borgna Fernandez

Retomando la variable edad de los trabajadores de la empresa cooperativa:

Explorando los datos observamos que el salto más grande de edades se daentre 42 y 48 años, marcando esa posición podemos ver que 16 de los 20empleados tienen una edad máxima de 42 años y los 4 restantes como míni-mo 48 años.

Esa marca –que es el fractil 16/20 y se lee: la dieciseis veinteava partede los trabajadores tienen a lo sumo 42 años– conviene expresarla como per-centil 80 (P80) y decir que el 80% de los trabajadores tienen hasta 42 años.O, que el 20% de los trabajadores tiene como mínimo 48 años.

Para el mismo caso también podríamos habernos preguntado cuál es laedad máxima del 80% de los empleados y la respuesta es 42 años.

El uso de porcentajes, que es el lenguaje de los percentiles, puede intro-ducir algunas inconsistencias al momento de producir información,sobre todo cuando el conjunto de datos es pequeño.

10.Determinar e interpretar algunos percentiles de la variable “Puestos detrabajo 2001-2003”, de la matriz EM 3.

Si no se contara con los datos originales, como es el caso de la variable “edadde las personas al momento de la desaparición forzada” y se quisiera calcu-lar algún percentil, en forma análoga a lo hecho con la mediana, se puede uti-lizar la siguiente fórmula de interpolación:

Donde: k es el % de datos que el percentil deja hacia atrás (valores menoresa él), a es la amplitud de los intervalos, li es el límite inferior del intervalodonde se encuentra el percentil, el subíndice i de las frecuencias simples serefiere al intervalo del percentil y el (i-1) de las frecuencias acumuladas hacereferencia al intervalo anterior.

11.a. Calcular la edad máxima del 90% de los desaparecidos en Argentina.b. ¿Qué porcentaje de personas tenía hasta 32 años al momento de desa-parecer?

3366

Universidad Virtual de Quilmes

30

Un fractil determina el máximo de una cierta fracción del conjunto de los datos y consecuentemente, el mínimo de la fracción restante.

Percentiles son los fractiles mismos, pero expresados en un lenguaje más amigable como es el de los porcentajes.

Retomando la variable edad de los trabajadores de la empresa cooperativa,

21 25 28 30 34 36 36 37 37 37 38 39 39 40 40 42 48 51 57 63

Explorando los datos observamos que el salto más grande de edades se da entre 42 y 48 años, marcando esa posición podemos ver que 16 de los 20 empleados tienen una edad máxima de 42 años y los 4 restantes como mínimo 48 años.

Esa marca –que es el fractil 16/20 y se lee: la dieciseis veinteava parte de los trabajadores tienen a lo sumo 42 años– conviene expresarla como percentil 80 (P80) y decir que el 80% de los trabajadores tienen hasta 42 años. O, que el 20% de los trabajadores tiene como mínimo 48 años.

Para el mismo caso también podríamos habernos preguntado cuál es la edad máxima del 80% de los empleados y la respuesta es 42 años.

COMIENZO DE LEER ATENTO El uso de porcentajes, que es el lenguaje de los percentiles, puede introducir algunas inconsistencias al momento de producir información, sobre todo cuando el conjunto de datos es pequeño. FIN DE LEER ATENTO

COMIENZO DE ACTIVIDAD 10. Determinar e interpretar algunos percentiles de la variable “Puestos de trabajo 2001-2003” , de la matriz EM 3. FIN DE ACTIVIDAD

Si no se contara con los datos originales, como es el caso de la variable “edad de las personas al momento de la desaparición forzada” y se quisiera calcular algún percentil, en forma análoga a lo hecho con la mediana, se puede utilizar la siguiente fórmula de interpolación:

Donde: k es el % de datos que el percentil deja hacia atrás (valores menores a él), a es la amplitud de los intervalos, li es el límite inferior del intervalo donde se encuentra el percentil, el subíndice i de las frecuencias simples se refiere al intervalo del percentil y el (i-1) de las frecuencias acumuladas hace referencia al intervalo anterior.

Page 37: Estadisticas Angel Estadistica Angel Borgna Fernandez

El gráfico de caja y bigotes (box-and-whisker plots)

Este gráfico suele llamarse usualmente box-plot, y es aplicable con exclusivi-dad a los casos de variables cuantitativas en los que se cuenta con los datos.

El box-plot es un gráfico delineado en el dominio de los números reales yque se basa en una caja –construida con Q1 y Q3 como límites– que contie-ne nominalmente al 50% central de los datos. El 50% nominal restante seencuentra distribuido en partes iguales a ambos lados de la caja y los valo-res comprendidos en él se representan con distintas simbologías.

El siguiente gráfico, que corresponde a la edad de los empleados de la coo-perativa, presenta todos los elementos (algunos auxiliares y otros definitivos)con los que se construye un box-plot.

Gráfico 1.22.

Las líneas continuas (horizontales) que se extienden a partir de Q1 y Q3 (con-vertidos a números reales mediante el mismo procedimiento que se usó parala mediana) son los bigotes y su finalidad es describir al conjunto de valoresllamados adyacentes, sin identificarlos individualmente. Por afuera de ellosse ubican los valores externos (que aquí los representamos con un círculo) ylos lejanos (cuyo símbolo es un asterisco) ambos denominados también valo-res raros (“outliers”) o atípicos para el grupo.

Las líneas auxiliares identificadas al pie como Vi y Ve se llaman vallas –inte-riores y exteriores–, se encuentran respectivamente a una distancia de la cajade una vez y media la medida de su base y de tres veces dicha medida, y seusan como referencia para delimitar las zonas donde se encuentran los valo-res atípicos.

A continuación, se presentan los cálculos ligados a la construcción del box-plotde “edad” de los trabajadores de una cooperativa que integran una muestra.

Q3 – Q1 = 41 – 35 = 6Q1 – 1,5(Q3 – Q1) = 35 – 9 = 26 y Q3 + 1,5(Q3 – Q1) = 41 + 9 = 50 Q1 – 3(Q3 – Q1) = 35 – 18 = 17 y Q3 + 3(Q3 – Q1) = 41 + 18 = 59

El box-plot definitivo, libre de líneas auxiliares, queda como sigue

Gráfico 1.23.

3377

Estadistica

El box-and-whisker plotfue diseñado por John W.

Tukey y presentado en su libroExploratory data analysis de 1977,aunque ya lo había usado en papersanteriores a esa fecha.

Cuando ambos cuartilesquedan ubicados sobre

datos, no entre dos datos, los por-centajes no llegan al 50%.

Existen otros criterios –para esta-blecer las distancias de las vallasa la caja– distintos al de Tukey, pero

éste es el más usado.

Base:Q3 – Q1

Vallas interiores:Q1 – 1,5 . (Q3 – Q1) y Q3 + 1,5. (Q3 – Q1)Vallas exteriores: Q1 – 3 . (Q3 – Q1) y Q3 + 3. (Q3 – Q1)

Page 38: Estadisticas Angel Estadistica Angel Borgna Fernandez

En el gráfico G.1.23. puede observarse que en la cooperativa las edades de21, 25, 51, 57 y, sobre todo, 63 años son atípicas o raras para el grupo. Siuna distribución de datos no tuviera valores atípicos entonces todos los queestán fuera de la caja serían adyacentes por lo que los bigotes llegarían hastael máximo y el mínimo y se vería de la siguiente forma.

Gráfico 1.24.

El box-plot precedente es el caso de la muestra de empleados de la fábricaautomotriz, en la cual no se detectan edades atípicas.

12.Confeccionar y analizar los box-plot de las variables cuantitativas de laEM 2.

En el siguiente gráfico se presentan conjuntamente los dos box-plots realiza-dos anteriormente para ejemplificar la comparación de dos distribuciones dedatos bajo una misma variable.

Gráfico 1.25.

Las siguientes son algunas lecturas que surgen de la comparación.En ambas distribuciones la mitad de los empleados tienen como mínimo

prácticamente la misma edad.El 50% central de las edades de los empleados de la cooperativa es más

concentrado que el 50% central de las edades de la fábrica automotriz.Si bien una edad de 63 años es rara en la muestra de la cooperativa, no

ocurre lo mismo en la muestra de la fábrica automotriz.

13.Confeccionar en un mismo gráfico, analizar y comparar los box-plots delas variables “participación quincenal actual” y “participación quince-nal anterior” de la ME 1.

3388

Universidad Virtual de Quilmes

Page 39: Estadisticas Angel Estadistica Angel Borgna Fernandez

El box-plot, en complemento con los demás gráficos vistos, conformauna herramienta visual que se puede utilizar para ilustrar la distribu-ción, estudiar asimetrías y sus colas, bosquejar supuestos sobre la dis-tribución y comparar distintas distribuciones.

1.2.2. Medidas de dispersión

Para describir completamente una distribución de datos no basta con los indi-cadores elaborados hasta el momento a través de las medidas de posición,sino que además es necesario tener una idea del grado de variabilidad de losvalores que esos datos toman.

Ese grado de variabilidad hablará de la “variedad”, de la “diversidad” devalores en el conjunto de datos y para cuantificarlo surgen las medidas dedispersión que se definen –al igual que la media– en el dominio de los núme-ros reales, por lo que se aplican sólo a las variables cuantitativas.

Las medidas de dispersión que se tratarán en este curso son el rango oamplitud total, el rango intercuartílico, la varianza, el desvío estándar y, comoun caso de medida de dispersión relativa, el coeficiente de variación.

Rango o amplitud total

El rango indica la longitud o extensión total de una distribución de datos y secalcula de la siguiente manera:

Rg = AT = xmáx – xmín

Constituye una forma simple de determinar la dispersión de los datos de unadistribución. Es una medida limitada porque explica la variabilidad a partir desólo dos valores, sin tener en cuenta todos los valores intermedios entre losextremos.

En la variable edad de los trabajadores de la muestra de la empresa coo-perativa, el rango es:

Rg = 63 – 21 = 42 años

Quiere decir que en una franja o amplitud de 42 años se encuentra toda la“diversidad” –en cuanto a la edad de los trabajadores– de la muestra de la coo-perativa.

Rango intercuartílico

Esta medida expresa algo parecido a lo que representa el rango de toda ladistribución –con sus mismas limitaciones– pero se refiere únicamente a losdatos centrales que, como ya se vio, quedan encerrados entre el primero y eltercer cuartil.

d = Q3 – Q1

3399

Estadistica

Page 40: Estadisticas Angel Estadistica Angel Borgna Fernandez

Varianza y desvío estándar

La varianza es una medida que fue propuesta por Gauss y tiene en cuentatodos los valores de los datos de la distribución. Para su construcción se uti-liza la media aritmética como referencia para calcular las desviaciones (Xi – )del valor de cada uno de los datos respecto a ella.

En el gráfico G.1.26. se observan algunas magnitudes y sentidos de estosdesvíos respecto de la media:

Gráfico 1.26.

El objetivo es elaborar una medida que sintetice al conjunto de todos los des-víos y para calcularla podríamos promediarlos contando así con un desvíopromedio.

Pero al momento de realizar ese promedio nos encontraríamos con la dificul-tad de que la suma de las desviaciones siempre da cero, como obvia conse-cuencia de que la media es el centro de equilibrio de todos los desvíos, es decir:

Para salvar este escollo el criterio que utilizó Gauss, y que lo hacemos nues-tro, es promediar los cuadrados de las desviaciones. La medida así determi-nada se denomina varianza.

Formalmente la varianza se expresa como

si el grupo de datos es una población o

si el grupo de datos es una muestra.

El divisor N o el n-1, según el caso, se llama grados de libertad. A este tópi-co nos arrimaremos con más detalle en estadística inferencial.

Para la distribución del “gasto medio mensual en alimentos” de la matrizME 2, la varianza muestral (recordemos que esas 32 viviendas son una mues-tra extraída de un universo más grande de viviendas del barrio) es:

S² = 195.607,537 $²Recordando que la media es X= 1.227,25$, se aprecia que la magnitud

de la varianza es el cuadrado de la magnitud de la variable y esto complica las

4400

Universidad Virtual de Quilmes

Karl Friedrich Gauss enTheoría motus corporumcælestium, Hamgurgo (1809).

La media poblacional es una sola,como también lo es la varianzapoblacional. En cambio hay tantasmedias muestrales como muestrasdistintas se puedan extraer de lapoblación; y también hay tantasvarianzas muestrales como mediasmuestrales puedan obtenerse. Porlo que una varianza muestral estáatada a una determinada media,tiene un (1) condicionamiento queno tenía la poblacional. Ese condi-cionamiento le resta (1)un grado de libertad.

Page 41: Estadisticas Angel Estadistica Angel Borgna Fernandez

cosas al momento de interpretar esta medida de variabilidad. Para poder com-patibilizar la magnitud de la dispersión con la magnitud de la variable, sim-plemente le sacamos la raíz cuadrada a la varianza, resultando una nuevamedida llamada desvío estándar.

Formalmente, el desvío se expresa como

si el grupo de datos es una población o

si el grupo de datos es una muestra.

Para el gasto mensual de los hogares encuestados el desvío estándar mues-tral es: S = $422,28. Esta lectura absoluta aisladamente no suministra unainformación muy clara sobre los alcances de la dispersión.

En una distribución simétrica el desvío estándar describe un entornoalrededor de la media que contiene aproximadamente las 2/3 partes (~68%) de los datos.

Si se tuviera que el gasto mensual está distribuído simétricamente, sólo podrí-amos hacer una interpretación en el sentido de lo expuesto diciendo que apro-ximadamente las dos terceras partes de las viviendas de la muestra tienen ungasto mensual comprendido entre $804,97 y $1649,53 ($1227,25 ±$422,28).

Para ampliar el concepto anterior rescatamos los indicadores de los casos1 y 2 de variables cuantitativas discretas donde, en ambos, la variable es“edad”.

4411

Estadistica

36

El divisor N o el n-1, según el caso, se llama grados de libertad. A este tópico nos arrimaremos con más detalle en estadística inferencial.

COMIENZO DE PASTILLA EN divisor La media poblacional es una sola, como también lo es la varianza poblacional. En cambio hay tantas medias muestrales como muestras distintas se puedan extraer de la población; y también hay tantas varianzas muestrales como medias muestrales puedan obtenerse. Por lo que una varianza muestral está atada a una determinada media, tiene un (1) condicionamiento que no tenía la poblacional. Ese condicionamiento le resta (1) un grado de libertad. FIN DE PASTILLA

Para la distribución del “gasto medio mensual en alimentos” de la

matriz ME 2, la varianza muestral (recordemos que esas 32 viviendas son una muestra extraída de un universo más grande de viviendas del barrio) es:

S = 195.607,537 $ Recordando que la media es , se aprecia que la

magnitud de la varianza es el cuadrado de la magnitud de la variable y esto complica las cosas al momento de interpretar esta medida de variabilidad. Para poder compatibilizar la magnitud de la dispersión con la magnitud de la variable, simplemente le sacamos la raíz cuadrada a la varianza, resultando una nueva medida llamada desvío estándar.

Formalmente, el desvío se expresa como

=

(xi x )2 fi

N si el grupo de datos es una población o

S =

(xi x )2 fi

n -1 si el grupo de datos es una muestra.

Para el gasto mensual de los hogares encuestados el desvío estándar muestral es: S = $422,28. Esta lectura absoluta, aisladamente no suministra una información muy clara sobre los alcances de la dispersión.

COMIENZO DE LEER ATENTO En una distribución simétrica el desvío estándar describe un entorno alrededor de la media que contiene aproximadamente las 2/3 partes (~ 68%) de los datos. FIN DE LEER ATENTO

Si se tuviera que el gasto mensual está distribuído simétricamente, sólo podríamos hacer una interpretación en el sentido de lo expuesto diciendo que aproximadamente las dos terceras partes de las viviendas de la muestra tienen un gasto mensual comprendido entre $804,97 y $1649,53 ($1227,25 ± $422,28).

donde, en ambos, la variable es “edad”.

XMeMo

S2 2 2

S

COMIENZO DE LEER ATENTO La utilidad de las medidas de dispersión aparece claramente cuando se comparan distintas distribuciones de datos referidas a la misma variable.FIN DE LEER ATENTO

Utilizando la información del cuadro anterior para comparar las distribuciones de edades de los grupos analizados, notamos que todas las medidas de dispersión calculadas son mayores en el caso 2 respecto del caso 1. Esto estaría indicando que las edades de los empleados de la muestra de la fábrica automotriz están más dispersas que las edades de los trabajadores de la muestra de la cooperativa.

Es importante señalar que las edades promedio de los dos grupos son similares, característica que permitió comparar sin problemas las medidas de dispersión. Si los grupos analizados no tuvieren similar promedio entonces la comparación de la dispersión de las distribuciones debería intentarse por otro camino.

Otro problema se presenta cuando se quieren comparar las dispersiones de variables distintas surgidas de un mismo grupo de estudio.

Coeficiente de variación

Se debe a K. Pearson y soluciona el problema de comparar la dispersión de las distribuciones de variables que tienen distinta magnitud.

Este coeficiente puede utilizarse también para comparar variables de igual magnitud pero con promedios significativamente distintos.

Medidas Cantidad de ambientes

Cantidad de personas ocupantes

Gasto medio mensual

Cantidad de personas mayores con trabajo

S

CV

De la comparación de los CV se concluye que el grupo de viviendas relevadas es más compacto, más homogéneo, menos disperso, en cuanto a la cantidad de personas ocupantes, porque tiene el menor de los coeficientes calculados. También puede concluirse que el grupo de viviendas de la muestra es más heterogéneo, más disperso, menos compacto, en cuanto a la cantidad de personas mayores con trabajo.

Page 42: Estadisticas Angel Estadistica Angel Borgna Fernandez

La utilidad de las medidas de dispersión aparece claramente cuando secomparan distintas distribuciones de datos referidas a la misma variable.

Utilizando la información del cuadro anterior, para comparar las distribucionesde edades de los grupos analizados, notamos que todas las medidas de dis-persión calculadas son mayores en el caso 2 respecto del caso 1. Esto esta-ría indicando que las edades de los empleados de la muestra de la fábrica auto-motriz están más dispersas que las edades de los trabajadores de la muestrade la cooperativa.

Es importante señalar que las edades promedio de los dos grupos sonsimilares, característica que permitió comparar sin problemas las medidas dedispersión. Si los grupos analizados no tuvieren similar promedio entonces lacomparación de la dispersión de las distribuciones debería intentarse por otrocamino.

Otro problema se presenta cuando se quieren comparar las dispersionesde variables distintas surgidas de un mismo grupo de estudio.

Coeficiente de variación

Se debe a K. Pearson y soluciona el problema de comparar la dispersión delas distribuciones de variables que tienen distinta magnitud.

Este coeficiente puede utilizarse también para comparar variables de igualmagnitud pero con promedios significativamente distintos.

Es en realidad una dispersión relativa –no absoluta como el desvío están-dar– y se calcula como el cociente entre el desvío estándar y la media.

También se puede expresar en porcentajes

Compararemos todas las variables cuantitativas de la ME 2 calculando todoslos CV.

De la comparación de los CV se concluye que el grupo de viviendas relevadases más compacto, más homogéneo, menos disperso, en cuanto a la cantidadde personas ocupantes, porque tiene el menor de los coeficientes calculados.

4422

Universidad Virtual de Quilmes

donde, en ambos, la variable es “edad”.

MeMo

S2 2 2

S

COMIENZO DE LEER ATENTO La utilidad de las medidas de dispersión aparece claramente cuando se comparan distintas distribuciones de datos referidas a la misma variable.FIN DE LEER ATENTO

Utilizando la información del cuadro anterior para comparar las distribuciones de edades de los grupos analizados, notamos que todas las medidas de dispersión calculadas son mayores en el caso 2 respecto del caso 1. Esto estaría indicando que las edades de los empleados de la muestra de la fábrica automotriz están más dispersas que las edades de los trabajadores de la muestra de la cooperativa.

Es importante señalar que las edades promedio de los dos grupos son similares, característica que permitió comparar sin problemas las medidas de dispersión. Si los grupos analizados no tuvieren similar promedio entonces la comparación de la dispersión de las distribuciones debería intentarse por otro camino.

Otro problema se presenta cuando se quieren comparar las dispersiones de variables distintas surgidas de un mismo grupo de estudio.

Coeficiente de variación

Se debe a K. Pearson y soluciona el problema de comparar la dispersión de las distribuciones de variables que tienen distinta magnitud.

Este coeficiente puede utilizarse también para comparar variables de igual magnitud pero con promedios significativamente distintos.

Medidas Cantidad de ambientes

Cantidad de personas ocupantes

Gasto medio mensual

Cantidad de personas mayores con trabajo

S

XCV

De la comparación de los CV se concluye que el grupo de viviendas relevadas es más compacto, más homogéneo, menos disperso, en cuanto a la cantidad de personas ocupantes, porque tiene el menor de los coeficientes calculados. También puede concluirse que el grupo de viviendas de la muestra es más heterogéneo, más disperso, menos compacto, en cuanto a la cantidad de personas mayores con trabajo.

Page 43: Estadisticas Angel Estadistica Angel Borgna Fernandez

También puede concluirse que el grupo de viviendas de la muestra es másheterogéneo, más disperso, menos compacto, en cuanto a la cantidad de per-sonas mayores con trabajo.

14.Calcular las medidas de dispersión para todas las variables cuantitativasde la ME 1 y hacer todas las comparaciones posibles.

1.2.3. Medidas de intensidad

Cotidianamente se utilizan indicadores socio-económicos denominados tasaspara mostrar la incidencia relativa de algún valor de la variable o sus cambiosespacio-temporales. Esos indicadores son las medidas estadísticas de inten-sidad y se expresan como coeficientes o como porcentajes.

Previo al tratamiento de estas medidas leemos el artículo periodístico quesigue.

04 de Junio de 2005NO CEDE EL DESEMPLEO DEL CONURBANOCordones sin reacción

La cantidad de desocupados en los 28 centros urbanos encuestados por el Indec resultó de1.369.000 personas durante el primer trimestre, de los cuales 677 mil estaban localizados enlos partidos del Gran Buenos Aires. Los datos surgen de la Encuesta Permanente de Hogaresdel Indec publicados ayer, dos semanas después de conocerse la tasa de desocupación para elperíodo, del 13 por ciento. Los subocupados demandantes, es decir aquellos que no llegan acompletar la jornada laboral y están buscando otro trabajo, suman otras 948 mil personas conproblemas de empleo. Las zonas urbanas del país más afectadas por el problema global de deso-cupación y subocupación demandante resultaron, en el primer trimestre, el conurbano bona-erense y el núcleo Gran Tucumán (ciudad capital y sus alrededores) –Tafí Viejo. El primerosumaba 15,5 por ciento de desocupados más 10,4 por ciento de subocupados demandantes;el segundo, 14,2, más 16,5 por ciento. La desocupación, en los partidos del Gran Buenos Airesfue superior a la del cuarto trimestre de 2004 en siete décimas e idéntica a la registrada en elprimer trimestre de ese mismo año. Es decir que la región muestra un estancamiento en larecuperación del empleo. En tanto, en el Gran Tucumán-Tafí Viejo el dato más preocupantees el aumento de la subocupación demandante, del 15,5 por ciento en el primer trimestre, conun salto de 1,4 punto en la última medición con respecto a la inmediata anterior y 2,3 puntoscuando se la compara con la de un año antes. Los otros grandes distritos urbanos (con más de500 mil habitantes) que registraron tasas de desocupación por encima del promedio del paísfueron el Gran Rosario, 14 por ciento, y el Gran La Plata, con el 13,5 por ciento. Entre los gran-des aglomerados, la tasa más baja de desocupación corresponde al Gran Mendoza, con el 8 porciento, y entre las regiones a la Patagonia, con el 7,6 por ciento. Además, en esta última región,la tasa de subocupación demandante reflejada por el Indec es prácticamente insignificante, del3,4 por ciento, en tanto en el Noroeste se eleva al 11,2 por ciento.

© 2000-2002 Pagina12/WEB República Argentina

4433

Estadistica

Page 44: Estadisticas Angel Estadistica Angel Borgna Fernandez

Del artículo anterior rescatamos la siguiente información referida al 2005:

• la tasa de desocupación para el Gran Rosario es del 14%;• hay 1,44 desocupados por cada subocupado demandante; • la desocupación en los partidos del Gran Buenos Aires creció un 0,7% entre

el 4to. trimestre del 2004 y el 1er. trimestre de 2005.

Recrearemos las lecturas anteriores de la siguiente manera:

• la proporción de desocupados en el Gran Rosario es del 14%;• la relación entre desocupación y subocupación es a razón de 1,44 deso-

cupados por cada subocupado demandante;• tomando como base de referencia (100%) el 4to. trimestre de 2004, el

índice de desocupación para el 1er. trimestre del 2005 es del 100,7%.

Proporción

De las variables ya tratadas podemos decir, por ejemplo, que la proporción depymes del rubro industrial es del 37,5%, o también que la proporción de pie-zas de plástico con un nivel de terminación bueno o muy bueno es del 50%.

La proporción mide el peso –incidencia– que tiene una o varias cate-gorías/valores de la variable en el conjunto total de datos.

La proporción se calcula haciendo el cociente entre la frecuencia correspon-diente a una categoría –o valor– de la variable y el total de los datos.

En símbolos:

Si bien el resultado es un coeficiente comprendido entre 0 y 1, la proporcióntambién se expresa en porcentajes (multiplicándola por 100).

Los cálculos implícitos en el párrafo inicial son:

El primer ejemplo tiene en cuenta sólo una categoría de la variable por eso selo considera una proporción simple y el segundo es una proporción compuestaporque interviene más de una categoría.

15.a. Determinar e interpretar la proporción de viviendas de 4 ambientesde la ME 2.

b. ¿Qué porcentaje de empleados están al menos conformes con el fun-

4444

Universidad Virtual de Quilmes

Page 45: Estadisticas Angel Estadistica Angel Borgna Fernandez

cionamiento de la empresa cooperativa (ME 1)?c. ¿Cuál es la proporción de desaparecidos con una edad de entre 30 y35 años?

d. Identificar qué tipo de proporción (simple o compuesta) es cada unade las calculadas en los ítems anteriores.

Razón

La razón, a diferencia de la proporción, es un indicador que se obtiene calcu-lando el cociente entre las frecuencias de valores distintos de una variable.

La razón mide el peso –incidencia– que tiene una o varias categorí-as/valores de la variable con respecto a otra u otras categorías/valores.

La razón entre A y B se calcula haciendo el cociente entre sus respectivas fre-cuencias, siendo A y B valores/categorías o grupos de valores/categorías.

En símbolos:

Ejemplos

Por cada 1 vivienda de dos ambientes hay 1,6 viviendas de tres ambientes (otambién, en la muestra hay un 60% más de viviendas con 3 ambientes que con2 ambientes).

Por cada pieza que se fabrica con un nivel de terminación regular hay dos pie-zas con nivel bueno o muy bueno.

El primer ejemplo tiene en cuenta sólo una categoría de la variable enambos factores del cociente, por ello es una razón simple y el segundo es unarazón compuesta porque interviene más de una categoría en por lo menosuno de los dos factores.

16.a. ¿Cuál es la razón entre los empleados que están conformes y los queestán muy conformes con el funcionamiento de la empresa coope-rativa? (ME 1).

b. Por cada trabajador mayor a 40 años, ¿cuántos hay de entre 30 y 40años? (ME 1).

c. Identificar qué tipo de razón (simple o compuesta) es cada una de lascalculadas en los ítems anteriores.

4455

Estadistica

Como en el caso de lasproporciones, las razo-

nes pueden ser simples o com-puestas.

Page 46: Estadisticas Angel Estadistica Angel Borgna Fernandez

En las distribuciones bivariadas (tablas de doble entrada), son compuestas todas las tasas cal-culadas a partir de las frecuencias conjuntas. Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo de las pymes

(ver tabla 1.10.) se puede observar que el 16,67% (4/24´100) de las pymes de la muestra sondel rubro industrial y aumentaron los puestos de trabajo entre 2001 y 2003, o que por cadapymes del rubro comercial que mantuvo hay 1,33 (4/3) industrial que aumentó sus puestosde trabajo.

Números índice

Un número índice mide las variaciones relativas de la ocurrencia de los valo-res/categorías de una variable a través de distintas situaciones espaciales otemporales. En símbolos:

Donde “i” indica una situación espacial o temporal cualquiera y “o” indica lasituación de referencia llamada base.

Para estudiar si hubo algún cambio en la cantidad de trabajadores (ME 1)que cobran actualmente más de $750 respecto de los que cobraban tambiénmás de $750 en el período anterior, calculamos

El grupo de trabajadores que hoy tienen un salario quincenal superior a los$750 es el 260% del grupo de trabajadores que en el período anterior teníantambién más de $750 de salario quincenal. Es decir, que la cantidad de tra-bajadores que hoy ganan más de $750 aumentó un 160% con respecto a lasituación anterior.

En el caso de los trabajadores de la cooperativa y de la fábrica automotrizpodemos comparar una determinada franja de edad, por ejemplo empleadosde entre 20 y 30 años, haciendo

El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de lostrabajadores de la fábrica. Es decir que hay un 75% menos de personas de 20a 30 años trabajando en la cooperativa que en la fábrica automotriz.

Índices de precios

Veremos a continuación cómo se construyen y cómo se usan los índices gene-rales de precios.

4466

Universidad Virtual de Quilmes

42

Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo de las pymes (ver tabla 1.10) se puede observar que el 16,67% (4/24 100) de las pymes de la muestra son del rubro industrial y aumentaron los puestos de trabajo entre 2001 y 2003, o que por cada pymes del rubro comercial que mantuvo hay 1,33 (4/3) industrial que aumentó sus puestos de trabajo. FIN DE TEXTO APARTE

Números índice

Un número índice mide las variaciones relativas de la ocurrencia de los valores/categorías de una variable a través de distintas situaciones espaciales o temporales.

En símbolos:

ó

Donde “ i” indica una situación espacial o temporal cualquiera y “o” indica la situación de referencia llamada base.

Para estudiar si hubo algún cambio en la cantidad de trabajadores (ME 1) que cobran actualmente más de $750 respecto de los que cobraban también más de $750 en el período anterior, calculamos

Iactual/anterior(másde750) =

factual(> 750)fanterior(> 750)

=135= 2,60

El grupo de trabajadores que hoy tienen un salario quincenal superior a los $750 es el 260% del grupo de trabajadores que en el período anterior tenían también más de $750 de salario quincenal. Es decir, que la cantidad de trabajadores que hoy ganan más de $750 aumentó un 160% con respecto a la situación anterior.

En el caso de los trabajadores de la cooperativa y de la fábrica automotriz podemos comparar una determinada franja de edad, por ejemplo empleados de entre 20 y 30 años, haciendo

Icooperativa/fábrica(entre20y30años) =

fcooperativa (20 edad 30)

f fábrica (20 edad 30)=

416

= 0,25

El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de los trabajadores de la fábrica. Es decir que hay un 75% menos de personas de 20 a 30 años trabajando en la cooperativa que en la fábrica automotriz. Índices de precios

Veremos a continuación cómo se construyen y cómo se usan los índices generales de precios.

42

Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo de las pymes (ver tabla 1.10) se puede observar que el 16,67% (4/24 100) de las pymes de la muestra son del rubro industrial y aumentaron los puestos de trabajo entre 2001 y 2003, o que por cada pymes del rubro comercial que mantuvo hay 1,33 (4/3) industrial que aumentó sus puestos de trabajo. FIN DE TEXTO APARTE

Números índice

Un número índice mide las variaciones relativas de la ocurrencia de los valores/categorías de una variable a través de distintas situaciones espaciales o temporales.

En símbolos:

ó

Donde “ i” indica una situación espacial o temporal cualquiera y “o” indica la situación de referencia llamada base.

Para estudiar si hubo algún cambio en la cantidad de trabajadores (ME 1) que cobran actualmente más de $750 respecto de los que cobraban también más de $750 en el período anterior, calculamos

Iactual/anterior(másde750) =

factual(> 750)fanterior(> 750)

=135= 2,60

El grupo de trabajadores que hoy tienen un salario quincenal superior a los $750 es el 260% del grupo de trabajadores que en el período anterior tenían también más de $750 de salario quincenal. Es decir, que la cantidad de trabajadores que hoy ganan más de $750 aumentó un 160% con respecto a la situación anterior.

En el caso de los trabajadores de la cooperativa y de la fábrica automotriz podemos comparar una determinada franja de edad, por ejemplo empleados de entre 20 y 30 años, haciendo

Icooperativa/fábrica(entre20y30años) =

fcooperativa (20 edad 30)

f fábrica (20 edad 30)=

416

= 0,25

El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de los trabajadores de la fábrica. Es decir que hay un 75% menos de personas de 20 a 30 años trabajando en la cooperativa que en la fábrica automotriz. Índices de precios

Veremos a continuación cómo se construyen y cómo se usan los índices generales de precios.

42

Por ejemplo, en la distribución conjunta entre rubro y puestos de trabajo de las pymes (ver tabla 1.10) se puede observar que el 16,67% (4/24 100) de las pymes de la muestra son del rubro industrial y aumentaron los puestos de trabajo entre 2001 y 2003, o que por cada pymes del rubro comercial que mantuvo hay 1,33 (4/3) industrial que aumentó sus puestos de trabajo. FIN DE TEXTO APARTE

Números índice

Un número índice mide las variaciones relativas de la ocurrencia de los valores/categorías de una variable a través de distintas situaciones espaciales o temporales.

En símbolos:

ó

Donde “ i” indica una situación espacial o temporal cualquiera y “o” indica la situación de referencia llamada base.

Para estudiar si hubo algún cambio en la cantidad de trabajadores (ME 1) que cobran actualmente más de $750 respecto de los que cobraban también más de $750 en el período anterior, calculamos

Iactual/anterior(másde750) =

factual(> 750)fanterior(> 750)

=135= 2,60

El grupo de trabajadores que hoy tienen un salario quincenal superior a los $750 es el 260% del grupo de trabajadores que en el período anterior tenían también más de $750 de salario quincenal. Es decir, que la cantidad de trabajadores que hoy ganan más de $750 aumentó un 160% con respecto a la situación anterior.

En el caso de los trabajadores de la cooperativa y de la fábrica automotriz podemos comparar una determinada franja de edad, por ejemplo empleados de entre 20 y 30 años, haciendo

Icooperativa/fábrica(entre20y30años) =

fcooperativa (20 edad 30)

f fábrica (20 edad 30)=

416

= 0,25

El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de los trabajadores de la fábrica. Es decir que hay un 75% menos de personas de 20 a 30 años trabajando en la cooperativa que en la fábrica automotriz. Índices de precios

Veremos a continuación cómo se construyen y cómo se usan los índices generales de precios.

Page 47: Estadisticas Angel Estadistica Angel Borgna Fernandez

Construcción de índices de precios Convengamos que todos los productos de la canasta familiar se puedan redu-cir a, digamos, tres (A, B y C) y que en dos años distintos se relevaron los pre-cios (p) y las cantidades (q) consumidas de cada uno de ellos:

Podemos analizar cómo evolucionó el precio de cada uno de los productos,haciendo tres índices simples de precios.

I2004/2003 (A) = 15 / 13 × 100 = 115,38%

El precio del producto A subió un 15,38% entre el 2003 y el 2004.

I2004/2003 (B) = 21 / 25 × 100 = 84,00%

El precio del producto B bajó un 16,00% entre el 2003 y el 2004.

I2004/2003 (C) = 6 / 5 × 100 = 120,00%

El precio del producto C subió un 20,00% entre el 2003 y el 2004.

Para medir la evolución del conjunto de precios de los tres productos necesi-tamos contar con índices compuestos.

Media de relativos simples (o media de índices simples)Es la media aritmética de todos los índices simples de todos los productos.Para el ejemplo que estamos viendo, el cálculo sería.

Los precios de los productos A, B y C subieron en conjunto un 6,46% entre losaños 2003 y 2004.

Relativo de agregados no ponderados (o índice de agregados no ponderados)Se construye como cociente entre la sumatoria (agregación) de los precios parael año 2004 y la sumatoria (agregación) de los precios para el año base 2003.Los precios de los productos A, B y C bajaron en conjunto un 2,33% entre los

años 2003 y 2004.

Relativo de agregados ponderados (o índice de agregados ponderados)Se construyen no solamente con los precios sino con algún otro elemento de pon-deración que permita darle un “peso” distinto a cada producto. Ese elementode ponderación generalmente es la cantidad consumida de cada producto.

4477

Estadistica

En realidad la canastafamiliar está integrada por

muchos productos. En este caso,como recurso didáctico, usamostres productos como representati-vos de todos sólo para reducir lacantidad de cálculos.

que hoy ganan más de $750 aumentó un 160% con respecto a la situación anterior.En el caso de los trabajadores de la cooperativa y de la fábrica automotriz podemos comparar una determinada

franja de edad, por ejemplo empleados de entre 20 y 30 años, haciendo

El grupo de empleados de la cooperativa de 20 a 30 años es el 25% de los trabajadores de la fábrica. Es decir que hay un 75% menos de personas de 20 a 30 años trabajando en la cooperativa que en la fábrica automotriz.

Índices de precios

Veremos a continuación cómo se construyen y cómo se usan los índices generales de precios.

Construcción de índices de precios

Convengamos que todos los productos de la canasta familiar se puedan reducir a, digamos, tres (A, B y C) y que en dos años distintos se relevaron los precios (p) y las cantidades (q) consumidas de cada uno de ellos:

Producto Precio 2003 Cantidad 2003 Precio 2004 Cantidad 2004

A $15

B $25 $21

C $5 $6

COMIENZO DE PASTILLA EN

FIN DE PASTILLA

Podemos analizar cómo evolucionó el precio de cada uno de los productos, haciendo tres índices simples de precios.

I2004/2003

(A) = 15 / 13 100 = 115,38%

El precio del producto A subió un 15,38% entre el 2003 y el 2004.

I2004/2003

(B) = 21 / 25 100 = 84,00%

El precio del producto B bajó un 16,00% entre el 2003 y el 2004.

I2004/2003

(C) = 6 / 5 100 = 120,00%

El precio del producto A subió un 20,00% entre el 2003 y el 2004.

Para medir la evolución del conjunto de precios de los tres productos necesitamos contar con índices compuestos.

Media de relativos simples (o media de índices simples)Es la media aritmética de todos los índices simples de todos los productos. Para el ejemplo que estamos viendo, el cálculo sería.

43

Construcción de índices de precios

Convengamos que todos los productos de la canasta familiar se puedan reducir a, digamos, tres (A, B y C) y que en dos años distintos se relevaron los precios (p) y las cantidades (q) consumidas de cada uno de ellos:

Producto Precio 2003 Cantidad 2003 Precio 2004 Cantidad 2004

A $13 500 $15 550

B $25 280 $21 250

C $5 990 $6 1200 COMIENZO DE PASTILLA EN canasta familiar En realidad la canasta familiar está integrada por muchos productos. En este caso, como recurso didáctico, usamos tres productos como representativos de todos sólo para reducir la cantidad de cálculos. FIN DE PASTILLA

Podemos analizar cómo evolucionó el precio de cada uno de los productos, haciendo tres índices simples de precios.

I2004/2003 (A) = 15 / 13 100 = 115,38%

El precio del producto A subió un 15,38% entre el 2003 y el 2004.

I2004/2003 (B) = 21 / 25 100 = 84,00%

El precio del producto B bajó un 16,00% entre el 2003 y el 2004.

I2004/2003 (C) = 6 / 5 100 = 120,00%

El precio del producto A subió un 20,00% entre el 2003 y el 2004.

Para medir la evolución del conjunto de precios de los tres productos necesitamos contar con índices compuestos.

Media de relativos simples (o media de índices simples) Es la media aritmética de todos los índices simples de todos los productos. Para el ejemplo que estamos viendo, el cálculo sería.

I20042003

( A,B,C) =

I20042003

( A) + I20042003

(B) + I20042003

(C)

3=106,46%

Los precios de los productos A, B y C subieron en conjunto un 6,46% entre los años 2003 y 2004.

Relativo de agregados no ponderados (o índice de agregados no ponderados)

Page 48: Estadisticas Angel Estadistica Angel Borgna Fernandez

La cuestión que aparece a continuación es decidir con qué cantidadesponderar, las del año tomado como base o las del año para el que se haceel estudio que convenimos en llamar año dado.

Entre los criterios existentes, el de Laspeyres adopta, para ponderar las can-tidades consumidas en el año base, la siguiente manera:

Este es el criterio que utiliza el Sistema Estadístico Nacional (INDEC y Direc-ciones Provinciales de Estadísticas) para la construcción de todos los índicesgenerales de precios: Índice de Precios al consumidor (IPC), Sistema de Índi-ces de precios mayoristas (SIPM) e Índice de costos de la construcción (ICC).

Para el ejemplo que estamos desarrollando, el cálculo del índice de pre-cios según el criterio de Laspeyres para el conjunto de los productos A, B,C es:

Los precios de los productos A, B, C subieron en conjunto un 4,72% entre losaños 2003 y 2004. Es decir que en 2004 esos productos fueron en conjuntoun 4,72% más caros respecto del año 2003.

Si esos tres productos fueran todos los de la canasta familiar, como esta-mos simulando, las cantidades consumidas podrían entrar en la fórmula de Las-peyres como porcentajes del total:

Esta estructura de ponderación es la que usa el INDEC para publicar los Índi-ces Generales de precios. El criterio de Paasche usa para ponderar las canti-dades del año dado.

Para los mismos productos y el mismo período, un índice de precios elabora-do con este criterio es:

4488

Universidad Virtual de Quilmes

Fue publicado en 1870por el economista y esta-dístico alemán Ernst Louis EtienneLaspeyres.

La estructura de ponde-ración actual del IPC asig-na para Alimentos y bebidas: 31,29%,Indumentaria: 5,18%, Vivienda:12,68%, Equipamiento y manteni-miento del hogar: 6,55%, Atenciónmédica y gastos para la salud:10,04%, Transporte y comunica-ciones: 16,96%, Esparcimiento:8,67%, Educación: 4,20%, Bienesy servicios varios: 4,43%.

Page 49: Estadisticas Angel Estadistica Angel Borgna Fernandez

En este caso hay que contar con la información de las cantidades consumi-das en el año dado y para la elaboración de índices generales eso implica unserio problema operativo. Este criterio puede usarse en trabajos locales, dondese tengan planificados y asegurados los recursos y se pueda encarar la moda-lidad operativa que requiere ese índice.

Un tercer criterio, el de Fisher, combina las virtudes de los dos anterioresmediante el empleo de la media geométrica entre IL y IP, pero también cargacon las mismas limitaciones operativas de P.

Para los tres productos del ejemplo:

Uso de los números índicesLlamemos i, j a dos años dados cualesquiera y o al año base.

En las publicaciones, todos los índices generales aparecen referidos a unaño base por lo que se cuenta entonces con los índices Ii/o y Ij/o.

Para algún uso específico en el que necesitáramos un índice Ij/o que des-criba la evolución entre los años i y j, utilizaremos las llamadas cadenas oenlaces relativos.

Supongamos que el índice compuesto de precios de varios productos fue de120 en 2000 y de 129 en 2001, calculados ambos con base 1999, y quere-mos saber cuánto aumentó el nivel de precios entre 2000 y 2001. La res-puesta es que el nivel de precios aumentó un 7,50 % (se calcula: 129 / 120x 100 =107,50 %).

El índice de precios al consumidor y el promedio de salarios por hora en cier-tas industrias seleccionadas se encuentran en la tabla siguiente.

Analizaremos cómo evolucionó el salario real de un empleado tipo en cadauna de las tres industrias seleccionadas, entre el año base 1988 y el año1991.

Para este análisis utilizaremos el IPC cuyo rol será el de mover en el tiem-po una magnitud económica –en este caso el salario– y hacer comparaciones.

4499

Estadistica

I io

I ji

= I jo

I ji

=I j

o

I io

Por ejemplo: representa el salario del año 1988

FIN DE PASTILLA

El criterio de Paasche usa para ponderar las cantidades del año dado.

Para los mismos productos y el mismo período, un índice de precios elaborado con este criterio es:

En este caso hay que contar con la información de las cantidades consumidas en el año dado y para la elaboración de índices generales eso implica un serio problema operativo. Este criterio puede usarse en trabajos locales, donde se tengan planificados y asegurados los recursos y se pueda encarar la modalidad operativa que requiere ese índice.

Un tercer criterio, el de Fisher, combina las virtudes de los dos anteriores mediante el empleo de la media geométrica entre I

L y I

P, pero también carga con las mismas limitaciones operativas de P.

Para los tres productos del ejemplo:

Uso de los números índices

Llamemos i, j a dos años dados cualesquiera y o al año base. En las publicaciones, todos los índices generales aparecen referidos a un año base por lo que se cuenta entonces con

los índices y .

Para algún uso específico en el que necesitáramos un índice que describa la evolución entre los años i y j, utilizaremos las llamadas cadenas o enlaces relativos.

Supongamos que el índice compuesto de precios de varios productos fue de 120 en 2000 y de 129 en 2001, calculados ambos con base 1999, y queremos saber cuánto aumentó el nivel de precios entre 2000 y 2001. La respuesta es que el nivel de precios aumentó un 7,50 % (se calcula: 129 / 120 x 100 =107,50 %). El índice de precios al consumidor y el promedio de salarios por hora en ciertas industrias seleccionadas se encuentran en la tabla siguiente.

Salarios por hora (en $)Año IPC Servicios Comercio al menudeo Manufactura

19881989

1991

Analizaremos cómo evolucionó el salario real de un empleado tipo en cada una de las tres industrias seleccionadas, entre el año base 1988 y el año 1991.

Para este análisis utilizaremos el IPC cuyo rol será el de mover en el tiempo una magnitud económica –en este caso

Page 50: Estadisticas Angel Estadistica Angel Borgna Fernandez

Cualquier índice general utilizado con esta finalidad recibe el nombre de índi-ce deflactor.

Por ejemplo: representa el salario del año 1988

trasladado al año 1991, para un empleado del sector servicios. Este es elvalor del salario del año 1988 corregido por el costo de la vida en el lapso1988-1991.

Si comparamos el valor obtenido ($8,40) con el que realmente recibe en 1991($9,49), vemos que su salario real aumentó un 12,98% (=9,49/8,40 x 100).

17.Usando la información de la tabla anterior describir la evolución delsalario del sector servicios entre 1989 y 1990.

¿Es posible concluir que las medidas de intensidad son aplicables a cual-quier tipo de variable?

18.Extraer todas las conclusiones posibles a partir de la lectura del textoque se transcribe a continuación y que es parte de un artículo publica-do en el diario Página 12.

Todos los libros el libroPor Gabriel D. Lerman“[…] Según estimaciones publicadas por el SINCA (Sistema de Infor-mación Cultural de la Argentina), la cultura argentina constituye un3% del PBI nacional, cifra que supera, por ejemplo, al sector de la mine-ría. Más 9100 millones de pesos producidos y más 200 mil puestos detrabajo generados componen un sector diverso, heterogéneo, que sinembargo se caracteriza por una alta concentración económica y geo-gráfica, que reproduce el más feroz centralismo porteño.La industria editorial ha sido por décadas uno de los puntales de la cul-tura argentina, punto de referencia para toda América latina y el mundohispanoparlante. Hacia mediados de la década del setenta, el país pro-ducía unos 50 millones de ejemplares al año, cifra que diez años mástarde había caído a 17. En 1996 se produjeron 42 millones de libros, enel 2000 se llegó a 74 millones y en el 2002, tras la crisis, la produccióncayó a la mitad. A partir de la devaluación, Argentina recuperó condi-ciones favorables e inició una franca recuperación: de 38 millones delibros en 2003 se pasó a 56 en 2004. En 2007, la industria editorialargentina tuvo el record histórico de 93 millones de ejemplares impre-sos […][…] Cerca del 75% de las editoriales se encuentra emplazada en la regiónmetropolitana, mientras que el resto se ubica en los principales centrosurbanos. Si bien esto responde a la concentración de la población, hayprovincias que sólo poseen una o dos editoriales que apenas sobrevivencon ayuda oficial.

5500

Universidad Virtual de QuilmesI i

oI j

i

= I jo

I ji

=I j

o

I io

Por ejemplo: representa el salario del año 1988

Se puede ver el artí-c u l o c omp l e t o e n w ww . p a g i n a 1 2 . c o m . a r ,Suplemento Radar libros deldiario Página 12, con fecha22/03/2009.

Page 51: Estadisticas Angel Estadistica Angel Borgna Fernandez

[...] Tres de cada cuatro libros les corresponden a las grandes editoriales[...] [...] Argentina y Colombia lideran el comercio exterior de libros en Amé-rica del Sur.[...] Según la publicación Nosotros y los otros, del Mercosur Cultural,un 77% de los libros exportados por la región sudamericana quedan enel continente. Esto muestra una baja capacidad de penetración en mer-cados internacionales más vigorosos, incluso España, que adquiere sóloel 1,6% del total exportado. Por el contrario, si se miden las importa-ciones se comprueba que sólo el 41% proviene de los mismos países,mientras que las compras a España trepan al 29% [...]”

1.3. Matrices ejemplos

Las siguientes matrices corresponden a muestras representativas seleccio-nadas de diferentes poblaciones objetivo de estudio, con distintos tipos deunidades de observación.

Matriz 1. Población: trabajadores de una empresa cooperativa donde cada tra-bajador es una unidad de observación.

Referencias:Nivel de especialización: B: bajo, M: mediano, A: alto.Conformidad con el funcionamiento de la empresa cooperativa: P: poco con-forme, C: conforme, M: muy conforme.Quincena actual: salario quincenal de los trabajadores (participación quince-nal en las ganancias de la cooperativa) en el mes en curso después de haber-se producido un incremento en las ventas.Quincena anterior: salario quincenal de los trabajadores previo al incrementode las ventas.

5511

Estadistica

1.3. Matrices ejemplosMatriz 1. Población: trabajadores de una empresa cooperativa donde cada trabajador es una unidad de observación.

ME 1-

Empleado edad sexo Anti-güedad

Especia-lización

Confor-midad

Quincena$actual

Quincena$anterior

1 M 1 B C2 F 5 A M

51 M M P4 21 F 4 M C5 F M M6 M B P

F 9 B C8 25 F 4 M M9 M M P

F M P11 F 5 A M12 M 5 A M

F B C 45214 M 8 A M 96515 F A M16 F 2 M M

28 M B C18 48 F 1 M M19 42 M A P 1145

F 1 M M 698

Vivienda Cant. de ambientes Mantenimiento Personas

ocupantes

Gasto medio

mensual

Personas mayores con

trabajo

¿Hay niños que trabajan?

1 B 1 N2 2 M 1 N

5 B 4 2 N4 B 2 1 N5 4 2 S6 1 B 1 N

2 M N8 4 E 2 2 N9 5 B 5 2 N

4 N11 B 2 N12 4 M N

B 1 S14 2 B 2 2 N15 4 M N16 2 B 2 2 N

4 5 N18 1 B N19 2 M N

4 E 2 S21 5 B N22 2 2 N

4 B 5 4 N24 4 N25 B 1 S26 5 B 1 N

N28 6 B 2 2 N29 4 M 5 5 N

1 E 2 1 S4 B 2 N

5 NReferencias

Page 52: Estadisticas Angel Estadistica Angel Borgna Fernandez

Matriz 2. Población: viviendas de un determinado barrio donde cada viviendaes la unidad de análisis.

Referencias:Mantenimiento o estado de mantenimiento: M: malo, R: regular, B: bueno, E:excelente.Gasto medio mensual en alimentos del grupo que vive en la vivienda en $.¿Hay niños que trabajan?: S: sí, N: no.

5522

Universidad Virtual de Quilmes

1.3. Matrices ejemplosMatriz 1. Población: trabajadores de una empresa cooperativa donde cada trabajador es una unidad de observación.

ME 1-

Empleado edad sexo Anti-güedad

Especia-lización

Confor-midad

Quincena$actual

Quincena$anterior

1 M 1 B C2 F 5 A M

51 M M P4 21 F 4 M C5 F M M6 M B P

F 9 B C8 25 F 4 M M9 M M P

F M P11 F 5 A M12 M 5 A M

F B C 45214 M 8 A M 96515 F A M16 F 2 M M

28 M B C18 48 F 1 M M19 42 M A P 1145

F 1 M M 698

Vivienda Cant. de ambientes Mantenimiento Personas

ocupantes

Gasto medio

mensual

Personas mayores con

trabajo

¿Hay niños que trabajan?

1 B 1 N2 2 M 1 N

5 B 4 2 N4 B 2 1 N5 4 2 S6 1 B 1 N

2 M N8 4 E 2 2 N9 5 B 5 2 N

4 N11 B 2 N12 4 M N

B 1 S14 2 B 2 2 N15 4 M N16 2 B 2 2 N

4 5 N18 1 B N19 2 M N

4 E 2 S21 5 B N22 2 2 N

4 B 5 4 N24 4 N25 B 1 S26 5 B 1 N

N28 6 B 2 2 N29 4 M 5 5 N

1 E 2 1 S4 B 2 N

5 NReferencias

Page 53: Estadisticas Angel Estadistica Angel Borgna Fernandez

Matriz 3. Población: pymes de la República Argentina año 2004/2005 dondecada pyme es la unidad de estudio.

Referencias:Tipo de pyme: R: recuperada, P: privada.Rubro: A: agrícola, C: comercial, I: industrial, S: servicios.Antigüedad, en años, al 2005.Nivel de endeudamiento: N: ninguno, B: bajo, M: medio, A: alto, MA: muy alto.Puestos de trabajo durante 2001-2003: D: disminuyó, M: mantuvo, A: aumentó.

5533

EstadisticaMantenimiento o estado de mantenimiento: M: malo, R: regular, B: bueno, E: excelente

Gasto medio mensual en alimentos del grupo que vive em la vivienda em $

¿Hay niños que trabajan?: S: sí, N: no

Matriz 3. Población: pymes de la República Argentina año 2004/2005 donde cada pyme es la unidad de estudio.

ME 3-

PyME Tipo Rubro Antigüedad Endeu-damiento

Cantidad de Personal

Puestos de trabajo 2001-2003

1 P S 1 M 128 M2 P I 6 M D

A 8 N 19 A4 C 4 M M5 P I 8 MA 112 M6 P A A D

I B A8 P S 8 MA D9 P C 4 M 114 M

P A MA 148 A11 A 2 M 154 A12 P I 4 B D

P C 5 MA D14 I 6 A 142 A15 P A MA M16 I 2 A M

p C 9 M 22 M18 I B 5 M19 P S 11 M D

I 6 N A21 P I M D22 P A 4 A M

P C 25 MA A24 S 11 B 144 A

Referencias:

Tipo de pyme: R: recuperada, P: privada.

Rubro: A: agrícola, C: comercial, I: industrial, S: servicios.

Antigüedad, en años, al 2005.

Nivel de endeudamiento: N: ninguno, B: bajo, M: medio, A: alto, MA: muy alto.

Puestos de trabajo durante 2001-2003: D: disminuyó, M: mantuvo, A: aumentó.

Page 54: Estadisticas Angel Estadistica Angel Borgna Fernandez

Matriz 4. Población: todas las piezas plásticas especiales fabricadas por unadeterminada empresa, donde cada pieza es la unidad que se observa para suestudio y análisis.

Referencias:Materia prima: N: nacional, I: importada.Tiempo de fabricación: tiempo, en días, que lleva de fabricada la pieza.Nivel de detalles de terminación: R: regular, B: bueno, MB: muy bueno, E: exce-lente.¿Tiene alguna característica señalable?: S: sí, N: no.

5544

Universidad Virtual de Quilmes

Matriz 4. Población: todas las piezas plásticas especiales fabricadas por una determinada empresa, donde cada pieza es la unidad que se observa para su estudio y análisis.

ME 4

Pieza Longitud[cm]

Materia prima Tiempo de Detalles

de Peso[gr]

Característica señalable

1 N 261 N2 I 145 E N

N B N4 N 168 MB S5 I MB N6 N N

I S8 N 194 MB N9 N B S

I MB N11 N 59 E S12 N 65 B N

I S14 N 128 E N15 N E S16 I 22 MB N

N S18 I 81 B S19 N E N

N 11 B N

Referencias

Materia prima: N: nacional, I: importada.

Tiempo de fabricación: tiempo, en días, que lleva de fabricada la pieza.

Nivel de detalles de terminación: R: regular, B: bueno, MB: muy bueno, E: excelente.

¿Tiene alguna característica señalable?: S: sí, N: no.

Page 55: Estadisticas Angel Estadistica Angel Borgna Fernandez

5555

Probabilidad

Ob je ti vos

• Desarrollar algunas herramientas básicas para poder abordar con funda-mento los problemas de la inferencia estadística.

• Sistematizar, organizar y cimentar los conceptos probabilísticos presentesen la cultura cotidiana.

2.1. Elementos de la teoría de probabilidad

En la presente Unidad trataremos conceptos de la teoría de probabilidad porser ésta la herramienta conceptual necesaria para abordar con fundamento losproblemas de la estadística inferencial.

2.1.1. Experimento aleatorio

Comenzaremos leyendo el siguiente texto que fue extraído de la novela El jugadorde Fedor Dostoievsky.

“[...] Las salas de juego estaban repletas de público. ¡Cuánta insolencia y cuánta avidez! Meabrí paso entre la muchedumbre y me coloqué frente al propio croupier. Empecé a jugar tími-damente, arriesgando cada vez dos, tres monedas. Entretanto, observaba. Tengo la impresiónde que el cálculo previo vale para poco y, desde luego no tiene la importancia que le atribuyenmuchos jugadores: llevan papel rayado, anotan las jugadas, hacen cuentas, deducen las proba-bilidades, calculan; por fin, apuestan y pierden. Igual que nosotros simples mortales, que juga-mos sin cálculo alguno. He llegado, sin embargo, a una conclusión, al parecer, justa: existe, enefecto, si no un sistema, por lo menos cierto orden en la sucesión de probabilidades casuales, locual es muy extraño. Suele ocurrir, por ejemplo, que tras las doce cifras centrales salgan las doceúltimas. Cae, por ejemplo, dos veces en las doce últimas y pasa a las doce primeras. De las doceprimeras, vuelve a las centrales: sale tres o cuatro veces seguidas y de nuevo pasa a las doce últi-mas. Tras dos vueltas, cae sobre las primeras, que no salen más de una vez, y las cifras centralessalen sucesivamente tres veces. Esto se repite durante hora y media o dos horas. Uno, tres y dos;uno, tres y dos. Resulta muy divertido. Hay días, mañanas, en que el negro alterna con el rojo,casi en constante desorden, de modo que ni el rojo ni el negro salen más de dos o tres vecesseguidas. Al día siguiente, o a la misma tarde, sale el rojo hasta veinticinco veces sucesivas, y con-tinúa así durante algún tiempo, a veces, durante todo el día [...]”.

2

Párrafo del capítulo IV deEl jugador (1866), una de

las más célebres y populares nove-las de Fedor Dostoievsky, en granparte un relato autobiográfico.

Page 56: Estadisticas Angel Estadistica Angel Borgna Fernandez

La búsqueda de las leyes que, supuestamente, gobiernan el azar no solo atraela concentración de algún jugador empedernido, sino que domina permanen-temente los cálculos de casi todo el espectro científico desde –en un rangocronológico– la astronomía hasta la economía.

Lo que aparece claramente en el párrafo seleccionado es la observacióndel fenómeno que interesa estudiar –la ruleta– mediante series de frecuencias.

Cada vez que se realiza una jugada se está llevando a cabo un experimentoaleatorio o azaroso, ¿por qué aleatorio? Porque no se puede predecir de ante-mano el resultado que se va a obtener en esa jugada.

Existen muchos experimentos aleatorios fuera del juego, por ejemplo, podrí-amos anotar la edad de cada una de las personas que lee esta carpeta, cadaedad del conjunto de todas las edades anotadas puede ser un resultado delexperimento.

Podemos citar también como experimento aleatorio la observación de laocurrencia del robo de un auto realizada por un actuario de seguros. Esteactuario podría anotar en función de resultados previos cuántos autos de unadeterminada marca y modelo fueron robados entre todos los que existen enel mercado y a partir de ello inducir si un nuevo auto cualquiera, elegido alazar de ese modelo y marca, tiene alguna posibilidad de ser robado.

Tanto la jugada única del jugador, como el aseguramiento de un auto cual-quiera tomado al azar, constituyen experimentos aleatorios simples porqueinvolucran tomar un solo elemento al azar de una población.

Tanto la avidez del jugador como la de la compañía de seguros nos llevana los experimentos aleatorios compuestos –tomar más de un elemento alazar– donde el jugador haría varias jugadas o la compañía aseguraría variosautos.

El proceso de tomar al azar uno o más elementos de una determinadapoblación es un experimento aleatorio.

Si se selecciona un solo elemento, referido a una variable, el experi-mento es simple y si se seleccionan dos o más elementos, referidos a esavariable, el experimento aleatorio es compuesto porque es el resultadode la repetición de uno simple.

Por otro lado, si se selecciona un elemento al azar pero referido a doso más variables conjuntamente resulta también un experimento aleato-rio compuesto.

Cuando se seleccionan muestras aleatorias de tamaño n de una población seestán realizando n experimentos aleatorios simples.

Espacio muestral

Denominamos espacio muestral (E) al conjunto de todos los resultados posi-bles de un experimento aleatorio.

En el ejemplo del actuario nos interesa si al seleccionar un auto de esamarca y modelo éste puede ser robado o no, entonces los resultados posi-bles son: será robado o no será robado:

5566

Universidad Virtual de Quilmes

Experimento aleatorio,probabilístico o estocás-tico: es aquel donde no se puededeterminar a priori cuál va a ser suresultado.

Page 57: Estadisticas Angel Estadistica Angel Borgna Fernandez

E = {robado, no robado}

En una jugada de la ruleta los resultados posibles son:

E = {todos los números de la ruleta} = {0, 1, 2, 3, ......... , 34, 35, 36}

En la siguiente tabla figuran distintos tipos de experimentos aleatorios y espa-cios muestrales asociados a ellos.

Como puede apreciarse, los experimentos 1 y 3 son simples y el 2 es un expe-rimento compuesto por repetición de uno simple.

Para describir los elementos de un espacio muestral de un experimentocompuesto se puede recurrir a un diagrama denominado diagrama de árboldonde cada una de las ramas representa a cada uno de los elementos com-puestos del espacio muestral.

El diagrama de árbol (G.2.1.) correspondiente al segundo experimento es

Gráfico 2.1. Diagrama de árbol

Suceso o evento aleatorio

Un suceso o evento aleatorio es cualquier subconjunto de un espaciomuestral.

5577

Estadistica

Experimento aleatorio Espacio muestral

Si se tomara/n al azar: Se obtendrían los siguientes resultados

1- Una pyme del grupo que figura en la matriz ME 3 de la Unidad anterior y se examinara el rubro al que pertenece. E ={ A, C, I, S}

2- Dos empleados de la empresa cooperativa de la matriz ME 1 y se observara el sexo al que pertenece cada uno.

E={FF, FM, MF, MM}

3- Una vivienda entre las de la ME 2 y se reflexionara acerca de la cantidad de ambientes que tiene.

E ={ 1, 2, 3, 4, 5}

Page 58: Estadisticas Angel Estadistica Angel Borgna Fernandez

Son ejemplos de sucesos aleatorios del Espacio muestral del experimento 3,que la vivienda seleccionada tenga:

S1 = {hasta 3 ambientes} S1 = {1, 2, 3}

S2 = {1 ambiente} S2 = {1}

S3 = {8 ambientes}S3 = { } = Φ

S4 = {hasta 5 ambientes} S4 = {1, 2, 3, 4, 5} = E

S5 = {3 o 4 ambientes} S5 = {3, 4}

S6 = {menos de 4 ambientes}S6 = {1, 2, 3}

S7 = {más de 3 ambientes}S7 = {4, 5}

Un suceso ocurrirá si el resultado del experimento aleatorio es un ele-mento de dicho suceso.

Si un suceso tiene un solo elemento (por ejemplo S2) se dice que es un suce-so elemental.

Si los elementos de un suceso son todos los del espacio muestral (el suce-so coincide con E como el S4) al suceso se lo denomina suceso cierto y ocu-rre siempre al realizar el experimento.

Si un suceso no tiene elementos, es un conjunto vacío como el S3 y se llamasuceso imposible. Este suceso no podría ocurrir al realizar el experimento.

Relaciones entre sucesos

Las relaciones más destacables que se pueden establecer entre dos o mássucesos son: identidad, exclusión e independencia. Para ejemplificarlas usa-remos los sucesos S1 a S7.

Identidad

Dos o más sucesos son idénticos cuando tienen los mismos elementos.

Considerando el suceso S6 podemos notar claramente que es idéntico al suce-so S1.

5588

Universidad Virtual de Quilmes

Page 59: Estadisticas Angel Estadistica Angel Borgna Fernandez

Exclusión

Dos sucesos son mutuamente excluyentes cuando la ocurrencia de unoexcluye la ocurrencia del otro. Es decir, que no tienen elementos encomún.

Por ejemplo, los sucesos S2 y S5 porque si ocurre S2 no puede ocurrir S5 yviceversa, por lo tanto son mutuamente excluyentes.

Dos sucesos aleatorios son no excluyentes, caso S5 y S7, cuando tienenelementos en común.

Un suceso está incluido en otro cuando todos sus elementos son parte de loselementos del otro como en el caso del suceso S2 que está contenido en S1.

El espacio muestral y los sucesos aleatorios pueden representarse median-te un diagrama de Venn.

En los siguientes diagramas se visualizan las tres formas que puede adop-tar la relación de exclusión entre dos sucesos aleatorios.

Gráfico 2.2.

Independencia

Dos sucesos son independientes cuando la ocurrencia de uno no condicionala ocurrencia del otro.

Observando el primer caso del gráfico 2.2. –donde los sucesos son mutua-mente excluyentes– si uno ocurriera, el otro nunca podría ocurrir. Eso implicala total dependencia del segundo suceso respecto del primero, y viceversa.

Si dos sucesos son mutuamente excluyentes entonces son fuertementedependientes.

En el tercer diagrama, del mismo gráfico, si ocurriese el suceso incluido nece-sariamente el suceso incluyente ocurrirá, por lo que éste también es fuerte-mente dependiente de aquél.

5599

Estadistica

Juan Venn (1834-1923).Filósofo e historiador inglés.

Su obra de lógica más original esla Lógica del azar.

Page 60: Estadisticas Angel Estadistica Angel Borgna Fernandez

Si un suceso incluye a otro entonces es fuertemente dependiente delsuceso incluido.

En el caso de los sucesos no excluyentes, segunda forma del gráfico, el aná-lisis de la independencia requiere de otras consideraciones que se irán incor-porando paulatinamente. Pero sí se puede afirmar que:

Si dos sucesos son independientes no son mutuamente excluyentes.

Operaciones entre sucesos

Las operaciones entre sucesos son las tres operaciones de Boole (unión, inter-sección y complemento) del álgebra de conjuntos más la operación diferencia.

Estas operaciones aplicadas a dos o más sucesos aleatorios devuelvensiempre un nuevo suceso aleatorio.

Unión

La unión de dos sucesos Si y Sj es un nuevo suceso (Si U Sj) cuyos ele-mentos pertenecen a alguno de los dos sucesos (a Si o a Sj o a ambos).

Gráfico 2.3.

Consideremos las siguientes uniones de sucesos aleatorios:

S2 U S5 = {1} U {3, 4} = {1, 3, 4}S7 U S5 = {4, 5} U {3, 4} = {3, 4, 5}S1 U S2 = {1, 2, 3} U {1} = {1, 2, 3}

6600

Universidad Virtual de Quilmes

Estudiadas sistemática-mente por el lógico irlan-dés J. Boole (1815-1864) y aplica-das al diseño de circuitos electrónicosa partir de 1939 y a la telefonía,control automático y computado-ras en general hasta hoy.

Page 61: Estadisticas Angel Estadistica Angel Borgna Fernandez

Intersección

La intersección de dos sucesos Si y Sj es un nuevo suceso (Si �Sj) cuyoselementos pertenecen conjuntamente a ambos sucesos.

Gráfico 2.4.

La intersección de los sucesos S7 y S5, con los que ya operamos, es:

S7 I S5 = {4, 5} I {3, 4} = {4}El suceso S7 I S5 ocurrirá sí y solo sí ocurrieran simultáneamente los suce-sos S7 y S5.

1.a. Realizar la intersección entre los sucesos S2 y S5.b. Indicar qué tipo particular de suceso es la intersección entre dos suce-

sos mutuamente excluyentes.

Complemento

El complemento de un suceso S es otro suceso cuyos elementos son todoslos elementos del espacio muestral que no pertenecen al suceso S.

Gráfico 2.5.

El complemento del suceso S1 es:

S {todos los elementos de E que no están en S1} = {4, 5}

6611

Estadistica

Page 62: Estadisticas Angel Estadistica Angel Borgna Fernandez

Diferencia

La diferencia entre dos sucesos Si y Sj es un nuevo suceso (Si –Sj) cuyoselementos pertenecen sólo a Si.

Gráfico 2.6.

Las siguientes diferencias entre sucesos son:

S7 – S5 = {4, 5} – {3, 4} = {5}S1 – S2 = {1, 2, 3} – {1} = {2, 3}

2.a. Determinar la diferencia entre los sucesos S2 y S5.b. Determinar el suceso resultante de la diferencia entre dos sucesos

mutuamente excluyentes.

2.1.2. Definiciones de probabilidad

Enunciaremos las definiciones de probabilidad teniendo en cuenta su formu-lación histórica.

Definición clásica

La definición clásica de probabilidad se debe a Pierre Simón de Laplace paraquien la teoría del azar consiste en determinar el número de casos favorablesal acontecimiento cuya probabilidad se indaga. La razón de este número conla de todos los casos posibles es la medida de la probabilidad, que no es másque una fracción cuyo numerador es el número de casos favorables y cuyodenominador es el número total de casos posibles.

Es decir:

cantidad de casos favorablesp =

cantidad de casos posibles

Apliquemos esta definición a algún suceso en la jugada de la ruleta, por ejem-plo, si nos interesa que en la próxima tirada de la ruleta salga par.

6622

Universidad Virtual de Quilmes

Essai philosophique surles probabilités (1814).Pierre Simón de Laplace (1749-1827), astrónomo y matemáticofrancés. Otras obras: MecánicaCeleste y El sistema del mundo.

Page 63: Estadisticas Angel Estadistica Angel Borgna Fernandez

El espacio muestral es:E = {todos los números de la ruleta} E = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20,21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31. 32, 33, 34, 35, 36}y el suceso o evento de interés es: S = {que salga par} S = {2, 4, 6, 8, 10, 12, 14, 16, 18 , 20, 22, 24, 26, 28, 30, 32, 34, 36}

P(S) = P(par) = 18 / 37 = 0,4865

Definición frecuencial

Richard E. von Mises propuso la siguiente definición de probabilidad frecuen-cial en 1919.

��� La probabilidad de un suceso cualquiera es “[...] el Valor Límite de la

Frecuencia Relativa... Esta es la razón del número de casos en que el atributo a

sido hallado al número total de observaciones [...]” ���

Es decir: p = f r

Supongamos que el actuario ha recabado información sobre una cantidadgrande de autos asegurados y que de ellos el 15% sufrió algún robo. El actua-rio con ese dato puede calcular la probabilidad del suceso S: “el auto asegu-rado no sería robado”.

P(S) = P( no robado) = 85/100 = 0,85

2.1.3. Axiomatización de la probabilidad

La Teoría de la Probabilidad fue estructurada algebraicamente a partir de 1930por matemáticos de la escuela ruso-francesa, dentro de una teoría especialde la medida de conjuntos. Esa teoría de la medida nos permitiría hablar dela probabilidad de un suceso aleatorio, como la medida de su ocurrencia.

Su utilidad reside en entregar al cálculo de probabilidades una herramien-ta algebraica, es decir, un conjunto de operaciones y maneras de operar conprobabilidades.

Su cuerpo principal consiste en tres axiomas y un grupo de propiedades(teoremas).

6633

Estadistica

Matemático y filósofo aus-tríaco (1883-1953).

Tomado de su l ibroProbabilidad, Estadística

y Verdad (1928).

Los referentes másimportantes de esta

escuela son: A. N. Kolmogoroff, F.Cantelli, E. Borel y otros.

Recordar que los axiomasson proposiciones intui-

tivas aceptadas sin demostracióny que a partir de ellos pueden dedu-cirse las propiedades (teoremas).

Supongamos que el actuario ha recabado información sobre una cantidad grande de autos asegurados y que de ellos el 15% sufrió algún robo. El actuario con ese dato puede calcular la probabilidad del suceso S: “el auto asegurado no sería robado”.

P(S) = P( no robado) = 85/100 = 0,85

2.1.3. Axiomatización de la probabilidad

La Teoría de la Probabilidad fue estructurada algebraicamente a partir de 1930 por matemáticos de la escuela ruso-francesa, dentro de una teoría especial de la medida de conjuntos. Esa teoría de la medida nos permitiría hablar de la probabilidad de un suceso aleatorio, como la medida de su ocurrencia.

COMIENZO DE PASTILLA EN escuela ruso-francesaLos referentes más importantes de esta escuela son: A. N. Kolmogoroff, F. Cantelli, E. Borel y otros.FIN DE PASTILLA

Su utilidad reside en entregar al cálculo de probabilidades una herramienta algebraica, es decir, un conjunto de operaciones y maneras de operar con probabilidades.

Su cuerpo principal consiste en tres axiomas y un grupo de propiedades (teoremas).

COMIENZO DE PASTILLA EN axiomasRecordar que los axiomas son proposiciones intuitivas aceptadas sin demostración y que a partir de ellos pueden deducirse las propiedades (teoremas).FIN DE PASTILLA

Axiomas

A.1. P (S) 0 la probabilidad de un suceso aleatorio S es un número no negativo.

A.2. P(E) = 1 la probabilidad del espacio muestral E es 1.

A.3. Si S

j = entonces

P(Si S

j) = P (S

i) + P(S

j)

la probabilidad de la unión de dos sucesos aleatorios Si y Sj mutuamente excluyentes es la suma de sus respectivas probabilidades.

Propiedades

P.1. 0 P(S) 1Se deduce combinando A.1. y A.2.

P.2. P( ) = 1 – P(S) Se deduce combinando A.2. y A.3.

P.3. P( ) = 0Se deduce de A.3. y considerando que es el complemento de E

P.4. P(Si S

j) = P (S

i) + P(S

j) – P(S

i S

j)

Se deduce de A.3. y de considerar a cada uno de los sucesos como unión de partes mutuamente excluyentes.

COMIENZO DE ACTIVIDAD 3.Demostrar la P.4. utilizando la sugerencia dada.FIN DE ACTIVIDAD

Page 64: Estadisticas Angel Estadistica Angel Borgna Fernandez

3.Demostrar la P.4. utilizando la sugerencia dada.

2.1.4. Tipos de probabilidad

Hay tres tipos de probabilidad de que ocurra un suceso aleatorio, a saber: pro-babilidad total, probabilidad conjunta o compuesta y probabilidad condicional

Probabilidad total

Se denomina probabilidad total a la probabilidad del suceso resultante de launión de dos o más sucesos cualesquiera.

Las probabilidades de los sucesos vistos en el subapartado 2.1.2. “que elauto asegurado no sea robado” y “que salga un número par en la jugada dela ruleta” son ejemplos de probabilidad total.

El suceso “que el auto asegurado no sea robado” es un suceso elemen-tal, en cambio el suceso “que salga un número par en la jugada de la ruleta”resulta de la unión de los sucesos elementales {2}, {4}, {6}, {8},......, {30},{32},{34},{36} o sea,

P(sea par) = P({2}U{4}U {6}U{8}U......U{30}U{32}U{34}U{36})P(sea par) = P(2) + P(4) + P(6) + P(8) +...+ P(30) + P(32) + P(34) + P(36) =1/37 + 1/37 + 1/37 +…….+ 1/37 + 1/37 = 18 .1/ 37 = 18/37

El cálculo realizado se basa en el tercer axioma y supone la equiprobabilidadde cada uno de los resultados de la jugada de la ruleta.

Probabilidad condicional

Supongamos que un estudio contable que recién se inicia debe presentar anteun organismo oficial dos declaraciones juradas (DDJJ) tomadas al azar entresus 10 clientes. Entre ellos, tres son grandes contribuyentes (G) y el restomonotributistas (M).

El espacio muestral E = {GG, GM, MG, MM} puede obtenerse a partir deldiagrama de árbol del gráfico 2.7. en el que se incluyen las probabilidadestotales correspondientes a la primera selección

6644

Universidad Virtual de Quilmes

Supongamos que el actuario ha recabado información sobre una cantidad grande de autos asegurados y que de ellos el 15% sufrió algún robo. El actuario con ese dato puede calcular la probabilidad del suceso S: “el auto asegurado no sería robado”.

P(S) = P( no robado) = 85/100 = 0,85

2.1.3. Axiomatización de la probabilidad

La Teoría de la Probabilidad fue estructurada algebraicamente a partir de 1930 por matemáticos de la escuela ruso-francesa, dentro de una teoría especial de la medida de conjuntos. Esa teoría de la medida nos permitiría hablar de la probabilidad de un suceso aleatorio, como la medida de su ocurrencia.

COMIENZO DE PASTILLA EN escuela ruso-francesaLos referentes más importantes de esta escuela son: A. N. Kolmogoroff, F. Cantelli, E. Borel y otros.FIN DE PASTILLA

Su utilidad reside en entregar al cálculo de probabilidades una herramienta algebraica, es decir, un conjunto de operaciones y maneras de operar con probabilidades.

Su cuerpo principal consiste en tres axiomas y un grupo de propiedades (teoremas).

COMIENZO DE PASTILLA EN axiomasRecordar que los axiomas son proposiciones intuitivas aceptadas sin demostración y que a partir de ellos pueden deducirse las propiedades (teoremas).FIN DE PASTILLA

Axiomas

A.1. P (S) 0 la probabilidad de un suceso aleatorio S es un número no negativo.

A.2. P(E) = 1 la probabilidad del espacio muestral E es 1.

A.3. Si S

j = entonces

P(Si S

j) = P (S

i) + P(S

j)

la probabilidad de la unión de dos sucesos aleatorios Si y Sj mutuamente excluyentes es la suma de sus respectivas probabilidades.

Propiedades

P.1. 0 P(S) 1Se deduce combinando A.1. y A.2.

P.2. P( S ) = 1 – P(S) Se deduce combinando A.2. y A.3.

P.3. P( ) = 0Se deduce de A.3. y considerando que es el complemento de E

P.4. P(Si S

j) = P (S

i) + P(S

j) – P(S

i S

j)

Se deduce de A.3. y de considerar a cada uno de los sucesos como unión de partes mutuamente excluyentes.

COMIENZO DE ACTIVIDAD 3.Demostrar la P.4. utilizando la sugerencia dada.FIN DE ACTIVIDAD

Se entiende por equipro-babilidad, en el sentidoexpresado por Laplace, a la igual-dad de oportunidad que tiene cadauno de los resultados elementalesde una población para ser selec-cionado durante la realización deun experimento aleatorio.

Page 65: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 2.7. Diagrama de árbol

Es decir, por ejemplo, que hay una probabilidad de 0,3 –probabilidad total–de que la primera declaración jurada seleccionada corresponda a un grancontribuyente.

A continuación, completaremos el diagrama agregando las probabilidadesde los resultados de la segunda selección de una declaración teniendo encuenta que en la segunda instancia el conjunto de DDJJ va a contar con un ele-mento menos cambiando también su composición.

Gráfico 2.8. Diagrama de árbol

Si nos interesara, por ejemplo, la probabilidad de que la segunda declaraciónjurada extraída sea de un monotributista tendríamos dos respuestas posibles(7/9 y 6/9) dependiendo de cuál haya sido el resultado de la primera selec-ción. Es decir, que la segunda selección está sujeta o condicionada a lo queocurrió en la primera. Las probabilidades consignadas al lado de cada resul-tado de la segunda extracción son probabilidades condicionales.

La probabilidad condicional mide la ocurrencia de un suceso B si hubie-ra ocurrido el suceso A y se expresa P(B/A), donde A es el suceso con-dición y el símbolo “/” es una notación (no una operación).

Las probabilidades condicionales consignadas en el árbol son:P(G/G) = 2/9 = 0,2222 P(G/M) = 7/9 = 0,7778P(M/G) = 3/9 = 0,3333 P(M/M) = 6/9 = 0,6667

6655

Estadistica

La notación P(B/A) sedebe al economista inglés

J. M. Keynes (1883 – 1946) en suTratado sobre las probabilidades(1933).

Page 66: Estadisticas Angel Estadistica Angel Borgna Fernandez

La primera se lee: 0,2222 es la probabilidad de que en la segunda selecciónla Declaración Jurada sea de un gran contribuyente si (dado que, tal que,sabiendo que) la primera hubiera sido también de un gran contribuyente.

Probabilidad conjunta o compuesta

Las probabilidades de cada uno de los sucesos del espacio muestral se deno-minan probabilidades compuestas y miden la probabilidad de ocurrencia con-junta o simultánea de dos resultados particulares en ambas selecciones.

Convenimos en: P(GG) = P(primero G y segundo G) = P(G1 I G2) = P(G I G)

La probabilidad compuesta o conjunta es la probabilidad de que ocu-rran simultáneamente dos o más sucesos.

Utilizando la definición de Laplace (casos favorables/casos posibles) la pro-babilidad del suceso GG resulta :

donde la cantidad de casos posibles resulta de contar todas las combinacio-nes de diez DDJJ (al momento de la primera selección) por nueve DDJJ (en lasegunda instancia), y la cantidad de casos favorables también resulta de lacombinación de 3 G (primera vez) por 2 G (segunda vez).

Relacionando con las probabilidades del árbol resulta finalmente:

Generalizando para dos sucesos cualesquiera A y B:

P(A I B) = P(A). P(B/A)

La probabilidad compuesta entre dos sucesos A y B resulta de la multi-plicación de la probabilidad total del suceso condición A por la proba-bilidad condicional de B tal que A.

Conclusiones

Dados dos sucesos A y B de un espacio muestral de un experimento aleato-rio con probabilidades no nulas, a partir de lo visto, se pueden deducir lassiguientes proposiciones:

6666

Universidad Virtual de Quilmes

Page 67: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los experimentos aleatorios compuestos por repetición de uno simple son elmecanismo básico para la confección de muestras en una población.

Otro tipo de experimentos compuestos sirven al estudio de la asociacióny/o relación causa efecto entre variables y son los experimentos compuestosbivariados.

Experimento bivariado

Como ejemplo para el tratamiento de la probabilidad en experimentos biva-riados analizaremos un caso particular como medio para la generalización.

Con la finalidad de pronosticar el estado del tránsito en función de la ocu-rrencia de embotellamiento a partir de la existencia de un accidente en unaautopista en determinada franja horaria, se relevaron datos históricos obte-niéndose la siguiente información: el 20% de los automóviles que circulan poresa autopista en el horario estudiado tuvieron algún tipo de accidente; el 95%de las veces en que ocurrió un accidente se produjo un embotellamiento ycuando no hubo accidente ocurrió un embotellamiento el 15% de las veces.

Notamos que podríamos identificar la ocurrencia de un accidente comocausa y el embotellamiento como un efecto..

En el diagrama de árbol del gráfico 2.9. se ilustra la información:

Gráfico 2.9. Diagrama de árbol

6677

Estadistica

Page 68: Estadisticas Angel Estadistica Angel Borgna Fernandez

Donde las probabilidades que se tienen son:

A partir de estas probabilidades pueden calcularse las probabilidades conjuntas:

Con las probabilidades totales de las causas y las conjuntas armamos unatabla conjunta de probabilidades o tabla de contingencias.

En la que además aparecen calculadas las probabilidades totales de los efec-tos Embotellamiento y No embotellamiento.

Por su ubicación en la tabla de contingencia, a las probabilidades totalesse las suele denominar también probabilidades marginales.

A partir de la tabla de contingencias pueden calcularse las siguientes pro-babilidades condicionales de las causas a partir de los efectos:

6688

Universidad Virtual de Quilmes

Los experimentos aleatorios compuestos por repetición de uno simple son el mecanismo básico para la confección de muestras en una población.

Otro tipo de experimentos compuestos sirven al estudio de la asociación y/o relación causa efecto entre variables y son los experimentos compuestos bivariados.

Experimento bivariado

Como ejemplo para el tratamiento de la probabilidad en experimentos bivariados analizaremos un caso particular como medio para la generalización.

Con la finalidad de pronosticar el estado del tránsito en función de la ocurrencia de embotellamiento a partir de la existencia de un accidente en una autopista en determinada franja horaria, se relevaron datos históricos obteniéndose la siguiente información: el 20% de los automóviles que circulan por esa autopista en el horario estudiado tuvieron algún tipo de accidente; el 95% de las veces en que ocurrió un accidente se produjo un embotellamiento y cuando no hubo accidente ocurrió un embotellamiento el 15% de las veces.

Notamos que podríamos identificar la ocurrencia de un accidente como causa y el embotellamiento como un efecto.En el diagrama de árbol del gráfico 2.9. se ilustra la información:

Insertar Imagen Nº G.2.9. 0,85

Donde las probabilidades que se tienen son:

total de Accidente P(A) = 0,20total de No accidente P(A ) = 0,80condicional de Embotellamiento tal que Accidente P(E/A) = 0,95

condicional de No embotellamiento tal que Accidente P(E /A) = 0,05condicional de Embotellamiento tal que No accidente P(E/A ) = 0,15

condicional de No embotellamiento tal que No accidente P(E /A ) = 0,85

A partir de estas probabilidades pueden calcularse las probabilidades conjuntas

de Accidente y Embotellamiento P(A E) = 0,19

de Accidente y No embotellamiento P(A ) = 0,01

de No accidente y Embotellamiento P( E) = 0,12

de No accidente y No embotellamiento P( ) = 0,68

Los experimentos aleatorios compuestos por repetición de uno simple son el mecanismo básico para la confección de muestras en una población.

Otro tipo de experimentos compuestos sirven al estudio de la asociación y/o relación causa efecto entre variables y son los experimentos compuestos bivariados.

Experimento bivariado

Como ejemplo para el tratamiento de la probabilidad en experimentos bivariados analizaremos un caso particular como medio para la generalización.

Con la finalidad de pronosticar el estado del tránsito en función de la ocurrencia de embotellamiento a partir de la existencia de un accidente en una autopista en determinada franja horaria, se relevaron datos históricos obteniéndose la siguiente información: el 20% de los automóviles que circulan por esa autopista en el horario estudiado tuvieron algún tipo de accidente; el 95% de las veces en que ocurrió un accidente se produjo un embotellamiento y cuando no hubo accidente ocurrió un embotellamiento el 15% de las veces.

Notamos que podríamos identificar la ocurrencia de un accidente como causa y el embotellamiento como un efecto.En el diagrama de árbol del gráfico 2.9. se ilustra la información:

Insertar Imagen Nº G.2.9. 0,85

Donde las probabilidades que se tienen son:

total de Accidente P(A) = 0,20total de No accidente P( ) = 0,80condicional de Embotellamiento tal que Accidente P(E/A) = 0,95

condicional de No embotellamiento tal que Accidente P( /A) = 0,05condicional de Embotellamiento tal que No accidente P(E/ ) = 0,15

condicional de No embotellamiento tal que No accidente P( / ) = 0,85

A partir de estas probabilidades pueden calcularse las probabilidades conjuntas

de Accidente y Embotellamiento P(A E) = 0,19

de Accidente y No embotellamiento P(A E ) = 0,01

de No accidente y Embotellamiento P(A E) = 0,12

de No accidente y No embotellamiento P(A E ) = 0,68

Con las probabilidades totales de las causas y las conjuntas armamos una tabla conjunta de probabilidades o tabla de contingencias.

E E Total

A 0,19 0,01 0,20

A 0,12 0,68 0,80

Total 0,31 0,69 1

En la que además aparecen calculadas las probabilidades totales de los efectos Embotellamiento y No embotellamiento.

Por su ubicación en la tabla de contingencia, a las probabilidades totales se las suele denominar también probabilidades marginales.

A partir de la tabla de contingencias pueden calcularse las siguientes probabilidades condicionales de las causas a partir de los efectos

Accidente tal que Embotellamiento P(A/E) = 0,19/0,31 = 0,6129

Accidente tal que No embotellamiento P(A/ ) = 0,01/0,69 = 0,0145No accidente tal que Embotellamiento P( /E) = 0,12/0,31 = 0,0039No accidente tal que No embotellamiento P( / ) = 0,68/0,69 = 0,9855

Las probabilidades calculadas se denominan probabilidades bayesianas o probabilidades condicionales de la causas y se formalizan mediante el teorema de Bayes

COMIENZO DE PASTILLA EN BayesEn 1764, después de la muerte de Thomas Bayes (1702-1761), se publicó An essay formars solving a problem in the doctrine of chances, una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. FIN DE PASTILLA

Dado el suceso B (efecto) de un espacio muestral E y una partición de n sucesos Ai (causas) de dicho espacio, la

probabilidad de que ocurra el suceso Ai si ocurriera el suceso B es:

donde P(B) es la probabilidad total del suceso condición y P(B) 0.

Para Aj cualquier suceso del conjunto de los A

i con i = 1, 2…n

COMIENZO DE ACTIVIDAD 4. Considerando la tabla conjunta 1.11. del subapartado 1.1.2. de la Unidad anterior referida al rubro y evolución de los puestos de trabajo de las pymes, calcular una probabilidad de cada uno de los tipos vistos e interpretarla.FIN DE ACTIVIDAD

Con las probabilidades totales de las causas y las conjuntas armamos una tabla conjunta de probabilidades o tabla de contingencias.

E Total

A 0,19 0,01 0,20

0,12 0,68 0,80

Total 0,31 0,69 1

En la que además aparecen calculadas las probabilidades totales de los efectos Embotellamiento y No embotellamiento.

Por su ubicación en la tabla de contingencia, a las probabilidades totales se las suele denominar también probabilidades marginales.

A partir de la tabla de contingencias pueden calcularse las siguientes probabilidades condicionales de las causas a partir de los efectos

Accidente tal que Embotellamiento P(A/E) = 0,19/0,31 = 0,6129

Accidente tal que No embotellamiento P(A/E ) = 0,01/0,69 = 0,0145No accidente tal que Embotellamiento P(A /E) = 0,12/0,31 = 0,0039No accidente tal que No embotellamiento P(A /E ) = 0,68/0,69 = 0,9855

Las probabilidades calculadas se denominan probabilidades bayesianas o probabilidades condicionales de la causas y se formalizan mediante el teorema de Bayes

COMIENZO DE PASTILLA EN BayesEn 1764, después de la muerte de Thomas Bayes (1702-1761), se publicó An essay formars solving a problem in the doctrine of chances, una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. FIN DE PASTILLA

Dado el suceso B (efecto) de un espacio muestral E y una partición de n sucesos Ai (causas) de dicho espacio, la

probabilidad de que ocurra el suceso Ai si ocurriera el suceso B es:

donde P(B) es la probabilidad total del suceso condición y P(B) 0.

Para Aj cualquier suceso del conjunto de los A

i con i = 1, 2…n

COMIENZO DE ACTIVIDAD 4. Considerando la tabla conjunta 1.11. del subapartado 1.1.2. de la Unidad anterior referida al rubro y evolución de los puestos de trabajo de las pymes, calcular una probabilidad de cada uno de los tipos vistos e interpretarla.FIN DE ACTIVIDAD

Page 69: Estadisticas Angel Estadistica Angel Borgna Fernandez

Las probabilidades calculadas se denominan probabilidades bayesianas o pro-babilidades condicionales de la causas y se formalizan mediante el teoremade Bayes.

Dado el suceso B (efecto) de un espacio muestral E y una partición de nsucesos Ai (causas) de dicho espacio, la probabilidad de que ocurra el suce-so Ai si ocurriera el suceso B es:

donde P(B) es la probabilidad total del suceso condición y P(B) ≠ 0.

Para Aj cualquier suceso del conjunto de los Ai con i = 1, 2…n

4.Considerando la tabla conjunta 1.11. del subapartado 1.1.2. de la Uni-dad anterior referida al rubro y evolución de los puestos de trabajo delas pymes, calcular una probabilidad de cada uno de los tipos vistos einterpretarla.

2.2. Variable aleatoria

Una variable aleatoria asigna valores numéricos, del conjunto de los númerosreales, a los sucesos definidos en el espacio muestral asociado a un experi-mento aleatorio.

En caso de que el espacio muestral de un experimento aleatorio tenga unacantidad finita o infinita numerable de elementos, es decir, que permite algúnmecanismo de conteo, la variable aleatoria diseñada será una variable alea-toria discreta.

En caso de que el experimento aleatorio involucre algún tipo de medición,–cuyos resultados pertenecen a regiones del conjunto de los números reales–donde es clara la imposibilidad de conteo, la variable aleatoria es de natura-leza continua y por ello se la denomina variable aleatoria continua.

Se denomina variable aleatoria a una función del espacio muestral sobreel espacio de los números reales.

2.2.1. Variable aleatoria discreta

Las variables aleatorias discretas son funciones del espacio muestral sobreel subconjunto de los enteros.

Diseñaremos una variable aleatoria discreta para el ejemplo del estudiocontable utilizado en el subapartado 2.1.4. (probabilidad condicional).

6699

Estadistica

En 1764, después de lamuerte de Thomas Bayes

(1702-1761), se publicó An essayformars solving a problem in thedoctrine of chances, una memo-ria en la que aparece, por vez pri-mera, la determinación de la pro-babilidad de las causas a partirde los efectos que han podido serobservados.

Page 70: Estadisticas Angel Estadistica Angel Borgna Fernandez

Recordemos que el espacio muestral es: E = {GG, GM, MG, MM}

La variable aleatoria de diseño que elegimos es:

X: “cantidad de DDJJ de clientes monotributistas entre las dos seleccionadas”

La variable aleatoria X recorrerá los valores enteros entre 0 y 2, donde 0 sig-nifica que ninguna de las dos DDJJ corresponderían a monotributistas y 2 queambas declaraciones sean de monotributistas.

El recorrido de X es R(X) = {0, 1, 2}

Calculamos la probabilidad para cada valor r del recorrido de X obteniendo asílos valores de la denominada función de probabilidad h(r). Siendo h(r) = P(X = r)

h (0) = P( X= 0 M) = P(GG) = 6/90h (1) = P( X= 1 M) = P(G, M) + P(MG) = 21/90 + 21/90 = 42/ 90h (2) = P( X= 2 M) = P(MM) = 42/90

Confeccionamos a continuación la tabla (T.2.1.) de distribución de probabilidades. T.2.1.

Donde F(r) es la función de distribución acumulativa o simplemente función dedistribución. Siendo F(r) = P(x ≤ r).

h(r) es una función de probabilidad de una variable aleatoria discre-ta X sí y sólo si para todo elemento r del R(X) se cumplen las siguien-tes propiedades que se desprenden de los dos primeros axiomas deprobabilidad.h(r) ≥ 0 ∑ h(r) = 1

Un gráfico adecuado para la función de probabilidad h(r) es el de bastones ypara la función de distribución es el de escalones, ambos vistos en el suba-partado 1.1.3. de la Unidad 1.

7700

Universidad Virtual de Quilmes

Al momento de diseñaruna variable aleatoria dis-creta debe optarse por alguna delas categorías involucradas en elproblema para la cual la variablehará el conteo. En nuestro caso,podría haberse optado por otra varia-ble que contara la cantidad de ddjjde grandes clientes entre las dosseleccionadas.

2.2. Variable aleatoria

Una variable aleatoria asigna valores numéricos, del conjunto de los números reales, a los sucesos definidos en el espacio muestral asociado a un experimento aleatorio.

En caso de que el espacio muestral de un experimento aleatorio tenga una cantidad finita o infinita numerable de elementos, es decir, que permite algún mecanismo de conteo, la variable aleatoria diseñada será una variable aleatoria discreta.

En caso de que el experimento aleatorio involucre algún tipo de medición, –cuyos resultados pertenecen a regiones del conjunto de los números reales– donde es clara la imposibilidad de conteo, la variable aleatoria es de naturaleza continua y por ello se la denomina variable aleatoria continua.

COMIENZO DE LEER ATENTO Se denomina variable aleatoria a una función del espacio muestral sobre el espacio de los números reales. FIN DE LEER ATENTO

2.2.1. Variable aleatoria discreta

Las variables aleatorias discretas son funciones del espacio muestral sobre el subconjunto de los enteros.Diseñaremos una variable aleatoria discreta para el ejemplo del estudio contable utilizado en el subapartado 2.1.4.

(probabilidad condicional).

Recordemos que el espacio muestral es: E = {GG, GM, MG, MM}

La variable aleatoria de diseño que elegimos es:

X: “cantidad de DDJJ de clientes monotributistas entre las dos seleccionadas”

COMIENZO DE PASTILLA EN monotributistasAl momento de diseñar una variable aleatoria discreta debe optarse por alguna de las categorías involucradas en el problema para la cual la variable hará el conteo. En nuestro caso, podría haberse optado por otra variable que contara la cantidad de DDJJ de grandes clientes entre las dos seleccionadas.

FIN DE PASTILLA

La variable aleatoria X recorrerá los valores enteros entre 0 y 2, donde 0 significa que ninguna de las dos DDJJ corresponderían a monotributistas y 2 que ambas declaraciones sean de monotributistas.

X E

GG 0

GMMG 1

MM 2

El recorrido de X es R(X) = {0, 1, 2}

Calculamos la probabilidad para cada valor r del recorrido de X obteniendo así los valores de la denominada función de probabilidad h(r). Siendo h(r) = P(X = r)

h (0) = P( X= 0 M) = P(GG) = 6/90h (1) = P( X= 1 M) = P(G, M) + P(MG) = 21/90 + 21/90 = 42/ 90h (2) = P( X= 2 M) = P(MM) = 42/90

Confeccionamos a continuación la tabla (T.2.1.) de distribución de probabilidades. T.2.1.

r h(r) F(r)0 6/90 6/901 42/90 48/902 42/90 1

Donde F(r) es la función de distribución acumulativa o simplemente función de distribución. Siendo F(r) = P(x r).

COMIENZO DE LEER ATENTO h(r) es una función de probabilidad de una variable aleatoria discreta X si y sólo si para todo elemento r del R(X) se cumplen las siguientes propiedades que se desprenden de los dos primeros axiomas de probabilidad.

h(r) 1) 0 h(r) = 1

FIN DE LEER ATENTO

Un gráfico adecuado para la función de probabilidad h(r) es el de bastones y para la función de distribución es el de escalones, ambos vistos en el subapartado 1.1.3. de la Unidad 1.

El carácter numérico de la variable aleatoria permite calcular algunas de las medidas –media, varianza y desvío estándar– de las aplicadas anteriormente a las variables estadísticas, con la siguiente salvedad: en una variable estadística la media corresponde a un promedio observado mientras que en una variable aleatoria la media indica un promedio esperado, o valor esperado, y se denomina esperanza.

La esperanza E(X), la varianza V(X) y el desvío estándar DS(X) se expresan

E(X) = para todo r del R(X)

DS(X) =

La esperanza de la variable del problema es:

E (X) = 0.6/90 +1.42/90 + 2. 42/90 = 1,4 DDJJ de monotributistas

Es decir, que si se seleccionan al azar dos DDJJ se espera que entre ellas haya 1,4 de clientes monotributistas.La varianza y el desvío estándar son: V(X) = 0,3733 y DS(X) = 0,611

Propiedades de la esperanza y de la varianza

COMIENZO DE PASTILLA EN al la altura del subtítulo Las propiedades que se enuncian son válidas en cualquier experimento aleatorio, sea este simple o compuesto.FIN DE PASTILLA

P.1. E(C) = C La esperanza de una constante es ella misma.

P.2. E(C + n . X) = C + n . E(X) C + n.X es una nueva variable aleatoria resultante de una transformación lineal de X.

Page 71: Estadisticas Angel Estadistica Angel Borgna Fernandez

El carácter numérico de la variable aleatoria permite calcular algunas de lasmedidas –media, varianza y desvío estándar– de las aplicadas anteriormentea las variables estadísticas, con la siguiente salvedad: en una variable esta-dística la media corresponde a un promedio observado mientras que en unavariable aleatoria la media indica un promedio esperado, o valor esperado, yse denomina esperanza.

La esperanza E(X), la varianza V(X) y el desvío estándar DS(X) se expresan

La esperanza de la variable del problema es:

E (X) = 0.6/90 +1.42/90 + 2. 42/90 = 1,4 DDJJ de monotributistas

Es decir, que si se seleccionan al azar dos DDJJ se espera que entre ellas haya1,4 de clientes monotributistas.

La varianza y el desvío estándar son: V(X) = 0,3733 y DS(X) = 0,611

Propiedades de la esperanza y de la varianza

P.1. E(C) = CLa esperanza de una constante es ella misma.

P.2. E(C + n . X) = C + n . E(X)C + n.X es una nueva variable aleatoria resultante de una transformaciónlineal de X.

P.3. E(n . X) = n . E(X)Caso particular que se desprende de la propiedad anterior

P.4. E(X + Y) = E(X) + E(Y)X + Y es una nueva variable aleatoria, resultante de sumar las variablesX e Y.

P.5. V(X + Y) = V(X) + V(Y)Sólo si X e Y son independientes.

P.6. V(n . X) = n2 . V(x)Se deduce de la definición de varianza

2.2.2. Modelos especiales de variables aleatorias discretas

Existen problemas de distinta índole originados en ramas diversas de la cien-cia, que al ser vinculados con experimentos aleatorios presentan caracterís-

7711

Estadistica

Las propiedades que seenuncian son válidas en

cualquier experimento aleatorio,sea este simple o compuesto.

Page 72: Estadisticas Angel Estadistica Angel Borgna Fernandez

22

COMIENZO DE PASTILLA EN número combinatorio

nCr =n

r

=

n!r!(n r)!

FIN DE PASTILLA

Ejemplo De la revisión de los archivos de una empresa de larga trayectoria en un determinado rubro surge que en el 70% de sus balances semanales se registraron superávit. En una auditoría se propuso realizar una muestra con los balances de 10 semanas tomadas al azar en forma independiente.

Conceptualizando que esa muestra es un experimento aleatorio y pasando revista a sus características comprobamos que responden a un modelo binomial a saber: hay dos resultados posibles (superávit o no superávit) cada vez que se seleccione un balance semanal y se toman n (10) balances en forma independiente.

Ante la futura auditoría nos podemos preguntar acerca de la probabilidad de que se encuentren en la muestra a lo sumo 5 balances con superávit o entre 3 y 6 balances con superávit o al menos 6 balances con superávit.

La variable aleatoria asociada al experimento, para responder los interrogantes del auditor podría ser:

X: “cantidad de balances con superávit entre los 10 seleccionados al azar en forma independiente” .

Los parámetros de la distribución resultan entonces,

n = 10 P = 0,70

y los valores de la función de probabilidad h(r) y los de la función de distribución F(r) = P(X r) se encuentran en la tabla T.2.2.

T.2.2. r i 0 1 2 3 4 5 6 7 8 9 10

h(r ) 0,000006 0,000138 0,001447 0,009002 0,036757 0,102919 0,200121 0,266828 0,233474 0,121061 0,028248

F(r ) 0,000006 0,000144 0,001591 0,010593 0,047350 0,150268 0,350389 0,617217 0,850691 0,971752 1

La probabilidad de que en la muestra se encuentren a lo sumo 5 balances con superávit será:

P( X 5) = F(5) = 0,150268

o también

P( X 5) = h(r) = h(0) + h(1) + h(2) + h(3) + h(4) + h(5) =

0

5

0,150268

La probabilidad de que en la muestra haya entre 3 y 6 balances con superávit

ticas similares; esas características comunes son las que permiten modelar-los unívocamente.

Para la construcción de un modelo probabilístico, primero deben identifi-carse exhaustivamente cada una de las características específicas del expe-rimento y seguidamente asociarle una variable aleatoria apropiada.

Experimento binomial

El experimento binomial es un experimento compuesto que consiste en n repe-ticiones independientes de un experimento simple dicotómico.

Por lo tanto las características que lo identifican son:

• El experimento simple tiene sólo dos resultados posibles, denominadoséxito ––suceso que interesa seguir– y fracaso –– suceso complementario.

• Se repite n veces el experimento simple.• Las repeticiones del experimento simple son independientes entre sí.

Vinculadas al experimento binomial pueden definirse más de una variable ale-atoria, con sus correspondientes distribuciones de probabilidad, cumpliendodistintos roles dentro del mismo experimento. Ellas son las variables aleato-rias binomial, geométrica y de Pascal (o binomial negativa).

Variable aleatoria binomial

Es una variable discreta que cuenta la cantidad r de éxitos en un expe-rimento binomial.

Llamaremos P a la probabilidad de éxito y en consecuencia 1-P a la probabi-lidad de fracaso.

El modelo binomial queda caracterizado por n (número de repeticionesdel experimento simple o de Bernoulli) y P (probabilidad de éxito en cadarepetición) que son sus parámetros.. Entonces decimos que la variable ale-atoria X asociada tiene distribución binomial con parámetros n y P..

El modelo matemático para la distribución binomial permite calcular los valo-res de la función de probabilidad h(r).

h (r) = P(X = r) = nCr . Pr . (1-P) n-r

Donde nCr es un número combinatorio que cuenta la cantidad de combina-ciones de n elementos tomados de a r, es decir la cantidad de grupos de r ele-mentos que pueden formarse a partir de los n.

EjemploDe la revisión de los archivos de una empresa de larga trayectoria en un deter-minado rubro surge que en el 70% de sus balances semanales se registraronsuperávit. En una auditoría se propuso realizar una muestra con los balancesde 10 semanas tomadas al azar en forma independiente.

7722

Universidad Virtual de Quilmes

Si el experimento tienemás de dos resultadosposibles hay que dicotomizarlo.

Si las repeticiones delexperimento simple nofueran independientes, el mode-lo que se generaría se denominamodelo hipergeométrico.

En símbolos X ~ B(n,P)

En este experimento, la variablealeatoria x asociada toma valo-res 0 y 1. La esperanza de estavariable resulta ser la probabili-dad de éxito. P. Santiago JacoboBernouilli o Bernoulli (1654-1705)fue un matemático suizo de ori-gen belga. Entre otras cosas fuequien usó por primera vez la pala-bra “integral” y escribió el “Arsconjectandi” sobre el cál-culo de probabilidades.

Page 73: Estadisticas Angel Estadistica Angel Borgna Fernandez

Conceptualizando que esa muestra es un experimento aleatorio y pasan-do revista a sus características comprobamos que responden a un modelobinomial a saber: hay dos resultados posibles (superávit o no superávit) cadavez que se seleccione un balance semanal y se toman n (10) balances enforma independiente.

Ante la futura auditoría nos podemos preguntar acerca de la probabilidadde que se encuentren en la muestra a lo sumo 5 balances con superávit oentre 3 y 6 balances con superávit o al menos 6 balances con superávit.

La variable aleatoria asociada al experimento, para responder los interro-gantes del auditor, podría ser:

X: “cantidad de balances con superávit entre los 10 seleccionados al azar enforma independiente”.

Los parámetros de la distribución resultan entonces,

n = 10 P = 0,70

y los valores de la función de probabilidad h(r) y los de la función de distribu-ción F(r) = P(X £ r) se encuentran en la tabla T.2.2.

T.2.2.

La probabilidad de que en la muestra se encuentren a lo sumo 5 balancescon superávit será:

o también

La probabilidad de que en la muestra haya entre 3 y 6 balances con superávit

o también

Al menos 6 balances con superávit

7733

Estadistica

COMIENZO DE LEER ATENTO El modelo binomial queda caracterizado por n (número de repeticiones del experimento simple o de Bernoulli) y P (probabilidad de éxito en cada repetición) que son sus parámetros. Entonces decimos que la variable aleatoria X asociada tiene distribución binomial con parámetros n y P.

COMIENZO DE PASTILLA EN BernoulliEn este experimento, la variable aleatoria x asociada toma valores 0 y 1. La esperanza de esta variable resulta ser la probabilidad de éxito P. Santiago Jacobo Bernouilli o Bernoulli (1654-1705) fue un matemático suizo de origen belga. Entre otras cosas fue quien usó por primera vez la palabra “integral” y escribió el “Ars conjectandi” sobre el cálculo de probabilidades.FIN DE PASTILLA

COMIENZO DE PASTILLA EN parámetrosEn símbolos X ~ B(n,P)FIN DE PASTILLA

FIN DE LEER ATENTO

El modelo matemático para la distribución binomial permite calcular los valores de la función de probabilidad h(r).

h (r) = P(X = r) = nCr . Pr . (1-P) n-r

Donde nCr es un número combinatorio que cuenta la cantidad de combinaciones de n elementos tomados de a r, es decir la cantidad de grupos de r elementos que pueden formarse a partir de los n. COMIENZO DE PASTILLA EN número combinatorio

FIN DE PASTILLA

EjemploDe la revisión de los archivos de una empresa de larga trayectoria en un determinado rubro surge que en el 70% de sus balances semanales se registraron superávit. En una auditoría se propuso realizar una muestra con los balances de 10 semanas tomadas al azar en forma independiente.

Conceptualizando que esa muestra es un experimento aleatorio y pasando revista a sus características comprobamos que responden a un modelo binomial a saber: hay dos resultados posibles (superávit o no superávit) cada vez que se seleccione un balance semanal y se toman n (10) balances en forma independiente.

X: “cantidad de balances con superávit entre los 10 seleccionados al azar en forma independiente”.

Los parámetros de la distribución resultan entonces,

n = 10 P = 0,70

y los valores de la función de probabilidad h(r) y los de la función de distribución F(r) = P(X r) se encuentran en la tabla T.2.2.

T.2.2.

ri 0 1 2 3 4 5 6 7 8 9 10

h(r) 0,000006 0,000138 0,001447 0,009002 0,036757 0,102919 0,200121 0,266828 0,233474 0,121061 0,028248

F(r) 0,000006 0,000144 0,001591 0,010593 0,047350 0,150268 0,350389 0,617217 0,850691 0,971752 1

La probabilidad de que en la muestra se encuentren a lo sumo 5 balances con superávit será:

Page 74: Estadisticas Angel Estadistica Angel Borgna Fernandez

o también

Esperanza y varianza de una distribución binomialComo el experimento binomial consiste en n repeticiones independientes deun ensayo Bernoulli, la variable aleatoria binomial X es una transformaciónlineal de la variable aleatoria Bernoulli x, es decir,

Luego,, aplicando las propiedades de la esperanza y varianza P.4. y P.5. enun-ciadas anteriormente en el presente apartado calculamos la esperanza y lavarianza de una variable aleatoria binomial X..

La esperanza es:

y la varianza resulta:

Volviendo al ejemplo de los balances, la cantidad de balances que se esperaencontrar con superávit entre los 10 seleccionados será

E(X) = n . p = 10 . 0,70 = 7 balances con superávit

Con una desviación estándar de

Proceso de Poisson

Un proceso de Poisson es un experimento de naturaleza binomial dondelos éxitos ocurren o no a lo largo de un intervalo continuo (el cual puedeestar dado en tiempo, longitud, superficie, volumen, etcétera).

Es un proceso donde los “éxitos” ocurren en el transcurso del continuo y a dife-rencia de un experimento binomial puro los “fracasos” no pueden ocurrir por-que representan la ausencia de éxito.

Lo que caracteriza unívocamente a un determinado proceso de Poisson esla intensidad media (a) de ocurrencias de éxito en la unidad del continuo.

7744

Universidad Virtual de Quilmes

La intensidad media es la canti-dad de éxitos esperada por uni-dad del continuo, mientras el pro-ceso sea el mismo.

Page 75: Estadisticas Angel Estadistica Angel Borgna Fernandez

Por ejemplo, una distribuidora mayorista comprobó que, en las primerassemanas de cada mes, la cantidad media demandada de un determinado pro-ducto es de 3 toneladas diarias. El fenómeno descrito involucra un procesode Poisson donde a == 3 tn/día para esa época del mes.

También, que en las últimas semanas de cada mes la demanda media dia-ria baja a 2 toneladas. En este caso el proceso de Poisson sería otro porquepresenta una intensidad media a == 2 tn/día, diferente a la anterior.

Diferentes a indican procesos poissonianos distintos.En un proceso aleatorio poissoniano es posible definir variables aleatorias

de distinto tipo. Para procesos de este tipo, en esta carpeta, presentaremosuna variable aleatoria discreta llamada de Poisson (que cuente la cantidad deéxitos en un intervalo continuo) y una variable aleatoria continua denominadaexponencial que veremos en 2.2.4.

Variable aleatoria de PoissonEs una variable discreta que cuenta la cantidad de “éxitos” que podrían ocu-rrir en un cierto intervalo continuo, durante un proceso de Poisson.

Establecido un intervalo de longitud t en el continuo, la cantidad media espe-rada de ocurrencia de éxitos en ese intervalo es E(X) = α . t,, donde α es la yavista intensidad media de ocurrencias de éxito en la unidad del continuo.

La esperanza E(x), que simbolizamos con la letra griega λ�es el parámetrode esta distribución.

Si una variable aleatoria discreta X sigue una distribución de Poisson deparámetro λ podemos expresarla en símbolos como X ~ P(l) y la probabilidadP(X= r) de que sucedan r éxitos en un intervalo t dado se calcula mediante lasiguiente fórmula:

La probabilidad de una variable aleatoria X que se distribuye en forma dePoisson:

• depende únicamente de la longitud (t) del intervalo considerado, • es independiente de lo ocurrido en alguno de los intervalos precedentes.

Para intervalos de diferente longitud t habrá distintas distribuciones de pro-babilidad, cada una con su propio λ�todas dentro de un mismo proceso carac-terizado por α.

Lo particular de esta variable aleatoria es que su varianza también es λ�.��

Volviendo al ejemplo de la distribuidora mayorista nos planteamos las siguien-tes inquietudes.

• ¿Cuál es la probabilidad de que en dos días de la primera semana de unmes cualquiera se produzca una demanda de 5 toneladas?Determinamos primero el valor del parámetro λ�para un t = 2 días:

7755

Estadistica

Page 76: Estadisticas Angel Estadistica Angel Borgna Fernandez

La probabilidad de que en esos dos días la demanda sea de 5 toneladas esde 0,1606.

Con base al λ calculado podemos decir que en esos dos días se espera quehaya una demanda de 6 toneladas del producto.

• ¿Cuál es la probabilidad de que en un día y medio de la última semana deun mes cualquiera la demanda sea superior a 2 toneladas.

En este caso, �λ�= tn/día . 1,5 días = 3 tn

Luego:

La probabilidad de que en ese día y medio la demanda supere las 2 tn es0,8009.

Con base al λ calculado podemos decir que en esos dos días se espera quehaya una demanda de 3 toneladas del producto.

5.Buscar tres ejemplos de la vida real que pudieran constituir un procesode Poisson y para cada uno describir la variable involucrada.

2.2.3. Variable aleatoria continua

Existen fenómenos que no permiten ser tratados con modelos de variablesaleatorias discretas debido a que los resultados del experimento aleatorioasociado a él sólo son medibles en el conjunto de los números reales. Eneste caso la variable aleatoria asociada debe ser una variable continua parala cual no se pueden listar puntualmente cada uno de sus valores pero sí con-siderar su recorrido mediante intervalos.

Al ser las variables aleatorias continuas funciones del espacio muestralsobre el espacio de los números reales, el tratamiento de la misma deberá rea-lizarse mediante intervalos, los problemas de probabilidad que las involucranson del tipo P(x ≤ a), P(x ≥ b) o P(a ≤ x ≤ b).

En una variable aleatoria continua, el correlato de la función h(r) de lasvariables aleatorias discretas es la función f(x) denominada función de densidadde probabilidad que a diferencia de la h(r) no asigna probabilidades sino quepermite calcularlas en intervalos de números reales.

La función de densidad de probabilidad cumple con las siguientes pro-piedades:

7766

Universidad Virtual de Quilmes

Page 77: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los valores de la función f(x) deben ser siempre positivos o 0 para cualquiervalor de la variable X.

El área encerrada entre la función –en todo su dominio– y el eje de las absci-sas es 1.

La probabilidad de que la variable aleatoria se encuentre entre dos valores ay b resulta de integrar la función de densidad f(x) entre esos dos límites.

Gráfico 2.10.

En el caso que a coincida con b el área de la región sombreada en el G.2.10.tendría base igual a 0 y el área es 0, lo que también se desprende de la P.3.cuando a y b coinciden en un mismo punto. Es decir, que en una variable ale-atoria continua las probabilidades puntuales son cero.

Una función de densidad de probabilidad es un modelo teórico proba-bilístico sustentado, en general, por la distribución de una población.

2.2.4. Modelos especiales de variables aleatorias continuas

Como se hiciera mención en el subapartado 2.2.2. las características comunesde algunos fenómenos aleatorios son las que permiten elaborar modelos.

En el caso de las variables aleatorias continuas desarrollaremos dos mode-los especiales de distribución.

7777

Estadistica

Como consecuencia deque las probabilidades

puntuales son cero los sucesos“x < a” y “x ≤ a” son idénticos ypor lo tanto sus probabilidades soniguales.

Page 78: Estadisticas Angel Estadistica Angel Borgna Fernandez

Distribución normal

Un fenómeno que genera típicamente una población con distribución normales la medición del tiempo requerido para efectuar una misma operación portodos los clientes de una determinada entidad bancaria, bajo el supuesto deque todos deberían tardar el mismo tiempo para realizar dicha operación.

A la hora de medir efectivamente el fenómeno podemos observar que pre-dominan los clientes que emplearían para hacer la operación un tiempo cer-cano al promedio, sin embargo, algunos son más rápidos y otros más lentosgenerando una distribución del tiempo como la siguiente.

Gráfico 2.11.

El modelo teórico de la distribución normal de una variable continua x se for-maliza matemáticamente mediante la función f(x) cuya expresión

representada gráficamente es

Gráfico 2.12.

donde µ –la media– y σ –el desvío estándar– son los parámetros de la distri-bución y para cada par de valores de µ y σ se tendrá una curva diferente.

Características de la curva normalLa curva que es la representación gráfica de la distribución normal tiene lassiguientes características:

7788

Universidad Virtual de Quilmes

Page 79: Estadisticas Angel Estadistica Angel Borgna Fernandez

• Es perfectamente simétrica alrededor de µ.• Es asintótica con el eje de la variable x hacia ±∞, es decir que el 100% de

la población queda encerrado entre esos dos límites.• Como consecuencia de las dos características anteriores la mitad de la

población se encuentra entre –∞ y µ y la otra mitad entre µ y +∞ .

Gráfico 2.13.

• Presenta dos puntos de inflexión a una distancia de un desvío estándar aambos lados de la media.

• Las proporciones de población que quedan comprendidos en secciones deun desvío estándar de amplitud a ambos lados de la media aparecen asen-tadas en el gráfico G.2.14.

Gráfico 2.14.

El siguiente ejemplo, se refiere a un experimento aleatorio sobre una pobla-ción con distribución normal, donde la función f(x) que describe esa distribu-ción poblacional es la función de densidad de probabilidad de la variable ale-atoria involucrada en el experimento.

EjemploRetomando el caso de los clientes de una entidad bancaria que efectúan unaoperación determinada, se ha encontrado que el tiempo medio requerido pararealizarla es de 130 segundos con un desvío estándar de 43 segundos.

Si se tomara un cliente al azar –experimento aleatorio– se podrían plante-ar las siguientes preguntas: a) ¿cuál es la probabilidad de que esa personaemplee menos de 100 seg. para realizar la operación? o b) ¿cuál es la pro-babilidad de que tarde entre 2 y 3 minutos en realizar la transacción?

Esquematizamos las dos situaciones planteadas en los gráficos 2.15. y2.16. respectivamente.

7799

Estadistica

Page 80: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 2.15.

Gráfico 2.16.

Y las sendas respuestas son:

a. P( x < 100s) = F(100) = 0,2427b. P(2min< x <3 min) = P(120 s < x < 180 s) = P( x < 180s) – P( x < 120s) =

= F(180) – F(120) = 0,8775 – 0,4081 = 0,4694

A los resultados obtenidos puede arribarse por integración analítica de la fun-ción de densidad normal entre los extremos que correspondan o bien utili-zando un programa estadístico (por ejemplo el módulo estadístico de Excel, olos programas SPSS, InfoStat u otro).

Si no se contara con las mencionadas herramientas de cálculo puede uti-lizarse como recurso la tabla de probabilidades acumuladas de la denomina-da distribución normal estándar que figura en el Anexo I y cuyas característi-cas, además de las generales descritas anteriormente para cualquierdistribución normal, son:

• nombre de la variable normal estándar : Z• parámetros: mz = 0 y sz = 1 • función de densidad normal estándar:

Para convertir un valor cualquiera x correspondiente al problema real (con dis-tribución normal) a un valor estandarizado z (con el fin de aprovechar la tabladel Anexo I) se utiliza la siguiente fórmula de estandarización:

8800

Universidad Virtual de Quilmes

Page 81: Estadisticas Angel Estadistica Angel Borgna Fernandez

Aplicando la distribución normal estándar a la resolución de los ítems ante-riores, resulta

Las diferencias que se detectan al realizar los cálculos con la tabla se debenal redondeo a dos decimales de z que tiene dicha tabla.

6.a. Calcular el tiempo máximo que, con una probabilidad de 0,90, tar-

daría en hacer dicha operación un cliente de la entidad bancariatomado al azar.

b. En relación con la población de clientes observada, si se considera-ran sólo los clientes que tardaron menos de 130 segundos ¿qué por-centaje de ellos tardó más de 100 segundos?

Experimento exponencial

El experimento exponencial se define dentro de un proceso de Poisson y enconsecuencia la variable continua exponencial está íntimamente relacionadacon la variable discreta de Poisson.

Mientras el rol de la variable aleatoria de Poisson es contar la cantidad deéxitos a lo largo de un intervalo continuo, la variable aleatoria exponencialmide, a partir del último éxito ocurrido, la longitud del continuo hasta la ocu-rrencia del siguiente éxito.

Con el último éxito concluye el experimento exponencial lo que determinasu carácter de efímero (se desarrolla sólo entre dos éxitos), por lo que fijadoun cierto intervalo t del continuo a partir del último éxito sólo podrían ocurrirdos sucesos aleatorios:

• que la variable exponencial mida la ocurrencia del siguiente éxito antes detranscurrido t es decir x < t, o

• que la variable exponencial mida la ocurrencia del siguiente éxito despuésde transcurrido t es decir x > t.

Los sucesos x < t y x > t son los dos únicos sucesos aleatorios que pue-den imaginarse dentro de un experimento exponencial y por lo tanto soncomplementarios y como tales, mutuamente excluyentes.

8811

Estadistica

Page 82: Estadisticas Angel Estadistica Angel Borgna Fernandez

La primera consecuencia de lo expresado anteriormente es que no hay suce-sos compuestos en un experimento exponencial porque el único suceso con-cebible {x < t} I {x > t}

es un suceso imposible {x < t} I {x > t} = Ø

y por lo tanto su probabilidad es nulaP({x < t} I {x > t}) = P( Ø ) = 0

La segunda consecuencia es que no hay probabilidades condicionales pues-to que no hay posibilidad de particionar la población para definir un suceso ale-atorio que represente la condición porque, como razonamos anteriormente, elexperimento es efímero y no hay una colección de datos que permita descri-bir una población, por lo tanto no existen poblaciones exponenciales.

Formalmente, y asignando arbitrariamente a uno de los dos sucesos posi-bles el rol de condición, se tiene:

Al no haber población, no podemos contar inicialmente con una función dedensidad exponencial procediendo de forma similar a como se obtuvo, porejemplo, la función de densidad normal.

Usaremos un camino distinto aprovechando el vínculo entre las distribu-ciones de Poisson y exponencial dentro de un mismo proceso de Poissoncaracterizado por α.

Para ello, definiremos un suceso aleatorio S: que transcurra todo un ciertointervalo t sin que ocurra éxito, cuya probabilidad pueda calcularse tanto utili-zando la variable aleatoria de Poisson como la variable aleatoria exponencial.

P(que no ocurra éxito a lo largo de t) = P(XPoisson = 0) = P(xexponencial > t)

Donde: P(XPoisson = 0) = e-a.t = P(xexponencial > t)

Luego, las probabilidades de los únicos sucesos posibles de un experimentoexponencial resultan:

P(x > t) = e-α.t

y aplicando la propiedad de la probabilidad de sucesos complementarios

P(x < t) = 1 - P(x > t) = 1 - e-α.t

se observa que esta expresión corresponde a la función de distribución acu-mulada, luego se tiene que

F(t) = 1 - e-α.t

8822

Universidad Virtual de Quilmes

Page 83: Estadisticas Angel Estadistica Angel Borgna Fernandez

y derivándola se obtiene la función de densidad de probabilidad f(x)

F´ (x) = f(x)

La función de densidad que sintetiza al modelo es entonces

Cuya representación gráfica es G.2.17.

Gráfico 2.17.

El parámetro de la distribución exponencial es el mismo a que caracte-riza al proceso de Poisson.

La esperanza de esta variables es:

y la varianza

Aplicaciones de la distribución exponencial Caso A. Como distribución de los tiempos de espera, la exponencial puedeaplicarse a problemas de rotación de inventario donde el experimento comien-za a partir de un pedido (éxito) y luego la variable recorre los valores aleato-rios del tiempo en que puede ocurrir el siguiente (éxito) pedido. A continuaciónse desarrolla un ejemplo.

Una distribuidora mayorista comprobó que cada 5 días hábiles recibe en pro-medio 3 pedidos de embarque de cierto artículo (a = 3 pedidos/5 días = 0,6pedidos/día).

8833

Estadistica

Page 84: Estadisticas Angel Estadistica Angel Borgna Fernandez

1- Teniendo en cuenta que el tiempo para reponer un embarque en depósitoes de 1 día, despachado un pedido ¿con qué probabilidad el siguiente lle-gará después de ese lapso?

2- Siendo el tiempo medio esperado entre pedidos: E(X) = 1/a == 1,67 días,¿con qué probabilidad el siguiente pedido será antes de lo esperado?

3- Con una probabilidad de 0,90 ¿de cuánto tiempo se dispone entre dospedidos?

despejando t se tiene t = ln 0,90 / -0,6 = 0,18 días

4- Habiendo despachado un pedido, ¿con qué probabilidad el siguiente lle-gará entre 1 y 2 días después?

Caso B. La distribución exponencial también puede aplicarse a problemas defiabilidad o plazo de servicio de los artículos en circulación, vida útil de mate-riales o de mercancías perecederas, donde la variable recorre los valores ale-atorios de vida útil de los mismos hasta quedar fuera de servicio. Aquí no haydos éxitos pues el experimento comienza con el inicio del servicio y terminaen la falla, que es el único éxito. A continuación se analiza un ejemplo.

Para ciertas lámparas de bajo consumo, su fabricante midió que la vidamedia de funcionamiento sin fallo es de 8.000 horas. Si se instalara una cual-quiera de esas lámparas.

1- ¿Cuánto tiempo se espera que dure?Dentro del experimento aleatorio, que consiste en tomar al azar una de laslámparas e instalarla, la media observada con anterioridad se convierte enun media esperada E(X) = 8.000 h.

2- ¿Con qué probabilidad durará más de 8.000 h?

α = 1/E(X) = 1/8000 = 0,000125

8844

Universidad Virtual de Quilmes

Page 85: Estadisticas Angel Estadistica Angel Borgna Fernandez

3- ¿Cuántas horas de funcionamiento sin falla se puede garantizar, con unaprobabilidad de 0,90?

7.Tomando el ejemplo ya trabajado en la distribución Poisson, una dis-tribuidora mayorista comprobó que, en las primeras semanas de cadames, la cantidad media demandada de un determinado producto es de3 toneladas diarias. Luego de la última tonelada demandada, para lamisma época del mes a. ¿Cuántos días se espera que transcurran hasta el siguiente pedido de

una tonelada?b. Calcular la probabilidad de que el siguiente pedido de una tonelada

ingrese luego de transcurridos 2 días.c. Calcular la probabilidad de que el pedido se realice antes de que pase

un día y medio.

8855

Estadistica

Page 86: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 87: Estadisticas Angel Estadistica Angel Borgna Fernandez

8877

Inferencia estadística

Ob je ti vos

• Estudiar las relaciones entre los estadísticos muestrales y los parámetrospoblacionales.

• Desarrollar procedimientos relativos a dos de los problemas fundamen-tales de la inferencia estadística: estimación de parámetros y prueba dehipótesis.

3.1. Distribución de estadísticos muestrales

En el estudio de una población es factible observar que los individuos que laconforman presentan diferencias entre sí y como reflejo de ello todas las mues-tras posibles de cierto tamaño n, seleccionadas al azar de esa población, tam-bién presentarán variaciones entre ellas en su conformación. Tales variacio-nes se transmiten al compotamiento de las medidas muestrales tambiéndenominadas estadísticos muestrales calculados a partir de cada una de lasmuestras, dando origen a nuevas poblaciones de naturaleza teórica, las pobla-ciones de los estadísticos muestrales.

La importancia del estudio de la distribución de los estadísticos muestra-les radica en el hecho de que ellos son los estimadores de los parámetrospoblacionales.

Dada una población conocida de tamaño N con media poblacional µ y pro-porción poblacional P(e) = P de algún valor e elegido como éxito, si de ella seseleccionan aleatoriamente todas las muestras posibles de tamaño n y paracada una de ellas se calcula la media aritmética Xi y la proporción de éxitopi(e)= pi, se tendrán m muestras y consecuentemente la misma cantidad m demedias aritméticas y de proporciones muestrales.

3

Page 88: Estadisticas Angel Estadistica Angel Borgna Fernandez

Las dos últimas columnas constituyen las poblaciones de las variables alea-torias media muestral y proporción muestral. Por su importancia conceptual,seguidamente trataremos las distribuciones teóricas de las poblaciones delos estadísticos media muestral (como mejor estimador de µ) y proporciónmuestral (como mejor estimador de P).

3.1.1. Distribución del estadístico media muestral

Los gráficos que se presentan a continuación se refieren a la distribución dedos poblaciones, la primera corresponde a una población original conformadapor las edades de los 497 empleados de una empresa –gráfico.3.1– mien-tras que la segunda –gráfico 3.2– representa a la distribución de la poblaciónteórica de las edades medias de todas las muestras de tamaño 2 que seextrajeron de la población original.

Gráfico 3.1.

Los parámetros de la población original (de edades) son:

µ� = 35 años y σ2 = 82,90 años2

Gráfico 3.2.

8888

Universidad Virtual de Quilmes

El mejor estimador de unparámetro poblacionales aquel que cumple con ciertascualidades (insesgabilidad, con-sistencia, eficiencia y suficiencia)que aquí no se analizarán.

0,17

0,14

0,11

0,08

0,06

0,03

0,0022 35 48 62 X

Distribución de la población original

frec

uenc

ia r

elat

iva

Gráfico.3.1

22

0,20

0,10

0,10

0,05

0,0035 48 62

Distribución de la población de las mediasmuestrales (muestras de tamaño 2)

Medias muestrales

frec

uenc

ia r

elat

iva

Gráfico.3.2

0,17

0,14

0,11

0,08

0,06

0,03

0,0022 35 48 62 X

Distribución de la población original

frec

uenc

ia r

elat

iva

Gráfico.3.1

22

0,20

0,10

0,10

0,05

0,0035 48 62

Distribución de la población de las mediasmuestrales (muestras de tamaño 2)

Medias muestrales

frec

uenc

ia r

elat

iva

Gráfico.3.2

Page 89: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los parámetros de la población teórica de las medias muestrales de todaslas muestras de tamaño 2 son:

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la pobla-ción teórica de las medias muestrales de todas las muestras de tamaño 1sería exactamente igual que el Gráfico.3.1. (porque cada media es el ele-mento que conforma la muestra) y sus parámetros serían los mismos que losde la población original.

Como se puede observar, todas las medias de las poblaciones teóricas, aúnvariando n, coinciden con la media de la población de donde se extrajeron lasmuestras.

Conclusión:

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

Además, si las muestras extraídas de la población son de tamaño grande(usualmente n > 30), el gráfico de la distribución de la población de las mediasmuestrales resulta –Gráfico.3.3.– aproximadamente normal.

Gráfico 3.3.

8899

Estadistica

35

Distribución de la población de las medias muestras (n>30)

Medias muestrales

Gráfico.3.3

0,11 10

Distribución de la población de las proporciones muestras (n>100)

Proporciones muestrales

Gráfico.3.4

Gráfico.3.5

Gráfico.3.6

µ X

µ Xa b

1-α

3

x = 35 años y x 2 = 41,45 años2

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la población teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el G.3.1. (porque cada media es el elemento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.

x = 35 años y x2 = 82,90 años2

Como se puede observar, todas las medias de las poblaciones teóricas, aún variando n, coinciden con la media de la población de donde se extrajeron las muestras.

Conclusión:

x =

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

x

2 =2

n

Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –G.3.3.– aproximadamente normal. Insertar Imagen Nº G.3.3.

G.3.3.

Propiedades de la variable aleatoria media muestral Si en una determinada población se define una variable aleatoria X: {x1, x2, x3 ,…, .xm,…….} con esperanza E(X) = y varianza V(X) = 2 y se

selecciona sólo una muestra aleatoria de tamaño n de dicha población

3

x = 35 años y x2 = 41,45 años2

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la población teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el G.3.1. (porque cada media es el elemento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.

x = 35 años y x 2 = 82,90 años2

Como se puede observar, todas las medias de las poblaciones teóricas, aún variando n, coinciden con la media de la población de donde se extrajeron las muestras.

Conclusión:

x =

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

x

2 =2

n

Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –G.3.3.– aproximadamente normal. Insertar Imagen Nº G.3.3.

G.3.3.

Propiedades de la variable aleatoria media muestral Si en una determinada población se define una variable aleatoria X: {x1, x2, x3 ,…, .xm,…….} con esperanza E(X) = y varianza V(X) = 2 y se

selecciona sólo una muestra aleatoria de tamaño n de dicha población

3

x = 35 años y x2 = 41,45 años2

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la población teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el G.3.1. (porque cada media es el elemento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.

x = 35 años y x2 = 82,90 años2

Como se puede observar, todas las medias de las poblaciones teóricas, aún variando n, coinciden con la media de la población de donde se extrajeron las muestras.

Conclusión:

x =

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

x

2 =2

n

Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –G.3.3.– aproximadamente normal. Insertar Imagen Nº G.3.3.

G.3.3.

Propiedades de la variable aleatoria media muestral Si en una determinada población se define una variable aleatoria X: {x1, x2, x3 ,…, .xm,…….} con esperanza E(X) = y varianza V(X) = 2 y se

selecciona sólo una muestra aleatoria de tamaño n de dicha población

3

x = 35 años y x2 = 41,45 años2

Si se tomaran muestras de tamaño n=1 el gráfico resultante para la población teórica de las medias muestrales de todas las muestras de tamaño 1 sería exactamente igual que el G.3.1. (porque cada media es el elemento que conforma la muestra) y sus parámetros serían los mismos que los de la población original.

x = 35 años y x2 = 82,90 años2

Como se puede observar, todas las medias de las poblaciones teóricas, aún variando n, coinciden con la media de la población de donde se extrajeron las muestras.

Conclusión:

x =

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

x

2 =2

n

Además, si las muestras extraídas de la población son de tamaño grande (usualmente n > 30), el gráfico de la distribución de la población de las medias muestrales resulta –G.3.3.– aproximadamente normal. Insertar Imagen Nº G.3.3.

G.3.3.

Propiedades de la variable aleatoria media muestral Si en una determinada población se define una variable aleatoria X: {x1, x2, x3 ,…, .xm,…….} con esperanza E(X) = y varianza V(X) = 2 y se

selecciona sólo una muestra aleatoria de tamaño n de dicha población

Page 90: Estadisticas Angel Estadistica Angel Borgna Fernandez

Propiedades de la variable aleatoria media muestral

Si en una determinada población se define una variable aleatoria X: {x1, x2, x3

,…, .xm,…….2 y se selecciona sólo

una muestra aleatoria de tamaño n de dicha población para la cual su mediamuestral X es un elemento de la población teórica de X’s se verifican lassiguientes propiedades:

El desvío estándar σx también se denomina error estándar de la media mues-tral respecto de la media poblacional.

Estas propiedades se desprenden inmediatamente de las propiedadesenunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la espe-ranza y varianza de una variable aleatoria cualquiera como se puede verificara continuación.

3.1.2. Distribución del estadístico proporción muestral

En el gráfico 3.4. se representa la distribución de la población teórica de lasproporciones de empleados mayores a 45 años de todas las muestras de uncierto tamaño n superior a 100.

Gráfico 3.4.

9900

Universidad Virtual de Quilmes

4

para la cual su media muestral es un elemento de la población teórica de se verifican las siguientes propiedades. P.1 E( ) = X = COMIENZO DE PASTILLA EN P.1 Esta propiedad está relacionada con la cualidad de insesgabilidad del estimador . FIN DE PASTILLA

P.2 V( ) = X

2 = 2

n DS( ) = X =

n

El desvío estándar también se denomina error estándar de la media muestral respecto de la media poblacional.

Estas propiedades se desprenden inmediatamente de las propiedades enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera como se puede verificar a continuación.

COMIENZO DE TEXTO APARTE

P.1

E( X )= E

X i1=1

n

n

= E1n

. X ii=1

n

=

1n

. E( X i ) =1n

. n . i=1

n

=

P.2

V( X )= V

X i1=1

n

n

= V1n

. X ii=1

n

=

1

n2. V( X i ) =

1

n2 . n . 2

i=1

n

=2

n

FIN DE TEXTO APARTE

3.1.2. Distribución del estadístico proporción muestral En el gráfico G.3.4. se representa la distribución de la población teórica de las proporciones de empleados mayores a 45 años de todas las muestras de un cierto tamaño n superior a 100. Insertar Imagen Nº G.3.4. G.3.4.

4

para la cual su media muestral es un elemento de la población teórica de se verifican las siguientes propiedades. P.1 E( ) = X = COMIENZO DE PASTILLA EN P.1 Esta propiedad está relacionada con la cualidad de insesgabilidad del estimador . FIN DE PASTILLA

P.2 V( ) = X

2 = 2

n DS( ) =

X =

n

El desvío estándar también se denomina error estándar de la media muestral respecto de la media poblacional.

Estas propiedades se desprenden inmediatamente de las propiedades enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera como se puede verificar a continuación.

COMIENZO DE TEXTO APARTE

P.1

E( X )= E

X i1=1

n

n

= E1n

. X ii=1

n

=

1n

. E( X i ) =1n

. n . i=1

n

=

P.2

V( X )= V

X i1=1

n

n

= V1n

. X ii=1

n

=

1

n2. V( X i ) =

1

n2 . n . 2

i=1

n

=2

n

FIN DE TEXTO APARTE

3.1.2. Distribución del estadístico proporción muestral En el gráfico G.3.4. se representa la distribución de la población teórica de las proporciones de empleados mayores a 45 años de todas las muestras de un cierto tamaño n superior a 100. Insertar Imagen Nº G.3.4. G.3.4.

4

para la cual su media muestral es un elemento de la población teórica de se verifican las siguientes propiedades. P.1 E( ) = X = COMIENZO DE PASTILLA EN P.1 Esta propiedad está relacionada con la cualidad de insesgabilidad del estimador . FIN DE PASTILLA

P.2 V( ) = X

2 = 2

n DS( ) = X =

n

El desvío estándar también se denomina error estándar de la media muestral respecto de la media poblacional.

Estas propiedades se desprenden inmediatamente de las propiedades enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera como se puede verificar a continuación.

COMIENZO DE TEXTO APARTE

P.1

E( X )= E

X i1=1

n

n

= E1n

. X ii=1

n

=

1n

. E( X i ) =1n

. n . i=1

n

=

P.2

V( X )= V

X i1=1

n

n

= V1n

. X ii=1

n

=

1

n2. V( X i ) =

1

n2 . n . 2

i=1

n

=2

n

FIN DE TEXTO APARTE

3.1.2. Distribución del estadístico proporción muestral En el gráfico G.3.4. se representa la distribución de la población teórica de las proporciones de empleados mayores a 45 años de todas las muestras de un cierto tamaño n superior a 100. Insertar Imagen Nº G.3.4. G.3.4.

Esta propiedad está rela-cionada con la cualidadde insesgabilidad del estimador X.

35

Distribución de la población de las medias muestras (n>30)

Medias muestrales

Gráfico.3.3

0,11 10

Distribución de la población de las proporciones muestras (n>100)

Proporciones muestrales

Gráfico.3.4

Gráfico.3.5

Gráfico.3.6

µ X

µ Xa b

1-α

Page 91: Estadisticas Angel Estadistica Angel Borgna Fernandez

En la población original, la proporción de los empleados mayores a 45 años es:

P(>45) = 0,11

y los parámetros de la distribución –gráfico 3.4.– de las proporciones mues-trales son:

µp=0,11 y σ2p =0,0002

Conclusión:µp=P

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

Además, si las muestras extraídas de la población fueran chicas, la distribu-ción de la población de las proporciones muestrales no necesariamente resul-taría aproximadamente normal.

Propiedades de la variable aleatoria proporción muestral

Si en una determinada población caracterizada por una variable aleatoria X, seefectúa un experimento binomial con parámetros n y P y en consecuencia conesperanza µ = n.P y varianza σ2 = n.P. (1 -P ) , se selecciona sólo una muestraaleatoria de tamaño n de dicha población para la cual su proporción muestralde éxito p verifica las siguientes propiedades:

El desvío estándar σp también se denomina error estándar de la proporciónmuestral respecto de la proporción poblacional.

Estas propiedades, al igual que las de la media muestral, se desprendeninmediatamente de las enunciadas anteriormente en el apartado 2.2.1. de laUnidad 2 para la esperanza y varianza de una variable aleatoria cualquiera.

3.1.3. Teorema central del límite

El teorema central del límite formaliza el comportamiento asintóticamente nor-mal, bajo determinadas condiciones, de la distribución de una variable aleato-ria, en particular el de las variables aleatorias media y proporción muestrales.

También denominado teorema del límite central, el Teorema central del límite–TCL– como resultante de una construcción colectiva es factible de enunciar-se, siguiendo a Meyer (1986) de la siguiente manera.

9911

Estadistica

5

En la población original, la proporción de los empleados mayores a 45 años es:

P(>45) = 0,11 y los parámetros de la distribución –G.3.4.– de las proporciones muestrales son:

p = 0,11 y p2 = 0,0002

Conclusión:

p = P

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

p

2 =P.(1- P)

n

Además, si las muestras extraídas de la población fueran chicas, la distribución de la población de las proporciones muestrales no necesariamente resultaría aproximadamente normal. Propiedades de la variable aleatoria proporción muestral Si en una determinada población caracterizada por una variable aleatoria X, se efectúa un experimento binomial con parámetros n y P y en consecuencia con esperanza = n.P y varianza 2 = n.P.(1-P), se

selecciona sólo una muestra aleatoria de tamaño n de dicha población para la cual su proporción muestral de éxito p verifica las siguientes propiedades.

P.1 E(p) = P = P

P.2 V(p) = p2 =

P.(1- P)n

DS(x) = P =P.(1- P)

n

El desvío estándar también se denomina error estándar de la

proporción muestral respecto de la proporción poblacional. Estas propiedades, al igual que las de la media muestral, se

desprenden inmediatamente de las enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera.

3.1.3. Teorema central del límite El teorema central del límite formaliza el comportamiento asintóticamente normal, bajo determinadas condiciones, de la

5

En la población original, la proporción de los empleados mayores a 45 años es:

P(>45) = 0,11 y los parámetros de la distribución –G.3.4.– de las proporciones muestrales son:

p = 0,11 y p2 = 0,0002

Conclusión:

p = P

Y las varianzas disminuyen proporcionalmente al tamaño n de la muestra.

p2 =

P.(1- P)n

Además, si las muestras extraídas de la población fueran chicas, la distribución de la población de las proporciones muestrales no necesariamente resultaría aproximadamente normal. Propiedades de la variable aleatoria proporción muestral Si en una determinada población caracterizada por una variable aleatoria X, se efectúa un experimento binomial con parámetros n y P y en consecuencia con esperanza = n.P y varianza 2 = n.P.(1-P), se

selecciona sólo una muestra aleatoria de tamaño n de dicha población para la cual su proporción muestral de éxito p verifica las siguientes propiedades.

P.1 E(p) = P = P

P.2 V(p) = p

2 =P.(1- P)

n DS(x) = P =

P.(1- P)n

El desvío estándar también se denomina error estándar de la

proporción muestral respecto de la proporción poblacional. Estas propiedades, al igual que las de la media muestral, se

desprenden inmediatamente de las enunciadas anteriormente en el apartado 2.2.1. de la Unidad 2 para la esperanza y varianza de una variable aleatoria cualquiera.

3.1.3. Teorema central del límite El teorema central del límite formaliza el comportamiento asintóticamente normal, bajo determinadas condiciones, de la

Teorema Central delLímite o Teorema del

Límite Central de De Moivre (1733)–Laplace (~1810) y otros.

Page 92: Estadisticas Angel Estadistica Angel Borgna Fernandez

Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes conE(Xi) = µi y V(Xi) = σi

2, i = 1, 2, …

Sea X = X1 + X2 + …+ Xn.Luego, para n tendiendo a infinito, la X tiene distribución asintóticamente nor-mal con

Este teorema nos está diciendo que si una variable aleatoria es la suma den variables aleatorias independientes entonces esa variable aleatoria suma ten-drá distribución normal, para n grande.

En particular si tales n variables aleatorias independientes tienen todasdistribución normal entonces se verifica que su suma tiene distribución nor-mal, para cualquier valor de n.

Como corolario, se concluye que bajo determinadas condiciones, lasdistribuciones de la media y proporción muestral son normales.

EjemplosTeniendo en cuenta la información poblacional de las edades de los 497 emple-ados de una empresa (ver apartados 3.1.1. y 3.1.2.) a saber: la edad mediapoblacional es de 35 años con un desvío estándar de 9,105 años y una pro-porción de empleados mayores a 45 años del 11%, si se proyectara abrir unanexo cercano a la empresa con parte del personal y para ello se van a ele-gir al azar 119 empleados, podemos formularnos las siguientes preguntas:

1)a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119

empleados que trabajarán en el nuevo anexo sea inferior a los 34 años?

Como n = 119 es una muestra grande entonces

Por lo tanto

9922

Universidad Virtual de Quilmes

6

distribución de una variable aleatoria, en particular el de las variables aleatorias media y proporción muestrales.

También denominado teorema del límite central, el Teorema central del límite –TCL– como resultante de una construcción colectiva es factible de enunciarse, siguiendo a Meyer (1986) de la siguiente manera.

COMIENZO DE PASTILLA EN Teorema central del límite Teorema Central del Límite o Teorema del Límite Central de De Moivre (1733) –Laplace (~1810) y otros. FIN DE PASTILLA Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes

con E(Xi) = i y V(Xi) = , i = 1, 2, …

Sea X = X1 + X2 + …+ Xn.

Luego, para n tendiendo a infinito, la X tiene distribución

asintóticamente normal con = µi

i=1

n

y 2 = i2

i=1

n

Este teorema nos está diciendo que si una variable aleatoria es la suma de n variables aleatorias independientes entonces esa variable aleatoria suma tendrá distribución normal, para n grande.

En particular si tales n variables aleatorias independientes tienen todas distribución normal entonces se verifica que su suma tiene distribución normal, para cualquier valor de n.

COMIENZO DE LEER ATENTO Como corolario, se concluye que bajo determinadas condiciones, las distribuciones de la media y proporción muestral son normales.

FIN DE LEER ATENTO

Ejemplos Teniendo en cuenta la información poblacional de las edades de los 497 empleados de una empresa (ver apartados 3.1.1. y 3.1.2.) a saber: la edad media poblacional es de 35 años con un desvío estándar de 9,105 años y una proporción de empleados mayores a 45 años del 11%, si se proyectara abrir un anexo cercano a la empresa con parte del personal y para ello se van a elegir al azar 119 empleados, podemos formularnos las siguientes preguntas:

6

distribución de una variable aleatoria, en particular el de las variables aleatorias media y proporción muestrales.

También denominado teorema del límite central, el Teorema central del límite –TCL– como resultante de una construcción colectiva es factible de enunciarse, siguiendo a Meyer (1986) de la siguiente manera.

COMIENZO DE PASTILLA EN Teorema central del límite Teorema Central del Límite o Teorema del Límite Central de De Moivre (1733) –Laplace (~1810) y otros. FIN DE PASTILLA Sean X1, X2,…Xn... una sucesión de variables aleatorias independientes

con E(Xi) = i y V(Xi) = , i = 1, 2, …

Sea X = X1 + X2 + …+ Xn.

Luego, para n tendiendo a infinito, la X tiene distribución

asintóticamente normal con = µi

i=1

n

y 2 = i2

i=1

n

Este teorema nos está diciendo que si una variable aleatoria es la suma de n variables aleatorias independientes entonces esa variable aleatoria suma tendrá distribución normal, para n grande.

En particular si tales n variables aleatorias independientes tienen todas distribución normal entonces se verifica que su suma tiene distribución normal, para cualquier valor de n.

COMIENZO DE LEER ATENTO Como corolario, se concluye que bajo determinadas condiciones, las distribuciones de la media y proporción muestral son normales.

FIN DE LEER ATENTO

Ejemplos Teniendo en cuenta la información poblacional de las edades de los 497 empleados de una empresa (ver apartados 3.1.1. y 3.1.2.) a saber: la edad media poblacional es de 35 años con un desvío estándar de 9,105 años y una proporción de empleados mayores a 45 años del 11%, si se proyectara abrir un anexo cercano a la empresa con parte del personal y para ello se van a elegir al azar 119 empleados, podemos formularnos las siguientes preguntas:

7

1) a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119

empleados que trabajarán en el nuevo anexo sea inferior a los 34 años?

Como n = 119 es una muestra grande entonces N 35, 9,105

119

Por lo tanto

P(X < 34 años) = P z <34 - 359,105

119

= P(z < 1,198 ) = F ( 1,20 ) = 0,1151

La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?

P(X > 37 años) = P z >37 - 359,105

119

= P(z > 2,40) =1 F (2, 40 ) =1 0,9918 = 0,0082

La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082. 2) ¿Cuál será la probabilidad de que la proporción de los empleados

mayores a 45 años del nuevo anexo sea inferior al 10%.

P(p < 0,10) = P z <0,10 - 0,110,11.0,89

119

= P(z < -0,35) = F(-0,35 ) = 0,3632

La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.

COMIENZO DE ACTIVIDAD 1. a. Una carpintería recibe periódicamente grandes partidas de postes de madera de longitud media de 4 metros procedentes de un aserradero. Sabiendo que la precisión del proceso de cortado de los postes está dada por un desvío estándar de 3,5 cm. i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre 3,98 y 4,03 metros? ii. Si se elige una muestra de 80 postes de la última partida recibida, ¿cuál es la probabilidad de que la longitud media de la muestra esté comprendida entre 3,98 y 4,03 metros? iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

7

1) a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119

empleados que trabajarán en el nuevo anexo sea inferior a los 34 años?

Como n = 119 es una muestra grande entonces N 35, 9,105

119

Por lo tanto

P(X < 34 años) = P z <34 - 359,105

119

= P(z < 1,198 ) = F ( 1,20 ) = 0,1151

La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?

P(X > 37 años) = P z >37 - 359,105

119

= P(z > 2,40) =1 F (2, 40 ) =1 0,9918 = 0,0082

La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082. 2) ¿Cuál será la probabilidad de que la proporción de los empleados

mayores a 45 años del nuevo anexo sea inferior al 10%.

P(p < 0,10) = P z <0,10 - 0,110,11.0,89

119

= P(z < -0,35) = F(-0,35 ) = 0,3632

La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.

COMIENZO DE ACTIVIDAD 1. a. Una carpintería recibe periódicamente grandes partidas de postes de madera de longitud media de 4 metros procedentes de un aserradero. Sabiendo que la precisión del proceso de cortado de los postes está dada por un desvío estándar de 3,5 cm. i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre 3,98 y 4,03 metros? ii. Si se elige una muestra de 80 postes de la última partida recibida, ¿cuál es la probabilidad de que la longitud media de la muestra esté comprendida entre 3,98 y 4,03 metros? iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

Page 93: Estadisticas Angel Estadistica Angel Borgna Fernandez

La probabilidad de que la media de edad de los empleados que trabajarían enel nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleadossupere los 37 años?

La probabilidad de que la edad media de los empleados supere los 37 añoses 0,0082.

2)¿Cuál será la probabilidad de que la proporción de los empleados mayores a45 años del nuevo anexo sea inferior al 10%?

La probabilidad de que la proporción de los empleados mayores a 45 añosdel nuevo anexo sea inferior al 10% es 0,3632.

1.a. Una carpintería recibe periódicamente grandes partidas de postes de

madera de longitud media de 4 metros procedentes de un aserrade-ro. Sabiendo que la precisión del proceso de cortado de los postesestá dada por un desvío estándar de 3,5 cm. ii.. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre3,98 y 4,03 metros?iiii.. Si se elige una muestra de 80 postes de la última partida recibi-da, ¿cuál es la probabilidad de que la longitud media de la muestraesté comprendida entre 3,98 y 4,03 metros?iiiiii.. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

b. Una inmobiliaria de Quilmes ha cambiado su política de alquileresintroduciendo una opción de alquiler a sola firma. Actualmente el55% de los departamentos que ofrece son con esta modalidad. Delarchivo de alquileres de la inmobiliaria se tomó una muestra aleato-ria de 180 fichas. ¿Cuál es la probabilidad de que la proporción deinquilinos sin garante esté comprendida entre el 48% y el 60%?

9933

Estadistica

7

1) a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119

empleados que trabajarán en el nuevo anexo sea inferior a los 34 años?

Como n = 119 es una muestra grande entonces N 35, 9,105

119

Por lo tanto

P(X < 34 años) = P z <34 - 359,105

119

= P(z < 1,198 ) = F ( 1,20 ) = 0,1151

La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?

P(X > 37 años) = P z >37 - 359,105

119

= P(z > 2,40) =1 F (2, 40 ) =1 0,9918 = 0,0082

La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082. 2) ¿Cuál será la probabilidad de que la proporción de los empleados

mayores a 45 años del nuevo anexo sea inferior al 10%.

P(p < 0,10) = P z <0,10 - 0,110,11.0,89

119

= P(z < -0,35) = F(-0,35 ) = 0,3632

La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.

COMIENZO DE ACTIVIDAD 1. a. Una carpintería recibe periódicamente grandes partidas de postes de madera de longitud media de 4 metros procedentes de un aserradero. Sabiendo que la precisión del proceso de cortado de los postes está dada por un desvío estándar de 3,5 cm. i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre 3,98 y 4,03 metros? ii. Si se elige una muestra de 80 postes de la última partida recibida, ¿cuál es la probabilidad de que la longitud media de la muestra esté comprendida entre 3,98 y 4,03 metros? iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

7

1) a. ¿Cuál será la probabilidad de que la edad media de la muestra de 119

empleados que trabajarán en el nuevo anexo sea inferior a los 34 años?

Como n = 119 es una muestra grande entonces N 35, 9,105

119

Por lo tanto

P(X < 34 años) = P z <34 - 359,105

119

= P(z < 1,198 ) = F ( 1,20 ) = 0,1151

La probabilidad de que la media de edad de los empleados que trabajarían en el nuevo anexo sea inferior a 34 años es 0,1151.

b. ¿Cuál será la probabilidad de que la edad media de los 119 empleados supere los 37 años?

P(X > 37 años) = P z >37 - 359,105

119

= P(z > 2,40) =1 F (2, 40 ) =1 0,9918 = 0,0082

La probabilidad de que la edad media de los empleados supere los 37 años es 0,0082. 2) ¿Cuál será la probabilidad de que la proporción de los empleados

mayores a 45 años del nuevo anexo sea inferior al 10%.

P(p < 0,10) = P z <0,10 - 0,110,11.0,89

119

= P(z < -0,35) = F(-0,35 ) = 0,3632

La probabilidad de que la proporción de los empleados mayores a 45 años del nuevo anexo sea inferior al 10% es 0,3632.

COMIENZO DE ACTIVIDAD 1. a. Una carpintería recibe periódicamente grandes partidas de postes de madera de longitud media de 4 metros procedentes de un aserradero. Sabiendo que la precisión del proceso de cortado de los postes está dada por un desvío estándar de 3,5 cm. i. ¿Cuál es la probabilidad de que un poste elegido al azar mida entre 3,98 y 4,03 metros? ii. Si se elige una muestra de 80 postes de la última partida recibida, ¿cuál es la probabilidad de que la longitud media de la muestra esté comprendida entre 3,98 y 4,03 metros? iii. ¿Cuál es la diferencia entre i) y ii) ? Justifique.

Page 94: Estadisticas Angel Estadistica Angel Borgna Fernandez

3.2. Problemas fundamentales de la inferenciaestadística

En la vida cotidiana, como en el campo científico o profesional, surgen situa-ciones caracterizadas por la incertidumbre pese a lo cual deben tomarse deci-siones sustentadas usualmente en los modelos teóricos elaborados con baseen observaciones previas de fenómenos similares.

Los dos problemas fundamentales que atañen a la inferencia estadísticason la estimación de un parámetro desconocido y las pruebas de hipótesiscuyas soluciones se basan necesariamente en la evidencia muestral.

3.2.1. Estimación por intervalo de confianza

La estimación por intervalo de confianza de un parámetro desconoci-do consiste en construir –a partir de la evidencia muestral– un interva-lo o rango continuo de valores que contendría, con una cierta probabi-lidad asociada, el verdadero valor del parámetro poblacional.

Por ejemplo, toda persona que realiza una rutina diaria de su casa al trabajode hecho está colectando evidencia muestral sobre el tiempo que le insumeel viaje. A partir de las veces que anteriormente hizo el recorrido casa-traba-jo (lo que constituye un muestreo) estima un cierto intervalo de tiempo queemplearía un día cualquiera en llegar a su trabajo (se entiende, siguiendo larutina cotidiana), con una cierta probabilidad.

En el relato anterior se pueden identificar casi completamente todos los ele-mentos necesarios para la construcción de un intervalo de confianza, a saber:la evidencia muestral, el nivel de confianza –la probabilidad– de la estimacióny el parámetro –tiempo esperado– a estimar.

La construcción de intervalos de confianza se basa en las distribucionesque tienen los estadísticos muestrales, o estimadores de los parámetrospoblacionales, ya vistas en el apartado 3.1.

Intervalos de confianza para la media poblacional

Antes de abocarnos al cálculo de intervalos desarrollaremos los fundamen-tos de su construcción. Mantengamos por el momento la pauta del apartadoanterior de contar con una población cuyos µ y σ son conocidos y que de ellase extraerá una muestra de tamaño n.

La distribución de los X alrededor de µ bajo las condiciones generalesexpuestas en 3.1.3., se representa de la siguiente forma:

9944

Universidad Virtual de Quilmes

Page 95: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 3.5.

Si en vez de interesarnos en preguntas como P(X>a) ó P(X<b) nos planteára-mos una del tipo P(a<x<b) con a y b equidistantes de µ.,�el área sombreada(denominada 1–α�)�será la respuesta.

Gráfico 3.6.

Si 1–α es la probabilidad de que x caiga dentro del intervalo [a,b] entonces αserá la probabilidad de que x caiga fuera de él. Como se puede advertir α que-dará partido en dos, porque estamos considerando un intervalo simétrico alre-dedor de µ. Y estandarizando según Z se tiene lo siguiente.

Gráfico 3.7.

9955

Estadistica

35

Distribución de la población de las medias muestras (n>30)

Medias muestrales

Gráfico.3.3

0,11 10

Distribución de la población de las proporciones muestras (n>100)

Proporciones muestrales

Gráfico.3.4

Gráfico.3.5

Gráfico.3.6

µ X

µ Xa b

1-α

35

Distribución de la población de las medias muestras (n>30)

Medias muestrales

Gráfico.3.3

0,11 10

Distribución de la población de las proporciones muestras (n>100)

Proporciones muestrales

Gráfico.3.4

Gráfico.3.5

Gráfico.3.6

µ X

µ Xa b

1-α

µ X

X

a

Z Z Z

b

1-α

α/2

α/2 1−α/2

α/2

-Z Z Z

1-α

α/2

α/2 1−α/2

α/2

0

gl grande

gl mediano

gl chico

G.3.7

G.3.8

G.3.10

G.3.9.

Límite inferiordel intervalo

máx

Límite superiordel intervalo

ε máxε

Page 96: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los subíndices de los Z están en relación con el criterio de acumulación de latabla de la distribución normal estándar. Como el punto “a” acumula α/2 deprobabilidad su estandarizado Z será Zα/2 y como el punto “b” acumula 1–α/2de probabilidad su estandarizado será Z1–α/2. En rigor Zα/2 y Z1-α/2 son igua-les en valor absoluto pero tienen signo contrario.

Gráfico 3.8.

Entonces estandarizando la variable X

el cálculo de la probabilidad planteada será:

Luego, despejando de

9966

Universidad Virtual de Quilmes

µ X

X

a

Z Z Z

b

1-α

α/2

α/2 1−α/2

α/2

-Z Z Z

1-α

α/2

α/2 1−α/2

α/2

0

gl grande

gl mediano

gl chico

G.3.7

G.3.8

G.3.10

G.3.9.

Límite inferiordel intervalo

máx

Límite superiordel intervalo

ε máxε

10

Los subíndices de los Z están en relación con el criterio de acumulación de la tabla de la distribución normal estándar. Como el punto “a” acumula /2 de probabilidad su estandarizado Z será Z /2 y como el punto “b” acumula 1– /2 de probabilidad su estandarizado será Z1– /2. En rigor Z /2 y Z1- /2 son iguales en valor absoluto pero tienen signo contrario. Insertar Imagen Nº G.3.8.

G.3.8.

Entonces estandarizando la variable

Z =x

n

el cálculo de la probabilidad planteada será:

P(a < x < b) = P a -

n

<x

n

<b

n

=1

P(a < x < b) = P Z2

<x

n

< Z1

2

=1

P(a < x < b) = P Z1

2

<x

n

< Z1

2

=1

Luego, despejando de

10

Los subíndices de los Z están en relación con el criterio de acumulación de la tabla de la distribución normal estándar. Como el punto “a” acumula /2 de probabilidad su estandarizado Z será Z /2 y como el punto “b” acumula 1– /2 de probabilidad su estandarizado será Z1– /2. En rigor Z /2 y Z1- /2 son iguales en valor absoluto pero tienen signo contrario. Insertar Imagen Nº G.3.8.

G.3.8.

Entonces estandarizando la variable

Z =x

n

el cálculo de la probabilidad planteada será:

P(a < x < b) = P a -

n

<x

n

<b

n

=1

P(a < x < b) = P Z2

<x

n

< Z1

2

=1

P(a < x < b) = P Z1

2

<x

n

< Z1

2

=1

Luego, despejando de

11

P Z1

2

<x

n

< Z1

2

=1

se tiene

P Z1

2

.n

< x < Z1

2

.n

=1

Como es conocido, es la diferencia que podría haber entre la

media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

es el error de la media muestral respecto de la media poblacional y 1- es su probabilidad. El máximo valor que puede tomar ese error o error máximo , en valor absoluto es

máx = z1 2

. n

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se

analizarán con más detalle al abordar la construcción de los intervalos. En la realidad concreta de los problemas estadísticos, en general no

se conoce el valor de la media poblacional de ahí la necesidad de su estimación y para ello se utiliza la evidencia muestral y la información poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conocimiento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para presenta distintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y 2 conocido En este caso particular, para la construcción del intervalo de confianza para , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

P( Z1

2

.n

< x < Z1

2

.n

) =1

y teniendo en cuenta que ahora la incógnita es la despejamos obteniendo:

P x z

1 a2 n

< < x + z1

2 n

=1

Page 97: Estadisticas Angel Estadistica Angel Borgna Fernandez

se tiene

Como µ es conocido, X–µ es la diferencia que podría haber entre la media dela muestra que se seleccionará y la media conocida de la población. Por sunaturaleza, a esta diferencia la consideramos como error.

X–µ es el error de la media muestral respecto de la media poblacional y 1–αes su probabilidad. El máximo valor que puede tomar ese error o error máxi-mo, en valor absoluto es

Puede observarse que cuando se agranda el tamaño de la muestra el errormáximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza.Como ambos casos tienen distintas connotaciones se analizarán con másdetalle al abordar la construcción de los intervalos.

En la realidad concreta de los problemas estadísticos, en general, no seconoce el valor de la media poblacional µ. De ahí la necesidad de su estima-ción y para ello se utiliza la evidencia muestral y la información poblacional quese posea como el tipo de distribución poblacional (normal o no) y el conoci-miento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para µ presenta dis-tintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y σ2 conocidoEn este caso particular, para la construcción del intervalo de confianza paraµ�, se parte de la expresión del error de la media muestral respecto de lamedia poblacional a la que arribamos anteriormente:

y teniendo en cuenta que ahora la incógnita es µ la despejamos obteniendo:

Donde ahora 1- α es la probabilidad, la confianza que tenemos de que elintervalo

9977

Estadistica

11

P Z1

2

<x

n

< Z1

2

=1

se tiene

P Z

12

.n

< x < Z1

2

.n

=1

Como es conocido, es la diferencia que podría haber entre la

media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

es el error de la media muestral respecto de la media poblacional y 1- es su probabilidad. El máximo valor que puede tomar ese error o error máximo , en valor absoluto es

máx = z1 2

. n

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se

analizarán con más detalle al abordar la construcción de los intervalos. En la realidad concreta de los problemas estadísticos, en general no

se conoce el valor de la media poblacional de ahí la necesidad de su estimación y para ello se utiliza la evidencia muestral y la información poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conocimiento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para presenta distintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y 2 conocido En este caso particular, para la construcción del intervalo de confianza para , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

P( Z1

2

.n

< x < Z1

2

.n

) =1

y teniendo en cuenta que ahora la incógnita es la despejamos obteniendo:

P x z

1 a2 n

< < x + z1

2 n

=1

11

P Z1

2

<x

n

< Z1

2

=1

se tiene

P Z1

2

.n

< x < Z1

2

.n

=1

Como es conocido, es la diferencia que podría haber entre la

media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

es el error de la media muestral respecto de la media poblacional y 1- es su probabilidad. El máximo valor que puede tomar ese error o error máximo , en valor absoluto es

máx = z

1 2 .

n

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se

analizarán con más detalle al abordar la construcción de los intervalos. En la realidad concreta de los problemas estadísticos, en general no

se conoce el valor de la media poblacional de ahí la necesidad de su estimación y para ello se utiliza la evidencia muestral y la información poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conocimiento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para presenta distintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y 2 conocido En este caso particular, para la construcción del intervalo de confianza para , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

P( Z1

2

.n

< x < Z1

2

.n

) =1

y teniendo en cuenta que ahora la incógnita es la despejamos obteniendo:

P x z

1 a2 n

< < x + z1

2 n

=1

11

P Z1

2

<x

n

< Z1

2

=1

se tiene

P Z1

2

.n

< x < Z1

2

.n

=1

Como es conocido, es la diferencia que podría haber entre la

media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

es el error de la media muestral respecto de la media poblacional y 1- es su probabilidad. El máximo valor que puede tomar ese error o error máximo , en valor absoluto es

máx = z1 2

. n

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se

analizarán con más detalle al abordar la construcción de los intervalos. En la realidad concreta de los problemas estadísticos, en general no

se conoce el valor de la media poblacional de ahí la necesidad de su estimación y para ello se utiliza la evidencia muestral y la información poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conocimiento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para presenta distintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y 2 conocido En este caso particular, para la construcción del intervalo de confianza para , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

P( Z

12

.n

< x < Z1

2

.n

) =1

y teniendo en cuenta que ahora la incógnita es la despejamos obteniendo:

P x z

1 a2 n

< < x + z1

2 n

=1

11

P Z1

2

<x

n

< Z1

2

=1

se tiene

P Z1

2

.n

< x < Z1

2

.n

=1

Como es conocido, es la diferencia que podría haber entre la

media de la muestra que se seleccionará y la media conocida de la población. Por su naturaleza, a esta diferencia la consideramos como error.

es el error de la media muestral respecto de la media poblacional y 1- es su probabilidad. El máximo valor que puede tomar ese error o error máximo , en valor absoluto es

máx = z1 2

. n

Puede observarse que cuando se agranda el tamaño de la muestra el error máximo se achica y lo mismo ocurre cuando disminuye el nivel de confianza. Como ambos casos tienen distintas connotaciones se

analizarán con más detalle al abordar la construcción de los intervalos. En la realidad concreta de los problemas estadísticos, en general no

se conoce el valor de la media poblacional de ahí la necesidad de su estimación y para ello se utiliza la evidencia muestral y la información poblacional que se posea como el tipo de distribución poblacional (normal o no) y el conocimiento de otros parámetros (varianza o desvío estándar).

El cálculo de la estimación por intervalos de confianza para presenta distintos casos dependiendo de la información poblacional con que se cuente.

Población normal o aproximadamente normal y 2 conocido En este caso particular, para la construcción del intervalo de confianza para , se parte de la expresión del error de la media muestral respecto de la media poblacional a la que arribamos anteriormente:

P( Z1

2

.n

< x < Z1

2

.n

) =1

y teniendo en cuenta que ahora la incógnita es la despejamos obteniendo:

P x z

1 a2 n

< < x + z1

2 n

=1

Page 98: Estadisticas Angel Estadistica Angel Borgna Fernandez

contenga al verdadero valor de µ. El mismo intervalo (con una probabilidad 1–α asociada) que anteriormen-

te se ubicaba alrededor del µ, ahora se ubica alrededor del X para poder esti-mar (con una confianza 1–α) el µ desconocido.

��Nótese además que, en rigor, lo único que se trajo del estudio previo es elsegmento que se colocó sobre X y su probabilidad asociada. No hay una dis-tribución sobre él (la distribución de la muestra, en todo caso, no forma partede la construcción que hicimos).

En resumen, los límites del intervalo se obtienen sumando y restando elerror máximo a la media muestral ya que ésta es el centro del intervalo.

Gráfico 3.9.

Por lo tanto, al intervalo también se lo puede expresar del siguiente modo:

Como el error máximo disminuye cuando aumenta el

tamaño de la muestra o cuando es menor el nivel de confianza, entonces:

• Si aumenta el tamaño de la muestra, para un mismo nivel de confianza –el valor de z se mantiene constante– se obtiene un intervalo de menoramplitud que implica mayor precisión en la estimación.

• Si disminuye el nivel de confianza (manteniendo el tamaño de la muestra) seobtiene un intervalo de menor amplitud pero eso no implica mejorar la preci-sión ya que el intervalo tendrá menor probabilidad de contener al parámetro.

EjemploCon el fin de controlar el proceso de llenado de paquetes de galletitas demedio kilo, se seleccionaron al azar 16 de esos paquetes y el peso en gramosde cada uno de ellos fue el siguiente: 505; 510; 495; 508; 504; 512; 496;512; 514; 505; 493; 496; 506; 502; 509; 497.

Como información adicional se conoce por catálogo de compra de la máqui-na que la precisión de ella al envasar está dada por un desvío estándar deσ = 5 gramos.

9988

Universidad Virtual de Quilmes

µ X

X

a

Z Z Z

b

1-α

α/2

α/2 1−α/2

α/2

-Z Z Z

1-α

α/2

α/2 1−α/2

α/2

0

gl grande

gl mediano

gl chico

G.3.7

G.3.8

G.3.10

G.3.9.

Límite inferiordel intervalo

máx

Límite superiordel intervalo

ε máxε

Page 99: Estadisticas Angel Estadistica Angel Borgna Fernandez

Con base en la muestra de los 16 paquetes estimaremos el peso medio detodos los paquetes de galletitas envasados por esa máquina, mediante unintervalo con un nivel de confianza de 0,95.

La información con que se cuenta es la siguiente.

Sobre la población:

• La distribución de los pesos de todos los paquetes llenados por la máqui-na es normal (o aproximadamente normal) porque los procesos de medi-ción de un mismo valor nominal (medir longitudes, pesar, etc.) entregannaturalmente poblaciones normales.

• El desvío estándar σ = 5g.

Sobre la muestra:

• El tamaño de la muestra seleccionada es n = 16.• El peso medio de los paquetes X = 504g.• El desvío estándar S = 6,802g.

Se obtiene el intervalo de confianza para el peso medio m de llenado de lospaquetes, utilizando la expresión:

Sabiendo que el nivel de confianza establecido es 1-α = 0,95 calculamos elvalor de 1-α/2 y a continuación buscamos en la tabla el z1-α/2. Luego z0,975 =1,96.

Reemplazando se obtiene:

Concluimos que, con base en una muestra de 16 paquetes y con una con-fianza del 95%, se estima que el peso medio de todos los paquetes fabrica-dos se encuentra entre 501,55g y 506,45g.

Supongamos que el error máximo (2,45g) de la estimación fuera grande paracumplir con determinadas exigencias del control de calidad. En ese caso seríanecesario mejorar la estimación achicando el error máximo tomando una mues-tra de mayor tamaño.

La pregunta que surge es ¿de qué tamaño deberá ser la nueva muestrapara que el error máximo asociado de la futura estimación sea, por ejemplode 1g, obviamente con el mismo nivel de confianza?

9999

Estadistica

En la elección de un nivelde confianza, son están-

dares los valores 0,90; 0,95 o 0,99.

13

Con el fin de controlar el proceso de llenado de paquetes de galletitas de medio kilo, se seleccionaron al azar 16 de esos paquetes y el peso en gramos de cada uno de ellos fue el siguiente: 505; 510; 495; 508; 504; 512; 496; 512; 514; 505; 493; 496; 506; 502; 509; 497.

Como información adicional se conoce por catálogo de compra de la máquina que la precisión de ella al envasar está dada por un desvío estándar de = 5 gramos.

En base a la muestra de los 16 paquetes estimaremos el peso medio de todos los paquetes de galletitas envasados por esa máquina, mediante un intervalo con un nivel de confianza de 0,95.

COMIENZO DE PASTILLA EN nivel de confianza En la elección de un nivel de confianza, son estándares los valores 0,90; 0,95 o 0,99. FIN DE PASTILLA La información con que se cuenta es la siguiente. Sobre la población: • la distribución de los pesos de todos los paquetes llenados por

la máquina es normal (o aproximadamente normal) porque los procesos de medición de un mismo valor nominal (medir longitudes, pesar, etc.) entregan naturalmente poblaciones normales.

• el desvío estándar = 5g. Sobre la muestra: • el tamaño de la muestra seleccionada es n = 16. • el peso medio de los paquetes = 504g. • el desvío estándar S = 6,802g.

Se obtiene el intervalo de confianza para el peso medio de llenado de los paquetes, utilizando la expresión:

I = x z

12 n

,x + z1

2 n

Sabiendo que el nivel de confianza establecido es 1- = 0,95 calculamos el valor de 1- /2 y a continuación buscamos en la tabla el z1- /2. Luego z0,975 = 1,96.

Reemplazando se obtiene:

I = 504 1,96

5

16,504 +1,96

5

16

= 501,55; 506,45[ ]

Concluimos que, con base en una muestra de 16 paquetes y con una confianza del 95%, se estima que el peso medio de todos los paquetes fabricados se encuentra entre 501,55g y 506,45g.

13

Con el fin de controlar el proceso de llenado de paquetes de galletitas de medio kilo, se seleccionaron al azar 16 de esos paquetes y el peso en gramos de cada uno de ellos fue el siguiente: 505; 510; 495; 508; 504; 512; 496; 512; 514; 505; 493; 496; 506; 502; 509; 497.

Como información adicional se conoce por catálogo de compra de la máquina que la precisión de ella al envasar está dada por un desvío estándar de = 5 gramos.

En base a la muestra de los 16 paquetes estimaremos el peso medio de todos los paquetes de galletitas envasados por esa máquina, mediante un intervalo con un nivel de confianza de 0,95.

COMIENZO DE PASTILLA EN nivel de confianza En la elección de un nivel de confianza, son estándares los valores 0,90; 0,95 o 0,99. FIN DE PASTILLA La información con que se cuenta es la siguiente. Sobre la población: • la distribución de los pesos de todos los paquetes llenados por

la máquina es normal (o aproximadamente normal) porque los procesos de medición de un mismo valor nominal (medir longitudes, pesar, etc.) entregan naturalmente poblaciones normales.

• el desvío estándar = 5g. Sobre la muestra: • el tamaño de la muestra seleccionada es n = 16. • el peso medio de los paquetes = 504g. • el desvío estándar S = 6,802g.

Se obtiene el intervalo de confianza para el peso medio de llenado de los paquetes, utilizando la expresión:

I = x z1

2 n,x + z

12 n

Sabiendo que el nivel de confianza establecido es 1- = 0,95 calculamos el valor de 1- /2 y a continuación buscamos en la tabla el z1- /2. Luego z0,975 = 1,96.

Reemplazando se obtiene:

I = 504 1,96

5

16,504 +1,96

5

16

= 501,55; 506,45[ ]

Concluimos que, con base en una muestra de 16 paquetes y con una confianza del 95%, se estima que el peso medio de todos los paquetes fabricados se encuentra entre 501,55g y 506,45g.

Page 100: Estadisticas Angel Estadistica Angel Borgna Fernandez

De la fórmula del εmáx. se despeja n.

Para poder estimar la media de todos los paquetes envasados por esa máqui-na con un error máximo de 1g y con una confianza del 95% deberán selec-cionarse como mínimo 97 paquetes.

2.Con base en la muestra de 20 piezas plásticas de la matriz ME4 con-signada en el apartado 1.3. de la Unidad 1 y sabiendo que la precisiónde la balanza está definida por un desvío estándar de 1g.a. Estimar, con un nivel de confianza del 95%, el peso medio de todas

las piezas plásticas fabricadas por esa empresa.b. ¿En qué se fundamenta la normalidad de la distribución de todos

los pesos de las piezas plásticas?

Población normal o aproximadamente normal y σ2 desconocidoConsideremos ahora que la especificación de la desviación estándar pobla-cional dada en el problema anterior no se conoce, porque se perdió el catá-logo o porque el fabricante de la máquina no lo proveyó, o por otras razones.¿Podemos realizar igualmente la estimación de la media poblacional?

Si la población es normal, y estamos en ese caso, es posible calcular elerror máximo reemplazando el s desconocido por su mejor estimador que esel desvío muestral S. Pero en lugar de la distribución normal estándar se debe-rá utilizar la distribución t de Student la cual fue diseñada especialmente parael muestreo en poblaciones normales.

Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con media �y desviación estándar s. Entonces la variable aleatoria tiene una distribución tcon n-1 grados de libertad.

Características de la distribución t de Student1- Al igual que en la distribución Normal:

a) El rango de valores de la t de Student varía de -∞ a +∞b) Es simétrica respecto de su media.

V(t) siempre mayor a 1 pero si crece el tamaño de la muestra, n → ∞ el desvío tiende a 1 yla distribución t es asintóticamente normal de parámetros (0, 1)

110000

Universidad Virtual de Quilmes

La distr ibución t deStudent fue publicada en1908 por W. S. Gosset bajo el seu-dónimo de Student.

xx

Page 101: Estadisticas Angel Estadistica Angel Borgna Fernandez

3- Es más aplanada que la Normal por tener mayor dispersión.

4- Hay una familia de curvas de la distribución t de Student dependiendo de los grados delibertad que para una variable es n–1 como se muestra en el gráfico G.3.10.

Gráfico 3.10.

5- Las curvas dependen de los grados de libertad, a mayor grado de libertad correspondemenor dispersión.

Entonces, en este caso el error máximo es

Y el intervalo de confianza para la media poblacional es:

Volviendo al problema:

La información con la que contamos es la siguiente. Sobre la población:• La distribución de los pesos de todos los paquetes llenados por la máqui-

na es normal (o aproximadamente normal) porque los procesos de medi-ción de un mismo valor nominal (medir longitudes, pesar, etc.) entregannaturalmente poblaciones normales.

Sobre la muestra:• El tamaño de la muestra seleccionada n = 16. • El peso medio de los paquetes de la muestra X=504g.• El desvío de la muestra S = 6,802g.

Utilizando el mismo nivel de confianza 1–α = 0,95 y sabiendo que los gradosde libertad son 15, buscamos en la tabla de la t del Anexo el valor corres-pondiente a tn-1;1-α/2. Luego t15;0,975 = 2,131.

Reemplazando los datos construimos el intervalo de confianza para la media:

110011

Estadistica

x

µ X

X

a

Z Z Z

b

1-α

α/2

α/2 1−α/2

α/2

-Z Z Z

1-α

α/2

α/2 1−α/2

α/2

0

gl grande

gl mediano

gl chico

G.3.7

G.3.8

G.3.10

G.3.9.

Límite inferiordel intervalo

máx

Límite superiordel intervalo

ε máxε

x

Page 102: Estadisticas Angel Estadistica Angel Borgna Fernandez

Finalmente, con base en una muestra de 16 paquetes y con una confianza del95%, se estima que el peso medio de todos los paquetes fabricados se encuen-tra entre 500,38g y 507,63g.

Notamos que el intervalo obtenido es menos preciso que el hallado en elejemplo anterior, donde se conocía el desvío poblacional, y esto se debe a queen este segundo caso sólo se cuenta con las medidas muestrales. Comoera de esperar al contar con menor información se obtuvo menor precisiónen la estimación.

3.Con base en la muestra de 20 piezas plásticas de la matriz ME4 con-signada en el apartado 1.3 de la Unidad 1; aa.. Estimar, con un nivel de confianza del 95%, la longitud media de

todas las piezas plásticas fabricadas por esa empresa.bb. ¿Qué supuesto tuvo en cuenta acerca de la distribución de todas las

longitudes de las piezas de plástico para realizar la estimación?

Población no normal y σ2 conocidoCuando la población no es normal o se desconoce el tipo de distribución queposee y se conoce la varianza poblacional, para poder estimar la media pobla-cional es necesario que la muestra sea grande para que –en virtud del Teoremacentral del límite– dicha estimación pueda realizarse utilizando la misma expre-sión de la primera situación tratada.

Por otro lado, si la muestra es chica no se puede llevar a cabo la estimaciónpor intervalo de confianza de la media poblacional.

EjemploConsideremos la población de los tiempos empleados para realizar todas lastransacciones bancarias posibles por la totalidad de los clientes de un deter-minado banco.

En este problema la distribución de los tiempos empleados para realizartodas las transacciones bancarias no necesariamente es normal.

Repasar las características de la población definida en este ejemplo conla tratada en la Unidad 2, apartado 2.2.4. para reconocer la distinta natu-raleza de cada una.

110022

Universidad Virtual de Quilmes

Page 103: Estadisticas Angel Estadistica Angel Borgna Fernandez

Convengamos que la desviación estándar de todas las operaciones es cono-cida y es σ = 1,5 minutos.

Si se deseara estimar el tiempo medio que tardan los clientes en realizartodas las operaciones y se seleccionara una muestra aleatoria de 60 clientesque emplearon en promedio 3,7 minutos con un desvío estándar de 2,1 minu-tos, la información con la que contaríamos sería la siguiente:

Sobre la población:• El desvío σ = 1,5 min.Sobre la muestra:• El tamaño de la muestra seleccionada n = 60. • El tiempo medio de las transacciones de la muestra X=3,7min.• El desvío de la muestra S = 2,1 min.

Calcularemos un intervalo para μ con una confianza del 95%.

Luego, con base en una muestra de 60 transacciones y con una confianza del95%, se estima que el tiempo medio de todas las operaciones del banco seencuentra entre 3,31 min y 4,08 min.

Intervalo de confianza para la proporción poblacional

Toda la lógica empleada para fundamentar la construcción de intervalos deconfianza para la media poblacional puede extenderse a la fundamenta-ción de la construcción de intervalos de confianza para estimar la proporciónpoblacional P debido a que, en virtud al Teorema central del límite, la varia-ble aleatoria proporción muestral tiene distribución normal de parámetros

si el tamaño n de la muestra es grande.

Para construir un intervalo de confianza para la proporción poblacional, aligual que en los casos vistos para la media, el intervalo se centrará en el esta-dístico muestral y será simétrico alrededor de él.

En este caso el cálculo del error máximo debería ser:

pero al desconocer P se utiliza su mejor estimador p, quedando

110033

Estadistica

17

Ejemplo Consideremos la población de los tiempos empleados para realizar todas las transacciones bancarias posibles por la totalidad de los clientes de un determinado banco.

En este problema la distribución de los tiempos empleados para realizar todas las transacciones bancarias no necesariamente es normal.

COMIENZO DE PARA REFLEXIONAR

Repasar las características de la población definida en este

ejemplo con la tratada en la Unidad 2, apartado 2.2.4. para

reconocer la distinta naturaleza de cada una.

FIN DE PARA REFLEXIONAR

Convengamos que la desviación estándar de todas las operaciones es

conocida y es = 1,5 minutos.

Si se deseara estimar el tiempo medio que tardan los clientes en realizar todas

las operaciones y se seleccionara una muestra aleatoria de 60 clientes que

emplearon en promedio 3,7 minutos con un desvío estándar de 2,1 minutos, la

información con la que contaríamos sería la siguiente:

Sobre la población:

• el desvío = 1,5 min

Sobre la muestra: • el tamaños de la muestra seleccionada n = 60 • el tiempo medio de las transacciones de la muestra

• el desvío de la muestra S = 2,1 min

Calcularemos un intervalo para con una confianza del 95%.

I = 3,7 1,96

1,560

,3,7 +1,961,560

= 3,31 , 4,08( )

Luego, con base en una muestra de 60 transacciones y con una confianza del 95%, se estima que el tiempo medio de todas las operaciones del banco se encuentra entre 3,31 min y 4,08 min. Intervalo de confianza para la proporción poblacional Toda la lógica empleada para fundamentar la construcción de intervalos de confianza para la media poblacional puede extenderse a la fundamentación de la construcción de intervalos de confianza para estimar la proporción poblacional P debido a que, en virtud al Teorema central del límite, la variable aleatoria proporción muestral tiene

distribución normal de parámetros p= P y p =P.(1 P)

n si el tamaño

n de la muestra es grande.

17

Ejemplo Consideremos la población de los tiempos empleados para realizar todas las transacciones bancarias posibles por la totalidad de los clientes de un determinado banco.

En este problema la distribución de los tiempos empleados para realizar todas las transacciones bancarias no necesariamente es normal.

COMIENZO DE PARA REFLEXIONAR

Repasar las características de la población definida en este

ejemplo con la tratada en la Unidad 2, apartado 2.2.4. para

reconocer la distinta naturaleza de cada una.

FIN DE PARA REFLEXIONAR

Convengamos que la desviación estándar de todas las operaciones es

conocida y es = 1,5 minutos.

Si se deseara estimar el tiempo medio que tardan los clientes en realizar todas

las operaciones y se seleccionara una muestra aleatoria de 60 clientes que

emplearon en promedio 3,7 minutos con un desvío estándar de 2,1 minutos, la

información con la que contaríamos sería la siguiente:

Sobre la población:

• el desvío = 1,5 min

Sobre la muestra: • el tamaños de la muestra seleccionada n = 60 • el tiempo medio de las transacciones de la muestra

• el desvío de la muestra S = 2,1 min

Calcularemos un intervalo para con una confianza del 95%.

I = 3,7 1,961,560

,3,7 +1,961,560

= 3,31 , 4,08( )

Luego, con base en una muestra de 60 transacciones y con una confianza del 95%, se estima que el tiempo medio de todas las operaciones del banco se encuentra entre 3,31 min y 4,08 min. Intervalo de confianza para la proporción poblacional Toda la lógica empleada para fundamentar la construcción de intervalos de confianza para la media poblacional puede extenderse a la fundamentación de la construcción de intervalos de confianza para estimar la proporción poblacional P debido a que, en virtud al Teorema central del límite, la variable aleatoria proporción muestral tiene

distribución normal de parámetros p= P y p =P.(1 P)

n si el tamaño

n de la muestra es grande.

18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z1

2

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z1

2

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406] 18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z

12

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z1

2

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406]

18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z1

2

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z

12

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406]

Page 104: Estadisticas Angel Estadistica Angel Borgna Fernandez

Por tal motivo, el intervalo de confianza para la proporción poblacional PP resulta

EjemploPara estimar la proporción de familias que ven por TV un determinado pro-grama, se seleccionó una muestra de 2200 familias que poseen uno o mástelevisores en una determinada ciudad, y de la muestra se obtuvo que 871familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95,un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • El tamaño de la muestra seleccionada n = 2200.• La proporción muestral de familias que ven el programa de TV.

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96.

Reemplazando se tiene que el intervalo para P es:

Con base en una muestra de 2200 familias con el 95% de confianza la verda-dera proporción de familias que ven ese programa de TV está comprendida entreel 38,6% y el 40,6%.

4.Con base en la muestra de las 96 familias escogidas al azar de cierta loca-lidad (apartado 1.1.2. de la Unidad 1) con 1 – α = 0,95 estimar la pro-porción de familias en toda la población cuyo gasto medio en alimen-tos supere los $46.

Determinación del tamaño de una muestraComo se hizo para la media, se despeja n de la fórmula del error máximo, queen su forma original y en su forma aproximada es:

110044

Universidad Virtual de Quilmes

18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z1

2

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z1

2

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406]

18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z1

2

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z1

2

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406]

18

Para construir un intervalo de confianza para la proporción poblacional, al igual que en los casos vistos para la media, el intervalo se centrará en el estadístico muestral y será simétrico alrededor de él.

IP = p máx ;p + máx[ ]

En este caso el cálculo del error máximo debería ser:

máx = z1

2

P.(1 P)n

pero al desconocer P se utiliza su mejor estimador p, quedando

máx z1

2

p.(1 p)n

Por tal motivo, el intervalo de confianza para la proporción poblacional

P resulta

IP = p z

12

p.(1 p)n

, p + z1

2

p.(1 p)n

Ejemplo Para estimar la proporción de familias que ven por TV un determinado programa, se seleccionó una muestra de 2200 familias que poseen uno o más televisores en una determinada ciudad, y de la muestra se obtuvo que 871 familias ven ese programa. Estimar, utilizando un nivel de confianza de 0,95, un intervalo para la proporción de familias que ven ese programa.

La información con la que contamos es la siguiente. • el tamaño de la muestra seleccionada n =2200 • la proporción muestral de familias que ven el programa de TV

p =871

2200= 0,396

Para una confianza del 95%, el valor z0,975 de la tabla es 1,96. Reemplazando se tiene que el intervalo para P es:

IP = p z1

2

p.(1 p)n

,p + z1

2

p.(1 p)n

IP 0,396 1,96.0,396.0,604

2200, 0,396 +1,96.

0,396.0,6042200

IP= [0,386; 0,406]

19

Con base en una muestra de 2200 familias con el 95% de confianza la verdadera proporción de familias que ven ese programa de TV está comprendida entre el 38,6% y el 40,6%.

COMIENZO DE ACTIVIDAD 4. Con base en la muestra de las 96 familias escogidas al azar de cierta localidad (apartado 1.1.2. de la Unidad 1) con 1 – = 0,95 estimar la proporción de familias en toda la población cuyo gasto medio en alimentos supere los $46. FIN DE ACTIVIDAD

Determinación del tamaño de una muestra Como se hizo para la media, se despeja n de la fórmula del error máximo, que en su forma original y en su forma aproximada es:

máx = z

12

P.(1 P)n

z1

2

p.(1 p)n

Al no conocer P porque es lo que se quiere estimar y al no conocer p porque aún no se tomó la muestra (justamente necesitamos calcular de qué tamaño mínimo deberá ser), se presenta un problema que debemos sortear. Para hacerlo se parte de la suposición teórica de que P = 0,50 , lo que es lógico porque es el sustento teórico de la curva de distribución de las proporciones muestrales; aunque luego –como es esperable– la realidad difiera del modelo teórico. Reemplazando y despejando n se tiene:

máx = z1

2

0,50.0,50n

= z1

2

. 0,50n

n =z1 .0,50

máx

2

3.2.2. Pruebas de hipótesis

COMIENZO DE LEER ATENTO Una prueba –test o contraste– de hipótesis consiste en un procedimiento mediante el cual se somete a prueba un parámetro (u otra característica) poblacional desconocido sobre el que se tiene alguna suposición.

Como todo problema de inferencia estadística la prueba de hipótesis debe basarse en la evidencia muestral. FIN DE LEER ATENTO

Cuando el objetivo de una prueba de hipótesis es testear el valor de un parámetro (desconocido) a partir de un valor hipotético o de dicho parámetro, surge una primera hipótesis estadística denominada hipótesis nula (Ho) que presupone que no habría una diferencia significativa entre

y o y que se expresa

Page 105: Estadisticas Angel Estadistica Angel Borgna Fernandez

Al no conocer P porque es lo que se quiere estimar y al no conocer p porqueaún no se tomó la muestra (justamente necesitamos calcular de qué tamañomínimo deberá ser), se presenta un problema que debemos sortear. Parahacerlo se parte de la suposición teórica de que P = 0,50, lo que es lógico por-que es el sustento teórico de la curva de distribución de las proporcionesmuestrales; aunque luego –como es esperable– la realidad difiera del mode-lo teórico.

Reemplazando y despejando n se tiene:

3.2.2. Pruebas de hipótesis

Una prueba –test o contraste– de hipótesis consiste en un procedimientomediante el cual se somete a prueba un parámetro (u otra característi-ca) poblacional desconocido sobre el que se tiene alguna suposición.Como todo problema de inferencia estadística la prueba de hipótesisdebe basarse en la evidencia muestral.

Cuando el objetivo de una prueba de hipótesis es testear el valor de un pará-metro θ (desconocido) a partir de un valor hipotético θo de dicho parámetro,surge una primera hipótesis estadística denominada hipótesis nula (Ho) quepresupone que no habría una diferencia significativa entre θ y θo y que seexpresa

Ho : θ = θo

Si la evidencia muestral contradijera la afirmación de H0 y existiera sospechade que la diferencia pudiera ser significativa, surge por oposición una segun-da hipótesis estadística que llamamos hipótesis alternativa (HA) la cual sos-tiene, en contraste con H0, que el valor del parámetro θ diferiría significativa-mente del hipotético θ0.

HA puede asumir alguna de las siguientes formas:

HA : θ < θ0 ó HA : θ > θ0

En una prueba de hipótesis (PPHH) la hipótesis nula H0 es en rigor la que sesomete a prueba, y como resultante H0 puede ser aceptada o rechazada. SiH0 resulta ser rechazada la conclusión final de la prueba se inclinaría a favorde HA.

Debido al ambiente de incertidumbre en el que se realiza una PPHH, dadoque se basa en la evidencia proporcionada por una muestra, en la decisión finalse pueden cometer dos tipos de errores: rechazar H0 si en realidad fuere ver-dadera y aceptar H0 si en realidad fuere falsa. El primero de ellos se denominaerror de tipo I y tiene asociada una probabilidad α, llamada nivel de significa-ción de la prueba.

110055

Estadistica

19

Con base en una muestra de 2200 familias con el 95% de confianza la verdadera proporción de familias que ven ese programa de TV está comprendida entre el 38,6% y el 40,6%.

COMIENZO DE ACTIVIDAD 4. Con base en la muestra de las 96 familias escogidas al azar de cierta localidad (apartado 1.1.2. de la Unidad 1) con 1 – = 0,95 estimar la proporción de familias en toda la población cuyo gasto medio en alimentos supere los $46. FIN DE ACTIVIDAD

Determinación del tamaño de una muestra Como se hizo para la media, se despeja n de la fórmula del error máximo, que en su forma original y en su forma aproximada es:

máx = z1

2

P.(1 P)n

z1

2

p.(1 p)n

Al no conocer P porque es lo que se quiere estimar y al no conocer p porque aún no se tomó la muestra (justamente necesitamos calcular de qué tamaño mínimo deberá ser), se presenta un problema que debemos sortear. Para hacerlo se parte de la suposición teórica de que P = 0,50 , lo que es lógico porque es el sustento teórico de la curva de distribución de las proporciones muestrales; aunque luego –como es esperable– la realidad difiera del modelo teórico. Reemplazando y despejando n se tiene:

máx = z

12

0,50.0,50n

= z1

2

. 0,50n

n =z1 .0,50

máx

2

3.2.2. Pruebas de hipótesis

COMIENZO DE LEER ATENTO Una prueba –test o contraste– de hipótesis consiste en un procedimiento mediante el cual se somete a prueba un parámetro (u otra característica) poblacional desconocido sobre el que se tiene alguna suposición.

Como todo problema de inferencia estadística la prueba de hipótesis debe basarse en la evidencia muestral. FIN DE LEER ATENTO

Cuando el objetivo de una prueba de hipótesis es testear el valor de un parámetro (desconocido) a partir de un valor hipotético o de dicho parámetro, surge una primera hipótesis estadística denominada hipótesis nula (Ho) que presupone que no habría una diferencia significativa entre

y o y que se expresa

El valor hipotético de unparámetro es una pre-

sunción o una suposición que serealiza sobre él, como por ejem-plo una especificación para el con-trol de calidad, un valor histórico,un valor de comparación o un valorque se elige arbitrariamente.

Page 106: Estadisticas Angel Estadistica Angel Borgna Fernandez

P(error de tipo I) = P(rechazar H0 / H0 verdadera) = a

El segundo error (aceptar H0 si en realidad fuere falsa) se llama error de tipoII y su probabilidad asociada es β.

P(error de tipo II) = P(aceptar H0 / H0 falsa) = β

En esta carpeta se trabajará sólo con la probabilidad a de cometer un error detipo I.

Prueba de hipótesis para la media poblacional

La PPHH para la media µ presenta distintos casos, dependiendo de la infor-mación poblacional con que se cuente, tal como ocurre en la estimación porintervalos de confianza.

Población normal o aproximadamente normal y σ2 conocidoVolviendo al ejemplo de controlar el proceso de llenado de paquetes de galle-titas de medio kilo, abordado en estimación de la media poblacional por inter-valo de confianza, cabe preguntarnos si se podría imprimir en todos los paque-tes el valor nominal de 500g. Para responder a la pregunta debemos realizarun contraste de hipótesis donde, el parámetro desconocido (que genérica-mente llamábamos θ) es el promedio µ del peso de todos los paquetes enva-sados, cuyo valor hipotético µ0 = 500g es el valor nominal que se quiere impri-mir. Luego, la hipótesis nula será H0: µ = µ0 , es decir:

H0: µ = 500g

A partir de la evidencia de la muestra de los 16 paquetes donde el peso medioresultó X= 504g, se puede plantear la siguiente hipótesis alternativa,

HA: µ > 500g

dado que la evidencia muestral arrojó un peso medio (estadístico muestral)superior al valor nominal (parámetro hipotético).Entonces el juego de hipótesis para esta PPHH es:

H0: �µ = 500gHA: µ > 500g

Estableceremos ahora un criterio que permita discriminar cuándo la diferen-cia entre el estadístico muestral y el parámetro hipotético no es significativa(y por extensión no sería significativa la diferencia entre µ y µ0 por lo que seacepta la H0) y cuándo esa diferencia sí es significativa (y en consecuencia serechaza H0 a favor de HA).

Ese criterio está sustentado por el nivel de significación de la prueba quedetermina un valor denominado punto crítico, el cual establece dos regiones:

110066

Universidad Virtual de Quilmes

Page 107: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 3.11.

En particular esta prueba se denomina unilateral derecha porque la zona derechazo se encuentra a la derecha del punto crítico.

El desarrollo de la prueba o la contrastación de las hipótesis se realiza enel dominio de la normal estándar, por lo que habrá que estandarizar tanto µ0

y el punto crítico.

Gráfico 3.12.

El X estandarizado se denomina estadístico de prueba.Para el problema que estamos desarrollando, fijaremos un nivel de significación

o probabilidad de cometer error tipo I de α = 0,05. El punto crítico en Z y el estadístico de prueba resultan:

Gráfico 3.13.

110077

Estadistica

1-αZona de Aceptación de HO

G.3.11

G.3.12

Zona de Rechazo de HO

Pto. crítico

µO X

1-αZona de Aceptación de HO Zona de Rechazo de HO

0

0

Z

Z

G.3.13

Zona de Aceptación de HO Zona de Rechazo de HO

1,64

Z 1−α∗

0,05

3,2

1-αZona de Aceptación de HO

G.3.11

G.3.12

Zona de Rechazo de HO

Pto. crítico

µO X

1-αZona de Aceptación de HO Zona de Rechazo de HO

0

0

Z

Z

G.3.13

Zona de Aceptación de HO Zona de Rechazo de HO

1,64

Z 1−α∗

0,05

3,2

1-αZona de Aceptación de HO

G.3.11

G.3.12

Zona de Rechazo de HO

Pto. crítico

µO X

1-αZona de Aceptación de HO Zona de Rechazo de HO

0

0

Z

Z

G.3.13

Zona de Aceptación de HO Zona de Rechazo de HO

1,64

Z 1−α∗

0,05

3,2

Si el juego de hipótesisfuera H0: µ = 500g y HA:

µ < 500g, la zona de rechazo delgráfico estaría a la izquierda y laprueba se denominaría unilateralizquierda.

En la elección de un nivelde significación son

estándares los valores 0,10; 0,05o 0,01, pero puede optarse porcualquier otro valor intermedioentre ellos.

Page 108: Estadisticas Angel Estadistica Angel Borgna Fernandez

Finalmente, comparando el estadístico de prueba calculado Z=3,2 con el puntocrítico Z*0,95=1,64, observamos que aquél cae en la zona de rechazo de la H0

por lo que, con base en la muestra de 16 paquetes y con un nivel de signifi-cación del 5%, rechazamos H0 a favor de HA.

Conclusión estadística, con base en la muestra de 16 paquetes y con unaprobabilidad de cometer error de tipo I de 0,05; habría una diferencia signifi-cativa entre la media de todos los paquetes envasados y el valor nominal de500g. O también, el peso medio de todos los paquetes envasados podría sersignificativamente superior a 500g, en consecuencia, no estaríamos en con-diciones de imprimir 500g en los paquetes.

Comentario adicionalLa conclusión estadística a la que se arribó está indicando que habría un desa-juste en el proceso de llenado de los paquetes por lo cual se debería inspec-cionar el proceso de envasado. Realizar un ajuste, si fuere necesario, y desar-mar los paquetes ya hechos para volver a llenarlos con la máquina corregida.Como esta decisión implica costos adicionales en la fabricación conviene, enprimer lugar, agrandar la muestra y luego, de acuerdo con los nuevos resulta-dos del test, tomar la decisión.

5.Un fraccionador de soda cáustica envasa paquetes utilizando una máqui-na que tiene una precisión de σ=8 gramos. Sobre una partida lista parasu distribución, compuesta de paquetes cuyo valor nominal es de 250g,seleccionó una muestra de 45 bolsas la cual arrojó una media de 245gramos con un desvío de 10 gramos. ¿La evidencia muestral estaría indi-cando que la media de toda la partida no tendría una diferencia signi-ficativa con el valor nominal impreso en los envases?

Población normal o aproximadamente normal y σ2 desconocidoSi en el proceso de llenado de paquetes de galletitas de medio kilo no seconoce la precisión de la máquina, la prueba se realiza utilizando el desvío dela muestra s= 6,802g. En este caso, se usa la t de Student y en consecuen-cia las expresiones del punto crítico y del estadístico de prueba son respec-tivamente:

Nuevamente el valor calculado del estadístico de prueba es mayor al punto crí-tico y cae en la zona de rechazo de la H0, entonces se rechaza que µ = 500gy se llega a la siguiente conclusión estadística.

Con base en una muestra de 16 paquetes, desconociendo la precisión dela máquina y con un nivel de significación del 5%, el peso medio de todos los

110088

Universidad Virtual de Quilmes

23

Comentario adicional

La conclusión estadística a la que se arribó está indicando que habría un desajuste en el proceso de llenado de los paquetes por lo cual se debería inspeccionar el proceso de envasado. Realizar un ajuste, si fuere

necesario, y desarmar los paquetes ya hechos para volver a llenarlos con la máquina corregida. Como esta decisión implica costos adicionales en la fabricación conviene, en primer lugar, agrandar la muestra y luego, de

acuerdo con los nuevos resultados del test, tomar la decisión.

COMIENZO DE ACTIVIDAD

5. Un fraccionador de soda cáustica envasa paquetes utilizando una

máquina que tiene una precisión de =8 gramos. Sobre una partida lista

para su distribución, compuesta de paquetes cuyo valor nominal es de

250g, seleccionó una muestra de 45 bolsas la cual arrojó una media de

245 gramos con un desvío de 10 gramos. ¿La evidencia muestral estaría

indicando que la media de toda la partida no tendría una diferencia

significativa con el valor nominal impreso en los envases?

FIN DE ACTIVIDAD

Población normal o aproximadamente normal y 2 desconocido Si en el proceso de llenado de paquetes de galletitas de medio kilo no se conoce la precisión de la máquina, la prueba se realiza utilizando el desvío de la muestra s= 6,802g. En este caso, se usa la t de Student y en consecuencia las expresiones del punto crítico y del estadístico de prueba son respectivamente:

tn 1,1* y

t = x 0

Sn

Entonces tn 1,1* = t15;0,95

* =1,75 y

t = x 0

Sn

=504 500

6,802

16

= 2,35

Nuevamente el valor calculado del estadístico de prueba es mayor al punto crítico y cae en la zona de rechazo de la H0, entonces se rechaza que = 500g y se llega a la siguiente conclusión estadística.

Con base en una muestra de 16 paquetes, desconociendo la precisión de la máquina y con un nivel de significación del 5%, el peso medio de todos los paquetes envasados podría ser significativamente superior a 500g, en consecuencia, no estaríamos en condiciones de imprimir 500g en los paquetes.

COMIENZO DE TEXTO APARTE

Pruebas de hipótesis bilaterales o a dos colas Estas pruebas se generan en ciertos problemas donde previamente a la realización de la m uestra , es decir antes de contar con la evidencia

muestral, es necesario tener definida la región de rechazo.

Son ejemplos de estas pruebas algunas rutinas de control de calidad, en

las que entra en consideración que se estaría en situación crítica si

Page 109: Estadisticas Angel Estadistica Angel Borgna Fernandez

paquetes envasados podría ser significativamente superior a 500g, en con-secuencia, no estaríamos en condiciones de imprimir 500g en los paquetes.

Pruebas de hipótesis bilaterales o a dos colas

Estas pruebas se generan en ciertos problemas donde previamente a la realización de la mues-tra, es decir antes de contar con la evidencia muestral, es necesario tener definida la regiónde rechazo.

Son ejemplos de estas pruebas algunas rutinas de control de calidad, en las que entra en con-sideración que se estaría en situación crítica si X cayera tanto a la derecha como a la izquierdade µ0. En este caso la región de rechazo está definida en dos tramos y hay dos puntos críticos.

Gráfico 3.14.

Consecuentemente, el juego de hipótesis es:

H0: µ=µ0

HA: µ≠µ0

El desarrollo de la prueba de hipótesis es similar a la anterior, teniendo en cuenta que: si elestadístico de prueba ZZ cayera en la zona de aceptación, se acepta H0; si ZZ cayera dentro dela región crítica (zona de rechazo de H0) se rechaza H0 y si estuviera muy próximo a Z* ó -

Z* es conveniente agrandar la muestra.

Gráfico 3.15. Cuadro guía en inferencia estadística para la media poblacional

110099

Estadistica

0 Z

G.3.15

G.3.14

Zona de Aceptación de HOZona de Rechazo de HO

1,64

0,05

−0,38

1-αα/2 α/2

Zona de Aceptación de HO

Zona de Rechazo de HOZona de Rechazo de HO

–Z* Z* Z0

G.3.14

Usar Z para estimar µ porintervalo de confiannza opara realizar un test dehipótesis

¿La poblacióntiene distribución

normal?

¿σ conocido?

Estas situaciones no se tratan en este curso

¿σ conocido?

¿n>30?Usar Z (en virtud del teorema centraldel límite) para estimar µ por intervalode confianza o para realizar un test dehipótesis.

Usar t para estimar µ por intervalo de confianzao para realizar un test de hipótesis.

SI SI

SI

NO

NONO

NO

SI

0 Z

G.3.15

G.3.14

Zona de Aceptación de HOZona de Rechazo de HO

1,64

0,05

−0,38

1-αα/2 α/2

Zona de Aceptación de HO

Zona de Rechazo de HOZona de Rechazo de HO

–Z* Z* Z0

G.3.14

Usar Z para estimar µ porintervalo de confiannza opara realizar un test dehipótesis

¿La poblacióntiene distribución

normal?

¿σ conocido?

Estas situaciones no se tratan en este curso

¿σ conocido?

¿n>30?Usar Z (en virtud del teorema centraldel límite) para estimar µ por intervalode confianza o para realizar un test dehipótesis.

Usar t para estimar µ por intervalo de confianzao para realizar un test de hipótesis.

SI SI

SI

NO

NONO

NO

SI

Page 110: Estadisticas Angel Estadistica Angel Borgna Fernandez

Prueba de hipótesis para la proporción poblacional

En la muestra de 2200 familias del ejemplo utilizado en intervalos de con-fianza para la proporción poblacional, las que ven un determinado programade TV representan el 39,6%.

Los productores del programa, para decidir los costos de los espacioscomerciales cuentan con un raiting histórico del 40%. La evidencia muestral¿estaría indicando una disminución significativa de la posición del programaen el raiting?

Para responder a la pregunta se realizará una PPHH con un nivel de signifi-cación del 5%.

Entonces, el par de hipótesis para esta PPHH es:

H0: P = 0,40HA: P < 0,40

Dado que el tamaño de la muestra es grande, el estadístico proporción mues-tral tiene distribución normal. El punto crítico y el estadístico de prueba son,

respectivamente. Resultando,

Gráfico.3.16.

que el estadístico de prueba cae en la zona de aceptación de la H0 (ya que -1,64 < -0,38).

Conclusión: con base en una muestra de 2200 familias y con un nivel de sig-nificación de 0,05, la proporción de familias que ven ese programa de TV entoda la población no habría cambiado significativamente.

6.Un método de lectura veloz es efectivo en el 70% de los casos. Un nuevométodo intenta mejorar la efectividad y para comprobarlo se toma unamuestra de 205 estudiantes de los cuales 155 mejoraron su lectura. ¿Se puedeconcluir que el nuevo método es significativamente mejor que el anterior?

111100

Universidad Virtual de Quilmes

0 Z

G.3.15

G.3.14

Zona de Aceptación de HOZona de Rechazo de HO

1,64

0,05

−0,38

1-αα/2 α/2

Zona de Aceptación de HO

Zona de Rechazo de HOZona de Rechazo de HO

–Z* Z* Z0

G.3.14

Usar Z para estimar µ porintervalo de confiannza opara realizar un test dehipótesis

¿La poblacióntiene distribución

normal?

¿σ conocido?

Estas situaciones no se tratan en este curso

¿σ conocido?

¿n>30?Usar Z (en virtud del teorema centraldel límite) para estimar µ por intervalode confianza o para realizar un test dehipótesis.

Usar t para estimar µ por intervalo de confianzao para realizar un test de hipótesis.

SI SI

SI

NO

NONO

NO

SI

Page 111: Estadisticas Angel Estadistica Angel Borgna Fernandez

Procedimiento para realizar una prueba de hipótesis

Cualquiera sea el parámetro que se someta a una PPHH, el procedi-miento involucra los siguientes pasos:• Formular las hipótesis a contrastar a partir de la comparación de la

evidencia muestral –o del planteo previo a la evidencia (prueba bila-teral)– con el valor hipotético del parámetro.

• Elegir el nivel de significación.• Designar el tipo de distribución de probabilidades del estimador alre-

dedor del parámetro a probar.• Calcular el o los puntos críticos.• Estandarizar el estadístico muestral para producir el estadístico de

prueba.• Observar la zona en la que se ubica el estadístico de prueba respec-

to del o de los puntos críticos.• Decidir la aceptación o el rechazo de la hipótesis nula, o –si el esta-

dístico de prueba se encuentra en un entorno muy próximo al puntocrítico– la realización de una nueva prueba seleccionando una mues-tra más grande.

• Concluir en el marco del problema.

7.Al aumentar el nivel de significación en una PPHH, la probabilidad derechazar una hipótesis nula que en realidad fuera verdadera: ¿aumenta,disminuye o permanece inalterada?

111111

Estadistica

Page 112: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 113: Estadisticas Angel Estadistica Angel Borgna Fernandez

111133

Elementos básicos de econometría

Ob je ti vos

• Especificar algunos modelos de relación entre variables económicas.• Predecir el comportamiento de determinados agentes económicos con base

en los modelos de relación elaborados.

4.1. Introducción

No hay error más común que el de suponer que, porque se hicieron prolonga-

dos y exactos cálculos matemáticos, la aplicación del resultado a algún hecho de

la naturaleza conduce a la certeza absoluta.

A.A. Whitehead

(citado por M. J. Moreney en Hechos y Estadísticas)

Un fenómeno económico cualquiera puede entenderse como el resultado dela acción de múltiples variables que inciden sobre él en distinto grado y quepueden utilizarse como variables potencialmente explicativas del comporta-miento de dicho fenómeno.

En su forma general, el análisis econométrico consiste en estudiar un mode-lo que relacione la variable Y representativa del fenómeno económico con lasposibles variables explicativas X1, X2,.....,Xk. Tal modelo de relación puederepresentarse matemáticamente como

Y = f (X1, X2,.....,Xk)

Donde la función f puede asumir distintas expresiones matemáticas a saber:lineal, logarítmica, exponencial, potencial, etcétera.

Particularmente un modelo lineal de relación expresa el comportamientomedio de la variable Y en función del conjunto de variables explicativas Xi ytiene la siguiente expresión general,

=Y = α + β1.X1 + β2.X2 +...+ βk.Xk

en la cual α, β1,... βk son los parámetros del modelo.El análisis de la relación funcional entre la variable a explicar y las varia-

bles explicativas se denomina análisis de regresión.

4

Page 114: Estadisticas Angel Estadistica Angel Borgna Fernandez

El modelo se completa con el análisis de correlación que consiste en estu-diar el grado o fuerza de la relación existente entre ambas variables.

Los análisis de regresión y correlación lineales (apartado 4.2.) más simplescorresponden al modelo lineal bivariado en el cual sólo interviene una varia-ble explicativa y cuya expresión matemática es:

Y = α + β.X con parámetros α y β

y es el que desarrollaremos en esta carpeta.En el caso particular en que la variable explicativa es el tiempo, el mode-

lo corresponde a las denominadas series cronológicas o series de tiempo(apartado 4.3).

4.2. Análisis de regresión y de correlación

El diagrama de puntos 4.1. es la representación gráfica conjunta de las varia-bles salario quincenal actual y edad de la población de todos los trabajadoresde la empresa cooperativa, de la cual se extrajo la muestra de 20 empleadosde la ME1 de la Unidad I. Sobre dicho gráfico puede observarse también larecta de regresión poblacional que resume el comportamiento medio de lanube de puntos.

Gráfico 4.1.

En este problema partimos de una supuesta población conocida. Sin embar-go, en la realidad de los trabajos estadísticos suelen desconocerse los datosde la totalidad de la población y se trabaja con los datos de una muestra repre-sentativa extraída de aquella.

En el diagrama 4.2. se indentifican los datos que conforman la muestraME1 extraídos aleatoriamente de la población, que en lo sucesivo considera-remos desconocida.

111144

Universidad Virtual de Quilmes

G.4.2.

Salario quincenal actual y edad

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

G.4.1.

Salario quincenal actual y edad

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

Page 115: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 4.2.

A partir de los datos de la muestra se construye la recta de regresión mues-tral y =a-b.x la cual será el mejor estimador de la recta de regresión pobla-cional Y = α + β.X desconocida.

Gráfico 4.3.

Esta recta representa el comportamiento medio de los datos muestrales y esla que hace mínimo el conjunto de los desvíos entre los valores y de los datosobservados y los valores y de sus correspondientes proyecciones en la recta.Observando el gráfico 4.4. se pueden notar tales desvíos d = y –y, tambiénllamados residuos.

111155

Estadistica

G.4.2.

Salario quincenal actual y edad

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

G.4.1.

Salario quincenal actual y edad

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

x.bay +=

regresión poblacional X.Y += desconocida.

G.4.4.

G.4.3.

Salario quincenal actual y edad –muestra–

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

y =208,8 + 15,89 x

Salario quincenal actual y edad –muestra–

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

y =208,8 + 15,89 x

a

Page 116: Estadisticas Angel Estadistica Angel Borgna Fernandez

Gráfico 4.4.

En el marco del modelo lineal, un valor y obtenido mediante la ecuación deregresión representa una estimación del comportamiento de la variable Y (sala-rio quincenal actual) para un cierto xi (una determinada edad del trabajador).

La formalización matemática del concepto de que el conjunto de los des-víos es mínimo puede hacerse a través de distintos criterios. Uno de ellos,que visualiza mejor el problema, es el que considera que la sumatoria de losvalores absolutos de los desvíos debe ser mínima y se expresa:

Otro es el criterio de cuadrados mínimos, el cual impone como condición quela suma de los cuadrados de los desvíos debe ser mínima, es decir:

Ecuación de la regresión lineal

A partir del criterio de los cuadrados mínimos se encuentran las expresio-nes de “a” y “b” con los que se construye la ecuación de regresión mues-tral y = a-b.x que es la que mejor estima la ecuación de regresión poblacionalY =α+β.x , cuyos parámetros son α y β.

Los valores de “a” y “b” están dados por

111166

Universidad Virtual de Quilmes

x.bay +=

regresión poblacional X.Y += desconocida.

G.4.4.

G.4.3.

Salario quincenal actual y edad –muestra–

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

y =208,8 + 15,89 x

Salario quincenal actual y edad –muestra–

Edad

Qui

ncen

a ac

tual

1600

1400

1200

1000

800

600

400

200

0

18 22 26 30 34 38 42 46 50 54 58 62 66

y =208,8 + 15,89 x

a

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

El criterio de cuadradosmínimos fue desarrolla-do por K. F. Gauss en Theoriamotus corporum coelestium, 1809.

Page 117: Estadisticas Angel Estadistica Angel Borgna Fernandez

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y reempla-zando y por su expresión y = a-b.x, resulta que

debe ser mínima por lo que sus primeras derivadas parciales respecto de a y de bdeben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

cuya resolución culmina con las expresiones

En la muestra de los 20 trabajadores, los estadísticos muestrales a y b son,

a = 208,8 y b = 15,89

y la ecuación de la recta de regresión muestral resulta

La información útil que puede extraerse de la expresión de la ecuación obte-nida es la relacionada con la pendiente b=+$15,89/año. Ésta indica que enla muestra por cada año de diferencia en la edad de los trabajadores hay unadiferencia de $15,89 en el salario. Más precisamente, teniendo en cuenta elsigno de la pendiente, cuando se incrementa en un año la edad de los traba-jadores, el salario quincenal actual aumenta $15,89.

Por otro lado, la recta de regresión nos permitirá estimar el salario quincenalactual de un trabajador de la población que no estuviese en la muestra y cuyaedad fuera, por ejemplo, 48 años.

111177

Estadistica

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Obtención de las expresiones de a y b

A partir de la idea de que debe ser mínima y

reemplazando por su expresión , resulta que

debe ser mínima por lo que sus primeras

derivadas parciales respecto de a y de b deben ser cero, es decir,

llegando a determinarse el siguiente sistema de ecuaciones normales

Page 118: Estadisticas Angel Estadistica Angel Borgna Fernandez

Entonces, el salario quincenal actual estimado para un trabajador de 48 añosserá aproximadamente de $971,52.

Coeficiente de correlación lineal

Para estudiar el grado o fuerza de la relación lineal que existe entre dos varia-bles se utiliza como medida el denominado coeficiente de correlación.

El coeficiente de correlación poblacional se denomina ρ y su mejor esti-mador es el coeficiente de correlación muestral r que se determina como,

donde SXY es la covarianza o varianza conjunta o variación conjunta entre lasvariables aleatorias X e Y, y SX y SY son los desvíos estándar de X e Y res-pectivamente.

• Cuando la covarianza entre X e Y es nula el coeficiente de correlación es r = 0.• Cuando hay covariabilidad perfecta entre X e Y y ambas varían en el mismo

sentido, el coeficiente de correlación es r = +1.• Cuando hay covariabilidad perfecta entre X e Y y ambas varían con sentido

contrario, la correlación es r = -1.• En cualquier otra situación, el coeficiente de correlación puede ser

-1< r <0 ó 0< r <+1.

Gráfico 4.5.

Para calcular el coeficiente de correlación del ejemplo del salario quincenalactual y la edad de los trabajadores de la empresa cooperativa se puede uti-lizar la siguiente expresión:

111188

Universidad Virtual de Quilmes

Se debe al biómetra inglésKarl Pearson y es apli-cable a variables cuantitativas.

G.4.5.

Correlación lineal directa, r entre 0 y+1 Correlación lineal directa, r entre 0 y+1

X

X

Y

No hay correlación, r muy próximo a 0Y

X

Y

G.4.5.

Correlación lineal directa, r entre 0 y+1 Correlación lineal directa, r entre 0 y+1

X

X

Y

No hay correlación, r muy próximo a 0Y

X

Y

Page 119: Estadisticas Angel Estadistica Angel Borgna Fernandez

resultando r = +0,557. Esto estaría indicando que ambas variables tienen unmediano grado de correlación directa.

Coeficiente de determinación

Complementariamente a los coeficientes de regresión y de correlación, se pre-senta una medida denominada coeficiente de determinación r2 que indicacuánto del comportamiento de Y es explicado o puede entenderse por el mode-lo de regresión.

Su expresión de cálculo es:

El coeficiente de determinación toma valores entre 0 y 1, y se interpreta comoporcentaje.

En el ejemplo que estamos desarrollando, se tiene un r2 = 0,31. Este resul-tado indica que en la muestra, el 31% de la variación de los salarios quince-nales actuales quedan explicados por las variaciones de las edades de lostrabajadores de la empresa cooperativa.

El análisis de regresión lineal permite hallar la recta que mejor se ajustaa los datos muestrales.

• La pendiente de la recta b, llamada también coeficiente de regresión,suministra información sobre la variación de y por cada cambio uni-tario de x y su signo indica el sentido de la relación.

• La estimación del comportamiento en la población de la variableexplicada Y queda circunscripta a valores de la variable explicativa Xque no estén muy alejados de su rango.

El coeficiente de correlación r y el coeficiente de regresión b comparten lamisma información respecto de si la relación entre las variables es direc-ta o inversa (consecuentemente los numeradores de sus respectivas expre-siones son iguales).• Si la relación entre las variables es directa, la recta será creciente, la

pendiente positiva y el coeficiente de regresión también positivovariará entre 0 y +1.

• Si la relación entre las variables es inversa, la recta será decreciente,la pendiente negativa y el coeficiente de regresión también negativovariará entre -1 y 0.

El coeficiente de determinación r2 es el cuadrado del coeficiente de corre-lación r y se interpreta en una escala del 0 al 100.

111199

Estadistica

Page 120: Estadisticas Angel Estadistica Angel Borgna Fernandez

Los coeficientes de regresión, de correlación y el de determinación dados son lasherramientas necesarias para estudiar la relación lineal entre dos variables.

1.Efectuar un análisis de regresión y correlación para las variables:a. Longitud y peso de la ME4 correspondiente a una muestra de 20

piezas de plástico especiales fabricadas por una determinada empre-sa.

b. Antigüedad y cantidad de empleados de las pymes de la RepúblicaArgentina año 2004/2005.

4.3. Series de tiempo

En el análisis estadístico de un fenómeno económico, social, etc. en el quecada valor de la variable en estudio esté vinculado a un momento de tiempo,el enfoque es el de una serie cronológica o serie de tiempo.

En una serie de tiempo, la variable estadística a estudiar es dependientede la variable matemática tiempo, es decir que sus valores varían en el trans-curso del tiempo.

Son objeto de estudio econométrico, en el marco de una serie cronológica, laevolución en el tiempo del salario de los trabajadores de un determinado rubro,de las ventas de los negocios de un centro comercial, de la tasa de desem-pleo en una región, etcétera.

Modelo matemático de una serie de tiempoAl estudiar una variable estadística a través del tiempo, cada uno de los valo-res que ella asume es la resultante de los efectos producidos por distintas cau-sas y esos efectos intervienen en el modelo como componentes del mismo.

Las componentes del modelo son: la tendencia (T) general, las distintasvariaciones cíclicas (C) alrededor de la tendencia y el ruido (R) estadístico.

El modelo matemático genérico usualmente aceptado para las series eco-nómicas es,

X = T . C . R

Las componentes cíclicas pueden presentarse como periódicas (Cp) y comono periódicas (Cnp), entonces el modelo matemático finalmente resulta,

X = T . Cp. Cnp . R

112200

Universidad Virtual de Quilmes

En las series de tiempoeconómicas, una com-ponente cíclica periódica impor-tante es la llamada variación esta-cional (E), para la cual el ciclo duraun año.

Page 121: Estadisticas Angel Estadistica Angel Borgna Fernandez

donde Cp y Cnp representan, en rigor, familias de componentes con distintaslongitudes de tiempo.

De las componentes señaladas, la única que aquí veremos será la ten-dencia T, que se expresa como una ecuación lineal obtenida a partir del méto-do de los cuadrados mínimos.

EjemploLa siguiente información se extrajo del Anuario Estadístico de la RepúblicaArgentina 2000, sección Economía, del diario Clarín y fue elaborada con baseen datos del INDEC.

Gráfico 4.6.

A partir de la tabla se puede analizar por separado la evolución en el tiempode las variables Exportaciones e Importaciones. En el gráfico que acompañala tabla, los puntos que representan los datos colectados a lo largo del tiem-po se unen para expresar la cronología.

Procesaremos la variable Exportaciones analizando su evolución a lo largodel tiempo, destacando que dicha variable es la única variable estadística enjuego ya que el tiempo es una variable matemática.

Si bien este es un caso de estadística univariada, se puede utilizar per-fectamente el recurso de ajustar por cuadrados mínimos ya empleado ante-riormente para determinar la recta de la regresión lineal. En una serie de tiem-po, la recta de ajuste será la tendencia.

Para calcular la recta que describa la tendencia T de las exportaciones,codificaremos la variable independiente tiempo considerando: t = 1 para 1984,t = 2 para 1985 y así sucesivamente.

112211

Estadistica

G.4.6.

Millones de u$sAño Exportaciones

1 8.1072 8.3963 6.8524 6.3605 9.1356 9.5797 12.3538 11.9789 12.23510 13.11811 15.83912 20.96313 23.81114 26.43115 26.44116 23.333

Exportaciones

Balanza comercial argentina en U$S

Importaciones

35

30

25

20

15

10

5

084 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99

1984198519861987198819891990199119921993199419951996199719981999

8.1078.3966.8526.3609.1359.579

12.35311.97812.23513.11815.83920.96323.81126.43226.44123.333

Exporta-ciones

4.5853.8144.7245.8185.3224.2034.0778.275

14.67216.78421.59020.12223.76230.45031.40425.508

Importa-ciones

Año

Page 122: Estadisticas Angel Estadistica Angel Borgna Fernandez

Entonces

T = 2782,55 + 1400,075. t

La pendiente b=1400,075 de la tendencia indica que por cada año transcu-rrido (en el período tomado), las exportaciones aumentaron en promedio 1400,075 millones de dólares por año.

Usando la recta de tendencia calculada se pueden pronosticar las expor-taciones para:

a) El año 2000.2782,55 + 1400,075 . 17 = 26.583,825 (17 es el código para el año 2000).Se estima que en el año 2000 las exportaciones fueron del orden de los26.583,825 millones de dólares.

b) El año 1982.2782,55 + 1400,075 . (-1) = 1.382,475 (-1 es el código para el año 1982).Se estima que en el año 1982 las exportaciones fueron del orden de los1.382,475 millones de dólares.

c) El año 2020.2782,55 + 1400,075 . 37 = 54.585,325 (37 es el código para el año 2020).El año para el que se quiere pronosticar está muy alejado del rangoobservado; no es conveniente usar el valor calculado como pronósticoo estimación.

d) El año 2007.2782,55 + 1400,075 . 24 = 36.384,350 (24 es el código para el año 2007).Se estima que en el año 2000 las exportaciones fueron del orden de los36.384,350 millones de dólares.

2.Realizar las siguientes actividades:Para la variable Importaciones: calcular la recta de tendencia, interpre-tar su pendiente y realizar pronósticos.

112222

Universidad Virtual de Quilmes

G.4.6.

Millones de u$sAño Exportaciones

1 8.1072 8.3963 6.8524 6.3605 9.1356 9.5797 12.3538 11.9789 12.23510 13.11811 15.83912 20.96313 23.81114 26.43115 26.44116 23.333

Exportaciones

Balanza comercial argentina en U$S

Importaciones

35

30

25

20

15

10

5

084 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99

1984198519861987198819891990199119921993199419951996199719981999

8.1078.3966.8526.3609.1359.579

12.35311.97812.23513.11815.83920.96323.81126.43226.44123.333

Exporta-ciones

4.5853.8144.7245.8185.3224.2034.0778.275

14.67216.78421.59020.12223.76230.45031.40425.508

Importa-ciones

Año

Una predicción realiza-da en el marco de unaserie cronológica se denominapronóstico y se realiza en cual-quier sentido, hacia atrás o haciaadelante, en el tiempo.

Page 123: Estadisticas Angel Estadistica Angel Borgna Fernandez

A partir de la información de la siguiente tabla, calcular la recta de ten-dencia, interpretar su pendiente y realizar pronósticos.

Fuente: INDEC, Encuesta Permanente de Hogares.

112233

Estadistica

11

1980 2,61985 6,11986 5,61987 5,91988 6,31989 7,81990 7,41993 9,61994 10,8*

Fuente: INDEC , Encuesta Permanente de Hogares.

Año Tasa de desempleo

Page 124: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 125: Estadisticas Angel Estadistica Angel Borgna Fernandez

CHOU, Ya-Lun (1992), Análisis estadístico, McGraw-Hill, México.

MAYER, P. (1986), Probabilidad y aplicaciones estadísticas, Addison Wesley,México.

MORONEY, M. J. (1965), Hechos y estdísticas, EUDEBA, Buenos Aires.

SPIEGEL, M.R. (2002), Estadística, McGraw-Hill, México.

TORANZOS, I. F. (1997), Teoría Estadística y Aplicaciones, Macchi, BuenosAires.

TUKEY, J. W. (1977), Exploratory Data Analysis, Addison Wesley, U.S.A.

112255

Referencias Bibliográficas

Page 126: Estadisticas Angel Estadistica Angel Borgna Fernandez
Page 127: Estadisticas Angel Estadistica Angel Borgna Fernandez

112277

AnexoAnexo

Tabla 1: Percentiles de la distribución normal estándar

z p z p z p z p z p z p z p z p

-4,00 0,00003 -3,50 0,00023 -3,00 0,00135 -2,50 0,00621 -2,00 0,02275 -1,50 0,06681 -1,00 0,15866 -0,50 0,30854-3,99 0,00003 -3,49 0,00024 -2,99 0,00139 -2,49 0,00639 -1,99 0,02330 -1,49 0,06811 -0,99 0,16109 -0,49 0,31207-3,98 0,00003 -3,48 0,00025 -2,98 0,00144 -2,48 0,00657 -1,98 0,02385 -1,48 0,06944 -0,98 0,16354 -0,48 0,31561-3,97 0,00004 -3,47 0,00026 -2,97 0,00149 -2,47 0,00676 -1,97 0,02442 -1,47 0,07078 -0,97 0,16602 -0,47 0,31918-3,96 0,00004 -3,46 0,00027 -2,96 0,00154 -2,46 0,00695 -1,96 0,02500 -1,46 0,07215 -0,96 0,16853 -0,46 0,32276-3,95 0,00004 -3,45 0,00028 -2,95 0,00159 -2,45 0,00714 -1,95 0,02559 -1,45 0,07353 -0,95 0,17106 -0,45 0,32636-3,94 0,00004 -3,44 0,00029 -2,94 0,00164 -2,44 0,00734 -1,94 0,02619 -1,44 0,07493 -0,94 0,17361 -0,44 0,32997-3,93 0,00004 -3,43 0,00030 -2,93 0,00169 -2,43 0,00755 -1,93 0,02680 -1,43 0,07636 -0,93 0,17619 -0,43 0,33360-3,92 0,00004 -3,42 0,00031 -2,92 0,00175 -2,42 0,00776 -1,92 0,02743 -1,42 0,07780 -0,92 0,17879 -0,42 0,33724-3,91 0,00005 -3,41 0,00032 -2,91 0,00181 -2,41 0,00798 -1,91 0,02807 -1,41 0,07927 -0,91 0,18141 -0,41 0,34090-3,90 0,00005 -3,40 0,00034 -2,90 0,00187 -2,40 0,00820 -1,90 0,02872 -1,40 0,08076 -0,90 0,18406 -0,40 0,34458-3,89 0,00005 -3,39 0,00035 -2,89 0,00193 -2,39 0,00842 -1,89 0,02938 -1,39 0,08226 -0,89 0,18673 -0,39 0,34827-3,88 0,00005 -3,38 0,00036 -2,88 0,00199 -2,38 0,00866 -1,88 0,03005 -1,38 0,08379 -0,88 0,18943 -0,38 0,35197-3,87 0,00005 -3,37 0,00038 -2,87 0,00205 -2,37 0,00889 -1,87 0,03074 -1,37 0,08534 -0,87 0,19215 -0,37 0,35569-3,86 0,00006 -3,36 0,00039 -2,86 0,00212 -2,36 0,00914 -1,86 0,03144 -1,36 0,08692 -0,86 0,19489 -0,36 0,35942-3,85 0,00006 -3,35 0,00040 -2,85 0,00219 -2,35 0,00939 -1,85 0,03216 -1,35 0,08851 -0,85 0,19766 -0,35 0,36317-3,84 0,00006 -3,34 0,00042 -2,84 0,00226 -2,34 0,00964 -1,84 0,03288 -1,34 0,09012 -0,84 0,20045 -0,34 0,36693-3,83 0,00006 -3,33 0,00043 -2,83 0,00233 -2,33 0,00990 -1,83 0,03362 -1,33 0,09176 -0,83 0,20327 -0,33 0,37070-3,82 0,00007 -3,32 0,00045 -2,82 0,00240 -2,32 0,01017 -1,82 0,03438 -1,32 0,09342 -0,82 0,20611 -0,32 0,37448-3,81 0,00007 -3,31 0,00047 -2,81 0,00248 -2,31 0,01044 -1,81 0,03515 -1,31 0,09510 -0,81 0,20897 -0,31 0,37828-3,80 0,00007 -3,30 0,00048 -2,80 0,00256 -2,30 0,01072 -1,80 0,03593 -1,30 0,09680 -0,80 0,21186 -0,30 0,38209-3,79 0,00008 -3,29 0,00050 -2,79 0,00264 -2,29 0,01101 -1,79 0,03673 -1,29 0,09853 -0,79 0,21476 -0,29 0,38591-3,78 0,00008 -3,28 0,00052 -2,78 0,00272 -2,28 0,01130 -1,78 0,03754 -1,28 0,10027 -0,78 0,21770 -0,28 0,38974-3,77 0,00008 -3,27 0,00054 -2,77 0,00280 -2,27 0,01160 -1,77 0,03836 -1,27 0,10204 -0,77 0,22065 -0,27 0,39358-3,76 0,00008 -3,26 0,00056 -2,76 0,00289 -2,26 0,01191 -1,76 0,03920 -1,26 0,10383 -0,76 0,22363 -0,26 0,39743-3,75 0,00009 -3,25 0,00058 -2,75 0,00298 -2,25 0,01222 -1,75 0,04006 -1,25 0,10565 -0,75 0,22663 -0,25 0,40129-3,74 0,00009 -3,24 0,00060 -2,74 0,00307 -2,24 0,01255 -1,74 0,04093 -1,24 0,10749 -0,74 0,22965 -0,24 0,40517-3,73 0,00010 -3,23 0,00062 -2,73 0,00317 -2,23 0,01287 -1,73 0,04182 -1,23 0,10935 -0,73 0,23270 -0,23 0,40905-3,72 0,00010 -3,22 0,00064 -2,72 0,00326 -2,22 0,01321 -1,72 0,04272 -1,22 0,11123 -0,72 0,23576 -0,22 0,41294-3,71 0,00010 -3,21 0,00066 -2,71 0,00336 -2,21 0,01355 -1,71 0,04363 -1,21 0,11314 -0,71 0,23885 -0,21 0,41683-3,70 0,00011 -3,20 0,00069 -2,70 0,00347 -2,20 0,01390 -1,70 0,04457 -1,20 0,11507 -0,70 0,24196 -0,20 0,42074-3,69 0,00011 -3,19 0,00071 -2,69 0,00357 -2,19 0,01426 -1,69 0,04551 -1,19 0,11702 -0,69 0,24510 -0,19 0,42465-3,68 0,00012 -3,18 0,00074 -2,68 0,00368 -2,18 0,01463 -1,68 0,04648 -1,18 0,11900 -0,68 0,24825 -0,18 0,42858-3,67 0,00012 -3,17 0,00076 -2,67 0,00379 -2,17 0,01500 -1,67 0,04746 -1,17 0,12100 -0,67 0,25143 -0,17 0,43251-3,66 0,00013 -3,16 0,00079 -2,66 0,00391 -2,16 0,01539 -1,66 0,04846 -1,16 0,12302 -0,66 0,25463 -0,16 0,43644-3,65 0,00013 -3,15 0,00082 -2,65 0,00402 -2,15 0,01578 -1,65 0,04947 -1,15 0,12507 -0,65 0,25785 -0,15 0,44038-3,64 0,00014 -3,14 0,00084 -2,64 0,00415 -2,14 0,01618 -1,64 0,05050 -1,14 0,12714 -0,64 0,26109 -0,14 0,44433-3,63 0,00014 -3,13 0,00087 -2,63 0,00427 -2,13 0,01659 -1,63 0,05155 -1,13 0,12924 -0,63 0,26435 -0,13 0,44828-3,62 0,00015 -3,12 0,00090 -2,62 0,00440 -2,12 0,01700 -1,62 0,05262 -1,12 0,13136 -0,62 0,26763 -0,12 0,45224-3,61 0,00015 -3,11 0,00094 -2,61 0,00453 -2,11 0,01743 -1,61 0,05370 -1,11 0,13350 -0,61 0,27093 -0,11 0,45620-3,60 0,00016 -3,10 0,00097 -2,60 0,00466 -2,10 0,01786 -1,60 0,05480 -1,10 0,13567 -0,60 0,27425 -0,10 0,46017-3,59 0,00017 -3,09 0,00100 -2,59 0,00480 -2,09 0,01831 -1,59 0,05592 -1,09 0,13786 -0,59 0,27760 -0,09 0,46414-3,58 0,00017 -3,08 0,00104 -2,58 0,00494 -2,08 0,01876 -1,58 0,05705 -1,08 0,14007 -0,58 0,28096 -0,08 0,46812-3,57 0,00018 -3,07 0,00107 -2,57 0,00508 -2,07 0,01923 -1,57 0,05821 -1,07 0,14231 -0,57 0,28434 -0,07 0,47210-3,56 0,00019 -3,06 0,00111 -2,56 0,00523 -2,06 0,01970 -1,56 0,05938 -1,06 0,14457 -0,56 0,28774 -0,06 0,47608-3,55 0,00019 -3,05 0,00114 -2,55 0,00539 -2,05 0,02018 -1,55 0,06057 -1,05 0,14686 -0,55 0,29116 -0,05 0,48006-3,54 0,00020 -3,04 0,00118 -2,54 0,00554 -2,04 0,02068 -1,54 0,06178 -1,04 0,14917 -0,54 0,29460 -0,04 0,48405-3,53 0,00021 -3,03 0,00122 -2,53 0,00570 -2,03 0,02118 -1,53 0,06301 -1,03 0,15151 -0,53 0,29806 -0,03 0,48803-3,52 0,00022 -3,02 0,00126 -2,52 0,00587 -2,02 0,02169 -1,52 0,06426 -1,02 0,15386 -0,52 0,30153 -0,02 0,49202-3,51 0,00022 -3,01 0,00131 -2,51 0,00604 -2,01 0,02222 -1,51 0,06552 -1,01 0,15625 -0,51 0,30503 -0,01 0,49601

Z

P

Anexo

Tabla 1: Percentiles de la distribución normal estándar

z p z p z p z p z p z p z p z p

-4,00 0,00003 -3,50 0,00023 -3,00 0,00135 -2,50 0,00621 -2,00 0,02275 -1,50 0,06681 -1,00 0,15866 -0,50 0,30854-3,99 0,00003 -3,49 0,00024 -2,99 0,00139 -2,49 0,00639 -1,99 0,02330 -1,49 0,06811 -0,99 0,16109 -0,49 0,31207-3,98 0,00003 -3,48 0,00025 -2,98 0,00144 -2,48 0,00657 -1,98 0,02385 -1,48 0,06944 -0,98 0,16354 -0,48 0,31561-3,97 0,00004 -3,47 0,00026 -2,97 0,00149 -2,47 0,00676 -1,97 0,02442 -1,47 0,07078 -0,97 0,16602 -0,47 0,31918-3,96 0,00004 -3,46 0,00027 -2,96 0,00154 -2,46 0,00695 -1,96 0,02500 -1,46 0,07215 -0,96 0,16853 -0,46 0,32276-3,95 0,00004 -3,45 0,00028 -2,95 0,00159 -2,45 0,00714 -1,95 0,02559 -1,45 0,07353 -0,95 0,17106 -0,45 0,32636-3,94 0,00004 -3,44 0,00029 -2,94 0,00164 -2,44 0,00734 -1,94 0,02619 -1,44 0,07493 -0,94 0,17361 -0,44 0,32997-3,93 0,00004 -3,43 0,00030 -2,93 0,00169 -2,43 0,00755 -1,93 0,02680 -1,43 0,07636 -0,93 0,17619 -0,43 0,33360-3,92 0,00004 -3,42 0,00031 -2,92 0,00175 -2,42 0,00776 -1,92 0,02743 -1,42 0,07780 -0,92 0,17879 -0,42 0,33724-3,91 0,00005 -3,41 0,00032 -2,91 0,00181 -2,41 0,00798 -1,91 0,02807 -1,41 0,07927 -0,91 0,18141 -0,41 0,34090-3,90 0,00005 -3,40 0,00034 -2,90 0,00187 -2,40 0,00820 -1,90 0,02872 -1,40 0,08076 -0,90 0,18406 -0,40 0,34458-3,89 0,00005 -3,39 0,00035 -2,89 0,00193 -2,39 0,00842 -1,89 0,02938 -1,39 0,08226 -0,89 0,18673 -0,39 0,34827-3,88 0,00005 -3,38 0,00036 -2,88 0,00199 -2,38 0,00866 -1,88 0,03005 -1,38 0,08379 -0,88 0,18943 -0,38 0,35197-3,87 0,00005 -3,37 0,00038 -2,87 0,00205 -2,37 0,00889 -1,87 0,03074 -1,37 0,08534 -0,87 0,19215 -0,37 0,35569-3,86 0,00006 -3,36 0,00039 -2,86 0,00212 -2,36 0,00914 -1,86 0,03144 -1,36 0,08692 -0,86 0,19489 -0,36 0,35942-3,85 0,00006 -3,35 0,00040 -2,85 0,00219 -2,35 0,00939 -1,85 0,03216 -1,35 0,08851 -0,85 0,19766 -0,35 0,36317-3,84 0,00006 -3,34 0,00042 -2,84 0,00226 -2,34 0,00964 -1,84 0,03288 -1,34 0,09012 -0,84 0,20045 -0,34 0,36693-3,83 0,00006 -3,33 0,00043 -2,83 0,00233 -2,33 0,00990 -1,83 0,03362 -1,33 0,09176 -0,83 0,20327 -0,33 0,37070-3,82 0,00007 -3,32 0,00045 -2,82 0,00240 -2,32 0,01017 -1,82 0,03438 -1,32 0,09342 -0,82 0,20611 -0,32 0,37448-3,81 0,00007 -3,31 0,00047 -2,81 0,00248 -2,31 0,01044 -1,81 0,03515 -1,31 0,09510 -0,81 0,20897 -0,31 0,37828-3,80 0,00007 -3,30 0,00048 -2,80 0,00256 -2,30 0,01072 -1,80 0,03593 -1,30 0,09680 -0,80 0,21186 -0,30 0,38209-3,79 0,00008 -3,29 0,00050 -2,79 0,00264 -2,29 0,01101 -1,79 0,03673 -1,29 0,09853 -0,79 0,21476 -0,29 0,38591-3,78 0,00008 -3,28 0,00052 -2,78 0,00272 -2,28 0,01130 -1,78 0,03754 -1,28 0,10027 -0,78 0,21770 -0,28 0,38974-3,77 0,00008 -3,27 0,00054 -2,77 0,00280 -2,27 0,01160 -1,77 0,03836 -1,27 0,10204 -0,77 0,22065 -0,27 0,39358-3,76 0,00008 -3,26 0,00056 -2,76 0,00289 -2,26 0,01191 -1,76 0,03920 -1,26 0,10383 -0,76 0,22363 -0,26 0,39743-3,75 0,00009 -3,25 0,00058 -2,75 0,00298 -2,25 0,01222 -1,75 0,04006 -1,25 0,10565 -0,75 0,22663 -0,25 0,40129-3,74 0,00009 -3,24 0,00060 -2,74 0,00307 -2,24 0,01255 -1,74 0,04093 -1,24 0,10749 -0,74 0,22965 -0,24 0,40517-3,73 0,00010 -3,23 0,00062 -2,73 0,00317 -2,23 0,01287 -1,73 0,04182 -1,23 0,10935 -0,73 0,23270 -0,23 0,40905-3,72 0,00010 -3,22 0,00064 -2,72 0,00326 -2,22 0,01321 -1,72 0,04272 -1,22 0,11123 -0,72 0,23576 -0,22 0,41294-3,71 0,00010 -3,21 0,00066 -2,71 0,00336 -2,21 0,01355 -1,71 0,04363 -1,21 0,11314 -0,71 0,23885 -0,21 0,41683-3,70 0,00011 -3,20 0,00069 -2,70 0,00347 -2,20 0,01390 -1,70 0,04457 -1,20 0,11507 -0,70 0,24196 -0,20 0,42074-3,69 0,00011 -3,19 0,00071 -2,69 0,00357 -2,19 0,01426 -1,69 0,04551 -1,19 0,11702 -0,69 0,24510 -0,19 0,42465-3,68 0,00012 -3,18 0,00074 -2,68 0,00368 -2,18 0,01463 -1,68 0,04648 -1,18 0,11900 -0,68 0,24825 -0,18 0,42858-3,67 0,00012 -3,17 0,00076 -2,67 0,00379 -2,17 0,01500 -1,67 0,04746 -1,17 0,12100 -0,67 0,25143 -0,17 0,43251-3,66 0,00013 -3,16 0,00079 -2,66 0,00391 -2,16 0,01539 -1,66 0,04846 -1,16 0,12302 -0,66 0,25463 -0,16 0,43644-3,65 0,00013 -3,15 0,00082 -2,65 0,00402 -2,15 0,01578 -1,65 0,04947 -1,15 0,12507 -0,65 0,25785 -0,15 0,44038-3,64 0,00014 -3,14 0,00084 -2,64 0,00415 -2,14 0,01618 -1,64 0,05050 -1,14 0,12714 -0,64 0,26109 -0,14 0,44433-3,63 0,00014 -3,13 0,00087 -2,63 0,00427 -2,13 0,01659 -1,63 0,05155 -1,13 0,12924 -0,63 0,26435 -0,13 0,44828-3,62 0,00015 -3,12 0,00090 -2,62 0,00440 -2,12 0,01700 -1,62 0,05262 -1,12 0,13136 -0,62 0,26763 -0,12 0,45224-3,61 0,00015 -3,11 0,00094 -2,61 0,00453 -2,11 0,01743 -1,61 0,05370 -1,11 0,13350 -0,61 0,27093 -0,11 0,45620-3,60 0,00016 -3,10 0,00097 -2,60 0,00466 -2,10 0,01786 -1,60 0,05480 -1,10 0,13567 -0,60 0,27425 -0,10 0,46017-3,59 0,00017 -3,09 0,00100 -2,59 0,00480 -2,09 0,01831 -1,59 0,05592 -1,09 0,13786 -0,59 0,27760 -0,09 0,46414-3,58 0,00017 -3,08 0,00104 -2,58 0,00494 -2,08 0,01876 -1,58 0,05705 -1,08 0,14007 -0,58 0,28096 -0,08 0,46812-3,57 0,00018 -3,07 0,00107 -2,57 0,00508 -2,07 0,01923 -1,57 0,05821 -1,07 0,14231 -0,57 0,28434 -0,07 0,47210-3,56 0,00019 -3,06 0,00111 -2,56 0,00523 -2,06 0,01970 -1,56 0,05938 -1,06 0,14457 -0,56 0,28774 -0,06 0,47608-3,55 0,00019 -3,05 0,00114 -2,55 0,00539 -2,05 0,02018 -1,55 0,06057 -1,05 0,14686 -0,55 0,29116 -0,05 0,48006-3,54 0,00020 -3,04 0,00118 -2,54 0,00554 -2,04 0,02068 -1,54 0,06178 -1,04 0,14917 -0,54 0,29460 -0,04 0,48405-3,53 0,00021 -3,03 0,00122 -2,53 0,00570 -2,03 0,02118 -1,53 0,06301 -1,03 0,15151 -0,53 0,29806 -0,03 0,48803-3,52 0,00022 -3,02 0,00126 -2,52 0,00587 -2,02 0,02169 -1,52 0,06426 -1,02 0,15386 -0,52 0,30153 -0,02 0,49202-3,51 0,00022 -3,01 0,00131 -2,51 0,00604 -2,01 0,02222 -1,51 0,06552 -1,01 0,15625 -0,51 0,30503 -0,01 0,49601

Z

P

Anexo

Tabla 1: Percentiles de la distribución normal estándar

z p z p z p z p z p z p z p z p

-4,00 0,00003 -3,50 0,00023 -3,00 0,00135 -2,50 0,00621 -2,00 0,02275 -1,50 0,06681 -1,00 0,15866 -0,50 0,30854-3,99 0,00003 -3,49 0,00024 -2,99 0,00139 -2,49 0,00639 -1,99 0,02330 -1,49 0,06811 -0,99 0,16109 -0,49 0,31207-3,98 0,00003 -3,48 0,00025 -2,98 0,00144 -2,48 0,00657 -1,98 0,02385 -1,48 0,06944 -0,98 0,16354 -0,48 0,31561-3,97 0,00004 -3,47 0,00026 -2,97 0,00149 -2,47 0,00676 -1,97 0,02442 -1,47 0,07078 -0,97 0,16602 -0,47 0,31918-3,96 0,00004 -3,46 0,00027 -2,96 0,00154 -2,46 0,00695 -1,96 0,02500 -1,46 0,07215 -0,96 0,16853 -0,46 0,32276-3,95 0,00004 -3,45 0,00028 -2,95 0,00159 -2,45 0,00714 -1,95 0,02559 -1,45 0,07353 -0,95 0,17106 -0,45 0,32636-3,94 0,00004 -3,44 0,00029 -2,94 0,00164 -2,44 0,00734 -1,94 0,02619 -1,44 0,07493 -0,94 0,17361 -0,44 0,32997-3,93 0,00004 -3,43 0,00030 -2,93 0,00169 -2,43 0,00755 -1,93 0,02680 -1,43 0,07636 -0,93 0,17619 -0,43 0,33360-3,92 0,00004 -3,42 0,00031 -2,92 0,00175 -2,42 0,00776 -1,92 0,02743 -1,42 0,07780 -0,92 0,17879 -0,42 0,33724-3,91 0,00005 -3,41 0,00032 -2,91 0,00181 -2,41 0,00798 -1,91 0,02807 -1,41 0,07927 -0,91 0,18141 -0,41 0,34090-3,90 0,00005 -3,40 0,00034 -2,90 0,00187 -2,40 0,00820 -1,90 0,02872 -1,40 0,08076 -0,90 0,18406 -0,40 0,34458-3,89 0,00005 -3,39 0,00035 -2,89 0,00193 -2,39 0,00842 -1,89 0,02938 -1,39 0,08226 -0,89 0,18673 -0,39 0,34827-3,88 0,00005 -3,38 0,00036 -2,88 0,00199 -2,38 0,00866 -1,88 0,03005 -1,38 0,08379 -0,88 0,18943 -0,38 0,35197-3,87 0,00005 -3,37 0,00038 -2,87 0,00205 -2,37 0,00889 -1,87 0,03074 -1,37 0,08534 -0,87 0,19215 -0,37 0,35569-3,86 0,00006 -3,36 0,00039 -2,86 0,00212 -2,36 0,00914 -1,86 0,03144 -1,36 0,08692 -0,86 0,19489 -0,36 0,35942-3,85 0,00006 -3,35 0,00040 -2,85 0,00219 -2,35 0,00939 -1,85 0,03216 -1,35 0,08851 -0,85 0,19766 -0,35 0,36317-3,84 0,00006 -3,34 0,00042 -2,84 0,00226 -2,34 0,00964 -1,84 0,03288 -1,34 0,09012 -0,84 0,20045 -0,34 0,36693-3,83 0,00006 -3,33 0,00043 -2,83 0,00233 -2,33 0,00990 -1,83 0,03362 -1,33 0,09176 -0,83 0,20327 -0,33 0,37070-3,82 0,00007 -3,32 0,00045 -2,82 0,00240 -2,32 0,01017 -1,82 0,03438 -1,32 0,09342 -0,82 0,20611 -0,32 0,37448-3,81 0,00007 -3,31 0,00047 -2,81 0,00248 -2,31 0,01044 -1,81 0,03515 -1,31 0,09510 -0,81 0,20897 -0,31 0,37828-3,80 0,00007 -3,30 0,00048 -2,80 0,00256 -2,30 0,01072 -1,80 0,03593 -1,30 0,09680 -0,80 0,21186 -0,30 0,38209-3,79 0,00008 -3,29 0,00050 -2,79 0,00264 -2,29 0,01101 -1,79 0,03673 -1,29 0,09853 -0,79 0,21476 -0,29 0,38591-3,78 0,00008 -3,28 0,00052 -2,78 0,00272 -2,28 0,01130 -1,78 0,03754 -1,28 0,10027 -0,78 0,21770 -0,28 0,38974-3,77 0,00008 -3,27 0,00054 -2,77 0,00280 -2,27 0,01160 -1,77 0,03836 -1,27 0,10204 -0,77 0,22065 -0,27 0,39358-3,76 0,00008 -3,26 0,00056 -2,76 0,00289 -2,26 0,01191 -1,76 0,03920 -1,26 0,10383 -0,76 0,22363 -0,26 0,39743-3,75 0,00009 -3,25 0,00058 -2,75 0,00298 -2,25 0,01222 -1,75 0,04006 -1,25 0,10565 -0,75 0,22663 -0,25 0,40129-3,74 0,00009 -3,24 0,00060 -2,74 0,00307 -2,24 0,01255 -1,74 0,04093 -1,24 0,10749 -0,74 0,22965 -0,24 0,40517-3,73 0,00010 -3,23 0,00062 -2,73 0,00317 -2,23 0,01287 -1,73 0,04182 -1,23 0,10935 -0,73 0,23270 -0,23 0,40905-3,72 0,00010 -3,22 0,00064 -2,72 0,00326 -2,22 0,01321 -1,72 0,04272 -1,22 0,11123 -0,72 0,23576 -0,22 0,41294-3,71 0,00010 -3,21 0,00066 -2,71 0,00336 -2,21 0,01355 -1,71 0,04363 -1,21 0,11314 -0,71 0,23885 -0,21 0,41683-3,70 0,00011 -3,20 0,00069 -2,70 0,00347 -2,20 0,01390 -1,70 0,04457 -1,20 0,11507 -0,70 0,24196 -0,20 0,42074-3,69 0,00011 -3,19 0,00071 -2,69 0,00357 -2,19 0,01426 -1,69 0,04551 -1,19 0,11702 -0,69 0,24510 -0,19 0,42465-3,68 0,00012 -3,18 0,00074 -2,68 0,00368 -2,18 0,01463 -1,68 0,04648 -1,18 0,11900 -0,68 0,24825 -0,18 0,42858-3,67 0,00012 -3,17 0,00076 -2,67 0,00379 -2,17 0,01500 -1,67 0,04746 -1,17 0,12100 -0,67 0,25143 -0,17 0,43251-3,66 0,00013 -3,16 0,00079 -2,66 0,00391 -2,16 0,01539 -1,66 0,04846 -1,16 0,12302 -0,66 0,25463 -0,16 0,43644-3,65 0,00013 -3,15 0,00082 -2,65 0,00402 -2,15 0,01578 -1,65 0,04947 -1,15 0,12507 -0,65 0,25785 -0,15 0,44038-3,64 0,00014 -3,14 0,00084 -2,64 0,00415 -2,14 0,01618 -1,64 0,05050 -1,14 0,12714 -0,64 0,26109 -0,14 0,44433-3,63 0,00014 -3,13 0,00087 -2,63 0,00427 -2,13 0,01659 -1,63 0,05155 -1,13 0,12924 -0,63 0,26435 -0,13 0,44828-3,62 0,00015 -3,12 0,00090 -2,62 0,00440 -2,12 0,01700 -1,62 0,05262 -1,12 0,13136 -0,62 0,26763 -0,12 0,45224-3,61 0,00015 -3,11 0,00094 -2,61 0,00453 -2,11 0,01743 -1,61 0,05370 -1,11 0,13350 -0,61 0,27093 -0,11 0,45620-3,60 0,00016 -3,10 0,00097 -2,60 0,00466 -2,10 0,01786 -1,60 0,05480 -1,10 0,13567 -0,60 0,27425 -0,10 0,46017-3,59 0,00017 -3,09 0,00100 -2,59 0,00480 -2,09 0,01831 -1,59 0,05592 -1,09 0,13786 -0,59 0,27760 -0,09 0,46414-3,58 0,00017 -3,08 0,00104 -2,58 0,00494 -2,08 0,01876 -1,58 0,05705 -1,08 0,14007 -0,58 0,28096 -0,08 0,46812-3,57 0,00018 -3,07 0,00107 -2,57 0,00508 -2,07 0,01923 -1,57 0,05821 -1,07 0,14231 -0,57 0,28434 -0,07 0,47210-3,56 0,00019 -3,06 0,00111 -2,56 0,00523 -2,06 0,01970 -1,56 0,05938 -1,06 0,14457 -0,56 0,28774 -0,06 0,47608-3,55 0,00019 -3,05 0,00114 -2,55 0,00539 -2,05 0,02018 -1,55 0,06057 -1,05 0,14686 -0,55 0,29116 -0,05 0,48006-3,54 0,00020 -3,04 0,00118 -2,54 0,00554 -2,04 0,02068 -1,54 0,06178 -1,04 0,14917 -0,54 0,29460 -0,04 0,48405-3,53 0,00021 -3,03 0,00122 -2,53 0,00570 -2,03 0,02118 -1,53 0,06301 -1,03 0,15151 -0,53 0,29806 -0,03 0,48803-3,52 0,00022 -3,02 0,00126 -2,52 0,00587 -2,02 0,02169 -1,52 0,06426 -1,02 0,15386 -0,52 0,30153 -0,02 0,49202-3,51 0,00022 -3,01 0,00131 -2,51 0,00604 -2,01 0,02222 -1,51 0,06552 -1,01 0,15625 -0,51 0,30503 -0,01 0,49601

Z

P

Page 128: Estadisticas Angel Estadistica Angel Borgna Fernandez

112288

Universidad Virtual de Quilmes

z p z p z p z p z p z p z p z p

0,00 0,50000 0,50 0,69146 1,00 0,84134 1,50 0,93319 2,00 0,97725 2,50 0,99379 3,00 0,99865 3,50 0,999770,01 0,50399 0,51 0,69497 1,01 0,84375 1,51 0,93448 2,01 0,97778 2,51 0,99396 3,01 0,99869 3,51 0,999780,02 0,50798 0,52 0,69847 1,02 0,84614 1,52 0,93574 2,02 0,97831 2,52 0,99413 3,02 0,99874 3,52 0,999780,03 0,51197 0,53 0,70194 1,03 0,84849 1,53 0,93699 2,03 0,97882 2,53 0,99430 3,03 0,99878 3,53 0,999790,04 0,51595 0,54 0,70540 1,04 0,85083 1,54 0,93822 2,04 0,97932 2,54 0,99446 3,04 0,99882 3,54 0,999800,05 0,51994 0,55 0,70884 1,05 0,85314 1,55 0,93943 2,05 0,97982 2,55 0,99461 3,05 0,99886 3,55 0,999810,06 0,52392 0,56 0,71226 1,06 0,85543 1,56 0,94062 2,06 0,98030 2,56 0,99477 3,06 0,99889 3,56 0,999810,07 0,52790 0,57 0,71566 1,07 0,85769 1,57 0,94179 2,07 0,98077 2,57 0,99492 3,07 0,99893 3,57 0,999820,08 0,53188 0,58 0,71904 1,08 0,85993 1,58 0,94295 2,08 0,98124 2,58 0,99506 3,08 0,99896 3,58 0,999830,09 0,53586 0,59 0,72240 1,09 0,86214 1,59 0,94408 2,09 0,98169 2,59 0,99520 3,09 0,99900 3,59 0,999830,10 0,53983 0,60 0,72575 1,10 0,86433 1,60 0,94520 2,10 0,98214 2,60 0,99534 3,10 0,99903 3,60 0,999840,11 0,54380 0,61 0,72907 1,11 0,86650 1,61 0,94630 2,11 0,98257 2,61 0,99547 3,11 0,99906 3,61 0,999850,12 0,54776 0,62 0,73237 1,12 0,86864 1,62 0,94738 2,12 0,98300 2,62 0,99560 3,12 0,99910 3,62 0,999850,13 0,55172 0,63 0,73565 1,13 0,87076 1,63 0,94845 2,13 0,98341 2,63 0,99573 3,13 0,99913 3,63 0,999860,14 0,55567 0,64 0,73891 1,14 0,87286 1,64 0,94950 2,14 0,98382 2,64 0,99585 3,14 0,99916 3,64 0,999860,15 0,55962 0,65 0,74215 1,15 0,87493 1,65 0,95053 2,15 0,98422 2,65 0,99598 3,15 0,99918 3,65 0,999870,16 0,56356 0,66 0,74537 1,16 0,87698 1,66 0,95154 2,16 0,98461 2,66 0,99609 3,16 0,99921 3,66 0,999870,17 0,56749 0,67 0,74857 1,17 0,87900 1,67 0,95254 2,17 0,98500 2,67 0,99621 3,17 0,99924 3,67 0,999880,18 0,57142 0,68 0,75175 1,18 0,88100 1,68 0,95352 2,18 0,98537 2,68 0,99632 3,18 0,99926 3,68 0,999880,19 0,57535 0,69 0,75490 1,19 0,88298 1,69 0,95449 2,19 0,98574 2,69 0,99643 3,19 0,99929 3,69 0,999890,20 0,57926 0,70 0,75804 1,20 0,88493 1,70 0,95543 2,20 0,98610 2,70 0,99653 3,20 0,99931 3,70 0,999890,21 0,58317 0,71 0,76115 1,21 0,88686 1,71 0,95637 2,21 0,98645 2,71 0,99664 3,21 0,99934 3,71 0,999900,22 0,58706 0,72 0,76424 1,22 0,88877 1,72 0,95728 2,22 0,98679 2,72 0,99674 3,22 0,99936 3,72 0,999900,23 0,59095 0,73 0,76730 1,23 0,89065 1,73 0,95818 2,23 0,98713 2,73 0,99683 3,23 0,99938 3,73 0,999900,24 0,59483 0,74 0,77035 1,24 0,89251 1,74 0,95907 2,24 0,98745 2,74 0,99693 3,24 0,99940 3,74 0,999910,25 0,59871 0,75 0,77337 1,25 0,89435 1,75 0,95994 2,25 0,98778 2,75 0,99702 3,25 0,99942 3,75 0,999910,26 0,60257 0,76 0,77637 1,26 0,89617 1,76 0,96080 2,26 0,98809 2,76 0,99711 3,26 0,99944 3,76 0,999920,27 0,60642 0,77 0,77935 1,27 0,89796 1,77 0,96164 2,27 0,98840 2,77 0,99720 3,27 0,99946 3,77 0,999920,28 0,61026 0,78 0,78230 1,28 0,89973 1,78 0,96246 2,28 0,98870 2,78 0,99728 3,28 0,99948 3,78 0,999920,29 0,61409 0,79 0,78524 1,29 0,90147 1,79 0,96327 2,29 0,98899 2,79 0,99736 3,29 0,99950 3,79 0,999920,30 0,61791 0,80 0,78814 1,30 0,90320 1,80 0,96407 2,30 0,98928 2,80 0,99744 3,30 0,99952 3,80 0,999930,31 0,62172 0,81 0,79103 1,31 0,90490 1,81 0,96485 2,31 0,98956 2,81 0,99752 3,31 0,99953 3,81 0,999930,32 0,62552 0,82 0,79389 1,32 0,90658 1,82 0,96562 2,32 0,98983 2,82 0,99760 3,32 0,99955 3,82 0,999930,33 0,62930 0,83 0,79673 1,33 0,90824 1,83 0,96638 2,33 0,99010 2,83 0,99767 3,33 0,99957 3,83 0,999940,34 0,63307 0,84 0,79955 1,34 0,90988 1,84 0,96712 2,34 0,99036 2,84 0,99774 3,34 0,99958 3,84 0,999940,35 0,63683 0,85 0,80234 1,35 0,91149 1,85 0,96784 2,35 0,99061 2,85 0,99781 3,35 0,99960 3,85 0,999940,36 0,64058 0,86 0,80511 1,36 0,91308 1,86 0,96856 2,36 0,99086 2,86 0,99788 3,36 0,99961 3,86 0,999940,37 0,64431 0,87 0,80785 1,37 0,91466 1,87 0,96926 2,37 0,99111 2,87 0,99795 3,37 0,99962 3,87 0,999950,38 0,64803 0,88 0,81057 1,38 0,91621 1,88 0,96995 2,38 0,99134 2,88 0,99801 3,38 0,99964 3,88 0,999950,39 0,65173 0,89 0,81327 1,39 0,91774 1,89 0,97062 2,39 0,99158 2,89 0,99807 3,39 0,99965 3,89 0,999950,40 0,65542 0,90 0,81594 1,40 0,91924 1,90 0,97128 2,40 0,99180 2,90 0,99813 3,40 0,99966 3,90 0,999950,41 0,65910 0,91 0,81859 1,41 0,92073 1,91 0,97193 2,41 0,99202 2,91 0,99819 3,41 0,99968 3,91 0,999950,42 0,66276 0,92 0,82121 1,42 0,92220 1,92 0,97257 2,42 0,99224 2,92 0,99825 3,42 0,99969 3,92 0,999960,43 0,66640 0,93 0,82381 1,43 0,92364 1,93 0,97320 2,43 0,99245 2,93 0,99831 3,43 0,99970 3,93 0,999960,44 0,67003 0,94 0,82639 1,44 0,92507 1,94 0,97381 2,44 0,99266 2,94 0,99836 3,44 0,99971 3,94 0,999960,45 0,67364 0,95 0,82894 1,45 0,92647 1,95 0,97441 2,45 0,99286 2,95 0,99841 3,45 0,99972 3,95 0,999960,46 0,67724 0,96 0,83147 1,46 0,92785 1,96 0,97500 2,46 0,99305 2,96 0,99846 3,46 0,99973 3,96 0,999960,47 0,68082 0,97 0,83398 1,47 0,92922 1,97 0,97558 2,47 0,99324 2,97 0,99851 3,47 0,99974 3,97 0,999960,48 0,68439 0,98 0,83646 1,48 0,93056 1,98 0,97615 2,48 0,99343 2,98 0,99856 3,48 0,99975 3,98 0,999970,49 0,68793 0,99 0,83891 1,49 0,93189 1,99 0,97670 2,49 0,99361 2,99 0,99861 3,49 0,99976 3,99 0,99997

Tabla 2: Percentiles de la distribución t de Student .

gl t0,001 t0,005 t0,01 t0,02 t0,025 t0,05 t0,10 t0,90 t0,975 t0,98 t0,99 t0,995 t0,999

1 -318,29 -63,66 -31,82 -15,89 -12,71 -6,31 -3,08 3,08 12,71 15,89 31,82 63,66 318,292 -22,33 -9,92 -6,96 -4,85 -4,30 -2,92 -1,89 1,89 4,30 4,85 6,96 9,92 22,333 -10,21 -5,84 -4,54 -3,48 -3,18 -2,35 -1,64 1,64 3,18 3,48 4,54 5,84 10,214 -7,17 -4,60 -3,75 -3,00 -2,78 -2,13 -1,53 1,53 2,78 3,00 3,75 4,60 7,175 -5,89 -4,03 -3,36 -2,76 -2,57 -2,02 -1,48 1,48 2,57 2,76 3,36 4,03 5,896 -5,21 -3,71 -3,14 -2,61 -2,45 -1,94 -1,44 1,44 2,45 2,61 3,14 3,71 5,217 -4,79 -3,50 -3,00 -2,52 -2,36 -1,89 -1,41 1,41 2,36 2,52 3,00 3,50 4,798 -4,50 -3,36 -2,90 -2,45 -2,31 -1,86 -1,40 1,40 2,31 2,45 2,90 3,36 4,509 -4,30 -3,25 -2,82 -2,40 -2,26 -1,83 -1,38 1,38 2,26 2,40 2,82 3,25 4,30

10 -4,14 -3,17 -2,76 -2,36 -2,23 -1,81 -1,37 1,37 2,23 2,36 2,76 3,17 4,1411 -4,02 -3,11 -2,72 -2,33 -2,20 -1,80 -1,36 1,36 2,20 2,33 2,72 3,11 4,0212 -3,93 -3,05 -2,68 -2,30 -2,18 -1,78 -1,36 1,36 2,18 2,30 2,68 3,05 3,9313 -3,85 -3,01 -2,65 -2,28 -2,16 -1,77 -1,35 1,35 2,16 2,28 2,65 3,01 3,8514 -3,79 -2,98 -2,62 -2,26 -2,14 -1,76 -1,35 1,35 2,14 2,26 2,62 2,98 3,7915 -3,73 -2,95 -2,60 -2,25 -2,13 -1,75 -1,34 1,34 2,13 2,25 2,60 2,95 3,7316 -3,69 -2,92 -2,58 -2,24 -2,12 -1,75 -1,34 1,34 2,12 2,24 2,58 2,92 3,6917 -3,65 -2,90 -2,57 -2,22 -2,11 -1,74 -1,33 1,33 2,11 2,22 2,57 2,90 3,6518 -3,61 -2,88 -2,55 -2,21 -2,10 -1,73 -1,33 1,33 2,10 2,21 2,55 2,88 3,6119 -3,58 -2,86 -2,54 -2,20 -2,09 -1,73 -1,33 1,33 2,09 2,20 2,54 2,86 3,5820 -3,55 -2,85 -2,53 -2,20 -2,09 -1,72 -1,33 1,33 2,09 2,20 2,53 2,85 3,5521 -3,53 -2,83 -2,52 -2,19 -2,08 -1,72 -1,32 1,32 2,08 2,19 2,52 2,83 3,5322 -3,50 -2,82 -2,51 -2,18 -2,07 -1,72 -1,32 1,32 2,07 2,18 2,51 2,82 3,5023 -3,48 -2,81 -2,50 -2,18 -2,07 -1,71 -1,32 1,32 2,07 2,18 2,50 2,81 3,4824 -3,47 -2,80 -2,49 -2,17 -2,06 -1,71 -1,32 1,32 2,06 2,17 2,49 2,80 3,4725 -3,45 -2,79 -2,49 -2,17 -2,06 -1,71 -1,32 1,32 2,06 2,17 2,49 2,79 3,4526 -3,43 -2,78 -2,48 -2,16 -2,06 -1,71 -1,31 1,31 2,06 2,16 2,48 2,78 3,4327 -3,42 -2,77 -2,47 -2,16 -2,05 -1,70 -1,31 1,31 2,05 2,16 2,47 2,77 3,4228 -3,41 -2,76 -2,47 -2,15 -2,05 -1,70 -1,31 1,31 2,05 2,15 2,47 2,76 3,4129 -3,40 -2,76 -2,46 -2,15 -2,05 -1,70 -1,31 1,31 2,05 2,15 2,46 2,76 3,4030 -3,39 -2,75 -2,46 -2,15 -2,04 -1,70 -1,31 1,31 2,04 2,15 2,46 2,75 3,3931 -3,37 -2,74 -2,45 -2,14 -2,04 -1,70 -1,31 1,31 2,04 2,14 2,45 2,74 3,3732 -3,37 -2,74 -2,45 -2,14 -2,04 -1,69 -1,31 1,31 2,04 2,14 2,45 2,74 3,3733 -3,36 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31 2,03 2,14 2,44 2,73 3,3634 -3,35 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31 2,03 2,14 2,44 2,73 3,3535 -3,34 -2,72 -2,44 -2,13 -2,03 -1,69 -1,31 1,31 2,03 2,13 2,44 2,72 3,3436 -3,33 -2,72 -2,43 -2,13 -2,03 -1,69 -1,31 1,31 2,03 2,13 2,43 2,72 3,3338 -3,32 -2,71 -2,43 -2,13 -2,02 -1,69 -1,30 1,30 2,02 2,13 2,43 2,71 3,3240 -3,31 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,42 2,70 3,3142 -3,30 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,42 2,70 3,3044 -3,29 -2,69 -2,41 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,41 2,69 3,2946 -3,28 -2,69 -2,41 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,41 2,69 3,2848 -3,27 -2,68 -2,41 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,41 2,68 3,2750 -3,26 -2,68 -2,40 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,40 2,68 3,2655 -3,25 -2,67 -2,40 -2,10 -2,00 -1,67 -1,30 1,30 2,00 2,10 2,40 2,67 3,2560 -3,23 -2,66 -2,39 -2,10 -2,00 -1,67 -1,30 1,30 2,00 2,10 2,39 2,66 3,2365 -3,22 -2,65 -2,39 -2,10 -2,00 -1,67 -1,29 1,29 2,00 2,10 2,39 2,65 3,2270 -3,21 -2,65 -2,38 -2,09 -1,99 -1,67 -1,29 1,29 1,99 2,09 2,38 2,65 3,2180 -3,20 -2,64 -2,37 -2,09 -1,99 -1,66 -1,29 1,29 1,99 2,09 2,37 2,64 3,2090 -3,18 -2,63 -2,37 -2,08 -1,99 -1,66 -1,29 1,29 1,99 2,08 2,37 2,63 3,18

100 -3,17 -2,63 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,63 3,17110 -3,17 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,62 3,17120 -3,16 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,62 3,16150 -3,15 -2,61 -2,35 -2,07 -1,98 -1,66 -1,29 1,29 1,98 2,07 2,35 2,61 3,15200 -3,13 -2,60 -2,35 -2,07 -1,97 -1,65 -1,29 1,29 1,97 2,07 2,35 2,60 3,13250 -3,12 -2,60 -2,34 -2,06 -1,97 -1,65 -1,28 1,28 1,97 2,06 2,34 2,60 3,12350 -3,11 -2,59 -2,34 -2,06 -1,97 -1,65 -1,28 1,28 1,97 2,06 2,34 2,59 3,11500 -3,11 -2,59 -2,33 -2,06 -1,96 -1,65 -1,28 1,28 1,96 2,06 2,33 2,59 3,11

3000 -3,09 -2,58 -2,33 -2,05 -1,96 -1,65 -1,28 1,28 1,96 2,05 2,33 2,58 3,09

α

Page 129: Estadisticas Angel Estadistica Angel Borgna Fernandez

112299

Estadistica

Tabla 2: Percentiles de la distribución t de Student .

gl t0,001 t0,005 t0,01 t0,02 t0,025 t0,05 t0,10 t0,90 t0,975 t0,98 t0,99 t0,995 t0,999

1 -318,29 -63,66 -31,82 -15,89 -12,71 -6,31 -3,08 3,08 12,71 15,89 31,82 63,66 318,292 -22,33 -9,92 -6,96 -4,85 -4,30 -2,92 -1,89 1,89 4,30 4,85 6,96 9,92 22,333 -10,21 -5,84 -4,54 -3,48 -3,18 -2,35 -1,64 1,64 3,18 3,48 4,54 5,84 10,214 -7,17 -4,60 -3,75 -3,00 -2,78 -2,13 -1,53 1,53 2,78 3,00 3,75 4,60 7,175 -5,89 -4,03 -3,36 -2,76 -2,57 -2,02 -1,48 1,48 2,57 2,76 3,36 4,03 5,896 -5,21 -3,71 -3,14 -2,61 -2,45 -1,94 -1,44 1,44 2,45 2,61 3,14 3,71 5,217 -4,79 -3,50 -3,00 -2,52 -2,36 -1,89 -1,41 1,41 2,36 2,52 3,00 3,50 4,798 -4,50 -3,36 -2,90 -2,45 -2,31 -1,86 -1,40 1,40 2,31 2,45 2,90 3,36 4,509 -4,30 -3,25 -2,82 -2,40 -2,26 -1,83 -1,38 1,38 2,26 2,40 2,82 3,25 4,30

10 -4,14 -3,17 -2,76 -2,36 -2,23 -1,81 -1,37 1,37 2,23 2,36 2,76 3,17 4,1411 -4,02 -3,11 -2,72 -2,33 -2,20 -1,80 -1,36 1,36 2,20 2,33 2,72 3,11 4,0212 -3,93 -3,05 -2,68 -2,30 -2,18 -1,78 -1,36 1,36 2,18 2,30 2,68 3,05 3,9313 -3,85 -3,01 -2,65 -2,28 -2,16 -1,77 -1,35 1,35 2,16 2,28 2,65 3,01 3,8514 -3,79 -2,98 -2,62 -2,26 -2,14 -1,76 -1,35 1,35 2,14 2,26 2,62 2,98 3,7915 -3,73 -2,95 -2,60 -2,25 -2,13 -1,75 -1,34 1,34 2,13 2,25 2,60 2,95 3,7316 -3,69 -2,92 -2,58 -2,24 -2,12 -1,75 -1,34 1,34 2,12 2,24 2,58 2,92 3,6917 -3,65 -2,90 -2,57 -2,22 -2,11 -1,74 -1,33 1,33 2,11 2,22 2,57 2,90 3,6518 -3,61 -2,88 -2,55 -2,21 -2,10 -1,73 -1,33 1,33 2,10 2,21 2,55 2,88 3,6119 -3,58 -2,86 -2,54 -2,20 -2,09 -1,73 -1,33 1,33 2,09 2,20 2,54 2,86 3,5820 -3,55 -2,85 -2,53 -2,20 -2,09 -1,72 -1,33 1,33 2,09 2,20 2,53 2,85 3,5521 -3,53 -2,83 -2,52 -2,19 -2,08 -1,72 -1,32 1,32 2,08 2,19 2,52 2,83 3,5322 -3,50 -2,82 -2,51 -2,18 -2,07 -1,72 -1,32 1,32 2,07 2,18 2,51 2,82 3,5023 -3,48 -2,81 -2,50 -2,18 -2,07 -1,71 -1,32 1,32 2,07 2,18 2,50 2,81 3,4824 -3,47 -2,80 -2,49 -2,17 -2,06 -1,71 -1,32 1,32 2,06 2,17 2,49 2,80 3,4725 -3,45 -2,79 -2,49 -2,17 -2,06 -1,71 -1,32 1,32 2,06 2,17 2,49 2,79 3,4526 -3,43 -2,78 -2,48 -2,16 -2,06 -1,71 -1,31 1,31 2,06 2,16 2,48 2,78 3,4327 -3,42 -2,77 -2,47 -2,16 -2,05 -1,70 -1,31 1,31 2,05 2,16 2,47 2,77 3,4228 -3,41 -2,76 -2,47 -2,15 -2,05 -1,70 -1,31 1,31 2,05 2,15 2,47 2,76 3,4129 -3,40 -2,76 -2,46 -2,15 -2,05 -1,70 -1,31 1,31 2,05 2,15 2,46 2,76 3,4030 -3,39 -2,75 -2,46 -2,15 -2,04 -1,70 -1,31 1,31 2,04 2,15 2,46 2,75 3,3931 -3,37 -2,74 -2,45 -2,14 -2,04 -1,70 -1,31 1,31 2,04 2,14 2,45 2,74 3,3732 -3,37 -2,74 -2,45 -2,14 -2,04 -1,69 -1,31 1,31 2,04 2,14 2,45 2,74 3,3733 -3,36 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31 2,03 2,14 2,44 2,73 3,3634 -3,35 -2,73 -2,44 -2,14 -2,03 -1,69 -1,31 1,31 2,03 2,14 2,44 2,73 3,3535 -3,34 -2,72 -2,44 -2,13 -2,03 -1,69 -1,31 1,31 2,03 2,13 2,44 2,72 3,3436 -3,33 -2,72 -2,43 -2,13 -2,03 -1,69 -1,31 1,31 2,03 2,13 2,43 2,72 3,3338 -3,32 -2,71 -2,43 -2,13 -2,02 -1,69 -1,30 1,30 2,02 2,13 2,43 2,71 3,3240 -3,31 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,42 2,70 3,3142 -3,30 -2,70 -2,42 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,42 2,70 3,3044 -3,29 -2,69 -2,41 -2,12 -2,02 -1,68 -1,30 1,30 2,02 2,12 2,41 2,69 3,2946 -3,28 -2,69 -2,41 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,41 2,69 3,2848 -3,27 -2,68 -2,41 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,41 2,68 3,2750 -3,26 -2,68 -2,40 -2,11 -2,01 -1,68 -1,30 1,30 2,01 2,11 2,40 2,68 3,2655 -3,25 -2,67 -2,40 -2,10 -2,00 -1,67 -1,30 1,30 2,00 2,10 2,40 2,67 3,2560 -3,23 -2,66 -2,39 -2,10 -2,00 -1,67 -1,30 1,30 2,00 2,10 2,39 2,66 3,2365 -3,22 -2,65 -2,39 -2,10 -2,00 -1,67 -1,29 1,29 2,00 2,10 2,39 2,65 3,2270 -3,21 -2,65 -2,38 -2,09 -1,99 -1,67 -1,29 1,29 1,99 2,09 2,38 2,65 3,2180 -3,20 -2,64 -2,37 -2,09 -1,99 -1,66 -1,29 1,29 1,99 2,09 2,37 2,64 3,2090 -3,18 -2,63 -2,37 -2,08 -1,99 -1,66 -1,29 1,29 1,99 2,08 2,37 2,63 3,18

100 -3,17 -2,63 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,63 3,17110 -3,17 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,62 3,17120 -3,16 -2,62 -2,36 -2,08 -1,98 -1,66 -1,29 1,29 1,98 2,08 2,36 2,62 3,16150 -3,15 -2,61 -2,35 -2,07 -1,98 -1,66 -1,29 1,29 1,98 2,07 2,35 2,61 3,15200 -3,13 -2,60 -2,35 -2,07 -1,97 -1,65 -1,29 1,29 1,97 2,07 2,35 2,60 3,13250 -3,12 -2,60 -2,34 -2,06 -1,97 -1,65 -1,28 1,28 1,97 2,06 2,34 2,60 3,12350 -3,11 -2,59 -2,34 -2,06 -1,97 -1,65 -1,28 1,28 1,97 2,06 2,34 2,59 3,11500 -3,11 -2,59 -2,33 -2,06 -1,96 -1,65 -1,28 1,28 1,96 2,06 2,33 2,59 3,11

3000 -3,09 -2,58 -2,33 -2,05 -1,96 -1,65 -1,28 1,28 1,96 2,05 2,33 2,58 3,09

α