Download - Estadistica Libro Electronico
-
UNIVERSIDAD AUTNOMA DE CD. JUREZ
INSTITUTO DE INGENIERA Y TECNOLOGA
DEPARTAMENTO DE INGENIERA CIVIL Y AMBIENTAL
MTODOS ESTADSTICOS PARA LA INGENIERA AMBIENTAL Y LA CIENCIA
DR. HCTOR ADOLFO QUEVEDO URIAS
AGOSTO DE 2006
-
Copyright 2006. Mtodos Estadsticos para la Ingeniera Ambiental y la Ciencia. Hctor Adolfo Quevedo Uras Es propiedad del autor. Queda hecho el depsito que marca la ley. Advertencia Prohibida la reproduccin de este libro, adems de los esquemas e ideas originales del autor que se hallan en este texto, ya sea por medios electrnicos, mecnicos, fotocopiado o de cualquier otra forma, puesto que todo esto pertenece al dominio de la propiedad intelectual y est protegido por la ley. Para revisores, crticos o reseadores literarios, a quienes se les asigne la tarea de hacer revisiones literarias de esta obra, lo pueden hacer, previo acuerdo con el autor. Impreso en Cd. Jurez, Chihuahua, Mxico Library of Congress Cataloging in Publication Data Hctor Adolfo Quevedo Uras Este libro fue publicado en el Internet en Enero de 2006 por la Biblioteca Virtual de la Universidad Autnoma de Cd. Jurez. La direccin electrnica del libro es: http://bivir.uacj.mx/LibrosElectronicosLibres/UACJ/ua00001.pdf
-
CONTENIDO Pgina Introduccin i Captulo 1 Estadstica Descriptiva 1-1 Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de inferencia.- Estadstica descriptiva.- Variables continuas y discretas.- Medidas de tendencia central.- Medidas de dispersin.- La variable aleatoria estandarizada z.- Las desviaciones del promedio.- El rango.- Sesgo y kurtosis.- Distribuciones de frecuencia.- Diagramas de tallo y hoja. Captulo 2 Probabilidad 2-1 Probabilidad de frecuencia relativa.- Probabilidad subjetiva.- Axiomas y propiedades bsicas de la probabilidad.- Diagramas de Venn y lgebra de conjuntos.- Tcnicas de conteo: Regla de producto para pares ordenados, la regla de multiplicacin ms general, regla factorial, diagramas de rbol, permutaciones y combinaciones.- Regla multiplicativa para eventos dependientes e independientes.- Regla aditiva para eventos mutuos excluyentes y eventos no mutuos excluyentes.-
Captulo 3 Distribucin Binomial e Hipergeomtrica 3-1 Aplicaciones generales de la distribucin binomial.- Relacin entre la distribucin normal y la distribucin binomial.- Relacin entre la distribucin binomial y la distribucin de Poisson.- La distribucin hipergeomtrica.- Suposiciones y propiedades de la distribucin hipergeomtrica.- Captulo 4 Distribucin de Poisson 4-1 Aplicaciones de la distribucin de Poisson.- Condiciones que se requieren para aplicar la distribucin de Poisson.- Funciones probabilsticas de la funcin de Poisson.- Aplicacin de la distribucin de Poisson dentro de sus propios trminos y como una aproximacin a la distribucin binomial.- Propiedades de la distribucin de Poisson.- Problemas de la distribucin de Poisson usando el programa Minitab. Captulo 5 Distribuciones de Probabilidad Continua 5-1 Funcin de densidad de probabilidad de la variable aleatoria continua X.- Frmula fundamental del clculo.- Distribucin normal y sus caractersticas.- Relacin entre la curva normal y la binomial.- reas bajo la curva normal.- Distribucin exponencial.- Distribucin Gamma.- Distribucin Weibull.- Intervalos de confianza para .- Estadstica de inferencia:
-
teora de decisin estadstica y pruebas de hiptesis.- Pruebas de hiptesis estadsticas. Hiptesis nula (Ho:) e hiptesis alternativas (H1:, H2:, H3:).- Tipos de errores I (alfa) y II (beta).- Pruebas de hiptesis no tradicionales usando el valor de la probabilidad p.- Pruebas de hiptesis para uno y dos promedios poblacionales (1, y 2).- Pruebas de hiptesis para las diferencias de dos promedios poblacionales (1 2), para muestras grandes (n 30) usando la distribucin normal, con varianzas conocidas e iguales (21 = 22).- Intervalos de confianza para dos promedios poblacionales.- Pruebas de hiptesis e intervalos de confianza para proporciones.- Captulo 6 Distribuciones de t de Estudiante, JI Cuadrada y F 6-1 Propiedades de la distribucin de t de Estudiante.- Intervalos de confianza para el promedio poblacional .- Prueba de hiptesis para .- Prueba de t pareada para detectar diferencias entre dos tratamientos.- Prueba de t para probar la hiptesis de dos promedios, cuando las varianzas son iguales.- Prueba de t para probar la hiptesis de dos promedios cuando las varianzas son desiguales.- Mecanismos para calcular el valor de p cuando se hacen pruebas de hiptesis no tradicionales.- Intervalos de confianza y pruebas de hiptesis con la JI cuadrada, (2).- Aplicacin de la JI cuadrada en cuanto a la prueba de bondad de ajuste comparando las frecuencias observadas y las frecuencias tericas.- Distribucin F y su aplicacin en la comparacin de varianzas muestrales.- Captulo 7 Anlisis de Varianza 7-1 Diseos de anlisis de varianza completamente aleatorizados y diseo de bloques aleatorizados.- Mtodo de comparaciones mltiples para saber cuales poblaciones son iguales y cuales son desiguales.- Anlisis de varianza de diseo de bloques aleatorizados.- Suposiciones del modelo de bloques aleatorios completos.- Anlisis de varianza en dos sentidos.- Interaccin con ANOVA de dos factores.- Anlisis de varianza en tres sentidos: diseo completamente aleatorio.- Interaccin con ANOVA de diseos factoriales de tres clasificaciones.- Ejemplos de ANOVA usando el programa Minitab.- Captulo 8 Regresin Lineal Simple y Mltiple 8-1 Suposiciones del modelo de regresin lineal.- Ecuaciones normales para calcular el intercepto en la ordenada a y la pendiente b de la curva o lnea de regresin.- Coeficiente de determinacin R2 de la muestra que estima a 2 el coeficiente de determinacin poblacional.- Coeficiente de correlacin R de la muestra que estima a , el coeficiente de correlacin poblacional.- Intervalo de confianza para el coeficiente poblacional componente de la lnea de regresin Y|X = + X, estimado por b, la pendiente de la lnea.- Intervalo de confianza para el parmetro poblacional , el intercepto de la ordenada de la lnea de regresin Y|X = + X, cuyo estimador es a.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: < 1 y H2: > 1.- Hiptesis nula de Ho: = o contra las hiptesis alternativas de H1: o, H2: > o, y de H3: < o.- Intervalo de confianza para Y|X de la lnea poblacional estimada por Y.- Regresin y correlacin
-
mltiple.- Mtodos para validar el modelo de regresin lineal simple y mltiple: a travs de estadstica de inferencias y a travs del anlisis grfico de los residuales estandarizados. Procedimiento de regresin mltiple usando el programa Minitab.- Captulo 9 Regresin Polinomial 9-1 Modelos polinomiales de segundo orden (k = 2) con una variable independiente.- Modelo de polinomios de tercer orden (k = 3), con una variable independiente.- Modelo de segundo orden (cuadrtico) con interaccin.- Modelo polinomial (de segundo orden o cuadrtico), con tres variables independientes con interaccin.- Evaluacin de los modelos de regresin.- Prueba estadstica para comparar la suma de los cuadrados del error (SSe) de cada modelo probado, para saber cual modelo es superior.- Modelos de regresin no lineales y de regresin logstica.- Modelos de regresin exponenciales paramtricos, con una sola variable independiente.- Procedimientos para la Identificacin de valores atpicos extremos. Diagnstico y mitigacin de multicolinealidad.- Medidas para corregir multicolinealidad severa.- Ejemplos de problemas de regresin polinomial usando el programa de computadora Minitab.- Autocorrelacin en datos de series de tiempo.- Heteroscedasticidad y homoscedasticidad.- Prueba de White para el problema de heteroscedasticidad.- Captulo 10 Estadstica no Paramtrica. El modelo de Distribucin de ANOVA Libre 10-1 Ventajas de los mtodos no paramtricos.- Desventajas de los mtodos no paramtricos.- Prueba de H de Kruskal-Wallis para anlisis de varianza por rangos.- Pruebas de hiptesis con las funciones no paramtricas.- Procedimientos de pruebas de Kruskal-Wallis para ANOVA simple.- Pruebas de hiptesis no tradicionales, para la prueba de Kruskal-Wallis, es decir, usando el valor de la probabilidad p.- Captulo 11 Series de Tiempo 11-1 Clasificacin de los movimientos de las series de tiempo.- Tendencias a largo plazo.- Componentes cclicos de series de tiempo.- Variaciones estacionales.- Variacin irregular.- Mtodos para encontrar lneas de tendencia.- Lnea de los cuadrados mnimos y parbolas de los cuadrados mnimos.- Captulo 12 Seleccin del Tamao de la Muestra 12-1 Derivacin de la frmula para estimar el tamao ms apropiado de la muestra para el promedio.- Seleccin del tamao de la muestra para dos poblaciones.- Apndices Apndice A Lista de Tablas Estadsticas Apndice-A
-
Apndice B Bibliografa Apndice-B Apndice C Papel de grfica Apndice-C Apndice D ndice Apndice-D
-
i
Introduccin La estadstica y los mtodos probabilsticos o estocsticos juegan un papel muy
importante en todas las fases del comportamiento humano. El uso de la probabilidad y
de la estadstica se ha extendido, no tan solo a las reas tradicionales universitarias o
escolsticas, sino tambin a todos los campos de la ingeniera, la agricultura, la
biologa, la qumica, las comunicaciones, la economa, la electrnica, la medicina, la
fsica, las ciencias polticas, la psicologa, la sociologa, las encuestas polticas, la
mercadotecnia, la ecologa, la meteorologa, y as sucesivamente.
Este texto de probabilidad y de estadstica, est diseado para cursos de
postgrado de la Ingeniera Ambiental y la Ciencia. Este libro es una compilacin de
ms de 25 libros de referencias bibliogrficas de probabilidad y de estadstica
orientados, no tan solo a la ingeniera ambiental, sino tambin a la ingeniera en
general, la economa, la qumica, la fsica, la agricultura, la medicina, etc. Este texto
consta de ms de 700 pginas que incluyen conceptos tericos, muchos ejemplos
prcticos y muchos ejercicios. El autor de este texto, sin intenciones de ufanarse,
incluye un diseo de una frmula (que no aparece en los libros de estadstica) para
interpolar, manualmente, valores y estimar la probabilidad p.
En verdad, el propsito de este texto es el de ayudar al lector a entender los
conceptos, ideas y funciones de la probabilidad y de la estadstica aplicados a
problemas de la ingeniera ambiental y a la ciencia. Este texto deber ser tambin til
para aquellos estudiosos quienes deseen hacer aplicaciones de la probabilidad y de la
estadstica a problemas de la ingeniera en trminos generales, as como tambin a la
investigacin.
Cada captulo se inicia con definiciones pertinentes y claras, teoremas y
-
ii
principios, con material abundante de grficas, de materiales descriptivos y de
muchos ejemplos y ejercicios.
Por ejemplo, el Captulo 1 da la introduccin a la estadstica clsica. Este
captulo da una clara distincin entre lo que es una poblacin y una muestra. Este
captulo habla, adems, de estadstica descriptiva y de distribuciones de frecuencia.
Ms adelante, el Captulo 2 habla de la teora de probabilidad y todo lo relacionado
con la probabilidad clsica. Despus, los Captulos 3 y 4 hablan de las distribuciones
discretas, como la binomial, la hipergeomtrica y la Poisson. Aqu se incluye el
concepto de la lgica deductiva, la cual es un concepto de difcil entendimiento. El
Captulo 5 describe las funciones continuas de probabilidad, especialmente la
distribucin normal, adems, de las distribuciones Weibul, exponencial, Gamma, etc.
El Captulo 6 habla de la teora de muestreo pequeo como la t de Estudiante, JI
cuadrada y la distribucin F. En este rengln, en las pruebas de hiptesis, para el
control de calidad, se habla de la lgica inductiva, que es un concepto de difcil
entendimiento y discutido en poqusimos libros de estadstica. Adems, el Captulo 7
est relacionado con diseos de anlisis de varianza completamente aleatorizados y
diseos de bloques aleatorizados. Este captulo tambin discute modelos factoriales
de dos y tres clasificaciones. El Captulo 8 est relacionado con regresin lineal
simple y mltiple. El Captulo 9 est relacionado con regresin polinomial, el cual
incluye modelos polinomiales de segundo y tercer orden, con una variable
independiente y con ms de dos variables regresivas. Este captulo habla tambin de
modelos de regresin no lineales de regresin logstica y de modelos exponenciales
paramtricos, con una sola variable independiente. Ms adelante, el Captulo 10 habla
de pruebas no paramtricas. Otros, el Captulo 11 habla de las series de tiempo.
Finalmente, el Captulo 12 habla de mtodos para seleccionar el tamao de muestra
-
iii
ms apropiado.
Este texto, adems, incluye varios apndices con tablas de las distribuciones
binomiales, de Poisson, normal, de t de Estudiante, de F, de JI cuadrada, etc.
Igualmente, este texto incluye una serie de referencias bibliogrficas. Finalmente, este
libro de estadstica incluye una seccin que contiene ms de 340 ejercicios
relacionados con cada captulo y ejemplos usando el programa de computadora
Minitab y Excel. En este contexto, este texto de estadstica da muchos ejemplos de
problemas usando el paquete de computadora Minitab, es decir, describiendo el uso
del Minitab con minuciosidad de detalles; situaciones presentadas por muy pocos
libros de estadstica.
Para concluir, debo decir que este es un texto de estadstica diseado para los
estudiantes de ingeniera ambiental de posgrado y de la ciencia en general. Es decir,
para aquellos investigadores quienes deseen encontrar, prcticamente, todos los
conceptos de la probabilidad y de la estadstica, que les pueda ayudar en el desarrollo
de su profesin de ingeniera, en la investigacin o en cualquier otra rea de la
ciencia en general.
-
Dr. Hctor Quevedo Uras
1-1
CAPITULO 1
Estadstica Descriptiva Definicin de estadstica.- Poblacin y muestra.- Estadstica inductiva y de
inferencia.- Estadstica descriptiva.- Variables continuas y discretas.- Medidas
de tendencia central.- Medidas de dispersin.- La variable aleatoria
estandarizada z.- Las desviaciones del promedio.- El rango.- Sesgo y kurtosis.-
Distribuciones de frecuencia.- Diagramas de tallo y hoja. Estadstica es el estudio de los mtodos para coleccionar, resumir, organizar,
presentar y analizar informacin de datos. El trmino estadstica tambin se refiere a
la derivacin de conclusiones vlidas y a la formacin de decisiones razonables, en
base a semejantes anlisis. En la coleccin de datos de un grupo de observaciones, a
menudo es imposible o imprctico observar toda la poblacin. De manera qu, en
lugar de examinar el grupo en su totalidad, llamado la poblacin o universo, es
conveniente examinar solamente una parte de la poblacin llamada muestra.
Poblacin se refiere a un grupo de tems que tienen una caracterstica en
comn. Una poblacin puede ser definida como un grupo de individuos, como por
ejemplo, una persona, un animal, un objeto o una medicin. Adems, una poblacin
puede ser finita o infinita. Por ejemplo, la poblacin consistente de todos los tornillos
producidos en una fbrica, en un da, es finita. En contraste, la poblacin consistente
de todos los posibles resultados (caras o guilas) de los lanzamientos sucesivos de una
moneda es infinita. A menudo la poblacin no existe pero, sin embargo, es de
importancia. Por ejemplo, al estudiar un nuevo colorante para telas de algodn
podemos probar el nuevo colorante, con solamente 10 piezas de un metro del material
-
Dr. Hctor Quevedo Uras
1-2
y hacer mediciones de la resistencia del colorante. La muestra consiste de 10 piezas
de algodn tratadas con el colorante. La poblacin consiste de todas las piezas de
algodn posibles de un cierto tipo que pudieran ser tratadas con el nuevo colorante.
Esta poblacin no existe. Sin embargo, la poblacin total nos la podemos imaginar al
estudiar las 10 piezas de algodn con el objeto de hacer inferencias.
En el caso de una muestra, esto se refiere a una estadstica y es un estimador de
un parmetro de poblacin. Por ejemplo, si X denota el promedio aritmtico
estadstico de una muestra, entonces, X es el estimador del parmetro de todo el
conjunto o poblacin. Sin embargo, en contraste como se dijo antes, es imprctico o
imposible observar toda la poblacin, por esta razn se examina una pequea parte
del grupo o poblacin llamada muestra estadstica. Aqu, es conveniente introducir
trminos tales como muestra aleatoria o al azar, muestreo, estadstica inductiva o de
inferencia y estadstica descriptiva. Tambin es muy crtico distinguir entre los
trminos parmetros (donde se usan smbolos griegos) versus estadsticas. Los
parmetros se refieren a poblaciones infinitas o finitas. Sin embargo, las estadsticas
ser refieren a una muestra. Por ejemplo, si una muestra es representativa de una
poblacin se pueden sacar conclusiones importantes acerca de esta poblacin. Sin
embargo, es importante notar que la muestra debe ser aleatoria, porque de otra
manera, la inferencia acerca de la poblacin ser invlida.
Con respecto a la estadstica inductiva y a la estadstica de inferencia, stas se
refieren al proceso de inferir conclusiones acerca de una poblacin basndose en un
muestreo aleatorio (al azar), de tal manera que la probabilidad de tener una inferencia
correcta puede ser determinada de acuerdo con varias hiptesis concerniendo la
poblacin bajo estudio. Dicho en otras palabras, debido a que semejante inferencia no
puede ser absolutamente cierta, el lenguaje de probabilidad es, a menudo usado en la
-
Dr. Hctor Quevedo Uras
1-3
presentacin de los resultados o conclusiones.
En contraste, la fase de estadstica que busca nicamente describir y analizar
datos de una distribucin continua (como la normal), sin sacar ninguna conclusin o
inferencia acerca de la poblacin o universo, se denomina estadstica descriptiva.
Aqu se incluyen trminos como coleccin de datos sin procesar, formacin de datos
en orden descendiente o ascendente (cuya diferencia entre el mayor y menos se
denomina rango), distribuciones de frecuencia, que es un trmino para describir el
arreglo relativo de un conjunto de elementos de los valores de una variable y de las
frecuencia de ocurrencia de cada valor (la ms importante llamada curva normal y t
de estudiante). Otros trminos usados en estadstica descriptiva son promedios
aritmticos, promedios geomtricos, promedios armnicos, medianas, modas,
percentiles, desviaciones estndar, varianzas, etc., pero, sin sacar inferencias del
grupo que provienen.
Sin embargo, con relacin a la estadstica descriptiva y la estadstica de
inferencia, en el caso de la estadstica descriptiva, este tipo de estadstica incluye la
presentacin de conjuntos de observaciones, de tal manera que puedan ser
comprendidas e interpretadas y sirven para resumir o describir datos. En cambio, la
estadstica de inferencia se relaciona con estimaciones de magnitudes de poblaciones
y pruebas de acerca de las caractersticas de la poblacin. Ambas son tiles para
determinar cual entre dos a ms cursos de accin se siguen cuando el curso correcto
es determinado por una caracterstica particular o desconocida de la poblacin.
En el campo de la ingeniera (como en la ingeniera ambiental) y ciencias
experimentales el uso de la estadstica es requerido en el diseo de plantas de aguas
residuales e industriales, en el diseo de chimeneas industriales, en el diseo del
equipo de control de la contaminacin, en pruebas de rutina de laboratorio, en
-
Dr. Hctor Quevedo Uras
1-4
trabajos de investigacin y en la produccin de calidad y construccin. Por ejemplo,
en el laboratorio si el muestreo es preciso o si la variabilidad de nuestros resultados es
mayor de lo esperado, entonces hay que corregir la variacin refinando las tcnicas de
laboratorio o incrementando el tamao de la muestra.
En el campo de la investigacin tal vez estemos interesados en saber si un
cambio es un ingrediente que afecta las propiedades del material resultante, para
comparar la eficiencia de procesos o de mquinas probadoras; para determinar si los
resultados obtenidos encajan en una forma postulada o sospechada. Otra aplicacin
muy importante es el control de la calidad en la ingeniera industrial.
Con relacin a las variables continuas y discretas, en este caso se dice que una
variable aleatoria es una funcin que asigna un valor numrico a cada evento simple
en un espacio de la muestra. As, una variable aleatoria continua puede asumir una
figura innumerable y, tericamente, puede asumir cualquier valor entre dos valores
dados. Por ejemplo las alturas de una persona pueden ser 62.0 pulgadas, 63.8
Pulgadas, 65.8456 Pulgadas, etc. En contraste, una variable es discreta si puede
asumir, solamente, un nmero contable de posibles valores.
Medidas de tendencia central o de localizacin: el promedio, la mediana y la moda. Smbolos usados en las sumatorias de estadstica: n El smbolo Xj se usa para denotar la suma de todas las j=1 Xjs, desde j = 1 hasta j = N. n Ejemplo #1. Xj = X1 + X2 + X3 + ... + Xn j=1
-
Dr. Hctor Quevedo Uras
1-5
n Ejemplo #2. XjYj = X1Y1 + X2Y2 + X3Y3 + ...+ XNYn j=1 n Ejemplo #3. aXj = aX1 + aX2 +...+ aXn j=1 n = a(X1 + X2 +,..,+ Xn) = a Xj j=1 Ntese la diferencia entre X 2 y (X)2
La suma de los cuadrados (SS), es decir, la suma de las desviaciones al cuadrado de X
de su promedio X se denota como:
kn La suma total de los cuadrados = (Xi - X )2 = SS (1-1) i=1 = X 2 - (X)2/n El promedio aritmtico
El promedio aritmtico es un valor el cual es tpico o representativo de un conjunto de
datos de distribuciones continuas. Existen diferentes tipos de promedios. Los ms
comunes son el promedio aritmtico, la mediana, la moda, el promedio geomtrico, el
promedio harmnico, etc. Cada uno tiene sus ventajas y desventajas dependiendo de
los datos y el propsito a seguir. El promedio aritmtico no se debe usar como
sinnimo de promedio o media, porque hay otros tipos de promedios.
El promedio aritmtico es un valor que representa un conjunto de datos; es una
medicin de tendencia central. El promedio aritmtico es el estimador del parmetro
-
Dr. Hctor Quevedo Uras
1-6
de poblacin, y se define como:
X = (X1 + X2 + X3 +...+ Xn) / n = Xj / n = X/n (1-2)
Si los nmeros X1, X2, X3,,Xk ocurren f1, f2,,fk veces, es decir, con datos
agrupados, entonces:
X = fXi / n (1-3)
Con las distribuciones continuas, es de notarse qu, el promedio aritmtico, X
es un estimador de , es decir, del parmetro de poblacin. En muy raras ocasiones se
conoce (toda la poblacin), siendo as, entonces, se calcula directamente. Ejemplo #4. El promedio de una muestra de observaciones de ciertos anlisis de
aguas, cuyos valores son 8, 3, 5, 12, 10, es:
X = (8 + 3 + 5 + 12 + 10)/5 = 38/5 = 7.6 Ejemplo #5. Calcular X , de una muestra de 5, 8, 6, y 2 casos que ocurren con una
frecuencia de de 3, 2, 4, y 1.
X = [(3)(5) + (2)(8) + (4)(6) + (1)(2)]/(3+2+4+1) = 5.7
La mediana
La mediana, X~ es el valor de en medio de un grupo de nmeros u observaciones
(puestas en forma ascendente) o el promedio aritmtico de los dos valores de en
medio. Geomtricamente hablando, la mediana es el valor de X (abscisa)
correspondiente a esa lnea vertical que divide a un histograma en dos partes teniendo
reas iguales. La mediana es una posicin de promedio, mientras que el promedio
aritmtico es un promedio calculado.
-
Dr. Hctor Quevedo Uras
1-7
Ejemplo # 6. La muestra de observaciones 3, 4, 4, 5, 6, 8, 8, 10 tiene una mediana de
X~ = (5+6)/2 = 5.5.
Ejemplo #7. La muestra de observaciones 5, 5, 7, 9, 11, 12, 13, 15, 18 tiene una
mediana de X~ = 11.
La moda La moda es una estadstica que demuestra el valor que ocurre con ms frecuencia en
una muestra (poniendo los datos en forma ascendente). Una distribucin puede tener
una moda, puede ser bimodal, etc. Este valor se denota por X . Sin embargo, algunas
ocasiones la moda no existe.
Ejemplo #8. La muestra de observaciones 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene
una moda de X = 9, es decir, el valor que ocurre con ms frecuencia.
Ejemplo #9. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda.
Ejemplo #10. La muestra de observaciones 2 ,3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos
modas, 4 y 7 y es bimodal, es decir, X = 2.
-
Dr. Hctor Quevedo Uras
1-8
Relacin entre el promedio aritmtico, la mediana y la moda
Si el promedio, la mediana y la moda coinciden, entonces la distribucin es simtrica;
de otra manera, la distribucin es asimtrica con sesgo a la derecha o la izquierda. Ver
figuras de abajo.
Figura 1.0. Distribucin oblicua Figura 1.1. Distribucin oblicua
a la derecha (sesgo positivo). a la izquierda (sesgo negativo)
(Elaboracin propia) (Elaboracin propia)
Ejemplo #11. Encontrar el promedio aritmtico, la mediana y la moda para una
muestra de anlisis de aire de Pb cuyos valores son: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 partes
por milln (ppm).
Solucin:
X = 5.1 ppm
X~ = (5+5)/2 = 5
X = nmero que ocurre con ms frecuencia = 5 Ejemplo #12. Encontrar el promedio, la mediana y la moda de los casos 48.7, 48.8,
-
Dr. Hctor Quevedo Uras
1-9
49.5, 50.3, 51.6.
Solucin:
X = 49.8, X~ = 49.5, X = no existe
El promedio geomtrico
El promedio geomtrico se usa como un disfraz de transformacin logartmica. Es til
para promediar tasas de crecimiento (aumento o decremento) de una muestra
estadstica. La frmula es:
G = n n321 xxxx ... (1-4) Ejemplo #13. Encontrar el promedio geomtrico de los valores 3, 5, 6, 6, 7, 10, 12
Solucin:
G = 7 12)6)(7)(10)((3)(5)(6)( = 7 453,600
log G = 1/7 log(453,000) = 0.8081 y antilog 0.8031 = 6.43
Existen otros promedios como el promedio harmnico, el promedio cuadrtico,
etc. Tambin hay otras medidas de localizacin ms finas que dividen los datos en
ms de dos partes. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro
partes iguales. Por ejemplo, el tercer cuartil (Q3) describe la cuarta parte superior del
conjunto de datos. El segundo cuartil (Q2) es idntico a la mediana. El primer cuartil
(Q1) separa la cuarta parte inferior de las tres cuartas partes superiores. Adems, los
percentiles pueden dividir los datos en 100 partes iguales. Por ejemplo, el 99avo
percentil separa el 1% ms alto del 99% restante, etc.
Otra forma de ver la simetra de los datos es usando diagramas de caja.
Tambin hay lo que se llama diagramas de punto, que ayudan, visualmente, a revisar
la simetra de los datos.
-
Dr. Hctor Quevedo Uras
1-10
La varianza La varianza, s2 es una medida de dispersin y nos dice, qu tanta variacin existe de
una observacin a otra (o del promedio) o de una muestra a otra. Una s2 grande tiene
ms casos diversificados, que una con una varianza pequea. La varianza s2 de una
muestra estadstica (o de varias muestras) es el estimador del parmetro de la
varianza, 2 de una poblacin o poblaciones. La frmula de la varianza es:
n s2 = (X - X )2/(n-1) = [X 2 (X)2/n]/(n - 1) (1-5) i=1
= SS/(n 1)
Ejemplo #14. Calcular la varianza y la desviacin estndar de la muestra 2, 4, 6.
Solucin:
Calculando X = 4 y usando el mtodo largo nos da:
s2 = [(2 - 4)2 + (4 - 4)2 + (6 - 4)2]/(3 - 1)
= 8/2 = 4
Usando el mtodo corto:
Varianza = s2 = [X2 (X)2/n]/(n 1) nos dara:
s2 = [X2 (X)2/n]/(n 1)
= (56 48)/2
= 4
La desviacin estndar
La desviacin estndar, s es una forma especial de la desviacin promedio de la
media. Es una medida de dispersin. A medida que aumenta la desviacin estndar o
la varianza, mayor diversidad habr entre las observaciones de una muestra. Esta
-
Dr. Hctor Quevedo Uras
1-11
estadstica se da como:
s = [X 2 (X)2/n] / (n 1) (1-5a) Para datos agrupados, la desviacin estndar es:
s = [fj X 2 (X)2/n] / (n 1) (1-5b) Ejemplo #15. Para el ejemplo de arriba, calcular la desviacin estndar.
Solucin:
Si la varianza, s2 = 4, por lo tanto, la desviacin estndar, s es:
s = 2s = 4 = 2
Ejemplo #16. Encontrar X , s, s2, la mediana, el error estndar del promedio, el sesgo
y la kurtosis de una muestra al azar de 36 anlisis de fosfatos (PO4-3), en mg/L. Qu
tanta fidelidad hay en los datos? La tabla de abajo da la informacin.
__________________________________________________________________ Valores de X | 61 64 67 70 73 69 68 70 Frecuencia | 5 8 4 5 5 4 3 2 Solucin:
Usando un paquete de computadora da: X = 67.27, s = 3.78, s2 = 14.31, mediana =
68, sesgo = -0.22 y kurtosis = -0.95. Al juzgar por los resultados, hay una buena
aproximacin a la distribucin normal, puesto que X y la mediana son parecidos.
Adems el valor del sesgo no difiere mucho de 0. Se le pide al lector usar la frmula
(15-b) para corroborar los resultados computarizados obtenidos. Propiedades de la desviacin estndar Para una distribucin normal el 68.27% de todas las observaciones estn incluidas
entre ( X - s) y ( X + s), esto es, una desviacin estndar a cualquier lado del
promedio. Similarmente, el 95.45% de todos los casos se incluyen entre ( X - 2s) y
-
Dr. Hctor Quevedo Uras
1-12
( X + 2s), esto es entre z = 2. Adems, en el 99.73% de todos los casos se incluyen entre ( X - 3s) y ( X + 3s), esto es, entre z = 3.
Figura 1.2. Distribucin normal mostrando las reas para diferentes percentiles de la
variable estandarizada z (Spiegel, 1961).
Variable aleatoria estandarizada z Esta variable aleatoria estandarizada z mide las desviaciones del promedio en
unidades de desviacin estndar y se da como:
z = (X - X ) / s. (1-6)
Su parmetro respectivo es:
Z = (X - )/ (1-7)
Ejemplo #16. Calcular las siguientes probabilidades:
(a) P(z 1.25)
(b) P(z > 1.25)
(c) P(z -1.25)
(d) P(-.38 z 1.25)
Solucin:
(a) Para esto, buscamos en la tabla de la distribucin normal del rengln marcado con
-
Dr. Hctor Quevedo Uras
1-13
1.2 y la columna .05 y da .8944; por lo cual, P(X 1.25) = .8944.
(b) P(z > 1.25) = 1 P(z 1.25) = 1 - .8944 = .1056
c) P(z -1.25) = .1056. Por simetra de la curva normal, es la misma respuesta que en
el inciso (b)
(d) P(-.38 z 1.25) = (rea de - a z = 1.25) (rea de - a z = -.38) = .8944 -
.3520 = .5424 (de la tabla de z)
Otra manera de ver lo mismo es usando anotacin de probabilidades:
P(-.38 z 1.25) = P(z 1.25) P(z -.38)
= .8944 - .3520 = .5424
Las desviaciones del promedio Las desviaciones del promedio son otras medidas de dispersin. Matemticamente....
n Desviacin del promedio = |Xj - X |/N (1-8) j=1
Ejemplo #17. Encontrar la desviacin promedio de los valores 2, 3, 6, 8, 11.
Solucin:
El promedio aritmtico es X = 6
La desviacin promedio = (|2-6|+|3-6|+|6-6|+|8-6|+|11-6|)/5
= 2.8
El rango
El rango de las observaciones de una muestra es la diferencia entre el nmero ms
grande y el ms pequeo. Aqu, es de notarse qu, entre ms grande sea la diferencia,
ms dispersin habr, es decir, la varianza y la desviacin estndar sern ms grandes.
Ejemplo #18. Encontrar el rango de 2, 3, 3, 5, 5, 5, 8, 10, 12.
Solucin:
-
Dr. Hctor Quevedo Uras
1-14
El nmero ms pequeo es el 2 y el ms grande es el 12, esto es, 12 - 2 = 10
Nota: Existen otras funciones de dispersin como la dispersin relativa y absoluta o el
coeficiente de variacin, etc.
Sesgo y kurtosis
El sesgo de una distribucin mide el grado de la simetra. Si la curva de frecuencia de
una distribucin tiene un extremo ms largo a la derecha del mximo central que el de
la izquierda, la distribucin es oblicua hacia la derecha o con sesgo positivo. Lo
contrario es correcto y se dice que es oblicua hacia la izquierda o de sesgo negativo.
Esta condicin se denomina el primer coeficiente de sesgo de Pearson. El sesgo de la
distribucin normal es igual a 0.
Ya se explic que, la relacin entre el promedio, la mediana y la moda pueden
dar una indicacin del grado de simetra de los datos de una distribucin. Por ejemplo,
si el promedio es mayor que la mediana, mayor que la moda, entonces, la distribucin
es asimtrica con sesgo positivo hacia la derecha. De otra manera, la distribucin
tiene sesgo negativo hacia la izquierda.
La kurtosis de una distribucin mide lo puntiagudo de una distribucin normal.
Una distribucin que tiene una cima o pico relativamente alta se llama leptokrtica,
mientras que aqulla que est achatada se llama platykrtica. La curva normal que no
est picuda ni achatada se llama mesokrtica. La kurtosis de la curva normal es igual
a 3.
Error estndar
Adems de reportar el valor de una estimacin puntual, tambin debe indicarse su
precisin. La medida de precisin usual es el error estndar del estimador usado. Por
ejemplo, los errores estndares de algunas distribuciones de la muestra son los del
promedio, de proporciones, de desviaciones estndar y de medianas.
-
Dr. Hctor Quevedo Uras
1-15
As, de esta manera, los errores estndares del promedio, de las proporciones o
la mediana es, respectivamente:
X = N (1-9) p = pq/N (1-9a)
s = 2N (para poblaciones normales) (1-9b)
med.= 2N
(para n 30) (1-9c)
Trminos importantes Parmetros. Se refieren a valores poblacionales. Se usan los smbolos griegos para
denotarlos.
Estadstica. Se refiere a una muestra tomada de una poblacin. Es un estimador de los
parmetros de poblacin.
Promedio aritmtico. Si se conoce toda la poblacin se usa la variable . Si se refiere
a una muestra estadstica, se usa la variable X . De cualquier manera el promedio
aritmtico es la sumatoria de un grupo de observaciones dividido entre el total de los
casos.
Promedio. En general un promedio se refiere a una medida de tendencia central.
Ejemplos son el promedio aritmtico, la mediana y la moda. Hay tambin promedios
geomtricos, armnicos, etc.
Mediana. Es el valor del tem central cuando los datos son agrupados por tamao
( X~ ).
Moda. Es el valor que ocurre con ms frecuencia ( X ).
Distribucin bimodal. Se refiere a una distribucin con dos modas.
-
Dr. Hctor Quevedo Uras
1-16
Medidas de dispersin. Se refiere al grado de dispersin de los datos numricos del
promedio. Los ms comunes son: el rango, la desviacin estndar, la variancia, la
desviacin promedio, desviacin de cuartiles, etc.
Varianza. Es una medida de dispersin. Se denota como 2 para describir toda la
poblacin. Sin embargo, si se refiere a la varianza de la muestra, se usa el smbolo s2 y
se describe como la suma de los cuadrados dividida entre el nmero de valores de la
muestra menos uno. Se usa el smbolo s2 que es el estimador del parmetro
poblacional 2.
Desviacin estndar. Se obtiene sacando la raz cuadrada de la varianza poblacional o
de la varianza de la muestra.
Coeficiente de variacin. Es la relacin matemtica de la desviacin estndar divida
entre el promedio aritmtico. Generalmente se expresa como porcentaje. Es til para
comparar distribuciones donde las unidades puedan ser diferentes.
Variables discretas. Variables discretas se refieren a caractersticas tales como color,
sexo, religin, etc., que se pueden expresar en clasificaciones o categoras cualitativas.
Por ejemplo, el nmero n de una familia de nios asume valores de 0, 1, 2, 3,..., pero
que no puede asumir valores de 2.5 o de 3.856.
Variables continuas.- Se refiere a variables que, tericamente, pueden asumir
cualquier valor entre dos valores dados. Se pueden expresar en clasificaciones o
categoras cuantitativas. Por ejemplo, la altura h de un individuo, la cual puede ser
63.9 pulgadas, 65.9945 pulgadas, es una variable continua.
Sesgo. Mide la simetra de una distribucin. El sesgo puede ser positivo (oblicuo
hacia la derecha) o negativo (oblicuo hacia la izquierda). Si es sesgo es positivo,
entonces X > X~ > X . Sin embargo, si el sesgo es negativo, entonces, es el reverso.
La kurtosis mide lo achatado o puntiagudo de la distribucin.
-
Dr. Hctor Quevedo Uras
1-17
Variable estandarizada. Mide la desviacin del promedio en unidades de desviacin
estndar, simplemente, se refiere al nmero de desviaciones estndar de una
observacin que est abajo o arriba del promedio de la distribucin.
Mtodos grficos y tabulares usados en estadstica descriptiva
Otras tcnicas visuales, que son muy tiles en la probabilidad y la estadstica de
inferencia, son el uso de desplegados de tallo y hojas. Otros ms son los diagramas de
punto (explicados posteriormente) y los histogramas. Por ejemplo, para construir un
diagrama de tallo y hoja, esta situacin se explica en el tpico de diagramas de tallo y
hoja. Los diagramas de tallo y hoja son parecidos a los histogramas y sirven el mismo
propsito. Esto es, porque los diagramas de tallo y hoja revelan el rango de los datos,
muestran donde ocurre la concentracin ms alta de valores, proveen informacin
acerca de la presencia o ausencia de simetra y, pueden indicar el grado de simetra en
la cual los datos son homogneos.
Distribuciones de frecuencia
Cuando se estn procesando grandes cantidades de datos es conveniente distribuirlos
dentro de clases o categoras, para determinar el nmero de observaciones que
pertenecen a cada clase llamada frecuencia de clase. As, un arreglo tabular de datos
por clases junto con las frecuencias de clases correspondientes se llama distribuciones
de frecuencia o tablas de frecuencias.
Definicin de trminos
rdenes.- Un orden es un arreglo de datos numricos sin procesar en orden de magnitud ascendente o descendente.
Intervalo de clase.- Es un arreglo que define una clase digamos de 60-62 la cual se
llama intervalo de clase. Los nmeros terminales 60 y 62 se llaman lmites de clases o
lmites de clase inferior y superior. El intervalo 60-62 incluye, tericamente, las
-
Dr. Hctor Quevedo Uras
1-18
mediciones 59.5-62.5 y se llaman lmites de clases. Estos se obtienen sumando el
lmite superior de un intervalo con el lmite inferior del siguiente intervalo de clase y
dividiendo entre 2.
Clases de punto intermedio o marcas de clases.- Las clases de punto intermedio o
marcas de clases son el punto medio de un intervalo de clase que se obtiene sumando
los lmites superiores e inferiores y dividiendo entre dos. Por ejemplo, el punto medio
del intervalo 60-62 es (60 + 62)/2 = 61 y, as sucesivamente.
Tamaos de intervalos de clase. El tamao de un intervalo de clase es la diferencia
entre los lmites o linderos superiores e inferiores.
Reglas para hacer distribuciones de frecuencia
1. Determinar los nmeros ms pequeos y ms grandes de los datos sin procesar.
2. Dividir el rango en un nmero conveniente de intervalos de clases que tengan el
mismo tamao. Si esto no es posible, usar intervalos de clase de diferentes tamaos.
3. Determinar el nmero de observaciones que caen dentro de cada uno de estos
intervalos de clases.
4. Los lmites de clases no deben de coincidir con los datos reales. La frmula para
calcular el tamao de clase de una distribucin de frecuencia es:
i = (h - l) / k (1-10)
Donde:
i = el tamao del intervalo de clase
h = el valor del tem ms alto
l = el valor del tem ms bajo
k = nmero de clases
Tipos de curvas de frecuencia
1. Curva de frecuencia simtrica o en forma de campana. Un ejemplo importante es
-
Dr. Hctor Quevedo Uras
1-19
la curva normal.
2. Curva asimtrica u oblicua cuyos extremos de la curva estn al lado derecho o al
izquierdo del mximo central.
3. Curva de frecuencia en forma de J.
4. Curva de frecuencia en forma de U.
5. Curva de frecuencia bimodal que tiene dos mximos.
6. La curva de frecuencia multimodal que tiene ms de dos mximos.
Figura 1.3 Grficas mostrando los tipos de curvas de frecuencia (Spiegel, 1961). Histogramas y polgonos de frecuencia
-
Dr. Hctor Quevedo Uras
1-20
La forma ms comn de representacin grfica de una distribucin de frecuencia es el
histograma. Estos histogramas consisten en rectngulos adyacentes, las alturas de los
cuales representan las frecuencias de clases, mientras que sus bases se extienden entre
sucesivas fronteras de clases. Esto quiere decir que tienen bases sobre la abscisa con
centros en las marcas de clases y con las longitudes igual a los intervalos de clases.
Por otro lado, los polgonos de frecuencia son grficas de lneas de frecuencias
de clases que se grafican contra las clases de marcas. Se obtienen conectando los
puntos medios de arriba de los rectngulos en los histogramas.
Figura 1.4. En los histogramas y polgonos de frecuencia se acostumbra a sumar las
extensiones pq y rs para la siguiente marca de clase ms baja y ms alta que tienen la
correspondiente clase de frecuencia de cero. En tales casos, la suma de las reas de
los rectngulos es igual al rea total circundada por el polgono de frecuencia y el eje
de las equis. (Elaboracin propia)
Distribuciones de frecuencia relativa
La frecuencia relativa de un intervalo de clase es la frecuencia de la clase dividida
entre la frecuencia total de todas las clases y se expresa como porcentaje.
-
Dr. Hctor Quevedo Uras
1-21
Ejemplo #20. Hacer una tabla de distribucin con intervalos de clase y la frecuencia
relativa para las alturas de 100 estudiantes de una universidad.
TABLA 1.0. Alturas de los estudiantes. (Spiegel, 1961).
___________________________________________________________________ Distribucin de las alturas Frecuencia relativa
por intervalos de clase de estudiantes (%)
___________________________________________________________________
60 - 62 pulgadas 5 %
63 - 65 18 %
66 - 68 42 %
69 - 71 27 %
72 - 74 8 %
_________________________________________________________
Total 100 %
Distribuciones de frecuencias acumuladas y distribuciones de frecuencias
relativas acumuladas
Aqu se discutirn las distribuciones de frecuencias acumuladas y la frecuencia
relativa acumulada que se obtiene dividiendo la frecuencia acumulada por la
frecuencia total.
Ejemplo #21. Tabular los valores de la tabla de frecuencia de 500 observaciones
formando una tabla con los intervalos de clase ms apropiados, con la frecuencia, la
frecuencia relativa (%), la frecuencia acumulada y la frecuencia relativa acumulada.
Usar papel de probabilidad y encontrar el promedio aritmtico y la desviacin
estndar. Confirmarlos grficamente y calcularlos.
-
Dr. Hctor Quevedo Uras
1-22
TABLA 1.1. Frecuencias de 500 observaciones de fosfatos (mg/L). (Elaboracin
propia).
_____________________________________________________________ X f X f X f X f _____________________________________________________________ 20 1 - - - - - - 21 0 36 7 51 20 66 6 22 0 37 9 52 19 67 5 23 1 38 10 53 19 68 4 24 1 39 11 54 18 70 3 25 1 40 12 55 18 70 3 26 1 41 13 56 17 71 2 27 1 42 14 57 16 72 2 28 2 43 16 58 14 73 1 29 2 44 17 59 13 74 1 30 3 45 18 60 12 75 1 31 3 46 18 61 11 76 1 32 4 47 19 62 10 77 1 33 5 48 19 63 9 78 0 34 6 49 20 64 7 79 0 35 6 50 20 65 6 80 1 __________________________________________________________________
-
Dr. Hctor Quevedo Uras
1-23
TABLA 1.2. Tabla de frecuencias de 500 casos de fosfatos. (Elaboracin propia) _________________________________________________________________ Intervalo de clase f f. r.(%) f. a. f. r. a. (%) ________________________________________________________________ < 30.5 13 2.6 13 2.6 30.5-35.5 24 4.8 37 7.4 35.5-40.5 49 9.8 86 17.2 40.5-45.5 78 15.6 164 32.8 45.5-50.5 96 19.2 260 52.0 50.5-55.5 94 18.8 354 70.8 55.5-60.5 72 14.4 426 85.2 60.5-65.5 43 8.6 469 93.8 65.5-70.5 21 4.2 490 98.0 > 70.5 10 2.0 500 100.0 _______________________________________________________________ Total 500
-
Dr. Hctor Quevedo Uras
1-24
Figura 1.5. Papel de probabilidad mostrando las 500 observaciones de fosfatos
relacionadas con la TABLA 1.2. (Elaboracin propia)
Analizando la Figura 1.5, se puede ver qu, para calcular el promedio localizamos
.50 en la ordenada y por interpolacin calculamos el valor de 50. Igualmente, para
calcular la desviacin estndar , nos movemos a .84 y por interpolacin calculamos
el valor de 10, que est entre 50 y 60.
Ejemplo #22. Para los siguientes 40 datos de anlisis de agua de concentraciones de
calcio, en mg/L, contestar las siguientes preguntas:
(a) Construir una tabla de frecuencias con intervalos de 5 y estimar el punto
intermedio o marca de clase.
(b) Construir otra tabla ms con intervalos de tamao 9 y estimar el punto intermedio
-
Dr. Hctor Quevedo Uras
1-25
o marca de clase.
(c) Para ambos casos construir un histograma y un polgono de frecuencia y tambin,
en funcin de frecuencia relativa.
(d) Para ambos casos, construir una grfica de frecuencia acumulada y frecuencia
relativa acumulada.
(e) Usar papel de probabilidad para estimar el promedio aritmtico y la desviacin
estndar. Comparar estos resultados con el clculo del promedio y la desviacin
estndar usando las frmulas estadsticas.
TABLA 1.3. Tabla mostrando las concentraciones de calcio de 40 anlisis de agua. (Elaboracin propia) 138 164 150 132 133 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 Solucin: El rango es de 176 - 119 = 57 mg/L Si se usan intervalos de clase de tamao 5, los intervalos de clase son 57/5 = 12,
aproximadamente. Sin embargo, si se usan intervalos de clase de tamao 9, los
intervalos de clase son 57/9 = 6, aproximadamente. Las tablas de abajo muestran estas
estimaciones.
-
Dr. Hctor Quevedo Uras
1-26
TABLA 1.4. Tabla de frecuencias de las concentraciones de Calcio (Ca) usando un
intervalo de tamao 5. (Elaboracin propia)
_________________________________________________________________ Intervalo de clase Marca de clase f f.a. f.r. f.r.a. _________________________________________________________________ 118 - 122 120 1 1 2.5% 2.5% 123 - 127 125 2 3 5.0% 7.5% 128 - 132 130 2 5 5.0% 12.5% 133 - 137 135 4 9 10.0% 22.5% 138 - 142 140 6 15 15.0% 37.5% 143 - 147 145 8 23 20.0% 57.5% 148 - 152 150 5 28 12.5% 70.0% 153 - 157 155 4 32 10.0% 80.0% 158 - 162 160 2 34 5.0% 85.0% 163 - 167 165 3 37 7.5% 92.5% 168 - 172 170 1 38 2.5% 95.0% 173 - 177 175 2 40 5.0% 100.0% __________________________________________________________________ Total 40 TABLA 1.5. Tabla de frecuencias de las concentraciones de Ca usando un intervalo
de tamao 9. (Elaboracin propia)
_________________________________________________________________ Intervalo de clase Punto intermedio f f.a. f.r. f.r.a. _________________________________________________________________ 118 - 126 122 3 3 7.5% 7.5% 127 - 135 131 5 8 12.5% 20.0% 136 - 144 140 9 17 22.5% 42.5% 145 - 153 149 12 29 30.0% 72.5% 154 - 162 158 5 34 12.5% 85.0% 163 - 171 167 4 38 10.0% 95.0% 172 - 180 176 2 40 5.0% 100.0% __________________________________________________________________ Total 40 Los incisos (c), (d) y (e) se reservan para que el estudiante los haga.
-
Dr. Hctor Quevedo Uras
1-27
Tambin se puede calcular el promedio aritmtico de una distribucin de
frecuencia, cuando se dan los intervalos de clase y las frecuencias. La frmula para
tales casos es:
X = fX / f = fX / n (1-11)
Ejemplo #22. Se dan los siguientes datos de temperaturas ambientales en grados
Fahrenheit (oF) en la tabla de abajo. TABLA 1.6. Tabla mostrando los datos. (Elaboracin propia) Temperaturas (oF) Marca de clase (X) f fX 60 62 61 5 5 x 61 = 305 63 65 64 18 64 x 18 = 1152 66 68 67 42 67 x 42 = 2814 69 71 70 27 70 x 27 = 1890 72 74 73 8 73 x 8 = 584 N = f = 100 fX = 6745 Por lo tanto, X = fX / f = fX / N = 6745 / 100 = 67.45 oF Diagramas de tallo y hoja usando el programa Minitab Ejemplo # 23. Para ilustrar la construccin de una grfica de tallo y hoja, considrese la tabla de abajo, la cual muestra las mediciones de 40 observaciones. TABLA 1.7. Tabla mostrando las mediciones de 40 objetos. (Elaboracin propia). 2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6 3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7 2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1 3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4 4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5 _____________________________________________________________ Procedimiento:
Para formar el diagrama de tallo y hoja, se separa cada observacin en dos partes
-
Dr. Hctor Quevedo Uras
1-28
consistentes de un tallo y una hoja. Siendo as, el tallo representa el dgito que
precede al punto decimal y, la hoja, corresponde al dgito a la derecha del punto
decimal. Por ejemplo, con el nmero 3.7, el dgito 3 representa el tallo y el dgito 7
representa la hoja. De acuerdo a los datos de la TABLA 1.8 hay cuatro tallos, es
decir, 1, 2, 3, 4. Una vez hecho esto, se identifican los nmeros a la derecha del
punto decimal correspondientes a cada tallo. Por ejemplo, para el tallo 1 hay dos
hojas, 6 y 9; para el tallo 2 hay 5 hojas, es decir, 2, 5, 6, 9 y 5, etc. La TABLA 1.8
de abajo representa la grfica de tallo y hojas para este problema.
No obstante, para poder construir la TABLA 1.8 se puede usar el Minitab de
acuerdo a las siguientes indicaciones:
Graph Stem-and-leaf
En el recuadro que aparece poner las variables de la columna C1 en la ventanilla de
Stem-and-leaf y en la ventanilla de Increments poner 1. Esto produce los datos
de la TABLA 1.8 mostrada abajo.
TABLA 1.8. Tabla mostrando los resultados de tallo y hoja correspondientes a las observaciones de la TABLA 1.7. __________________________________________________________________ Stem-and-Leaf Display: Mediciones de 40 objetos Stem-and-leaf of Mediciones de 40 objetos N = 40 Leaf Unit = 0.10 Frecuencia Tallos Hojas 2 1 69 7 2 25669 (25) 3 0011112223334445567778899 8 4 11234577 __________________________________________________________________
-
Dr. Hctor Quevedo Uras
1-29
Sin embargo, los resultados de la TABLA 1.8 no dan un panorama adecuado de la
distribucin de los datos. Para remediar esta situacin se necesita aumentar el
nmero de tallos en la grfica. Una manera simple de hacerlo es doblando cada
tallo. Para esto, nuevamente introducir los datos como se hizo anteriormente y en la
ventanilla de Increments poner .5. Esto produce la tabla de abajo.
TABLA 1.9. Tabla mostrando los tallos dobles y de hojas.
Stem-and-Leaf Display: Mediciones de 40 objetos Stem-and-leaf of Mediciones de 40 objetos N = 40 Leaf Unit = 0.10 Frecuencia Tallos Hojas 2 1 69 3 2* 2 7 2 5669 (15) 3* 001111222333444 18 3 5567778899 8 4* 11234 3 4 577 __________________________________________________________________
Las tablas de las distribuciones de tallo y hoja se pueden usar para estimar los
intervalos de clase cuando se hacen distribuciones de frecuencia. El procedimiento
es como sigue:
1. Primero se saca el rango de los datos. Por ejemplo, de la TABLA 1.7 el valor
mximo es 4.7 y el valor mnimo es 1.6, o sea: rango = 4.7 1.6 = 3.1.
2. Enseguida se estima el ancho del intervalo dividiendo el rango entre el nmero
de tallos (7 en este caso), es decir, 3.1 / 7 = .4.
3. Ahora, para estimar el primer intervalo de clase empezamos con 1.5 y le
-
Dr. Hctor Quevedo Uras
1-30
sumamos .4 para dar 1.9. El siguiente intervalo de clase es 2.0 ms .4 para dar 2.4.
El siguiente intervalo de clase es 2.5 ms .4 para dar 2.9 y as sucesivamente, como
se muestra en la TABLA 1.10 de abajo.
TABLA 1.10. Tabla mostrando los intervalos de clase, el punto medio, la
frecuencia, la frecuencia relativa y la frecuencia relativa acumulada.
Intervalo de Punto Frecuencia Frecuencia Frecuencia relativa
clase medio (f) relativa (f.r.) acumulada (f.r.a.)
1.5 1.9 1.7 2 0.050 0.050
2.0 2.4 2.2 1 0.025 0.075
2.5 2.9 2.7 4 0.100 0.175
3.0 3.4 3.2 15 0.375 0.550
3.5 3.9 3.7 10 0.250 0.800
4.0 4.4 4.2 5 0.125 0.925
4.5 4.9 4.7 3 0.075 1.000
Por otro lado, con los datos de la TABLA 1.10 se pueden hacer histogramas
de frecuencia relativa, con curvas normales sobrepuestas y curvas de frecuencia
relativa acumulada para calcular medidas de localizacin como cuartiles o
percentiles. Por ejemplo, los cuartiles dividen el conjunto de datos en cuatro partes
iguales. Siendo as, el primer cuartil o .25 fractil (Q1) separa la cuarta parte inferior
de las tres cuartas partes superiores, esto es, el 25% de las mediciones de abajo. El
segundo cuartil o .50 fractil (Q2) es idntico a la mediana o sea que la mitad de las
observaciones estn debajo de este valor. Las observaciones arriba del tercer cuartil
o .75 fractil (Q3) son la cuarta parte superior del conjunto de datos. Finalmente, los
-
Dr. Hctor Quevedo Uras
1-31
intercuartiles miden la diferencia entre los cuartiles Q1 y Q2.
De la misma manera, el conjunto de datos de la muestra se puede dividir en
100 partes iguales por medio de percentiles. Por ejemplo, el 99avo percentil separa
el 1% ms alto del 99% restante; el 84avo percentil separa el 16% ms alto del
84% restante. Bajo estas condiciones, el 84avo percentil correspondiente al valor
de la variable aleatoria z de la distribucin normal es, aproximadamente, z = +1 y
por simetra es z = -1.
Los cuartiles y percentiles junto con la estadstica descriptiva se pueden
calcular con el programa Minitab usando el mandato:
Stat Basic statistics Display Descriptive Statistics
Igualmente, los cuartiles y percentiles tambin se pueden calcular de una grfica de
frecuencia relativa acumulada vs. valores de X.
Usando los datos de la TABLA 1.7 vamos a proceder a hacer los clculos de la
estadstica descriptiva, los cuales se dan en la tabla de abajo.
TABLA 1.11. Tabla mostrando la estadstica descriptiva del ejemplo #23.
Descriptive Statistics: Mediciones de 40 objetos
Variable N N* CumPct Mean SE Mean StDev Variance CoefVar
Mediciones 40 0 100 3.413 0.111 0.703 0.494 20.60
Variable Minimum Q1 Median Q3 Maximum Range
Mediciones 1.600 3.100 3.400 3.875 4.700 3.100
__________________________________________________________________
-
Dr. Hctor Quevedo Uras
1-32
Mediciones de 40 objetosFr
eque
ncy
4.84.03.22.41.6
12
10
8
6
4
2
0
Mean 3.413StDev 0.7028N 40
Histogram (with Normal Curve) of Mediciones de 40 objetos
Figura 1.6. Figura mostrando el histograma de frecuencia con curva normal
sobrepuesta.
Ahora, el procedimiento para hacer una grfica de frecuencia relativa acumulada en
funcin de los valores de X se procede de la siguiente manera:
1. Irse a:
Calc Probability Distribution Normal
2. En el recuadro que aparece puntear Cummulative distribution y almacenar los
datos de la distribucin de frecuencia acumulada en C2.
3. Para hacer la grfica de frecuencia relativa acumulada vs. valores de X, irse a:
Graph Scatterplot With connect line
4. En la ventana de Scatterplot with connect line introducir los datos de la
distribucin de frecuencia acumulada (de la columna C2) vs. los valores de X.
5. En la ventanilla de Scatterplot-Scale, llenar todos los recuadros.
De esta manera, para calcular la distribucin de frecuencia acumulada proceder
como en el paso 1 de arriba. Todas estas rdenes producen la tabla conteniendo los
valores de X (no se muestra aqu). La grfica de las frecuencias relativas
-
Dr. Hctor Quevedo Uras
1-33
acumuladas y valores de las observaciones se hace como en el paso 3 de arriba.
De la grfica de abajo se pueden leer todos los cuartiles y percentiles
deseados.
Mediciones de 40 objetos
Dis
trib
ucio
n de
f.r
.a.
5.04.54.03.53.02.52.01.5
5.04.54.03.53.02.52.01.5
1.0
0.8
0.6
0.4
0.2
0.0
1.0
0.8
0.6
0.4
0.2
0.0
Figura mostrando la grafica de f.r.a. y valores de X
Figura 1.7. Figura mostrando la grfica de la frecuencia relativa acumulada versus
valores de X.
Ejemplo #24. Encontrar los cuartiles (Q1, Q2 y Q3) de una muestra de 15
mediciones de slidos suspendidos, en unidades de mg/L, de una muestra de agua
residual.
7 19 12 5 17 29 8 19 4 27 30 1 4 10 21 __________________________________________________________________ Solucin:
-
Dr. Hctor Quevedo Uras
1-34
Primero se arreglan los datos en forma ascendente, esto es: 1, 4, 4, 5, 7, 8, 10, 12, 17, 19, 19, 21, 27, 29, 30 Q1 Q2 Q3 El primer cuartil (Q1) es 5. El segundo cuartil (Q2) o la mediana es 12 y el tercer cuartil (Q3) es 21.
-
Dr. Hctor Quevedo Uras
1-35
Ejercicios Captulo 1 1.1. Calcular el promedio, la varianza y la desviacin estndar de las observaciones de
la muestra: 12, 6, 7, 3, 15, 10, 18, 5. (9.5, 27.1, 5.2)
1.2. Encontrar la desviacin estndar y el promedio de los valores: 3, 6, 2, 1, 7, 5. De
acuerdo a la relacin de los valores obtenidos del promedio y la desviacin estndar o
varianza. Qu conclusiones se pueden sacar?
1.3. Escribir los siguientes trminos usando anotacin de sumatoria.
10 (a) X 21 + X 22 + X 23 + ...+ X 210 ( Xi) x=0 5 (b) (X1 + Y1) + (X2 + Y2) + .... + (X5 + Y5) ( Xi+Yi) x=0 (c) f1 X1Y1 + f2 X2Y2 + f3 X3Y3 + f4 X4Y4 1.4. Encontrar la desviacin promedio de:
(a) -3, 7,-9,5
(b) 2.4, 1.6, 3.8, 4.1, 3.4
1.5. El rango de los nmeros 5, 3, 8, 4, 7, 6, 12, 4, 3 es: (9)
1.6. De 50 mediciones la ms grande es 8.34 Kg. Si el rango es .46, encontrar la
medicin ms pequea.
1.7. Convertir las siguientes observaciones a unidades de desviacin estndar: 6, 2, 7,
5. (z6=0.46, z2=-1.39, z7=0.93, z5=0)
1.8. Escribir los siguientes trminos en forma de sumatoria.
6 (a) Xj
j=1
-
Dr. Hctor Quevedo Uras
1-36
4 (b) (y1 - 3) 2
j=1
5 (c) fkxk k=1 1.9. Usando el programa de computadora Minitab, EXCEL o una calculadora de
bolsillo, encontrar:
(a) El promedio aritmtico (95.84)
(b) La desviacin estndar
(c) El error estndar del promedio
(f) La varianza (106.49)
Tabla mostrando los datos del problema. (Elaboracin propia) Observacin x | 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 _______________________________________________________________________________ Frecuencia f| 4 9 16 28 45 66 85 72 54 38 27 18 115 _______________________________________________________________________________ 1.10. En una distribucin, si el promedio es 5.0, la mediana es 7.0 y la moda es 9.0,
contestar a los siguientes enunciados:
(a) Qu tipo de sesgo tiene esta distribucin?
(b) Dnde se encuentra la mayor concentracin de valores?
1.11. En una distribucin, si el promedio es de 10.0, la mediana es de 8.0 y la moda es
de 5.0, contestar las siguientes preguntas:
(a) Qu tipo de sesgo tiene esta distribucin? (Sesgo positivo)
(b) Dnde se encuentran la mayor concentracin de valores?
1.12. En un examen final de estadstica, los grados fueron: 100, 100, 66, 65, 64, 60,
59, 57, 58, 50.
-
Dr. Hctor Quevedo Uras
1-37
Es esta distribucin oblicua hacia la derecha o hacia la izquierda? Justificar el
argumento usando la relacin del promedio, la mediana y la moda.
1.13. Encontrar el promedio geomtrico de una muestra aleatoria de de observaciones
10, 12, 16. (12.43)
1.14. Si el promedio aritmtico de una muestra de 30 casos es igual a 10 y la
desviacin estndar es igual a 2, calcular la variable estandarizada correspondiente al
valor de X = 15.
1.15. La tabla de abajo muestra los coeficientes de inteligencia de 550 nios de una
escuela elemental. Encontrar:
(a) El promedio aritmtico. (97.03)
(b) La desviacin estndar. (13.22)
(c) El error estndar del promedio (0.56)
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Marca de | 75 78 78 82 86 91 94 98 102 106 110 114 118 122 126 clase (X) Frecuencia (Y) | 53 5 10 20 45 60 85 72 54 38 27 18 11 50 2 1.16. Los siguientes datos estn relacionados con las temperaturas, en oC, de 10
regiones de Mxico. La tabla de abajo muestra esta situacin:
Tabla mostrando los datos del problema. (Elaboracin propia) __________________________________________________________________ Temp. Frecuencia Frecuencia Frecuencia Frecuencia relativa (oC) acumulada relativa (%) acumulada __________________________________________________________________ 20 3 3 30% 30% 21 22 2 9 20% 90% 23 1 Total 10
-
Dr. Hctor Quevedo Uras
1-38
(a) Completar la tabla de arriba.
(b) Hacer grficas de frecuencia versus frecuencia relativa.
(c) Hacer grficas de frecuencia acumulada (f.a.) vs. frecuencia relativa acumulada
(f.r.a.).
1.17. Se saca una muestra aleatoria de anlisis qumicos de compuestos de cloruros
(Cl-) expresados en unidades de mg/L procedentes de una muestra de aguas
residuales. Estos anlisis se hicieron usando el mtodo de nitrato de mercurio descrito
en el texto Mtodos Estndares. La tabla con los valores de los cloruros se da abajo:
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ 17.2, 17.1, 17.0, 17.1, 16.9, 17.0, 17.1, 17.0, 17.3, 17.2, 16.9, 17.0, 17.1, 17.3, 17.2, 17.4, 17.1, 17.1, 17.0, 17.1 (a) Encontrar el promedio. (17.11)
(b) Encontrar la varianza. (0.017)
(c) Encontrar la desviacin estndar. (0.132)
(d) Hacer una tabla de frecuencia mostrando la frecuencia, la frecuencia relativa y la
frecuencia relativa acumulada. (el lector lo deber hacer)
(e) Hacer un histograma. (el lector lo deber hacer)
(f) Hacer un polgono de frecuencia. (el lector lo har)
(g) Qu tanta simetra hay en esta distribucin? (el lector responder a esto)
1.18. Completar la tabla de abajo y hacer una grfica en funcin de los intervalos de
las concentraciones de DBO, de la frecuencia (f) y de la frecuencia relativa acumulada
(f.r.a.).
-
Dr. Hctor Quevedo Uras
1-39
Tabla mostrando los datos. (Elaboracin propia) __________________________________________________________________ Intervalos Nmero de Puntos Frecuencia (Conc. DBO) anlisis intermedios relativa (%) __________________________________________________________________ 50.00 - 59.99 8 60.00 - 69.99 10 70.00 - 79.99 16 80.00 - 89.99 14 90.00 - 99.99 10 100.00 - 109.99 5 10.00 - 119.99 2 1.19. Una organizacin caritativa que ayuda a damnificados por huracanes ha hecho
una lista de donaciones recibidas durante el presente ao, en miles de pesos. El
propsito de este ejemplo es el de hacer una tabla de distribucin de frecuencia
encontrando los intervalos de clase ms apropiados usando la tcnica de diagramas de
tallo y hoja. La tabla de abajo muestra los datos. Para esto hacer lo siguiente:
(a) Calcular el promedio y la mediana. (139, 135)
(b) Hacer una tabla de distribucin de frecuencia usando un diagrama de tallo y hoja.
Encontrar los puntos intermedios, la frecuencia, la f. r. y la frecuencia relativa
acumulada y construir un histograma y una grfica de f. r. a. contra valores de X.
Tabla mostrando los datos del problema (Elaboracin propia). ___________________________________________________________________ 253.0 173.4 117.0 191.2 151.4 182.0 132.0 162.0 212.9 155.9 221.0 158.0 135.0 124.4 68.9 89.7 95.6 84.1 135.1 123.2 101.0 126.5 142.8 20.2 119.0 ___________________________________________________________________
-
Dr. Hctor Quevedo Uras
1-40
1.20. La siguiente tabla da las emisiones de xidos de azufre (SO2 en toneladas
mtricas) provenientes de 200 plantas siderrgicas localizadas en cierta regin
industrial.
Tabla mostrando los datos. (Elaboracin propia) ___________________________________________________________________ Emisin de SO2 (ton) Nmero de plantas ___________________________________________________________________ 1.00 - 1.02 6 1.02 - 1.04 26 1.04 - 1.06 52 1.06 - 1.08 58 1.08 - 1.10 39 1.10 - 1.12 15 1.12 - 1.14 5 1.14 - 1.16 1 (a) Calcular el promedio aritmtico de la distribucin.
(b) Calcular la desviacin estndar.
(c) Calcular la mediana y la moda de la distribucin.
1.21. Se dan los siguientes datos en la tabla de abajo.
Tabla mostrando los datos de este problema. (Elaboracin propia) __________________________________________________________________ Altura (pulgadas) Marca de clase (x) Frecuencia f x 60 - 62 61 5 5 x 61 = 305 63 - 65 64 18 64 x 18 = 1152 66 - 68 67 42 67 x 42 = 2814 69 - 71 70 27 70 x 27 = 1890 72 - 74 73 8 73 x 8 = 584 __________________________________________________________________ (a) Calcular el promedio aritmtico. Sugerencia: usar la funcin del promedio igual a
f X/f
-
Dr. Hctor Quevedo Uras
1-41
1.22. Se da la siguiente tabla de distribucin de datos (intervalos de clase) de
emisiones de partculas atmosfricas menores de 10 micras provenientes de varias
industrias. (Elaboracin propia)
___________________________________________________________________ Mediciones de partculas Nmero de industrias ___________________________________________________________________ 50.00 - 59.99 8 60.00 - 69.99 10 70.00 - 79.99 16 80.00 - 89.99 14 90.00 - 99.99 10 100.00 - 109.99 5 110.00 - 119.99 2 __________________________________________________________________ (a) Calcular la marca de clase X.
(b) Calcular el promedio aritmtico.
(c) Calcular la frecuencia relativa (f.r.) y la frecuencia relativa acumulada (f.r.a.).
(d) Hacer un histograma.
(e) Usar papel de probabilidad para ver que tanta uniformidad hay en los datos.
1.23. Completar los faltantes de la tabla de abajo, de una distribucin de frecuencia de
las vidas de 400 tubos de radios. Adems, hacer los clculos pedidos abajo.
(a) Encontrar el lmite superior de la quinta clase. (799)
(b) Encontrar el lmite inferior de la octava clase. (1000)
(c) Encontrar la marca de clase de la sptima clase. (949.5)
(d) Encontrar los lmites de la ltima clase. (1099.5-1199.5)
(e) Encontrar el tamao del intervalo de clase. (100)
(f) Encontrar la frecuencia de la cuarta clase. (76)
(g) Encontrar la f.r. de la sexta clase. (15.5%)
-
Dr. Hctor Quevedo Uras
1-42
(h) Encontrar el % de los tubos cuyas vidas sean < 600 horas. (29.5%)
(i) Graficar los datos en papel de probabilidad y leer el promedio aritmtico y la
desviacin estndar de la grfica.
(j) Hacer una grafica de frecuencia relativa acumulada versus puntos medios y
calcular los percentiles Q1, Q2 y Q3.
Tabla mostrando los datos del problema. (Elaboracin propia) ___________________________________________________________________ Vida de los No. de (f) f.r. f.a. f.r.a. Punto tubos tubos medio ___________________________________________________________________ 300 - 399 14 400 - 499 46 500 - 599 58 600 - 699 76 700 - 799 68 800 - 899 62 900 - 999 48 1000 - 1099 22 1100 - 1199 6 __________________________________________________________________ 1.24. Se da la tabla de debajo consistente en una muestra aleatoria de mediciones de
xidos de nitrgeno (NO2), procedentes de una planta de tratamiento de aguas
residuales. La tabla con los datos se da abajo.
-
Dr. Hctor Quevedo Uras
1-43
Tabla con los datos. (Elaboracin propia) Mediciones de NO2 Frecuencia Ma