esta d stica descript iva
DESCRIPTION
estadisticaTRANSCRIPT
ESTADÍS
TICA
DESCRIPTI
VA
Sandra
Mac
hado
EJEMPLO
La directora ele producción de una empresa debe informar a su superior sobre el número de días promedio que los empleados de la empresa se ausentan del trabajo. Sin embargo, la planta emplea más de dos mil trabajadores, y la directora de producción no tiene tiempo de revisar los registros personales de cada empleado. Como asistente, usted debe decidir cómo puede ella obtener la información necesaria. ¿Qué consejo podría darle?
Estadística
Recolectar
Organizar
Resumir
Presentar
AnalizarInterpret
ar
Generalizar
Contrastar
¿QUÉ ES LA ESTADÍSTICA?
Significa técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
¿POR QUÉ USTED NECESITA CONOCER ESTADÍSTICA?
Presentar y describir la información en forma adecuada.
Inferir conclusiones sobre poblaciones grandes basándose solamente en la información obtenida de subconjuntos de ellas.
Utilizar modelos para obtener pronósticos confiables.
DEFINICIONES
Una POBLACIÓN es el conjunto total de objetos que son de interés para un problema dado. Los objetos pueden ser
personas, animales, producto fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo
Una MUESTRA es un subconjunto de la población.
Los DATOS u Observaciones son números o denominaciones que podemos asignar a un individuo o elemento de la
población.Un PARÁMETRO es cualquier característica medible de una
población.
Un ESTADÍSTICO es cualquier característica medible de una muestra.
Un CENSO (palabra derivada del latín censere, que significa "valuar o tasar") es la enumeración completa de la población.
La ESTADÍSTICA DESCRIPTIVA se compone de aquellos métodos que incluyen técnicas- para recolectar, presentar, analizar e
interpretar datos.
La ESTADÍSTICA INFERENCIAL abarca aquellos métodos y conjuntos de técnicas que se utilizan para obtener
conclusiones sóbrelas leyes de comportamiento de una población basándose en los datos de muestras tornadas de esa
población.
MUESTREO ALEATORIO 5%
MUESTREO ALEATORIO 10%
ORGANIZACIÓN DE DATOS DE ACUERDO AL TIPO
Como se ilustra en la figura, existen dos tipos de datos: categóricos (o cualitativos) y numéricos (cuantitativos).
TIPOS DE VARIABLES
ORGANIZACIÓN DE DATOS MEDIANTE TABLAS
En esta forma de organización de datos es importante el concepto de frecuencia de un dato.
Ejemplo: En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez (por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el 7 tiene frecuencia f = 3, etc.
La frecuencia (absoluta) de un dato, simbolizado con la letra f, es el número de veces que aparece ese dato en una colección de datos.
DATOS ORIGINALES
TABLAS DE FRECUENCIA
TABLAS DE FRECUENCIA
NO AGRUPADAS
AGRUPADAS
TABLA DE FRECUENCIA NO AGRUPADAS
Tablas de frecuencias: variables cuantitativas discretas
Distribución del número de hermanos (excluido él mismo) de una muestra de 500 alumnos varones de
una UniversidadNúmero de hermanos f fr % F FR
% acumulado
0 72 0.1440 14.4 72 0.144 14.4
1 155 0.3100 31 227 0.454 45.4
2 97 0.1940 19.4 324 0.648 64.8
3 81 0.1620 16.2 405 0.81 81
4 30 0.0600 6 435 0.87 87
5 27 0.0540 5.4 462 0.924 92.4
6 20 0.0400 4 482 0.964 96.4
más de 6 18 0.0360 3.6 500 1 100
Total 500 1.0000 100
TABLA DE FRECUENCIAS NO AGRUPADAS
Ejemplo:
Se clasificó a los estudiantes de un programa universitario de acuerdo con el semestre que cursan y sus preferencias deportivas. Los resultados están registrados en la siguiente tabla:
¿Qué porcentaje de los estudiantes de primer semestre prefieren el fútbol?
¿Qué porcentaje de los aficionados a la natación son de segundo semestre?
¿Qué porcentaje del total de los estudiantes prefieren el basquetbol?
¿Qué porcentaje de los estudiantes son de cuarto semestre?
¿Qué porcentaje del total de estudiantes son de tercero o cuarto semestre?
¿Qué porcentaje prefiere la natación, el voleibol o el béisbol?
Primero Segundo Tercero Cuarto TOTAL
Fútbol 15 14 5 9 43
Béisbol 12 22 6 6 46
Voleibol 5 5 9 5 24
Basquetbol 26 7 6 7 46
Natación 7 8 4 2 21
TOTAL 65 56 30 29 180
TABLA DE FRECUENCIAS AGRUPADAS
Ejemplo: La tabla es un ejemplo de una tabla de frecuencias agrupada y 10-14 y 15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los datos de tiempo de auditorías de fin de año.
Tiempo de auditoría (días)
Frecuencia
10 - 14 415 - 19 820 - 24 525 - 29 230 - 34 1
Intervalo de Clase o Clase
Frecuencias de Clase
Datos Agrupados
Limite inferior de Clase
Limite superior de
Clase
AMPLITUDES
LÍMITES DE CLASES TEÓRICOSL ÍMITES REALES DE CLASE O
FRONTERA DE CLASEDistribución de frecuencias para los datos de tiempo de auditoría:Tiempo de auditoría
(días)Fronteras inferior -
superior Frecuencia
10 - 14 9,5 - 14,5 4
15- 19 14,5 - 19,5 8
20- 24 19,5 - 24,5 5
25- 29 24,5 - 29,5 2
30- 34 29,5 - 34,5 1
DIAGRAMA DE TALLO Y HOJA
Un TALLO es el primer dígito o parte del numeral, mientras que una HOJA está formada por el o los dígitos restantes.
Por ejemplo, el numeral 534 se puede descomponer en dos formas:
5 | 34 53 | 4
tallo hoja tallo hoja
EJEMPLOConstruye una tabla de frecuencias
agrupadas considerando los siguientes datos:
Paso 1. Organizamos los datos en un diagrama de tallo y hoja
Paso 2. Primero determinamos el rango R. Como la medida mayor menos la medida menor.
14 21 23 21 16 19 22 25 16 1624 28 15 22 24 20 22 24 22 2016 17 18 23 25 20 23 16 20 1924 24 25 19 16 19 18 19 21 12
Paso 3. El ejemplo no nos dice con cuántas clases debemos construir la tabla de frecuencias agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar la regla de Sturges
c = 3, 3 (log n) + 1
donde n es el número de medidas y log n es el logaritmo de n en base 10. El valor de c es común redondearlo al entero más cercano.
Otra regla razonable para el número de clase es:
c = √n
Paso 4. Ahora, determinamos w, la amplitud de cada clase. En este caso,
Paso 5: A continuación se construye la primera clase con un ancho de w = 3. Para ello, primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como la unidad de medida es 1 (porque todos los datos son enteros) y como el "punto medio" de cada unidad de medida es
Paso 6. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase siguiente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 3.
Paso 7. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta. Si uno de los datos cae en una clase, anotamos una marca (\) en la columna correspondiente a esa clase.
Paso 8. Calculamos la frecuencia relativa, Frecuencia acumulada y frecuencia acumulada relativa.
DIAGRAMAS CIRCULARES (O DE PASTEL)
Se utilizan para hacer representaciones porcentuales y se emplean generalmente para datos categóricos.
EJEMPLO: La siguiente tabLa presenta los datos sobre la cantidad de refrescos de marca A, B, C, D y E que se vendieron en una tienda:Refresco Frecuencia
Frecuencia relativa
A 19 0,38B 8 0,16C 5 0,10D 13 0,26E 5 0,10
A38%
B16%
C10%
D26%
E10%
PICTOGRAMAS O PICTÓGRAFOS
Un PICTOGRAMA es la representación de datos estadísticos por medio de símbolos que por su forma sugieren la naturaleza del dato.
DIAGRAMA DE BARRAS
Es una representación gráfica en la que cada una de las modalidades del aspecto de interés se representa mediante una barra.
A B C D E0
2
4
6
8
10
12
14
16
18
20
REFRESCOS
DESCRIPCIÓN
En este gráfico se suelen disponer los datos en el primer cuadrante de unos ejes coordenados, y se levanta sobre el eje de las abscisas una barra para cada modalidad del dato observado. La altura de la barra ha de ser proporcional a la frecuencia absoluta o relativa, que se representa en el eje de las ordenadas. Este tipo de diagramas se utilizan tanto para datos categóricos como numéricos.
HISTOGRAMAS
Los histogramas son una forma de representación gráfica de una distribución de frecuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos frecuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse para distribuciones de frecuencias agrupadas y no agrupadas.
EJEMPLO
La tabla de frecuencias (absolutas, acumuladas y relativas).Clase Punto Medio f fr F Fr
5.95 7.95 6.95 4 0.2000 4 0.2000
7.95 9.95 8.95 2 0.1000 6 0.3000
9.95 11.95 10.95 9 0.4500 15 0.7500
11.95 13.95 12.95 2 0.1000 17 0.8500
13.95 15.95 14.95 3 0.1500 20 1.0000
POLÍGONO
OJIVA
MEDIDAS E
STADÍS
TICAS
ANÁLISIS DE DATOS EN TABLAS DE FRECUENCIAS NO AGRUPADAS
MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN
MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN
MediaLa media aritmética de cierto conjunto de
números se encuentra sumando los números y dividiendo después entre la cantidad de datos. En otras palabras, si x1... ,xn son
números, entonces la media aritmética de este conjunto de números está dada por
EJEMPLO
Supongamos que tenemos la muestra siguiente de edades en año de principiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmética de estos datos es:
MEDIA ARITMÉTICA PONDERADA
Generalmente, para calcular la media de un conjunto de datos es más cómodo utilizar la llamada media aritmética ponderada, la cual es un caso especial de la media aritmética. Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que puede ocurrir si se han organizado los datos en una tabla de frecuencias.
Sea dada siguiente tabla de frecuencias no agrupadas:
en donde fi es la frecuencia del dato Xi. Entonces, la MEDIA aritmética PONDERADA o, simplemente, media artimetica, de los datos Xi,...,xn se define como
Dato Xi X2 xnFrecuencia f1 f2 fn
EJEMPLO
La media aritmética de los siguientes datosDato 18 19 20 21Frecuencia 4 3 2 1
DESVENTAJA DE LA MEDIA
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de una distribución. Como depende del valor de cada medida, los valores extremos pueden llevarla a representar defectuosamente los datos.
MEDIANA
Ejemplo 1 El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto que ya los datos están ordenados, el número de datos es 9 (impar) y, en este caso, el 6 está ubicado en el centro (en el cuarto lugar).
Ejemplo 2 El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana (9 + 11)/2 = 10, puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.
Para datos medidos en al menos una escala de intervalo, la MEDIANA es el puntaje medio
ordenado.
MEDIANA
Ejemplo 3: Encuentre la mediana para los datos organizados en la siguiente tabla de frecuencias:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana
es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran en la tabla
Datos 0 1 2 3 4Frecuencia 10 10 8 4 8
Datos 0 1 2 3 4Frecuencia 10 20 28 32 40
Como el total de datos es n = 40 (par), entonces la mediana es el promedio de las medidas que están en las posiciones = 20 y + 1 = 21. Para encontrar la mediana recomendamos contar los datos en dirección de la medida menor a la mayor. En la tabla es fácil ver que el dato en lugar 20 es 1 y que el dato en la posición 21 es 2. Por tanto, la mediana es:
VENTAJAS Y DESVENTAJAS DE LA MEDIANAEl uso de la mediana para datos de intervalo posee tanto ventajas como desventajas. Una ventaja consiste en que la mediana no se ve afectada por valores extremos al final de la distribución. Su desventaja reside en que no es fácilmente determinable si el conjunto de datos es grande, puesto que las medidas deben ordenarse primero y ponerse en orden numérico de menor a mayor o al contrario.
MODA
Ejemplo 1. El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con mayor frecuencia.
La MODA, si se da, es el dato con mayor frecuencia.
VENTAJAS DE LA MODATiene dos ventajas: Para ciertas muestras pequeñas, se le determina fácilmente y, en general, no se ve afectada por los valores extremos al final de un conjunto de datos ordenados. Cuando se analizan datos categóricos, la moda es el único dato de tendencia central que puede utilizarse. Además, la moda puede usarse como una medida de tendencia central para datos numéricos empleados en sentido categórico. Una moda para datos en una tabla de frecuencia se encuentra localizando el valor de frecuencia máxima, si no todas las frecuencias son iguales. El dato que corresponde al valor de frecuencia máxima se toma como la moda.
DESVENTAJAS
La moda tiene varias desventajas como medida de tendencia central: una de ellas consiste en que para un cierto conjunto de datos no puede haber moda. Esta situación surge cuando todos los datos tienen la misma frecuencia. Otra desventaja reside en que la moda puede existir pero no ser única.
TAREA
Indaga sobre: Media geométrica Media armónica
MEDIDAS DE COLOCACIÓN O DE POSICIÓN RELATIVA
Una medida de colocación o de posición relativa para una distribución de frecuencias es aquel valor para el cual una porción especifica de la distribución queda en o debajo de él.
PERCENTILES
El p-ésimo (punto) percentil es un valor tal que a lo más un p% de los datos tienen dicho o menos de ese valor y, al menos, un (100 — p)% de los datos tienen este valor o más.
PASOS PARA CALCULARLOS
Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante que tengamos en cuenta los siguientes pasos:
• Ordenemos los datos de manera ascendente.
• Calculemos un índice i a través de la fórmula i = np/100, siendo p el percentil de interés y n, la cantidad de datos.
• Decidamos de acuerdo a uno de los dos casos:
— Si el índice i no es entero, redondeamos al entero siguiente. Este valor aproximado de i indica la posición del p-ésimo percentil.
— Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en las posiciones i y i + 1.
EJEMPLO
Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una empresa:
2,350 2,450 2,550 2,380 2,255 2,210 2,390 2,630 2,440 2,825 2,420 2,380
SOLUCIÓN:
Como primer paso fundamental debemos ordenar los datos de manera ascendente (preferiblemente con ayuda de un diagrama de tallo y hojas):
2,210 2,255 2,350 2,380 2,380 2,390 2,420 2,440 2,450 2,550 2,630 2,825
(a) Para determinar el 85-ésimo punto percentil, calculemos el índice i = np/100, con p = 85 y n = 12. Al reemplazar obtenemos que i = 10,2. En este caso, como i = 10,2 no es entero, entonces redondeamos a 11. Por lo tanto, el lugar del Sb-ésimo percentil es el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el 85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el 15% de estos empleados ganan $2.630.000 o más que este valor.
(b) En este caso, p = 50. Con ello y con n = 12 obtenemos que i = 6 (que es un número entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo (2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto de datos. En conclusión, podemos decir que el 50% de los empleados tienen un salario menor o igual (o mayor o igual) que $2.405.000.
CUARTILES
Los cuartiles son las medidas de posición relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se definen asi:
• Q1 = primer cuartil o 25 - esimo percentil.
• Q2 = segundo cuartil o 50 - ésimo percentil o también mediana.
• Q3 = tercer cuartil o 75 - ésimo percentil.
EJEMPLO
Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCIÓN:
Como Q2 coincide con la mediana, entonces Q2 = 2,405. Calculando los percentiles como en el anterior ejemplo podemos verifícar que
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa que el 25% de los empleados gana al menos $2.365.000 o el 75% gana más de este salario, y el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o el 25% gana más de este salario.
DECILES
Los deciles son las medidas de posición relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que está dividido en diez partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Hay nueve deciles, denotados por D1, D2, ... y D9. Si Dn es el n-ésimo decil, entonces cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-ésimo punto percentil, D7 es 70-ésimo punto percentil, etc.
ANÁLISIS DE DATOS EN TABLAS DE FRECUENCIA AGRUPADAS
Media para datos agrupados
Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a un establecimiento diariamente durante un periodo de 25 días:
60 36 61 56 19 35 51 42 21 28 33 67 30 49 57
61 54 59 28 63 38 15 24 35 46 53
Los datos han sido agrupados en la tabla de frecuencias agrupadasNúmero de personas Número de días
14,5 - 25,525,5 - 36,536,5 - 47,547,5 - 58,558,5 - 69,5
47363
(a) Calcule la media x del número de personas que entran por día.
(b) Calcule la media aproximada xa del número de personas que entran por día.
SOLUCIÓN:
(a) Se puede comprobar que la media de los datos es = 42,4.
(c) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su frecuencia correspondiente, como se muestra en la tabla
Número de personas
Número de días f
ni
Marca clase X
Mi
fXNi
14,5 - 25,5 25,5 - 36,5 36,5 - 47,5 47,5 – 58,5 58,5-69,5
47 3 6 5
2031 42 53 64
80 217 126 318 320
SUMAS 25 1061
Por consiguiente, la media aproximada es:
el cual es sólo un valor aproximado para la media de las 25 medidas muéstrales originales. La aproximación se considera buena comparada con el valor exacto x = 42,40, obtenido en la parte (a)
MEDIANA PARA DATOS AGRUPADOS
Clase FrecuenciaFrecuencia acumulada49,5 - 59,5 3 359,5 - 69,5 7 1069,5 - 79,5 18 2879,5 - 89,5 12 4089,5 - 99,5 8 4899,5 - 109,5 2 50
MODA PARA DATOS AGRUPADOS
PERCENTILES
VARIANZA Y DESVIACIÓN TÍPICA
RESUMEN DE LOS CINCO NÚMEROS
Un resumen de cinco números consiste en cinco cantidades que se emplean para resumir los datos: valor mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y valor máximo.
Con base en el resumen de cinco números se pueden obtener, entre otras, dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango intercuartil y el rango) para tener una mejor idea de la forma de la distribución. Si la distribución es simétrica, la relación entre las diversas medidas nos la da el siguiente teorema:
(SITUACIONES PARA RECONOCER LA SIMETRÍA DE LOS DATOS)Si la distribución es simétrica:
• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3. Además, la distancia del valor mínimo a Q1 es igual a la distancia de Q3 al valor máximo.
• La mediana y el rango medio son iguales. (Estas medidas son iguales a la media de los datos)
DIAGRAMA DE CAJA Y BIGOTES
El DIAGRAMA de CAJA Y bigotes, como el que se muestra en la figura, proporciona una representación gráfica de los datos mediante el resumen de cinco números.
TALLER
Estaturas en centímetros de cuatro jugadores de fútbol.
El número de goles anotados por un futbolista en toda su carrera deportiva.
Los sueldos ganados por unos profesores universitarios,
Las temperaturas promedios diarias en el último mes.
Clasificación étnica de 30 empleados.
Números telefónicos de ciertas personas.
Calificaciones del primer parcial de Estadística de unos estudiantes universitarios.
Distancia (en metros) recorrido por un atleta en una temporada.
Peso perdido (en kilogramos) por 10 personas debido a una dieta.
Fecha de cumpleaños de determinadas personas.
Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
Rango militar.
1. Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos). En caso de ser numérico, como discretos o continuos:
2. Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por una muestra de 25 estudiantes durante un semestre:
Construya una tabla de frecuencias agrupadas usando la regla de Sturges.
29 89 77 72 39 47 64 84 88 5728 63 38 42 36 72 69 68 41 5239 84 45 52 72
3. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina extra en una cierta ciudad a lo largo de un año en particular:
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas,
123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9 126,9119,9 118,9 119,8 116,9 129,9 122,8 119,9