analisis descriptivo de una sola variable
DESCRIPTION
Estadistica DescriptivaTRANSCRIPT
![Page 1: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/1.jpg)
Análisis descriptivo y presentación
de datos de una sola variable
Universidad de San Carlos de Guatemala Facultad de Ingeniería Curso de Estadística Catedrático. MA ING Marco Vinicio Monzón
MA ING Marco Vinicio Monzon
![Page 2: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/2.jpg)
Presentación Gráfica
de datos
MA ING Marco Vinicio Monzon
![Page 3: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/3.jpg)
Diagramas de pastel: Los diagramas de pastel (diagramas de pay) muestran la cantidad de datos que pertenecen a cada categoría como una parte proporcional de un círculo.
2.1 Gráficas, diagramas de Pareto
y diagramas de tallo y hojas.
Datos cualitativos:
Para la representación de datos cualitativos utilizamos gráficas de
Pastel y de barras para resumir los datos cualitativos, de atributo
o categóricos
Gráficas de Barras: Las gráficas de barras muestran la cantidad
de datos que pertenecen a cada categoría como áreas rectangulares
de tamaño proporcional.
MA ING Marco Vinicio Monzon
![Page 4: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/4.jpg)
Ejemplo # 1
En la tabla siguiente se muestra el número de casos de cada tipo de operación realizada
en el Hospital General, el año pasado.
Operaciones realizadas en el Hospital General el año pasado
Tipo de operación Número de casos
Torácica 20
Huesos y articulaciones 45
Ojos, oídos, nariz y garganta 58
General 98
Abdominal 115
Urológicas 74
Proctológicas 65
Neurocirugía 23
Total 498
MA ING Marco Vinicio Monzon
![Page 5: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/5.jpg)
Diagrama de Pastel
Operaciones realizadas en el Hospital
General el año pasado
Abdominal
22%
General
20%
Urológica
s
15%
Proctológicas
13%
Neurocirugía
5%
,Ojos, oídos
nariz y
garganta
12%
Huesos y
articulaciones
9%
Torácica
4%
MA ING Marco Vinicio Monzon
![Page 6: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/6.jpg)
Gráfica de barras
Operaciones realizadas en el Hospital General el año pasado
020406080
100120140
Torácic
a
Ojo
s, oíd
os,
nariz
y
garganta
Ab
dom
inal
Proctoló
gic
as
Tipo de operación
Nú
mero
de c
aso
s
Series1
MA ING Marco Vinicio Monzon
![Page 7: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/7.jpg)
Datos Cuantitativos Una razón fundamental para elaborar una gráfica de
datos cuantitativos es mostrar su distribución.
Distribución: Patrón de variabilidad mostrado por los datos de una variable.
La distribución muestra la frecuencia de cada valor de la variable.
Gráfica de puntos: Presenta los datos de una muestra mediante
la representación de cada porción
de datos con un punto ubicado a lo largo de una escala.
Esta escala puede ser vertical u horizontal.
La frecuencia de los valores está representada a lo largo
de la otra escala.
MA ING Marco Vinicio Monzon
![Page 8: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/8.jpg)
2.2 Distribuciones de frecuencia e
histogramas
Los listados de grandes conjuntos de datos no presentan una imagen valiosa. Algunas veces se desea condensar los datos en una forma más manejable. Esto puede lograrse con ayuda de una distribución de frecuencias.
Distribución de frecuencias
Listado, a menudo expresado en forma de diagrama, que asocia
cada valor de una variable con su frecuencia.
Hay dos tipos: agrupadas y no agrupadas.
MA ING Marco Vinicio Monzon
![Page 9: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/9.jpg)
Distribución de datos no
agrupados
3 2 2 3 2 4 4 1 2 2
4 3 2 0 2 2 1 3 3 1
La frecuencia f es el número de veces que aparece el valor x en la muestra.
La tabla anterior es una distribución de frecuencias no agrupadas.
“No agrupadas” porque cada valor de x en la distribución permanece solo.
Distribución de frecuencias no agrupadas
x f
0 1
1 3
2 8
3 5
4 3
MA ING Marco Vinicio Monzon
![Page 10: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/10.jpg)
Distribución de frecuencias de
datos agrupados
Cuando un gran conjunto de datos tiene
muchos valores x distintos, en lugar de unos
cuantos valores repetidos, es posible agrupar
los valores en un conjunto de clases y
elaborar una distribución de frecuencias
agrupadas.
MA ING Marco Vinicio Monzon
![Page 11: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/11.jpg)
Ejemplo de datos Agrupados
A fin de ilustrar este procedimiento para agrupar (o clasificar), se considerará una muestra de 50 calificaciones del examen
final del curso de estadística elemental del último semestre. En
la siguiente tabla se presentan las 50 calificaciones.
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 68 97 70 64 70 70
58 78 89 44 55 85 82 83 72 77
72 86 50 94 92 80 91 75 76 78
MA ING Marco Vinicio Monzon
![Page 12: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/12.jpg)
K = amplitud K = 1 + 3.32 log50 = 6.64
R = rango R = 98- 39 = 59
I = intervalo I = 59/6.64 = 8.89 = 9
Límite aparente Límite real f F
39 – 47 38.5 – 47.5 3 3
48 – 56 47.5 – 56.5 2 5
57 – 65 56.5 – 65.5 6 11
66 – 74 65.5 – 74.5 13 24
75 – 83 74.5 – 83.5 11 35
84 – 92 83.5 – 92.5 10 45
93 – 101 92.5 – 101.5 5 50
MA ING Marco Vinicio Monzon
![Page 13: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/13.jpg)
Marca de Clase Algunas veces denominada punto medio de clase, es el valor numérico
que está exactamente a la mitad de ésta y se encuentra al sumar los límites de clase y dividirlo entre 2. En la siguiente tabla se muestra una
columna adicional para la marca de clase, x.
Límite aparente Límite real f F M
39 – 47 38.5 – 47.5 3 3 43
48 – 56 47.5 – 56.5 2 5 52
57 – 65 56.5 – 65.5 6 11 61
66 – 74 65.5 – 74.5 13 24 70
75 – 83 74.5 – 83.5 11 35 79
84 – 92 83.5 – 92.5 10 45 88
93 – 101 92.5 – 101.5 5 50 97
MA ING Marco Vinicio Monzon
![Page 14: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/14.jpg)
Histograma Gráfica de barras que representa una distribución de frecuencias de
una variable cuantitativa.
Un histograma está integrado por los siguientes componentes:
1. Un título, que identifica la población o la muestra de interés.
2. Una escala vertical, que identifica las frecuencias que hay en las diversas clases.
3. Una escala horizontal, que identifica la variable x. los valores de los límites de clase o de las marcad de clase deben identificarse a lo largo del eje x. debe utilizarse el método de identificación con el que se presente mejor la variable.
50 calificaciones del examen final de estadística
elemental
0
2
4
6
8
10
12
14
1
calificación
frec
uenc
ia
43 52 7061 79 88 97
MA ING Marco Vinicio Monzon
![Page 15: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/15.jpg)
Tipos de Histogramas
0
1
2
3
4
5
6
1
Simétrico: Ambos lados de la
Distribución son idénticos.
Uniforme: cada valor aparece
con igual frecuencia.
MA ING Marco Vinicio Monzon
![Page 16: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/16.jpg)
Sesgado: una cola es más larga que la otra.
La dirección
del sesgo es del lado de la cola más larga.
En forma de J: no hay cola de
la clase con la
frecuencia más alta.
MA ING Marco Vinicio Monzon
![Page 17: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/17.jpg)
La frecuencia relativa
Es una medida proporcional de la frecuencia de un evento. Se encuentra al dividir la frecuencia de clase entre el número total de observaciones. La
frecuencia relativa puede expresarse como una fracción común, en forma decimal, o como un porcentaje.
Las frecuencias relativas son especialmente útiles cuando se comparan las distribuciones de frecuencias de dos conjuntos de datos de tamaños diferentes.
f fr F%
3 3/50 6%
2 2/50 4%
6 6/50 12%
13 13/50 26%
11 11/50 22%
10 10/50 20%
5 5/50 10%
MA ING Marco Vinicio Monzon
![Page 18: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/18.jpg)
Estadística descriptiva
numérica
MA ING Marco Vinicio Monzon
![Page 19: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/19.jpg)
2.3 Medidas de tendencia
central
Son valores numéricos que localizan, de alguna manera, el centro de un conjunto de datos. El término promedio a menudo
es asociado con todas las medidas de tendencia central.
Media aritmética:
Es el valor obtenido sumando las observaciones y dividiendo esta suma por el número
de observaciones
que hay en el grupo. Solamente puede utilizarse con variables cuantitativas.
Fórmula:
X= ∑ x
n
MA ING Marco Vinicio Monzon
![Page 20: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/20.jpg)
Ejemplo de media aritmética
Alumno Nota Procedimiento
Luís Fernando Molina 6.0 Se suman las notas 6.0+5.4+3.1+7.0+6.1=27.7
Maria Fernanda Castillo 5.4 Luego el total se divide por la cantidad de alumnos:
27.7/5=5.53
Cristina Monzón 3.1 La media aritmética en este problema seria 5.53
Álvaro Godoy 7.0
José Manuel Cofiño 6.1
Notas de 5 alumnos en una prueba
MA ING Marco Vinicio Monzon
![Page 21: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/21.jpg)
Mediana Es el valor de la variable que deja el mismo número de datos antes y después
que él.
Se representa con una “x” y se lee como “x tilde” o “mediana muestral”
Procedimiento para encontrar la mediana
Paso # 1: ordene los datos.
Paso # 2: determine la profundidad o posición de la mediana.
Paso # 3: determine el valor de la mediana
Fórmula: n + 1
2
Ejemplo:
Encuentre la mediana del conjunto de datos {6, 3, 8, 5, 3}
3, 3, 5, 6 y 8
5+ 1 = 3
2
La media es el tercer número desde cualquier extremo en los datos
ordenados en este caso 5.
MA ING Marco Vinicio Monzon
![Page 22: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/22.jpg)
Moda
Es el valor que cuenta con una mayor frecuencia en una distribución de datos.
Ejemplo:
Encontrar la moda de {12, 9, 8, 8, 7, 5, 5, 5, 4, 2}
2, 4, 5, 5, 5, 7, 8, 8, 9, 12
El número que más se repite es 5, por lo tanto la respuesta
seria 5
MA ING Marco Vinicio Monzon
![Page 23: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/23.jpg)
Rango Medio
Es el número que está exactamente a la mitad del camino entre el dato con menor valor min. y el dato con mayor valor Máx. Se encuentra
promediando los valores mínimo y máximo
Fórmula: Rango medio = Mín + Máx
2
Encuentre el rango medio de { 3, 3, 5, 6, 8}, Mín = 3 y Máx = 8
3 + 8 = 5.5
2
R//El rango medio seria 5.5
MA ING Marco Vinicio Monzon
![Page 24: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/24.jpg)
2.4 Medidas de dispersión
Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Es la diferencia entre el valor mínimo y el valor máximo en un grupo de números.
Procedimiento:
•Ordenamos los números según su tamaño.
•Restamos el valor mínimo del valor máximo.
Ejemplo:
Encuentre el rango de la muestra {3, 3, 5, 6, 8}
Máx. - Mín. = 8 - 3 = 5
Rango
MA ING Marco Vinicio Monzon
![Page 25: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/25.jpg)
Desviación con respecto a la
media Es la media de las diferencias en valor absoluto de los valores a la media.
Es la diferencia entre el calor de x y la media
Cada valor individual x se desvía de la media por una cantidad igual a (x- x). Esta desviación (x - x) es cero x es igual a la media. La desviación (x-x) es positiva se x es mayor que x y negativa si es menor que x.
Fórmula:
DESVIACIÓN CON RESPECTO A LA MEDIA= ∑ x - X
n
Ejemplo:
Considere la muestra {6, 3, 8, 5, 3}
Se encuentra que la media es 5
Luego cada desviación, se encuentra retando 5 de cada valor x
Datos x 6 3 8 5 3
Desviación X - x 1 - 2 3 0 - 2
MA ING Marco Vinicio Monzon
![Page 26: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/26.jpg)
Varianza Muestral
Es la media de las desviaciones al cuadrado, calculada usando como divisor a n - 1.
Fórmula:
Varianza muestral = suma de (desviaciones) 2
número - 1
MA ING Marco Vinicio Monzon
![Page 27: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/27.jpg)
Desviación estándar muestral Es una medida de dispersión para variables de razón y de intervalo. Es una
medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la
variable.
Fórmula:
S = suma de (desviaciones) 2
número - 1
Limite
aparente
F M M- x (M-x)2 F(M-x)2
10-17 11 13.5 -10.8 116.64 1283.04
18-25 17 21.5 -2.8 7.84 133.28
26-33 6 29.5 5.2 27.04 162.4
34-41 2 37.5 13.2 174.24 348.48
42-49 2 45.5 21.2 449.44 898.88
50-57 1 53.5 29.2 852.64 852.64
58-65 1 61.5 37.2 1383.84 1383.84
5,062.56
= 5,062.56 = 39
11.39
Respuesta
MA ING Marco Vinicio Monzon
![Page 28: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/28.jpg)
2.5 Media y desviación estándar
de distribuciones de frecuencias
Promedio más conocido. Se representa por X (x barra o media muestral) la media se encuentra sumando todos los valores de la variable x, y dividiendo entre el número de estos valores n (tamaño de la muestra).
Para encontrar la media de una distribución de frecuencias se utiliza la siguiente fórmula:
Media muestral= x barra= suma de x/ número de
x
X= ∑x/n
Ejemplo:
Un conjunto de datos consta de 5 valores: 6, 3, 8,6 y 4.
Encuentre la media
= 6+3+8+6+4/5= 27/5= 5.4
Media:
MA ING Marco Vinicio Monzon
![Page 29: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/29.jpg)
Mediana
Valor de los datos que ocupa la posición
central cuando los datos se ordenan según
su tamaño, se representa por x (x tilde o
mediana muestral)
Ejemplo:
Encuentre la mediana del conjunto de datos: 6,3, 8, 5, 3
Paso1: los datos ordenados de manera creciente, son 3, 3, 5, 6 y 8
Paso2. Profundidad de la mediana
d(x)= n+1/2= 5+1/2= 3 (la tercera posición)
paso3. Es decir la mediana es el tercer numero desde cualquier extremo en
los ordenados, es decir 5.
MA ING Marco Vinicio Monzon
![Page 30: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/30.jpg)
Moda
Es el valor de x que ocurre más frecuentemente.
Ejemplo:
Encuentre la moda del siguiente conjunto (5, 6, 6, 7, 2, 3)
La moda es 6
MA ING Marco Vinicio Monzon
![Page 31: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/31.jpg)
Rango: Es la diferencia en valor entre los datos de
mayor valor (máx.) y de menor valor (min.)
Ejemplo:
Encuentre el rango de la muestra 3, 3, 5, 6, 8
Max-min= 8-3= 5
Varianza muestral: S2, es la media de las desviaciones al cuadrado, calculada usando
como divisor a n-1.
Varianza muestral= suma de (desviaciones)2/ número -1
S2 = ∑ (X-X)2/ n-1
MA ING Marco Vinicio Monzon
![Page 32: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/32.jpg)
Desviación Estándar S, es la raíz cuadrada positiva de la varianza.
S=√s2
S= √∑ (x-x )2
n-1
CV= Coeficiente de variación
S x100
x
MA ING Marco Vinicio Monzon
![Page 33: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/33.jpg)
2.6 Medidas de posición
Se usan para describir la posición que tiene el valor de un dato específico en relación con el resto de los datos.
Medidas de posición
Cuartiles Deciles Percentiles
MA ING Marco Vinicio Monzon
![Page 34: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/34.jpg)
Son los valores de la variable que dividen en
cuartos a los datos ordenados, cada conjunto de
datos posee 3 cuartiles.
25% 25% 25% 25%
Cuartiles
Q1 Q2 Q3
Formula: Qn= Qn\4
MA ING Marco Vinicio Monzon
![Page 35: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/35.jpg)
Ejemplo
Galones de gasolina que consumen los
taxistas al día 4, 8, 8, 9, 10, 12, 15
Qn= 1(7)/4= Q1= 1.75= 2
Q1=8
El 25% consume menos de 8 galones y el
75% consume más de 8 galones
MA ING Marco Vinicio Monzon
![Page 36: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/36.jpg)
Percentiles
Son los valores de la variable que dividen a un conjunto de datos ordenados en 100
subconjuntos iguales, cada conjunto de datos tiene 99 percentiles.
Pn= Pn/100
Ejemplo:
Pn= Pn/100= 60*7/100= 4.2=5
P60= 10
El 60 consume menos de 10 galones y el 40% consume más de 10 galones
MA ING Marco Vinicio Monzon
![Page 37: Analisis Descriptivo de Una Sola Variable](https://reader034.vdocuments.site/reader034/viewer/2022051018/563dbb5b550346aa9aac7551/html5/thumbnails/37.jpg)
Deciles
Son los valores de la variable que dividen a
un conjunto de datos ordenados en 10
subconjuntos iguales, cada conjunto de datos
tiene 9 deciles.
Dn: Dn/10
Dn= Dn/10 4*7/10= 2.8=3
Dn=8
El 40% consume menos de 8 galones y el
60% consume más de 8 galones.
MA ING Marco Vinicio Monzon