análisis exploratorio de datos¿cómo transformar variables cuantitativas en cualitativas? •la...
TRANSCRIPT
Análisis Exploratorio
de Datos
¿Qué son los Datos?
Una variable es una propiedad o
característica de un Individuo
Ejemplos: color de ojos
de un persona,
temperatura, estado civil
Una colección de variables
describen a un Individuo
Un individuo también se conoce
como registro, punto, caso,
objeto, entidad, ejemplo de
observación
Id Dev. Estado Civil
Impuestos Fraude
1 Si Soltero 125Mil No
2 No Casado 100Mil No
3 No Soltero 70Mil No
4 Si Casado 120Mil No
5 No Divorciado 95Mil Si
6 No Casado 60Mil No
7 Si Divorciado 220Mil No
8 No Soltero 85Mil Si
9 No Casado 75Mil No
10 No Soltero 90Mil Si 10
Variables
Individuos
Tipos de Variables
Cualitativos vs. Cuantitativos
Cualitativo (o categórico) las variables
representan distintas categorías en lugar de
números. Las operaciones matemáticas como la
suma y la resta no tienen sentido.
Ejemplos: color de los ojos, grado académico, dirección IP,
código postal.
Cuantitativos (o numéricos) las variables son los
números y pueden ser tratados como tales.
Ejemplos: peso, fallos por hora, el número de televisores, la
temperatura
Variables Cualitativas
Tipos de Variables
Variables Cuantitativas
• Los valores de la variable son “números” = cada valor posible es menor o mayor que otro valor
• Ejemplos: edad, ingresos, nota en un examen, número de años de educación, kilómetros de distancia entre trabajo y residencia…
• OJO: hay “números” que son “etiquetas”; por ejemplo: el código postal; el número de teléfono; el código de una asignatura
Variable Discreta vs Variable Continua
• Una Variable Discreta es aquella en la cuál se puede contar el número posible de valores (son números enteros)
• Una Variable Continua puede tomar cualquier valor en un intervalo dado (son números reales)
Variables Cualitativas
• Variables cualitativas son aquellas que clasifican las unidades en categorías. Las categorías pueden tener un orden natural (ordinales) o no (nominales).
• Cuando las variables son ordinales podemos contar número de casos, comparar entre categorías, pero no podemos realizar operaciones numéricas.
Variables Ordinales
• Categorías, no números, que tienen un orden, pero no existe una distancia o intervalo definido entre los valores
– Ejemplo: profesión Bachiller, Licenciado, Máster, Doctor
• Tratamiento estadístico:
– A veces, como variables cualitativas
– A veces, como variables cuantitativas
Variables Nominales
• Los valores son “categorías”
• Las categorías son valores diferentes por una cualidad, no por una cantidad
• Ningún “valor” se puede decir que sea mayor o menor que otro
• Ejemplos: partido político al que votó; región en que vive; sexo; estado civil.
¿cómo transformar variables cuantitativas en cualitativas?
• La conversión de una variable cuantitativa en cualitativa se denomina categorización. 1. Se ordena la variable
2. Se decide el número k de categorías
3. Se buscan los límites e intervalos para cada categoría [min, min+(max-min)/k[, [min, min+2*(max-min)/k[ …
4. Se asigna una etiqueta para cada categoría
5. En la variable original (sin ordenar) se cambia cada valor por una etiqueta según el intervalo al que corresponda
Ejemplo: Ejemplo Transforma Variable.xlsx
Los Datos
Variable j
Ejemplo
Matemáticas Ciencias Español Historia EdFísica
Lucía 7.0 6.5 9.2 8.6 8.0
Pedro 7.5 9.4 7.3 7.0 7.0
Inés 7.6 9.2 8.0 8.0 7.5
Luis 5.0 6.5 6.5 7.0 9.0
Andrés 6.0 6.0 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8.0 6.5
Carlos 6.3 6.4 8.2 9.0 7.2
José 7.9 9.7 7.5 8.0 6.0
Sonia 6.0 6.0 6.5 5.5 8.7
María 6.8 7.2 8.7 9.0 7.0
Nubes de Puntos
Luis 5.0 6.5 6.5 7.0 9.0
INDIVIDUOS - FILAS
VARIABLES - COLUMNAS Español
9.2
7.3
8.0
6.5
7.8
7.7
8.2
7.5
6.5
8.7
Nube de Puntos
¿Cómo leer los datos en R?
Matemáticas Ciencias Español Historia EdFísica
Lucía 7.0 6.5 9.2 8.6 8.0
Pedro 7.5 9.4 7.3 7.0 7.0
Inés 7.6 9.2 8.0 8.0 7.5
Luis 5.0 6.5 6.5 7.0 9.0
Andrés 6.0 6.0 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8.0 6.5
Carlos 6.3 6.4 8.2 9.0 7.2
José 7.9 9.7 7.5 8.0 6.0
Sonia 6.0 6.0 6.5 5.5 8.7
María 6.8 7.2 8.7 9.0 7.0
Desde Excel
Guardar como *.CSV separado por ;
Visto como archivo de texto
Leyendo los datos desde R
Mediante Código R:
> Datos <- read.table("C:/Datos/EjemploEstudiantes.csv“, header=TRUE, sep=";", dec=".", row.names=1)
Leyendo datos desde RComander
Leyendo datos desde FactoMineR
Leyendo desde FactoMineR
Visualizando los datos en RComander
Tabla de Datos
Matemáticas Ciencias Español Historia EdFísica
Lucía 7 6.5 9.2 8.6 8
Pedro 7.5 9.4 7.3 7 7
Inés 7.6 9.2 8 8 7.5
Luis 5 6.5 6.5 7 9
Andrés 6 6 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8 6.5
Carlos 6.3 6.4 8.2 9 7.2
José 7.9 9.7 7.5 8 6
Sonía 6 6 6.5 5.5 8.7
María 6.8 7.2 8.7 9 7
Estadísticas Básicas
Promedio 6.79 7.65 7.74 7.9 7.42
DesEstándar 0.90 1.53 0.82 1.06 0.88
Notas Escolares
En RComander
Desde RComander
En RComander
La Matriz de Correlaciones
Gráficos en RComander
Histogramas
Identificando datos atípicos
Diagramas de Caja (Boxplots)
Una muy simple resumen de la distribución de los
datos.
Diagramas de caja son útiles para encontrar datos
atípicos (outlier)
outlier
10th percentile
25th percentile
75th percentile
50th percentile
90th percentile
Diagramas de Caja (Boxplots)
Por defecto, los diagramas de caja en R presentan el
máximo y el mínimo (si no son los valores atípicos)
en lugar de los percentiles 10 y 90 como lo hacen
algunos otros programas
outlier
10th percentile
25th percentile
75th percentile
50th percentile
90th percentile Máximo
Mínimo
Diagramas de Caja en RComander
Identificando datos atípicos
Identificando datos atípicos
Notas Escolares
La Matriz de Correlaciones
Interpretación: 1. Correlaciones altas positivas implican que si
una variable crece la otra también crece. 2. Correlaciones altas negativas implican que
si una variable crece la otra también decrece y a la inversa.
3. Correlaciones cercanas a cero implican que no hay relación entre las variables
Interpretación geométrica del coeficiente de correlación
VARIABLES - COLUMNAS
Español
9.2
7.3
8.0
6.5
7.8
7.7
8.2
7.5
6.5
8.7
q
X
Y
Cos(q) = R(X,Y)
q
X Y
q = 0° implica que Cos(q) = R(X,Y) = 1
CASO 1:
q
X
Y
q = 90° implica que Cos(q) = R(X,Y) = 0
CASO 2:
Y
q = 180° implica que Cos(q) = R(X,Y) = -1 CASO 3:
q
X
Ejemplo: Servicio
al Cliente
En RComander
En RComander
La Matriz de Correlaciones
Gráficos en RComander
Histogramas
Diagramas de Caja en Rcomander Identificando datos atípicos
Identificando datos atípicos
Identificando datos atípicos
Identificando datos atípicos
¿Dónde obtener más información?
Gracias….