analysis of data mining techniques for constructing a...
TRANSCRIPT
![Page 1: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/1.jpg)
Analysis of Data Mining Techniques
for Constructing a Predictive Model
for Academic Performance
Sandra Milena Merchán Rubiano
Magíster En Docencia
Magíster y Especialista en Entornos Virtuales de
Aprendizaje
Jorge Alberto Duarte García
Estudiante
![Page 2: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/2.jpg)
Introducción
Proyecto de Investigación I Jorge A. Duarte García
Deserción
AcadémicaSPADIES
Estudio
Diagnóstico
Prevención
Bajo
Rendimiento
Riesgo
AcadémicoEstrategias Prevención
![Page 3: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/3.jpg)
Contexto institucional
Proyecto de Investigación I Jorge A. Duarte García
PAE
SALA
Prácticas
Mejorar
índices
Retención
Graduación
Favorecer
Calidad de
vida
Bienestar
Riesgo
Académico
Clasificación
Riesgo BajoRiesgo MedioRiesgo Alto
Registro de
notas
Estudiantes
![Page 4: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/4.jpg)
Proyecto de Investigación I Jorge A. Duarte García
PAE
SALA
Prácticas
Mejorar
índices
Retención
Graduación
Favorecer
Calidad de
vida
Bienestar
Riesgo
Académico
Clasificación
post-facto
Riesgo BajoRiesgo MedioRiesgo Alto
Registro de
notas
Estudiantes
Contexto institucional – foco de estudio
![Page 5: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/5.jpg)
Proyecto de Investigación I Jorge A. Duarte García
Registro de
notas
Estudiantes
PAE
SALA
Prácticas
Mejorar
índicesRetención
Graduación
Favorecer
Calidad de
vida
Bienestar
Riesgo
Académico
Clasificación
post-facto
¿Clasificación
pre-facto?Información
Demográfica
Información
Académica Desempeño
Académico
Contexto institucional – foco de estudio
![Page 6: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/6.jpg)
Proyecto de Investigación I Jorge A. Duarte García
Minería de Datos
Relación entre
Variables y
Desempeño
Reglas de
Clasificación
f(x)
Modelo
Predictivo
Predicción de
Desempeño
Información
Académica
Información
Demográfica
Estrategias preventivas , hacer útil la
información
Propósito
![Page 7: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/7.jpg)
Metodología
Proyecto de Investigación I Jorge A. Duarte García
Desa
rrollo M
eto
doló
gic
o
Extracción y alistamiento
de datos : 932 registros de
estudiantes
Minería de datos
Análisis e interpretación de
resultadosVerificación de modelos de
mineríaFormulación del modelo
predictivo
Recopilación y
Extracción
Limpieza
Estructuración
Definición de formatos
E/S
Carga de datos
Pre-procesamiento
Ejecución algoritmos
de minería
Definición del conjunto
de reglas
Formulación del modelo
Análisis
Selección
Normalización
Particionamiento
Matríz general
Variable de salida:
Desempeño
académico
Interpretación de
resultados
![Page 8: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/8.jpg)
Ejecución de algoritmos de minería: carga y
preprocesamientoIteration #1 Iteration #2 Iteration #3 Iteration #4
Data loading 467 instances
42 Attributes
467 instances
42 Attributes
467 instances
42 Attributes
467 instances
42 Attributes
Data
preprocessing
None First year subject
grades were removed
Resulting data:
467 instances
31 Attributes
First year subject
grades were
removed
‘Noisy’ attributes
were removed
(colegio, año y
periodo ingreso)
Resulting data:
467 Instances
24 Attributes
First year subject
grades were removed
‘Noisy’ attributes were
removed
Filter applied:
remove misclassified
instances using a J48
decision tree
Resulting data:
179 instances
24 Attributes
ARFF
• Remoción de
instancias sin
variable de salida
• Variables “ruidosas”
fueron removidas
(filtro
RemoveMisclassified
)
![Page 9: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/9.jpg)
Descripción del Proceso de mineríaIteration #1 Iteration #2 Iteration #3 Iteration #4
J48 10 rules found
231 correctly classified
instances
141 ignored instances
0 rules found
135 correctly classified
instances
141 ignored instances
150 rules found
129 correctly classified
instances
141 ignored instances
58 rules found
153 correctly classified
instances
0 ignored instances
PART 4 rules found
204 correctly classified
instances
141 ignored instances
4 rules found
137 correctly classified
instances
141 ignored instances
56 rules found
115 correctly classified
instances
141 ignored instances
16 rules found
149 correctly classified
instances
0 ignored instances
Ridor 23 rules found
233 correctly classified
instances
141 ignored instances
14 rules found
127 correctly classified
instances
141 ignored instances
15 rules found
120 correctly classified
instances
141 ignored instances
7 rules found
100 correctly classified
instances
0 ignored instances
![Page 10: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/10.jpg)
Métricas obtenidas por cada algoritmo
Iteration # 1 Iteration # 2 Iteration # 3 Iteration # 4
J48 Risk: 81%
Average: 62.70%
Outstanding: 83.30%
Risk: 27.8%
Average: 42.3%
Outstanding: 0 %
Risk: 43.2%
Average: 42.7%
Outstanding: 18.2 %
Risk: 86.8%
Average: 85.3%
Outstanding: 76.9 %
Part Risk: 64,7%
Average: 57.1%
Outstanding: 78.8%
Risk: 16.7%
Average: 42.6%
Outstanding: 0 %
Risk: 34.8%
Average: 40.3%
Outstanding: 25.4%
Risk: 85.4%
Average: 83.3%
Outstanding: 66.7 %
Ridor Risk: 72,2%
Average: 71.8%
Outstanding: 69.6%
Risk: 47.9%
Average: 40.2%
Outstanding: 22.7
%
Risk: 44.5%
Average: 37.5%
Outstanding: 22.1 %
Risk: 64.9%
Average: 55.3%
Outstanding: 25%
![Page 11: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/11.jpg)
Reglas resultantes
Predicted Academic Performance Level
Algoritmo Risk Average Outstanding
J48 marital status (single)
social stratum (2,3)gender(male)ICFES physics(<50)
marital status (single)
social stratum (3,4)gender(male)age female (<=24)ICFES physics(<50)
marital status (single)social stratum (3,4,5,6)gender(female)age female (>24)
PART social stratum (2)Social stratum (2) AND
marital status (single)Social stratum (2) AND
age (>= 24)
RIDOR Father education(ND)ICFES physics(>50)age (<= 26) AND mother
education (ND)
social stratum (3)social stratum(1,4,5)
AND age (<= 26)
social stratum(1,4,5)
![Page 12: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/12.jpg)
Lecciones aprendidas
1. La preparación de datos no debe tener un límite de tiempo
o experimentos, sino hasta que se logre la certeza de la
consistencia y estandarización de los mismos
2. La remoción de atributos no útiles y la estandarización son
tareas sumamente importantes
3. Las reglas y atributos encontrados como influyentes tienen
sentido en el contexto y marco de conceptos, adicionando
hallazgos relevantes para el estudio
4. No sólo la precisión y confiabilidad deben tenerse en
cuenta, sino también el tipo de variables que se arrojan
como influyentes y su relación . Pueden acompañarse las
comparaciones con análisis estadísticos con mayores
cantidades de datos
![Page 13: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento](https://reader033.vdocuments.site/reader033/viewer/2022043009/5f9d1967df307a30483ac8c1/html5/thumbnails/13.jpg)