analysis of data mining techniques for constructing a...

13
Analysis of Data Mining Techniques for Constructing a Predictive Model for Academic Performance Sandra Milena Merchán Rubiano Magíster En Docencia Magíster y Especialista en Entornos Virtuales de Aprendizaje Jorge Alberto Duarte García Estudiante

Upload: others

Post on 08-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Analysis of Data Mining Techniques

for Constructing a Predictive Model

for Academic Performance

Sandra Milena Merchán Rubiano

Magíster En Docencia

Magíster y Especialista en Entornos Virtuales de

Aprendizaje

Jorge Alberto Duarte García

Estudiante

Page 2: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Introducción

Proyecto de Investigación I Jorge A. Duarte García

Deserción

AcadémicaSPADIES

Estudio

Diagnóstico

Prevención

Bajo

Rendimiento

Riesgo

AcadémicoEstrategias Prevención

Page 3: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Contexto institucional

Proyecto de Investigación I Jorge A. Duarte García

PAE

SALA

Prácticas

Mejorar

índices

Retención

Graduación

Favorecer

Calidad de

vida

Bienestar

Riesgo

Académico

Clasificación

Riesgo BajoRiesgo MedioRiesgo Alto

Registro de

notas

Estudiantes

Page 4: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Proyecto de Investigación I Jorge A. Duarte García

PAE

SALA

Prácticas

Mejorar

índices

Retención

Graduación

Favorecer

Calidad de

vida

Bienestar

Riesgo

Académico

Clasificación

post-facto

Riesgo BajoRiesgo MedioRiesgo Alto

Registro de

notas

Estudiantes

Contexto institucional – foco de estudio

Page 5: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Proyecto de Investigación I Jorge A. Duarte García

Registro de

notas

Estudiantes

PAE

SALA

Prácticas

Mejorar

índicesRetención

Graduación

Favorecer

Calidad de

vida

Bienestar

Riesgo

Académico

Clasificación

post-facto

¿Clasificación

pre-facto?Información

Demográfica

Información

Académica Desempeño

Académico

Contexto institucional – foco de estudio

Page 6: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Proyecto de Investigación I Jorge A. Duarte García

Minería de Datos

Relación entre

Variables y

Desempeño

Reglas de

Clasificación

f(x)

Modelo

Predictivo

Predicción de

Desempeño

Información

Académica

Información

Demográfica

Estrategias preventivas , hacer útil la

información

Propósito

Page 7: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Metodología

Proyecto de Investigación I Jorge A. Duarte García

Desa

rrollo M

eto

doló

gic

o

Extracción y alistamiento

de datos : 932 registros de

estudiantes

Minería de datos

Análisis e interpretación de

resultadosVerificación de modelos de

mineríaFormulación del modelo

predictivo

Recopilación y

Extracción

Limpieza

Estructuración

Definición de formatos

E/S

Carga de datos

Pre-procesamiento

Ejecución algoritmos

de minería

Definición del conjunto

de reglas

Formulación del modelo

Análisis

Selección

Normalización

Particionamiento

Matríz general

Variable de salida:

Desempeño

académico

Interpretación de

resultados

Page 8: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Ejecución de algoritmos de minería: carga y

preprocesamientoIteration #1 Iteration #2 Iteration #3 Iteration #4

Data loading 467 instances

42 Attributes

467 instances

42 Attributes

467 instances

42 Attributes

467 instances

42 Attributes

Data

preprocessing

None First year subject

grades were removed

Resulting data:

467 instances

31 Attributes

First year subject

grades were

removed

‘Noisy’ attributes

were removed

(colegio, año y

periodo ingreso)

Resulting data:

467 Instances

24 Attributes

First year subject

grades were removed

‘Noisy’ attributes were

removed

Filter applied:

remove misclassified

instances using a J48

decision tree

Resulting data:

179 instances

24 Attributes

ARFF

• Remoción de

instancias sin

variable de salida

• Variables “ruidosas”

fueron removidas

(filtro

RemoveMisclassified

)

Page 9: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Descripción del Proceso de mineríaIteration #1 Iteration #2 Iteration #3 Iteration #4

J48 10 rules found

231 correctly classified

instances

141 ignored instances

0 rules found

135 correctly classified

instances

141 ignored instances

150 rules found

129 correctly classified

instances

141 ignored instances

58 rules found

153 correctly classified

instances

0 ignored instances

PART 4 rules found

204 correctly classified

instances

141 ignored instances

4 rules found

137 correctly classified

instances

141 ignored instances

56 rules found

115 correctly classified

instances

141 ignored instances

16 rules found

149 correctly classified

instances

0 ignored instances

Ridor 23 rules found

233 correctly classified

instances

141 ignored instances

14 rules found

127 correctly classified

instances

141 ignored instances

15 rules found

120 correctly classified

instances

141 ignored instances

7 rules found

100 correctly classified

instances

0 ignored instances

Page 10: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Métricas obtenidas por cada algoritmo

Iteration # 1 Iteration # 2 Iteration # 3 Iteration # 4

J48 Risk: 81%

Average: 62.70%

Outstanding: 83.30%

Risk: 27.8%

Average: 42.3%

Outstanding: 0 %

Risk: 43.2%

Average: 42.7%

Outstanding: 18.2 %

Risk: 86.8%

Average: 85.3%

Outstanding: 76.9 %

Part Risk: 64,7%

Average: 57.1%

Outstanding: 78.8%

Risk: 16.7%

Average: 42.6%

Outstanding: 0 %

Risk: 34.8%

Average: 40.3%

Outstanding: 25.4%

Risk: 85.4%

Average: 83.3%

Outstanding: 66.7 %

Ridor Risk: 72,2%

Average: 71.8%

Outstanding: 69.6%

Risk: 47.9%

Average: 40.2%

Outstanding: 22.7

%

Risk: 44.5%

Average: 37.5%

Outstanding: 22.1 %

Risk: 64.9%

Average: 55.3%

Outstanding: 25%

Page 11: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Reglas resultantes

Predicted Academic Performance Level

Algoritmo Risk Average Outstanding

J48 marital status (single)

social stratum (2,3)gender(male)ICFES physics(<50)

marital status (single)

social stratum (3,4)gender(male)age female (<=24)ICFES physics(<50)

marital status (single)social stratum (3,4,5,6)gender(female)age female (>24)

PART social stratum (2)Social stratum (2) AND

marital status (single)Social stratum (2) AND

age (>= 24)

RIDOR Father education(ND)ICFES physics(>50)age (<= 26) AND mother

education (ND)

social stratum (3)social stratum(1,4,5)

AND age (<= 26)

social stratum(1,4,5)

Page 12: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento

Lecciones aprendidas

1. La preparación de datos no debe tener un límite de tiempo

o experimentos, sino hasta que se logre la certeza de la

consistencia y estandarización de los mismos

2. La remoción de atributos no útiles y la estandarización son

tareas sumamente importantes

3. Las reglas y atributos encontrados como influyentes tienen

sentido en el contexto y marco de conceptos, adicionando

hallazgos relevantes para el estudio

4. No sólo la precisión y confiabilidad deben tenerse en

cuenta, sino también el tipo de variables que se arrojan

como influyentes y su relación . Pueden acompañarse las

comparaciones con análisis estadísticos con mayores

cantidades de datos

Page 13: Analysis of Data Mining Techniques for Constructing a ...research.unir.net/unesco-congreso/wp-content/...Proyecto de Investigación I Jorge A. Duarte García gico Extracción y alistamiento