identificación de variables asociadas al éxito...

18

Upload: phamtram

Post on 16-Jun-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Your logo

Abril 16, 2013

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de

Informática Mazatlán

Universidad Autónoma de

Sinaloa

M.C. Rogelio Estrada Lizárraga

Introducción

Según la Secretaría de Educación Pública de México en el ciclo escolar 2008 – 2009 en el nivel superior:

! 52.7% de los estudiantes que se inscribieron a primer año logró terminar sus estudios y de éstos el 32.3% se tituló.

! Esto quiere decir que más del 4 7 % d e l o s e s t u d i a n t e s desertaron en algún momento de sus estudios.

Introducción

Factores que han hecho posible que se gestionen de una mejor manera el manejo y almacenamiento electrónico de la información:

! El abaratamiento de los servicios de almacenamiento. ! El incremento de la velocidad de cómputo en los

procesadores. ! Las mejoras en la confiabilidad y aumento en la

velocidad en la transmisión de los datos. ! El desarrollo de sistemas administradores de bases de

datos más poderosos.

Introducción ¿Qué pasa con toda esa información que almacenamos?

! La abundancia de los datos, aunado con la necesidad de herramientas de análisis de datos de gran alcance, se ha descrito como “ricos en datos, pero pobres en conocimiento”.

¿Qué es la Minería de Datos?

! La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad et al, 1996).

Minería de Datos

Estadística

Tecnología de Base de

Datos

Aprendizaje Automático

Inteligencia Artificial

Visualización de Datos

Otras Disciplinas

Minería de Datos

! “Es la integración de un conjunto de á reas que t ienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un s e s g o h a c i a l a t o m a d e decisión" (Molina et al, 2001).

Técnicas de la Minería de Datos

Minería de Datos

! Clasificación de las Técnicas de la Minería de Datos, según el objetivo del análisis de los datos:

Supervisados o Predictivos No Supervisados o de Descubrimiento del Conocimiento

Árboles de Decisión Detección de desviaciones

Inducción Neuronal Segmentación

Regresión Agrupamiento (clustering)

Series de Tiempo Reglas de Asociación

Minería de Datos Encontrando conocimiento oculto

! En el caso de las instituciones de educación superior no es la excepción, ya que éstas instituciones almacenan un gran volumen de información de sus estudiantes y generaciones, con la expectativa de poder analizarlas posteriormente, con la ayuda de nuevas técnicas computarizadas que permitan obtener conocimiento a partir de la información almacenada.

Instituciones de Educación Superior

Minería de Datos

! Los árboles de decisión, también denominados árboles de clasificación o de identificación. Permiten resolver problemas de clasificación. La construcción de árboles de decisión es el método de aprendizaje inductivo supervisado más utilizado. Como forma de representación del conocimiento, los árboles de decisión destacan por su sencillez .

Árboles de Decisión

Metodología

! El software WEKA (Waikato Environment for Knowledge Analysis) es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario.

Software WEKA

! Es una implementación del algoritmo C4.5 [6] desarrollado por J. R. Quinlan en el año de 1993

! Este algoritmo de clasificación permite generar un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente, según la estrategia de primero en profundidad. Antes de cada partición de datos, el algoritmo considera todas las pruebas posibles que puedan dividir el conjunto de datos y selecciona la prueba que resulta de mayor ganancia de información o en la mayor proporción de ganancia de información.

Algoritmo J48 en WEKA

Metodología

! La población analizada estuvo integrada por la cohorte 2002.

! El término cohorte se define como: “conjunto de alumnos que ingresa en una carrera profesional o nivel de posgrado en un año determinado, y que cumple un trayecto escolar”.

! De tal manera que los alumnos comparten cuando menos una característica, para este caso particular la de haber ingresado a la Facultad de Informática Mazatlán en el año 2002.

Trayectorias Académicas Analizadas

Metodología

Árbol de decisión generado por el algoritmo J48 del software WEKA

Resultados

!

A B

16 7 A = Éxito Académico

3 15 B = Regular

El algoritmo J48 clasifico correctamente el 74.57% de los estudiantes.

Matriz de Confusión generada por el algoritmo J48 sobre el conjunto de entrenamiento.

Resultados

A B

7 4 A = Éxito Académico

1 6 B = Regular

El 72.22% de los estudiantes se clasificaron correctamente.

Matriz de Confusión generada por el algoritmo J48 sobre el conjunto de prueba

Resultados

Discusión ! La aplicación de técnicas de minería de datos, específicamente la

implementación de árboles de decisión para la identificación de variables asociadas al éxito de estudiantes puede ser de gran utilidad paras las instituciones educativas de nivel superior.

! Durante la implementación de ésta técnica en el análisis de egresados de la Facultad de Informática Mazatlán, de la Universidad Autónoma de Sinaloa, se identificaron y utilizaron cinco variables independientes: promedio, ubicación y tipo de preparatoria, sexo y calificación global de CENEVAL y la variable dependiente fue el promedio general de licenciatura.

Discusión ! De acuerdo a los resultados observados, el modelo de árbol de

decisión generado por el algoritmo J48 para la predicción del éxito académico de los estudiantes de la Facultad de Informática Mazatlán, clasifica correctamente el 72.22% de las instancias analizadas, debido a que las variables independientes utilizadas, resultaron ser muy significativas.

! Así mismo, se demostró que las variables independientes: sexo, promedio y ubicación de la preparatoria (zona urbana o zona rural), son más significativas que la calificación obtenida en el examen de selección CENEVAL.

Conclusión ! Los datos recabados para la cohorte 2002 de Licenciatura en

Informática de la Facultad de Informática Mazatlán, demuestran que las variables sexo, promedio y ubicación de la preparatoria (zona urbana o zona rural), resultaron ser más significativas para predecir el éxito académico de los aspirantes a las carreras de informática o computación, así mismo, se comprueba que el examen de selección para el ingreso a la Licenciatura en Informática del CENEVAL, no es lo suficientemente confiable para predecir el desempeño escolar.

! Actualmente se trabaja en el análisis de los datos con técnicas estadísticas multivariadas, en la aplicación de redes neuronales y otros algoritmos de minería de datos.