comparación de cuatro técnicas de selección de características envolventes para procesos de...

Post on 01-Jan-2015

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Comparación de cuatro técnicas de selección de características envolventes

para procesos de clasificación.

Samuel Oporto DíazIván Aquino Morales

Jacqueline Chávez CuzcanoCésar Pérez Pinche

erro

r d

el c

lasi

ficad

or

número de características

número de ejemplos

22/45/45

PLANTEAMIENTO DEL PROBLEMA

33/45/45

Selección de Características

La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

44/45/45

Selección de Características

Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador.

Se trata de reducir la dimensionalidad de los patrones de entrada Sm.

Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.

55/45/45

Selección de Características

• Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto

• Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es:

Si n = m; 2n

n 2n

10 1,02420 1,048,57630 1,073,741,82440 1,099,511,627,776

66/45/45

PROCEDIMIENTO DE SOLUCION

77/45/45

Proceso de Selección de Características

FiltroEnvolventeHíbrido

e: error del clasificador

B. OptimaB. Sub-optimaB. AleatoriaB. Heurística

Clasificador

88/45/45

Generación del Sub-Conjunto

• Búsqueda exhaustiva

• Búsqueda secuencial hacia delante.• Búsqueda secuencial hacia atrás.

• Búsqueda Aleatoria (BA).• Búsqueda Aleatoria Optimizada (BAO)

• Búsqueda Mejor Primero (BMP)• Búsqueda Genética (BG)

Optima

Sub-optima

Aleatoria

Heurística

99/45/45

Evaluación del Sub-Conjunto

• Filtro. Independientes del algoritmo de aprendizaje.

• Componente principal, entropía.

• Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje.

• Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética.

• Híbridos. Filtro + Envolvente.

1010/45/45

Criterio de Paro

¿Cuándo detener la búsqueda? :

error del clasificador

1111/45/45

ALGORITMOS

1212/45/45

Algoritmos de Búsqueda

• BUSQUEDA ALEATORIA (BA)• Realiza una búsqueda sobre un porcentaje de

todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo.

• BUSQUEDA ALEATORIA OPTIMIZADA (BAO)• Dado un subconjunto de características, si al

quitar una característica.– error sube relevante <fracaso>– error baja irrelevente <exito>

• Se pretende eliminar las irrelevantes.

1313/45/45

Algoritmos de Búsqueda

• BUSQUEDA MEJOR PRIMERO (BMP)• Usa un árbol de búsqueda, de tal forma que la

característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características.

• BUSQUEDA GENÉTICA (BG)• Hace uso de un algoritmo genético. El objetivo

consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).

1414/45/45

Criterio de Paro

Búsqueda Aleatoria (BA) gradiente error < umbral

Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral

Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5]

Búsqueda Genética (BG) minimizar el error del clasificador.

1515/45/45

Algoritmos de Clasificación

Desarrollado por Quinlan. Es un árbol de regresión.Es recursivo, y se basa en la estrategia "divide y vencerás“Mejora del ID3.

Árbol de Decisión C4.5 Naive Bayesian

Aprendizaje probabilístico:Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta.La predicción probabilística predice múltiples hipótesis ponderadas

Tiempo P N Humedad P Nsoleado 2/9 3/5 alta 3/9 4/5cubierto 4/9 0 normal 6/9 1/5lluvia 3/9 2/5Temperatura Vientocalor 2/9 2/5 si 3/9 3/5suave 4/9 2/5 no 6/9 2/5fresco 3/9 1/5

1616/45/45

Algoritmos de Clasificación

Presentadas en 1992. Vapnik y Chervonenkis.Crea nuevas características linealmente separables.Busca un hiperplano que puede separar el espacio en dos partes

Maquinas de Vector Soporte

Red de Retropropagación

Trabaja con datos continuos o discretosLa salida puede ser vector de valores reales o discretos.Aprende por modificación de los pesos.Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.

1717/45/45

FUENTES DE DATOS

1818/45/45

Datos

Nombre inst

anci

as

cara

cter

ístic

as

clases % nom % num 1% 0%ADULT 48,842 14 2 57 43 23.5 76.5BANDS 512 39 2 50 50 35.5 64.5MUSHROOM 8,124 22 2 100 0 37.3 62.7

UCI Repository of Machine Learning DatabaseUniversity of California

1919/45/45

DISEÑO DE EXPRIMENTO

2020/45/45

Diseño de Experimentos

DATOS

AL

GO

RIT

MO

D

E B

US

QU

ED

AC

LA

SIF

ICA

DO

RE

S

ADULT, BANDS, MUSHROOM

• Árbol de Decisión C4.5

• Naive Bayesian

• Maquinas de Vector Soporte

• Red de Retropropagación

• Búsqueda Aleatoria

• Búsqueda Aleatoria Optimizada

• Búsqueda Mejor Primero

• Búsqueda Genética

48experimentos

K-fold

K = 10

Validación cruzadaANOVAVoting

2121/45/45

RESULTADOS EXPERIMENTALES

2222/45/45

Resultados Experimentales

2323/45/45

BANDS BA BAO BMP BG Puntaje ( e )BA 0 1 2 2 5

BAO 3 0 3 4 10BMP 2 1 0 3 6BG 2 0 1 0 3

ADULT BA BAO BMP BG Puntaje ( e )BA 0 0 2 1 3

BAO 4 0 1 1 6BMP 2 3 0 1 6BG 3 3 3 0 9

MUSHROOM BA BAO BMP BG Puntaje ( e )BA 0 1 1 1 3

BAO 3 0 3 3 9BMP 3 1 0 3 7BG 3 1 1 0 5

Tablas de Votación (error)Puntajes en función a la tasa de error promedio del clasificador

2424/45/45

Tablas de Votación (reducción)Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos

BANDS BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6

BAO 1 0 2 1 4BMP 2 2 0 2 6BG 3 3 2 0 8

ADULT BA BAO BMP BG Puntaje ( % red )BA 0 4 2 3 9

BAO 0 0 2 0 2BMP 2 2 0 2 1BG 1 4 2 0 7

MUSHROOM BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6

BAO 1 0 0 0 1BMP 1 4 0 1 6BG 3 4 3 0 10

2525/45/45

Conclusión Voting

Reducción del error• No se puede concluir quién es el peor (2BA y 1BG)• No se puede concluir quién es el mejor (2 BAO y 1BG)

Reducción de la dimensionalidad.• El peor es BAO para la data usada (3 BAO)• No se puede concluir quién es el mejor (2 BG, 1 BA)

2626/45/45

ANOVA: Error

24,4 22,4 23,4 26,275BA BAO BMP BG

24,4 BA 0,93680459 0,1475422 2,10833222,4 BAO 0,6632365 2,7093123,4 BMP 1,919958

26,275 BG

ERROR (%)

4,125 2,5 2,7 2,6BA BAO BMP BG

4,125 BA 0,88402 0,79302 1,292422,5 BAO 0,04872 0,064872,7 BMP 0,067022,6 BG

ERROR (%)

t(5%,6)=1.9432

23,6 22,4 23,4 26,275BA BAO BMP BG

23,6 BA 1,692829 0,277184 3,3248622,4 BAO 1,961948 6,2333323,4 BMP 4,51995

26,275 BG

ERROR (%)

BANDS

ADULT

MUSHROOM

2727/45/45

ANOVA: Reducción t(5%,6)=1.9432

BANDS

ADULT

MUSHROOM 48,8635 28,409 51,13625 60,2275BA BAO BMP BG

48,8635 BA 2,17217 0,26262 1,8678028,409 BAO 0,93658 3,0430151,1363 BMP 0,9300360,2275 BG

REDUCCIÓN (%)

44,9998 20,0000 23,3335 31,6668BA BAO BMP BG

44,9998 BA 3,38232 1,832351 1,7597220,0000 BAO 0,333352 2,7815323,3335 BMP 0,82231,6668 BG

REDUCCIÓN (%)

50,8065 49,1935 57,25825 61,29025BA BAO BMP BG

50,8065 BA 0,25132383 0,8193583 1,03313449,1935 BAO 1,1840049 1,294193

57,25825 BMP 0,38766261,29025 BG

REDUCCIÓN (%)

2828/45/45

Conclusión ANOVA

Reducción del error• El peor es el BG para la data usada• Los mejores son BAO y BA para la data usada,

pero entre los no se de puede concluir una diferencia.

Reducción de la dimensionalidad.• El peor es el BAO para la data usada• Los mejores son BA y BG para la data usada,

pero entre los no se de puede concluir una diferencia.

2929/45/45

GRACIAS

soporto@wiphala.netivaqmo@gmail.com

cesaruni24@yahoo.com.mxkarinajcc@yahoo.com

top related