selección de atributos - inaoe - ciencias …ariel/seleccionat2016.pdf · dada una muestra de...

Post on 25-Sep-2018

233 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Selección de Atributos

Dr. Jesús Ariel Carrasco Ochoa ariel@inaoep.mx Oficina 8311

Contenido

Introducción

Estrategias de selección

Técnicas filter

Técnicas wrapper

Técnicas híbridas

Selección de atributos

Selección de variables (feature selection)

Preprocesamiento Clasificación Supervisada Regresión Agrupamiento

Caracterización Atributos característicos

Selección de atributos

Selección de variables (feature selection)

Preprocesamiento Clasificación Supervisada Regresión Agrupamiento

Caracterización Atributos característicos

Por qué hacer selección de atributos en clasificación supervisada

Mejorar los resultados de la clasificación

Reducir el costo de la clasificación Acelerar el proceso de clasificación Mejorar el entendimiento del modelo y

resultados de la clasificación

Selección de atributos

El objetivo es seleccionar un subconjunto reducido de atributos útiles para la clasificación eliminando

Atributos irrelevantes

Atributos redundantes

Selección de atributos

Selección de variables

Variables descartadas

Muestra reducida Muestra M x1 .. xs

O1 x1(O1) .. xs(O1) :

Om x1(Om) .. xs(Om)

Selecctor

M x1 x2 ... xn O1 x1(O1) x2(O1) ... xn(O1) :

Om x1(Om) x2(Om) ... xn(Om)

M xi ... xk O1 xi(O1) ... xk(O1) :

Om xi(Om) ... xk(Om)

Estrategias de Selección

filter.- La selección se hace con un criterio independiente del clasificador.

wrapper.- La selección se hace usando información del mecanismo de clasificación.

Híbridos.- Combinan estrategias filter y wrapper

Estrategias filter

Usualmente ordenan las variables por algún criterio (ranking).

La selección se hace en el orden establecido con algún criterio de corte.

Comúnmente un número de variables a

seleccionar predefinido por el usuario (parámetro).

Estrategias de ordenamiento

Entropía

Ganancia de información

Índice de Gini

Rough Set Theory/Teoría de Testores

Algoritmo Relief

Algoritmo RELIEF Dada una muestra de objetos descritos por n atributos

numéricos normalizados.

Inicializar en 0 el peso wi de cada variable xi Repetir m veces

Seleccionar aleatoriamente un objeto O de la muestra de entrenamiento

Buscar en vecino más cercano (ONN) de O en su misma clase

Buscar en vecino más cercano (ONE) de O fuera de su clase

Para cada atributo xi tomar:

Ordenar los atributos descendentemente de acuerdo a su peso w

mOxOxmOxOxww NEiiNNiiii /))()((/))()(( 22 −+−−=

Estrategias wrapper

Evalúan subconjuntos de atributos utilizando un clasificador.

Para evitar la búsqueda exhaustiva siguen alguna estrategia de búsqueda.

Comúnmente estrategias ávidas o aleatorias

Estrategias wrapper

Para n variables, el espacio de búsqueda es de tamaño 2n

Estrategias wrapper

Búsqueda exhaustiva

Búsqueda secuencial Hacia atrás (backward) Hacia adelante (forward) Flotante (floating)

Búsqueda aleatoria Algoritmos genéticos Búsqueda tabú ….

Búsqueda exhaustiva

El tamaño del espacio de búsqueda es 2n

Si se busca un número predefinido de variable el espacio de búsqueda es de tamaño

Para seleccionar 20 variables de 50 el espacio de búsqueda es de tamaño

155013 102104

2050

≈<<×≈

kn

Sequential Forward Selection

Sea F en conjunto de todas las variables S=Ø Repetir

Hasta |S|=k / q(S)<q(S\{x}) / q(S)>t

}{

})){((maxS\

xSS

xSqxFx

∪=

∪=∈

Sequential Forward Selection

Sequential Bacward Selection

Sea F en conjunto de todas las variables S=F Repetir

Hasta |S|=k / q(S)<q(S∪{x}) / q(S)>t

}{\

})){\((max

xSS

xSqxSx

=

=∈

Sequential Backward Selection

Sequential Floating Forward Selection

S=Ø Repetir

Repetir

Hasta q(S)<q(S∪{x}) S∪{x} Hasta |S|=k / q(S)>t

}{\

})){\((max

xSS

xSqxSx

=

=∈

}{

})){((maxS\

xSS

xSqxFx

∪=

∪=∈

Sequential Floating Backward Selection

S=Ø Repetir

Repetir

Hasta q(S)≤q(S\{x}) S\{x} Hasta |S|=k / q(S)>t

}{\

})){\((max

xSS

xSqxSx

=

=∈

}{

})){((maxS\

xSS

xSqxFx

∪=

∪=∈

Selección usando Algoritmos Genéticos

x1 x2 ... xn

0 1 0/1 ... 0/1 1

Individuos (suponiendo n variables)

Selección usando Algoritmos Genéticos

Cruza (combinación de individuos)

Punto de cruza Punto de cruza

1 0 1 1 1 0 1 1 0 1 1 0

→ 1 1 0 0 0 1 1 0 1 0 0 1

Selección usando Algoritmos Genéticos

Mutación (alteración de individuos)

Elemento a mutar

Elemento mutado

1 1 0 0 0 1 → 1 0 1 0 0 1

Selección usando Algoritmos Genéticos

Generar población inicial P Para i=1, ... , numGeneraciones evalúa(P) P2 = cruza(P) evalúa(P2) P3 = mutación (P∪P2) evalúa(P3) P = selecciona(P∪P2∪P3) salida = mejorElemento(P)

Evaluación de selectores de variables

Utilizando un clasificador Seleccionar un conjunto de bases de datos Utilizar algún método de validación aplicando

selección+clasificación Utilizar alguna medida de evaluación de calidad de

clasificación

Utilizar datos sintéticos en los cuales se conozca cuáles son los atributos importantes

top related