clasificador gamma y su aplicación a la predicción de series de tiempo · series de tiempo...
TRANSCRIPT
Clasificador Gamma y su aplicación
a la predicción de series de tiempo
Dr. Itzamá López Yáñez
IPN - CIDETECMéxico
Modelos Asociativos y su aplicación a la predicción de Series de Tiempo:
Clasificador Gamma
• Introducción
• Modelos asociativos
• Clasificador Gamma
• Series de tiempo
– Contaminación atmosférica
– Producción de petróleo
• Conclusiones y Trabajo Futuro
• La predicción de valores futuros para una variable
dada ha sido un área de interés para la investigación
científica.
– Extrapolación de funciones
– Estimación de series de tiempo
– Predicción meteorológica
– Administración de cadena de suministro (Supply Chain)
– Predicción de datos ambientales
– Producción de petróleo
Introducción
• Varias técnicas de la InteligenciaComputacional se han aplicado a tareas depredicción y estimación…
• …de series de tiempo:
– Redes neuronales artificiales
– Máquinas de Soporte Vectorial
• … y recientemente:
– Clasificador Gamma
Introducción
5
Modelos asociativos
El propósito fundamental de una Memoria
Asociativa es recuperar correctamente
patrones completos a partir de patrones
de entrada, los cuales pueden estar
alterados con ruido aditivo, sustractivo o
combinado [1].
[1] Hassoun, M. H. (1993). Associative Neural Memories: Theory and Implementation. New York: Oxford University Press.
7
Modelos asociativos
Ruido
•Aditivo
•Substractivo
•Mezclado
Imágenes con niveles incrementales de ruido (5, 10, 20,
40, 50, 60, 80, 90 y 99%) de tres tipos: aditivo, substractivo
y mezclado.
8
Modelos asociativos
Una Memoria Asociativa se puede considerar
como un sistema de entrada y salida.
Memoria
Asociativax y
Memoria
Asociativax ( ) yx~
9
1961 Karl Steinbuch, Lernmatrix
1969 Willshaw, Buneman y Longuet-Higgins, Correlograph
1972 Anderson / Kohonen - Linear Associator
1982 Hopfield
1998 Ritter, Memorias Asociativas Morfológicas
Modelos asociativos
11
Modelos asociativosModelos Morfológicos
Máximo de Sumas
mi1
mij
min
……
x1
xj
xn
yi
+
+
+
Mínimo de Sumas
mi1
mij
min
……
x1
xj
xn
yi
+
+
+
12
Modelos asociativosMemorias asociativas Alfa-Beta
• En 2002, en el Grupo Alfa-Beta se crean los
operadores Alfa y Beta
BAA
111
201
010
100
, yxyx
AAB
112
102
111
001
010
000
, yxyx
2,1,0 1,0 BA
13
Modelos asociativosMemorias asociativas Alfa-Beta
• Fase de Aprendizaje (memorias tipo max)
• Fase de Recuperación (memorias tipo max)
nm
txy
tp
xy
1
V
ji
p
ij xyv ,1
jij
n
ji
xvx ,1
V xV
• Operador Gama de Similitud Generalizado
gg(x, y, )
– Operadores Alfa y Beta
– Operador uβ
• Código Binario Johnson-Möbius Modificado
Clasificador Gamma
Clasificador Gamma
• Operador u– Tiene como argumento de entrada un vector binario
n-dimensional x y la salida es un número entero no
negativo que se calcula así:
n
i
ii xxu
1
, x
Clasificador Gamma
• Código Binario Johnson-Möbius Modificado
– Ejemplo:
Número Código Johnson-Möbius Modificado
5 000000000000000000011111
15 000000000111111111111111
0 000000000000000000000000
24 111111111111111111111111
Clasificador Gamma
• Operador Gama de Similitud Generalizado
gg(x, y, )
– Tiene como argumentos de entrada dos vectores
binarios xAn y yAm, n-dimensional y
m-dimensional, respectivamente; con n, m Z+ ,
n ≤ m; y un número entero no negativo . La salida
es un número binario que se calcula así:
1 si , mod 2
, ,0 en otro caso
g
m u g
x yx y
Clasificador Gamma
Inicio
Codificar el CF con el código
Johnson-Möbius modificado
Calcular
Transformar índices
del CF
Codificar x con el código
Johnson-Möbius modificado
Calcular gg(xji, yj, )
Calcular ci
Máximo único? <
Asignar clase del
máximo único
Asignar clase del
primer máximo
Fin
Incrementar
• El Sistema de Monitoreo Atmosférico de la Cd.
de México (SIMAT) se encarga de monitorear
diversas variables de la calidad del aire, así como
publicar los niveles de contaminación.
• El Índice Metropolitano de la Calidad del Aire
(IMECA) es un valor de referencia para que la
población conozca los niveles de contaminación
prevalecientes en cualquier zona, de manera
precisa y oportuna.
Series de tiempoContaminación atmosférica
Series de tiempoContaminación atmosférica
IMECA Condición Efectos a la Salud
0-50: verde Buena Adecuada para llevar a cabo actividades al aire libre
51-100:
amarilloRegular
Posibles molestias en niños, adultos mayores y personas con
enfermedades
101–150:
naranjaMala
Causante de efectos adversos a la salud en la población, en particular los
niños y los adultos mayores con enfermedades cardiovasculares o
respiratorias como el asma
151–200:
rojoMuy Mala
Causante de mayores efectos adversos a la salud en la población en
general, en particular los niños y los adultos mayores con enfermedades
cardiovasculares o respiratorias como el asma
>200:
morado
Extremadame
nte Mala
Causante de efectos adversos a la salud de la población en general
Se pueden presentar complicaciones graves en los niños y los adultos
mayores con enfermedades cardiovasculares o respiratorias como el asma
Series de tiempoContaminación atmosférica
CONTAMINANTE ABREVIATURA UNIDADESNo.
ESTACIONES
Ozono O3 ppm 20
Bióxido de Nitrógeno NO2 ppm 19
Óxido de Nitrógeno NOX ppm 19
Monóxido de Nitrógeno NO ppm 19
Bióxido de Azufre SO2 ppm 26
Monóxido de Cárbono CO ppm 25
• Aplicación del clasificador Gamma a la predicción de datos ambientales tomados de las bases de datos del SIMAT
– Específicamente, el problema consiste en predecir la concentración de un contaminante dado, tomando como base las concentraciones registradas en una estación en particular a lo largo de un año.
– Los datos se toman de la base de datos de la RAMA.
Series de tiempoContaminación atmosférica
• Patrones de entrada: 10 muestras.
• Patrones de salida: muestra siguiente.
• Datos de aprendizaje: mediciones en ppm (partes por millón) de cada contaminante, obtenidas en una estación, muestreadas cada hora durante un año.
• Datos de prueba: datos obtenidos por la misma estación de monitoreo durante un mes de otro año.
Series de tiempoContaminación atmosférica
Series de tiempoContaminación atmosférica
003.0
008.0
019.0
029.0
067.0
094.0
085.0
105.0
077.0
030.0
x 003.0y
Series de tiempoContaminación atmosférica
Conjunto Fundamental Conjunto de Prueba
Experimento Contaminante Periodo Estación Tamaño Periodo Estación Tamaño
1 CO 2006 IMP 8710 2007-Feb IMP 651
2 CO 2006 IMP 8710 2007-May IMP 723
3 O3 2006 CES 8749 2007-Feb CES 651
4 O3 2006 CES 8749 2007-May CES 723
5 SO2 2006 TLI 8749 2007-Feb TLI 641
6 SO2 2006 TLI 8749 2007-May TLI 711
Series de tiempoContaminación atmosférica
Contaminante Muestra Predicho Real Error
CO 3 de febrero 18:00 0.42 ppm 0.42 ppm 0.00 ppm
O3 12 de mayo 17:00 0.034 ppm 0.048 ppm -0.014 ppm
SO2 19 de febrero 1:00 0.059 ppm 0.251 ppm -0.192 ppm
Experimento Contaminante Periodo de
Prueba
Estación RMSE Bias
1 CO 2007-Feb IMP 0.726013 7.96
2 CO 2007-May IMP 0.611769 45.58
3 O3 2007-Feb CES 0.012302 0.607
4 O3 2007-May CES 0.014443 0.306
5 SO2 2007-Feb TLI 0.012096 0.573
6 SO2 2007-May TLI 0.010487 0.439
Series de tiempoContaminación atmosférica
Monóxido de Carbono CO Feb-2007
0
5.5
11
1 49 97 145 193 241 289 337 385 433 481 529 577 625
CO
pp
m
Predicho Real
Series de tiempoContaminación atmosférica
Monóxido de carbono CO May-2007
0
5.5
11
1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721
CO
pp
m
Predicho Real
Series de tiempoContaminación atmosférica
Ozono O3 Feb-2007
0.000
0.055
0.110
0.165
1 49 97 145 193 241 289 337 385 433 481 529 577 625
O3
pp
m
Predicho Real
Series de tiempoContaminación atmosférica
Ozono O3 May-2007
0.000
0.055
0.110
0.165
1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721
O3
pp
m
Predicho Real
Series de tiempoContaminación atmosférica
Dióxido de Azufre SO2 Feb-2007
0.000
0.065
0.130
0.195
0.260
0.325
1 49 97 145 193 241 289 337 385 433 481 529 577 625
SO
2 p
pm
Predicho Real
Series de tiempoContaminación atmosférica
Dióxido de Azufre SO2 May-2007
0
0.065
0.13
0.195
0.26
1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721
SO
2 p
pm
Predicho Real
Series de tiempoContaminación atmosférica
Base de datos SIMAT (concentración)
Experimento Algoritmo Usado Contaminante
Considerado
Tamaño del CF /
Conjunto de Prueba
Desempeño
(Abs. Avg. Error)
Bayesian network [7] O3 (ppm) 400 / 200 26.8 / 10
Neural network [7] O3 (ppm) 400 / 200 19.4 / NA
C4.5 [7] O3 (ppm) 400 / 200 21.4 / NA
Clasificador Gamma [12] SO2 (ppm) 8749 / 709 0.000408
1 Clasificador Gamma CO (ppm) 8710 / 651 0.012042
2 Clasificador Gamma CO (ppm) 8710 / 723 0.062183
3 Clasificador Gamma O3 (ppm) 8749 / 651 0.000918
4 Clasificador Gamma O3 (ppm) 8749 / 723 0.000417
5 Clasificador Gamma SO2 (ppm) 8749 / 641 0.000676
6 Clasificador Gamma SO2 (ppm) 8749 / 711 0.000795
Series de tiempoContaminación atmosférica
Bases de datos Diversas (concentración)
Experimento Algoritmo Usado Contaminante
Considerado
Tamaño del CF /
Conjunto de Prueba
Desempeño
(Abs. Avg. Error)
Neural network [8] O3 (μg/m3) 613 / 105 15
Neural network [9] O3 (ppb) NA / 1343
NA /2367
9.43
13.79
Online SVM [10] SO2 (mg/m3) 240 / 168 12.96, 10.90
CALINE3 [11] PM10, PM2.5
(mg/m3)
~120 88, 55
Clasificador Gamma [12] SO2 (ppm) 8749 / 709 0.009218
1 Clasificador Gamma CO (ppm) 8710 / 651 0.012042
2 Clasificador Gamma CO (ppm) 8710 / 723 0.062183
3 Clasificador Gamma O3 (ppm) 8749 / 651 0.000918
4 Clasificador Gamma O3 (ppm) 8749 / 723 0.000417
5 Clasificador Gamma SO2 (ppm) 8749 / 641 0.000676
6 Clasificador Gamma SO2 (ppm) 8749 / 711 0.000795
• Aplicación del clasificador Gamma a la predicción de datos de producción de petróleo en un campo maduro
– Específicamente, el problema consiste en predecir la producción de petróleo de un pozo dado, tomando como base las producciones registradas en el mismo pozo.
– Los datos se toman de los registros históricos de producción del campo.
Series de tiempoProducción de petróleo
• Patrones de entrada: 12 muestras (1 año).
• Patrones de salida: muestra con separación variable (s = 1, 2, …, 12).
• Datos de aprendizaje: producción mensual histórica del pozo.
• Datos de prueba: datos de producción de un año en particular.
Series de tiempoProducción de petróleo
Series de tiempoProducción de petróleo
0.00E+00
2.00E+04
4.00E+04
6.00E+04
8.00E+04
1.00E+05
1.20E+05
1 13 25 37 49 61 73 85 97 109 121 133 145 157
Oil
pro
du
ctio
n
TS 1 (l = 12, n = 6)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
0.00E+00
2.00E+04
4.00E+04
6.00E+04
8.00E+04
1.00E+05
1.20E+05
1.40E+05
1.60E+05
1.80E+05
1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241 253 265 277 289
Oil
pro
du
ctio
n
TS 2 (l = 12, n = 6)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
0.00E+00
2.00E+04
4.00E+04
6.00E+04
8.00E+04
1.00E+05
1.20E+05
1.40E+05
1.60E+05
1 13 25 37 49 61 73 85 97 109 121
Oil
pro
du
ctio
n
TS 3 (l = 12, n = 18)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
0.00E+00
5.00E+03
1.00E+04
1.50E+04
2.00E+04
2.50E+04
3.00E+04
3.50E+04
1 13 25 37 49 61 73 85 97 109 121 133 145 157 169
Oil
pro
du
ctio
n
TS 4 (l = 12, n = 12)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
0.00E+00
2.00E+04
4.00E+04
6.00E+04
8.00E+04
1.00E+05
1.20E+05
1 13 25 37 49 61 73 85 97 109 121 133
Oil
pro
du
ctio
n
TS 5 (l = 24, n = 12)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
0.00E+00
5.00E+04
1.00E+05
1.50E+05
2.00E+05
2.50E+05
1 13 25 37 49 61 73 85 97 109 121 133
Oil
pro
du
ctio
n
TS 6 (l = 12, n = 6)
Oil Combined Combined Average
Series de tiempoProducción de petróleo
MSE
Combined Combined Avg.
TS 1 2.40E+07 2.09E+07
TS 2 3.38E+07 4.84E+07
TS 3 8.71E+06 8.71E+06
TS 4 9.92E+05 1.19E+06
TS 5 2.97E+08 2.97E+08
TS 6 2.80E+07 2.95E+07
MAPE
Combined Combined Avg.
TS 1 6.32% 6.32%
TS 2 85.98% 85.98%
TS 3 3.56% 3.56%
TS 4 11.46% 11.05%
TS 5 65.16% 65.16%
TS 6 131.91% 131.91%
Conclusiones y Trabajo Futuro
• Se ha aplicado el clasificador Gamma a la predicción de series de tiempo relacionadas con datos ambientales y producción de petróleo.
• Los experimentos han mostrado resultados competitivos.
• Es posible aplicar el clasificador Gamma a la predicción de series de tiempo, considerando muestras inmediatas (s = 1) o con separación arbitraria (s = 1, 2, …, l).
Conclusiones y Trabajo Futuro
• ¡Cuidado con las comparaciones!
– Bases de datos no estándar.
• Los errores de mayor magnitud se presentan en
los puntos de inflexión.
– Valores negativos [!].
• Series de tiempo multivaluadas.
• Caracterización de series de tiempo.
¡ Gracias !
Thanks !
Xie xie ni
Domo arigatou
Спасибо
Merci
Grazie
Dr. Itzamá López-Yáñez – [email protected]
Grupo Alfa-Beta - http://www.alfabeta.org.mx