universidad politecnica de madrid´ - archivo...
Post on 26-Sep-2018
218 Views
Preview:
TRANSCRIPT
UNIVERSIDAD POLITECNICA DE MADRID
ESCUELA TECNICA SUPERIOR
DE INGENIEROS DE TELECOMUNICACION
UN MODELO NEURONAL BASADO EN LA
METAPLASTICIDAD PARA LA CLASIFICACION DE
OBJETOS EN SENALES 1-D Y 2-D.
TESIS DOCTORAL
Alexis Enrique Marcano CedenoLic. en Informatica
2010
Universidad Politecnica de Madrid
Escuela Tecnica Superior de Ingenieros de Telecomunicacion
Departamento de Senales, Sistemas y Radiocomunicaciones
UN MODELO NEURONAL BASADO EN LA
METAPLASTICIDAD PARA LA CLASIFICACION DE
OBJETOS EN SENALES 1-D Y 2-D.
TESIS DOCTORAL
Autor:
Alexis Enrique Marcano Cedeno
Lic. en Informatica
Director:
Diego Andina de la Fuente
Dr. Ingeniero del Dpto. de Senales, Sistemas y Radiocomunicaciones
Universidad Politecnica de Madrid
2010
TESIS DOCTORAL
UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD
PARA LA CLASIFICACION DE OBJETOS EN SENALES 1-D Y 2-D.
AUTOR: Alexis Enrique Marcano Cedeno
DIRECTOR: Diego Andina de la Fuente
PRESIDENTE:
SECRETARIO:
VOCAL:
VOCAL:
VOCAL:
SUPLENTE:
SUPLENTE:
Realizado el acto de defensa y lectura de Tesis el dıa de de 2010.
En la E.T.S. de Ingenieros de Telecomunicacion.
Calificacion:
EL PRESIDENTE LOS VOCALES
EL SECRETARIO
A Camila por el tiempo robado.....
((Aquella teorıa que no encuentre apli-
cacion practica en la vida, es una
acrobacia del pensamiento)).
Swami Vivekananda
Dedicatoria
Dedicada muy especialmente:
A mis padres Anıbal y Luisa de Marcano (†) por haberme dado la vida, por
guiarme y darme su apoyo en todo momento.
A Carol por su paciencia, confianza, apoyo y por haberme dado el impulso nece-
sario para alcanzar esta meta.
A mis hermanos Crispina, Jose y Luisa Celeste por todo su apoyo, confianza y
aliento desde la planificacion, inicio y finalizacion de mis estudios doctorales.
A mis sobrinos Franchiny, Cristian, Cris Jose, Franco y Frank Ali por haberme
dado la oportunidad de compartir sus vivencias, experiencias y sobre todo por
haberme dado muchas alegrıas y satisfacciones.
A mis amigos, companeros y profesores de la Universidad Pedagogica Experi-
mental Libertador (UPEL), Elsa Rivas, Abdel Puerta, Victor Reyes por su apoyo
incondicional en esta etapa.
i
Agradecimientos
La realizacion y culminacion de esta tesis no hubiera sido posible sin la colabo-
racion de muchas personas que, de un modo u otro me han aportado sus conocimien-
tos y brindado su apoyo.
En primer lugar quiero dar mi agradecimiento a mi tutor y director de tesis Dr.
Diego Andina de la Fuente, quien desde el primer momento me dio todo su apoyo,
amistad y me guio durante esta investigacion ası como tambien supo canalizar todas
mis esfuerzos para finalizar con exito esta etapa de mi vida. Debo agradecer, ademas,
su paciente revision del texto presentado.
Este trabajo ha sido enriquecido y fortalecido por las sugerencias, aportaciones,
crıticas y recomendaciones en los aspectos teoricos y practicos por los profesores
Joaquın Torres, Ernesto Castaneda, Jose Luis Tapia, Juan Grau, Antonio Fumero,
Carlos Gonzalez.
Lupita, Joel, Aleskandar, Benjamın, Fulgencio mis companeros de laboratorio de
GASC, por sus sugerencias, criticas, aportaciones y recomendacion durante todos
mis estudios doctorales y muy especialmente por haber hecho mis estancia mas
sencilla y placentera.
De manera muy especial a Miguelito por todas sus aportaciones, sugerencias,
recomendaciones y por su companıa durante esta fase del doctorado.
Este trabajo hubiera sido casi imposible de terminar sin la valiosa colaboracion y
aportacion del Fondo Nacional de Ciencia, Tecnologıa e Innovacion de la Republica
Bolivariana de Venezuela.
ii
Resumen
El Algoritmo de Retropropagacion (Algoritmo Backpropagation, ABP), es uno
de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes
Neuronales Artificiales, RNAs. El ABP ha sido empleado con exito en problemas de
clasificacion de patrones en areas como: Medicina, Bioinformatica, Telecomunica-
ciones, Banca, Predicciones Climatologicas, etc. Sin embargo el ABP tiene algunas
limitaciones que le impiden alcanzar un nivel optimo de eficiencia (problemas de
lentitud, convergencia y de exactitud en la clasificacion). Estos problemas han dado
lugar a un gran numero investigaciones para mejorar al mencionado algoritmo. Pero
a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavıa no
existe una solucion optima, que se pueda aplicar a todos los problemas.
En esta Tesis Doctoral se propone una alternativa para mejorar algunas de las
deficiencias del ABP. El algoritmo propuesto, es una aplicacion de un modelo neu-
ronal basado en la propiedad biologica de la Metaplasticidad. La Metaplasticidad
es un concepto biologico ampliamente conocido y usado en muchos campos rela-
cionados con la Biologıa, Neuro-Biologıa, Psicologıa, Neurologıa y Neuro-Fisiologıa
entre otros. La Metaplasticidad esta relacionada con los procesos de la memoria y
del aprendizaje.
Una de las ventajas del algoritmo propuesto de la Metaplasticidad Artificial
(Artificial Metaplasticity, AMP) es que, se puede implementar en cualquier RNA,
en esta tesis, se implemento por primera vez para diversas aplicaciones multidisci-
plinarias en un Perceptron Multicapa (Multilayer Perceptron, MLP). De todos los
modelos AMP probados en la literatura, el modelo mas eficiente (en funcion del
tiempo de aprendizaje y rendimiento) es el enfoque que conecta la metaplasticidad
con la Teorıa de la informacion de Shannon, que establece que los patrones menos
frecuentes tienen mas informacion que los patrones mas frecuentes. Este modelo de-
iii
fine la metaplasticidad artificial como un procedimiento de aprendizaje que produce
una mayor modificacion en los pesos sinapticos de los patrones menos frecuentes que
de los patrones mas frecuentes, como una forma de extraer mas informacion de los
primeros que de los ultimos.
El modelo de la Metaplasticidad Artificial en un Percentron Multicapa (Arti-
ficial Metaplasticity on Percentron Multilayer, AMMLP) se aplicado en la fase de
entrenamiento de las RNAs. Durante esta fase, el algoritmo AMMLP a dado mas
relevancia a los patrones menos frecuentes y se ha restado importancia a los mas
frecuentes, asegurando ası un entrenamiento mas eficaz, mientras se mantiene el
rendimiento del MLP.
El algoritmo propuesto AMMLP se ha aplicado a diferentes problemas relaciona-
dos con la clasificacion de patrones en distintas areas (Medica, Finanzas e Industri-
ales), demostrando en todos los casos ser superior en terminos de exactitud en la
clasificacion, velocidad de convergencia, fiabilidad y bajo coste computacional a los
algoritmos propuestos recientemente por otros investigadores y que han sido com-
parados en esta tesis.
iv
Abstract
The Backpropagation Algorithm, BPA, is one of the most known and used al-
gorithms to training the Artificial Neuronal Networks, ANNs. The BPA has been
success used in problems of patterns classification in areas such as: Medicine, Bioin-
formatic, Telecommunications, Banking, Climatological Predictions, etc. However
the BPA has some limitations that prevent to reach an optimal efficiency level
(slowness problems, convergence and classification accuracy). These problems have
provoked a big number researches to improve the BPA. However, in general none
of the modifications have been capable of delivering satisfactory performance for all
problems.
In this doctoral Thesis is proposed an alternative to improve some of the BPA
deficiencies. The suggested algorithm, is a neuronal model based on the biological
property of the Metaplasticity. The Metaplasticity is a biological concept widely
known in the fields of biology, medical computer science, neuroscience, physiology,
neurology and others. The Metaplasticity is related to the processes of memory and
of the learning.
The main advantage of the suggested Artificial Metaplasticity algorithm, AMP, is
that, it is able implementing in any ANNs, in this thesis, algorithm was implemented
in a Multilayer Perceptron, MLP. The most efficient AMP model (as a function of
learning time and performance) is the approach that connects metaplasticity and
Shannon’s information theory, which establishes that less frequent patterns carry
more information than frequent patterns. This model defines artificial metaplas-
ticity as a learning procedure that produces greater modifications in the synaptic
weights with less frequent patterns than frequent patterns, as a way of extracting
more information from the former than from the latter.
v
The Artificial Metaplasticity on Multilayer Percentron, (AMMLP) model was
applied in the ANNs training phase. During the training phase, the AMMLP algo-
rithm assigns higher values for updating the weights in the less frequent activations
than in the more frequent ones. AMMLP achieves a more efficient training and im-
proves MLP performance.
The suggested AMMLP algorithm was applied to different related problems to
the pattern classification in different areas (Medical, Finance and Industrialists).
The AMMLP demonstrated in all cases be superior in terms of classification accu-
racy, speed, reliability and low computational cost than others algorithms recently
suggested by other researchers and applied a this areas.
vi
Indice
1. Introduccion 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . 14
1.5. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2. Redes Neuronales Artificiales 17
2.1. Neuronas Biologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. Definicion de Red Neuronal . . . . . . . . . . . . . . . . . . . 20
2.2.2. La Neurona Artificial . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3. Aprendizaje de las Redes Neuronales Artificiales . . . . . . . 24
2.2.4. Arquitectura de las Redes Neuronales Artificiales . . . . . . . 27
3. El Perceptron 34
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2. El Perceptron Monocapa . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1. Dinamica del Perceptron . . . . . . . . . . . . . . . . . . . . . 35
3.2.2. Aprendizaje del Perceptron . . . . . . . . . . . . . . . . . . . 39
3.2.3. Limitaciones del Perceptron Monocapa . . . . . . . . . . . . . 43
vii
3.3. El Perceptron Multicapa . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4. El Algoritmo de Retropropagacion . . . . . . . . . . . . . . . . . . . 48
3.4.1. Metodo del Gradiente . . . . . . . . . . . . . . . . . . . . . . 49
4. La Metaplasticidad 57
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2. Resena Historica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3. Plasticidad Sinaptica . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.1. Potenciacion y Depresion a largo plazo . . . . . . . . . . . . . 59
4.3.1.1. Potenciacion a Largo Plazo, PLP . . . . . . . . . . . 59
4.3.1.2. Depresion a Largo Plazo, DLP . . . . . . . . . . . . 61
4.4. Plasticidad Intrınseca . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5. Metaplasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5. Metaplasticidad Artificial 65
5.1. La Metaplasticidad y la Teorıa de la Informacion de Shannon . . . . 65
5.2. Algoritmo de Backpropagation y AMP . . . . . . . . . . . . . . . . . 66
5.3. Implementacion de la Metaplasticidad Artificial en el Entrenamiento
de un MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.4. Algoritmo AMMLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.5. Seleccion de la estructura de Red de un AMMLP . . . . . . . . . . . 71
6. Experimentos y Resultados 74
6.1. Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1.1. Base de Datos de Cancer de Mama de Wisconsin . . . . . . . 74
6.1.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 76
6.1.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 77
6.1.3.1. Exactitud de los resultados . . . . . . . . . . . . . . 77
6.1.3.2. Resultados de la curva ROC . . . . . . . . . . . . . 80
6.1.3.3. Comparacion con el Estado-del-Arte . . . . . . . . . 83
6.1.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
viii
6.2. Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2.1. Base de Datos de Aprobacion de Credito de Australia . . . . 86
6.2.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 87
6.2.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 88
6.2.3.1. Exactitud de los resultados . . . . . . . . . . . . . . 89
6.2.3.2. Comparacion con el Estado-del-Arte . . . . . . . . . 91
6.2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3. Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.3.1. Base de datos de Nudos . . . . . . . . . . . . . . . . . . . . . 94
6.3.1.1. Extraccion de Caracterısticas . . . . . . . . . . . . . 94
6.3.1.2. Seleccion de Caracterısticas . . . . . . . . . . . . . . 96
6.3.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 96
6.3.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 97
6.3.3.1. Comparacion con el Estado-del-Arte . . . . . . . . . 99
6.3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.4. Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 101
6.4.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 102
6.4.3.1. Comparacion con el Estado-del-Arte . . . . . . . . . 104
6.4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.5. Experimento 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.5.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.5.2. Seleccion de Caracterısticas . . . . . . . . . . . . . . . . . . . 108
6.5.2.1. Seleccion Secuencial Adelante . . . . . . . . . . . . . 108
6.5.2.2. Red Neuronal de Alimentacion Adelante . . . . . . 108
6.5.2.3. Implementacion del SFS-FFNN . . . . . . . . . . . 109
6.5.3. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 111
6.5.4. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 112
6.5.4.1. Comparacion con el Estado-del-Arte . . . . . . . . . 113
ix
6.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
7. Conclusiones 115
8. Contribuciones y Lıneas Futuras de Investigacion 117
8.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2. Lıneas Futuras de Investigacion . . . . . . . . . . . . . . . . . . . . . 119
I APENDICES 121
8.3. Publicaciones que sustentan la Tesis . . . . . . . . . . . . . . . . . . 122
8.3.1. Publicaciones en Revistas (JCR) . . . . . . . . . . . . . . . . 122
8.3.2. Publicaciones en Congresos . . . . . . . . . . . . . . . . . . . 122
8.4. Otras Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
x
Indice de Figuras
2.1. Estructura basica de una neurona biologica. . . . . . . . . . . . . . 18
2.2. Representacion de una neurona artificial tipo McCulloch-Pitts. . . . 21
2.3. a) Muestra un ejemplo de una red Feed-forward, en esta red la infor-
macion siempre se mueve en una direccion, nunca va hacia atras. (b)
En las redes recurrentes, la informacion puede fluir en dos direcciones
y los nodos de entrada se pueden comunicar con los nodos de salida. 29
2.4. Arquitectura de un Perceptron Multicapa. . . . . . . . . . . . . . . 30
2.5. Arquitectura de un mapa autoorganizado. . . . . . . . . . . . . . . 31
2.6. Arquitectura de una red de funcion de base radial. . . . . . . . . . . 32
2.7. Taxonomıa Basica de las RNA . . . . . . . . . . . . . . . . . . . . . 33
3.1. Esquema de un perceptron monocapa. . . . . . . . . . . . . . . . . . 35
3.2. Funcion logica AND. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Funcion logica OR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4. Perceptron monocapa con N neuronas. . . . . . . . . . . . . . . . . . 38
3.5. Funcion logica XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Distintas formas de las regiones generadas por un perceptron multicapa. 47
xi
4.1. Proceso de induccion a la Potenciacion a Largo Plazo, PLP: a) Nor-
malmente el canal NMDA esta bloqueado por una molecula de Mag-
nesio (Mg2+). b) La activacion repetida del receptor AMPA permite
la entrada de sodio (Na+) a la neurona lo que produce una despolar-
izacion de la misma y expulsa el Magnesio del canal NMDA y permite
la entrada de iones de calcio Ca2+. c) el incremento del iones de cal-
cio produce la activacion de las proteınas cimasas lo que hace mas
sensible a la neurona a nuevos estımulos, lo cual facilita la PLP. . . . 60
4.2. Proceso de induccion a la Depresion a Largo Plazo, DLP: a) La DPL
se produce con cuando se activan los receptores NMDA y el ingreso
del calcio (Ca2+) a la neurona postsinaptica es un pocas cantidades.
b) La DLP tambien puede originarse despues de de un periodo de
PLP cuando haya una disminucion en los niveles de calcio. La DPL
ayuda a mantener el equilibrio de las neuronas, es decir, que actua
como un proceso homeostatico. . . . . . . . . . . . . . . . . . . . . . 61
4.3. Los cambios en la fuerza sinaptica debido a la actividad postsinaptica
de las neuronas biologicas. Si la actividad postsinaptica es alta, la
curva se desplazara hacia la derecha, lo que reforzara la LTP. En la
grafica se muestra una familia de curvas en las que cada curva indica
la variacion de los pesos, ∆ω, con respecto a la activacion de las
neuronas. Para valores altos de los pesos, ω, la curva se alargara mas
a la derecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4. La metaplasticidad consiste en el cambio del umbral de PLP en fun-
cion del peso inicial de la sinapsis. Estas dos imagenes muestran grafi-
camente esta idea. Para valores superiores del peso inicial la curva
sinaptica es alargada de manera que el valor umbral PLP correspon-
de a los valores mas altos de la actividad postsinaptica. . . . . . . . 64
6.1. Muestra la curva ROC de los clasificadores, donde se puede apreciar
claramente y una vez mas la superioridad del AMMLP sobre el BP
estandar, en este caso en particular. (a) Muestra la curva ROC y la
AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y la AUC de
0.928 del BP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2. Tipos de nudos usados en esta investigacion: a) Nudo de Borde. b)
Nudo Encerrado. c) Nudo de Hoja. . . . . . . . . . . . . . . . . . . . 93
xii
6.3. Distribucion de lo patrones usados en la etapa de entrenamiento. . . 98
6.4. Distribucion de la clasificacion de los patrones obtenida en la fase de
prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.5. Evolucion del error en la clasificacion usando SFS-FFNN para cada
base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
xiii
Indice de Tablas
1.1. Algoritmos propuestos para mejorar el ABP entre los anos 1990-2000. 11
1.2. Algoritmos propuestos para mejorar el ABP entre los anos 2001-2010. 12
2.1. Funciones de activacion. . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.1. Descripcion de los atributos del cancer de mama de la base de datos
de Wisconsin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2. Resultados obtenidos para AMMLP, con diferentes estructuras de red
y diferentes parametros de metaplasticidad. . . . . . . . . . . . . . . 76
6.3. Parametros de red aplicados a la WBCD. . . . . . . . . . . . . . . . 77
6.4. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.5. Matriz de confusion de la mejor clasificacion obtenida por los clasifi-
cadores en una simulacion. . . . . . . . . . . . . . . . . . . . . . . . . 79
6.6. Exactitud obtenida en la mejor simulacion para cada clasificador para
la clasificacion del cancer de mama. . . . . . . . . . . . . . . . . . . . 80
6.7. Promedio de exactitud de la clasificacion del cancer de mama obtenido
por cada clasificador en 100 simulaciones. . . . . . . . . . . . . . . . 80
6.8. Exactitud de la clasificacion obtenida por el metodo propuesto AMMLP
y por otros clasificadores consultados en la literatura. . . . . . . . . 84
6.9. Descripcion de los atributos de la base de datos Aprobacion de Credito
de Australia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.10. Resultados obtenidos por el AMMLP al aplicarlo a la base de datos
ACAS, usando diferentes estructuras de red y diferentes parametros
de metaplasticidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.11. Parametros de red aplicados a la ACAS. . . . . . . . . . . . . . . . . 88
xiv
6.12. Matrices de confusion de la mejor clasificacion obtenida por los clasi-
ficadores en una simulacion usando la base de datos ACAS. . . . . . 90
6.13. Exactitud de la clasificacion obtenida por los clasificadores en la mejor
simulacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.14. Promedio en la exactitud de la clasificacion obtenida en 50 simula-
ciones para cada clasificador. . . . . . . . . . . . . . . . . . . . . . . 90
6.15. Exactitud de la clasificacion usando la base de datos Aprobacion de
Credito Australiana obtenida por el metodo propuesto AMMLP y por
otros clasificadores consultados en la literatura. . . . . . . . . . . . . 92
6.16. Distribucion de las muestras utilizadas en este estudio por clases. . 94
6.17. Resultados obtenidos por el AMMLP, con diferentes estructuras de
red y diferentes parametros de metaplasticidad usados con base de
datos de nudos en la madera. . . . . . . . . . . . . . . . . . . . . . . 97
6.18. Matrices de confusion del mejor resultado obtenido por cada clasifi-
cador en una simulacion clasificando los nudos en la madera. . . . . 97
6.19. Promedio de exactitud de la clasificacion de nudos en la madera
obtenida por los clasificadores en 50 simulaciones. . . . . . . . . . . . 99
6.20. Distribucion de las bases de datos consideradas en este estudio. . . . 101
6.21. Distribucion de los patrones usados para el entrenamiento y prueba
de las redes usando diferentes bases de datos. . . . . . . . . . . . . . 101
6.22. Resultados obtenidos por el AMMLP, con diferentes estructuras de
red y diferentes parametros de metaplasticidad para la base de datos
Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.23. Resultados obtenidos por el AMMLP, con diferentes estructuras de
red y diferentes parametros de metaplasticidad para la base de datos
del Vino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.24. Resultados obtenidos por el AMMLP, con diferentes estructuras de
red y diferentes parametros de metaplasticidad para la base de datos
Ionosfera. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.25. El mejor resultado obtenido por el BP estandar, para cada base de
datos usada en este estudio. . . . . . . . . . . . . . . . . . . . . . . . 103
6.26. Comparacion de los resultados obtenidos por el AMMLP y el BP
estandar para cada base de datos. . . . . . . . . . . . . . . . . . . . . 103
xv
6.27. Promedio de exactitud obtenido en la clasificacion del AMMLP y del
BP estandar en 100 simulaciones. . . . . . . . . . . . . . . . . . . . . 103
6.28. Comparacion en la exactitud de la clasificacion obtenida por el meto-
do propuesto AMMLP y por otros metodos usando las mismas bases
de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.29. Caracterısticas de las bases de datos consideradas en este estudio. . . 108
6.30. Resultado de la seleccion de caracterısticas despues de aplicar el meto-
do propuesto SFS-FFNN. . . . . . . . . . . . . . . . . . . . . . . . . 111
6.31. Numero de patrones utilizando para el entrenamiento y prueba para
cada base de datos usada en este estudio. . . . . . . . . . . . . . . . 111
6.32. Diferentes estructuras de redes neuronales aplicados para cada base
de datos en este estudio. . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.33. Diferentes parametros de red y de metaplasticidad aplicados para
cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . 112
6.34. La mejor estructura de red y parametros de metaplasticidad para
cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.35. Los mejores resultados obtenidos en una simulacion por el AMMLP
y el BP estandar con las caracterısticas seleccionadas de cada base de
datos por el metodo SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113
6.36. Promedio obtenido en 100 simulaciones por el AMMLP y el BP
estandar usando las caracterısticas seleccionadas de cada base de
datos por el metodo SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113
6.37. Reduccion de la dimensionalidad de las bases de datos y la exactitud
en la clasificacion del AMMLP y de otros algoritmo propuesto usando
las mismas bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 114
xvi
Lista de Abreviaturas
AMMLP Artificial Metaplasticity in a Perceptron Multilayer.
AMP Artificial Metaplasticity.
AMPA Alpha-Amino-3-hydroxy-5-Methyl-4-isoxazolePropionic Acid receptor.
ANMBP Algorithm Neighborhood Modified Backpropagation.
ANN Artificial Neural Network.
AUC Area Under the Curve.
BP Backpropagation.
BPAVSAF Backpropagation Algorithm with Varying Slope of Activation Function.
BPDC Backpropagation-Decorrelation.
BPVS Backpropagation with Variable Stepsize.
BPWE Backpropagation by Weight Extrapolation.
BST Backpropagation with Selective Training.
CBP Constructive Backpropagation.
CC Cascade-Correlation.
CG Conjugate Gradient.
DDB Dynamic of Decision Boundaries.
DS Dynamic Self-adaptation.
DV Descent Vector.
ELEANNE Efficient Learning Algorithms for Neural Networks.
EmBP Backpropagation Emocional.
ES Expert Systems.
ESP Error Saturation Prevention.
FFNN Feed-forward Neural Network.
FGBP Fuzzy General Backpropagation.
F-PM First-Principle Model.
GA Genetic Algorithm.
HFS High-Frequency Stimulation.
xvii
IBLN Incremental Backpropagation Learning Network.
IIALR Individual Inference Adjusting Learning Rate Technique.
ISAs Matrix Instruction Set Architectures.
LCFNN Local Coupled Feedforward Neural Network.
LFS Low Frequency Stimulation.
LPEBP Learning Phase Evaluation Backpropagation Neural Network.
LR Learning Rate.
LS-PEN Least Squares and Penalty.
LTD Long-Term Depression.
LTP Long-Term Potentiation.
LUT Look-up Table.
MBP Matrix BackPropagation.
MF Momentum Factor.
MLEANN Meta-Learning Evolutionary Artificial Neural Network.
MLP Perceptron Multilayer.
MSE Mean Squared Error.
NMDA N-Metil-D-Aspartato.
PDF Probability Density Function.
PF Proportional Factor.
PUNNs Product Unit Neural Networks with Exponential Weights.
RBFN Radial Basis Function Networks.
RBPA Robust BP Algorithm.
ROC Receiver Operating Characteristic.
SCBP Split-Complex Backpropagation.
SD Steepest Descent.
SVD Singular Value Decomposition.
TAO-RBLA TAO-Robust Backpropagation Learning Algorithm.
Three-Term
BPA
Three-Term BP Algorithm.
TS Tabu Search.
Z-EDM Error Density at the Origin.
xviii
Capıtulo 1
Introduccion
1.1. Introduccion
Las Redes Neuronales Artificiales, RNAs(Artificial Neural Networks, ANNs)
estan inspiradas en las redes neuronales biologicas del cerebro humano. La RNAs
estan constituidas por elementos que se comportan de forma similar a la neurona
biologica en sus funciones mas comunes. Estos elementos estan organizados de una
forma parecida a la que presenta el cerebro humano.
Las RNA al margen de “parecerse” al cerebro presentan una serie de carac-
terısticas propias del cerebro. Por ejemplo las RNA aprenden de la experiencia,
generalizan de ejemplos previos a ejemplos nuevos y abstraen las caracterısticas
principales de una serie de datos.
Muchos algoritmos o metodos de aprendizaje disenados para RNAs, se basan
en la minimizacion del error de la funcion objetivo. Durante el aprendizaje, los
valores de los pesos son actualizados siguiendo una estrategia que tiende a reducir al
mınimo el error final del funcionamiento de la red, entre esos algoritmos uno de los
mas usados es el Algoritmo de Retropropagacion (Algoritmo de Backpropagation,
ABP), sin embargo, el mencionado algoritmo tiene algunas limitaciones que le
impiden alcanzar un nivel optimo de eficiencia. El aprendizaje tarda con frecuencia
un largo tiempo en converger y puede quedar facilmente atrapado en mınimos
locales sin lograr alcanzar el mınimo global [1, 2, 3]. Para resolver algunos de
los inconvenientes antes mencionados del ABP muchos investigadores desarrollan
continuamente modificaciones o variantes de este algoritmo. Una buena parte
de estas modificaciones tratan de resolver el problema de su lenta convergencia,
1
1.1 Introduccion
mientras que otras se centran en conseguir una mejor generalizacion del mencionado
algoritmo. Sin embargo, en general ninguna de las modificaciones es capaz de
ofrecer un rendimiento satisfactorio para todos los problemas. La gran mayorıa de
estas modificaciones por lo general implican mas calculos y mas procesamiento por
iteracion ası como tambien requieren de la eleccion a priori de algunos parametros
adicionales [3]. Por estos motivos la busqueda de un enfoque para acelerar el proceso
de convergencia y/o para la mejora del rendimiento general del entrenamiento del
ABP continua siendo el centro de investigacion para muchos investigadores.
En esta tesis, propone y se desarrolla un modelo neuronal basado en la
propiedad biologica de la Metaplasticidad con la finalidad de mejorar los prob-
lemas de lentitud, convergencia y exactitud del ABP. La Metaplasticidad es un
concepto biologico ampliamente conocido en areas como: Biologıa, Fisiologıa,
Ciencia Medica, Neurologıa, Neurociencia y Psicologıa entre otros, y es motivo de
continuas investigaciones [4, 5, 6, 7, 8]. Una de las ventajas del modelo propuesto
de la Metaplasticidad Artificial (Artificial Metpalasticity, AMP) es que, se puede
implementar en cualquier RNAs, en esta tesis, se implementara en un Perceptron
Multicapa (Multilayers Perceptron, MLP). El modelo propuesto para este estudio a
partir de ahora se llamara Metaplasticidad Artificial en un Percentron Multicapa,
(Artificial Metaplasticity Multilayer on Perceptron, AMMLP).
El modelado de la AMP se realizara en la fase de entrenamiento de las RNAs.
De todos los modelos AMP probados en la literatura hasta ahora, el mas eficiente
desde el punto de vista del aprendizaje y el rendimiento es el que conecta la Meta-
plasticidad con la teorıa de la informacion de Shannon, es decir, que durante la
fase de entrenamiento, el algoritmo AMMLP dara mas relevancia a los patrones
menos frecuentes y sustraera importancia a los patrones mas frecuentes, aseguran-
do ası un entrenamiento mas eficaz, mientras se mantiene el rendimiento del MLP.
Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-Cedeno
[10, 11, 12] han introducido y modelado la propiedad biologica de la Metaplasticidad
en el campo de las RNA, obteniendo excelentes resultados.
2
1.2 Antecedentes
1.2. Antecedentes
Como se comento anteriormente el Algoritmo de Retropropagacion (Algoritmo
de Backpropagation, ABP), para el entrenamiento de las Redes Neuronales Arti-
ficiales, RNAs, ha sido usado con exito en problemas reales para la clasificacion
de patrones en Medicina, Bioinformatica, Telecomunicaciones, Banca, Predicciones
Climatologicas, entre otros [10, 13, 14, 15]. Sin embargo a pesar del exito obtenido
este algoritmo tiene algunas dificultades. Debido a estas dificultades el algoritmo de
retropropagacion ha sido uno de los algoritmos que mas modificaciones ha sufrido
desde su creacion. Para esta investigacion se ha tenido que hacer una seleccion de
los algoritmos propuestos para mejorar al ABP del ano 1990-2010.
En 1990, Leonard & Kramer, desarrollaron un metodo basado en el Gradiente
Conjugado (Conjugate Gradient, CG), dicho metodo es una combinacion de lotes de
ejemplos y de busqueda lineal con el gradiente descendiente en la direccion conjuga-
da. Leonard & Kramer demostraron que el metodo del gradiente conjugado puede
ser visto con un ABP por lotes con ajuste dinamico de la tasa de aprendizaje y del
momento [16].
En 1991, Lee & Weidman, propusieron que para mejorar el entrenamiento de
las RNAs, necesariamente se debıa hacer uso de los Sistemas Expertos (Expert
Systems, ES). Lee & Weidman concluyeron que el uso de un sistema experto para
supervisar el entrenamiento es mucho mas eficiente que realizar un entrenamiento
de las RNAs per se [17]. Kim & Ra, formularon un algoritmo llamado Dynamic of
Decision Boundaries, DDB, para elegir los valores iniciales de los pesos, los cuales
son obtenidos de la regla del delta generalizada, con lo cual se mejora la estabilidad y
la velocidad del proceso de aprendizaje mediante la eliminacion de los efectos retraso
y convergencia del ABP [18].
En 1992, Scalero & Tepedelenlioglu, desarrollaron un algoritmo para mejorar el
ABP basado en la minimizacion del Error Cuadratico Medio, ECM (Mean Squared
Error, MSE) entre la salida deseada y la salida real con respecto a la suma de las
salidas (insumos para las no linealidades). Esto contrasta con el ABP estandar que
minimiza el error cuadratico medio con respecto a los pesos [19]. Karayiannis &
3
1.2 Antecedentes
Venetsanopoulos, propusieron un criterio generalizado para el entrenamiento de las
Redes Neuronales Progresivas (Feed-forward Neuronal Network, FFNN) mono capa
y de multiples capas, basado en la regla del delta. Estos algoritmos fueron llamados
Efficient Learning Algorithms for Neural Networks, ELEANNE [20].
En 1993, Anand et al., analizaron el problema de la lenta convergencia del
ABP para problemas de dos clases con conjuntos de entrenamientos desbalanceados.
Anand et al., propusieron un algoritmo llamado Descent Vector, DV, que calcula un
vector de descenso, que apunta en una direccion de declive para ambas clases. Por lo
tanto, los errores de red, tanto para las clases dominantes y subordinadas disminuyen
por el movimiento de los pesos en la direccion del vector descendiente [21].
En 1994, Riedmiller et al., hizo una revision general de varios
algoritmos propuestos para mejorar el ABP. Todos los enfoques descritos en
ese artıculo hacen uso de alguna manera de la derivada de primer orden parcial
de cada uno de peso con respecto al error general de la red [22]. Chen & Jain,
propusieron un algoritmo llamado Robust BP Algorithm, RBPA. El RBBPA es
resistente a los efectos de ruido y es capaz de rechazar el grueso de los errores du-
rante el proceso de aproximacion. Segun Riedmiller et al., el mencionado algoritmo
presenta 3 claras ventajas sobre el ABP estandar: a) El RBBPA se aproxima a
una correlacion subyacente en vez de interpolar las muestras de entrenamiento, b)
es robusto frente a errores graves, c) la tasa de convergencia es mejorada ya que
suprime la influencia de las muestras incorrectas [23].
En 1995, Alpsan et al., hicieron un estudio comparativo de diferentes metodos
propuestos para mejorar el ABP aplicados a problemas medicos reales, basado en
metodos heurısticos y de optimizacion. Alpsan et al., concluyeron que ABP estandar
puede ser suficientemente rapido o puede tener una buena generalizacion dependien-
do del tipo de problema. En el caso particular de los problemas medicos se requiere
por su naturaleza, de una alta generalizacion con una tolerancia de error mınima,
para que el sistema sea lo mas confiable posible [24].
En 1996, Solomon & Van-Hemmen, propusieron un nuevo algoritmo genetico,
4
1.2 Antecedentes
basado en la Auto-Adaptacion Dinamica (Dynamic Self-Adaptation, DS) para mejo-
rar y acelerar el aprendizaje del ABP. El algoritmo DS, toma el valor de la Tasa de
Aprendizaje (Learning Rate, LR) del paso previo, lo aumenta y disminuye ligera-
mente, evalua la funcion de coste para los nuevos valores de la tasa de aprendizaje,
y se elige el valor mas bajo para la funcion de coste [25]. Fu et al., presentaron un
nuevo metodo de aprendizaje incremental para reconocimientos de patrones, llama-
do Incremental Backpropagation Learning Network, IBPLN. El IBPLN emplea una
modificacion limitada de los pesos y una adaptacion estructural de las reglas de
aprendizaje, y aplica el conocimiento inicial para limitar el proceso de aprendizaje
[26].
En 1997, Magoulas et al., desarrollaron un metodo llamado Backpropagation
with Variable Stepsize, BPVS. El metodo BPVS se basa en una modificacion de-
terminista del Descenso mas Rapido (steepest descent, SD) que permite un tamano
de paso variable, como consecuencia de la minimizacion de la funcion objetivo y de
la observacion de la trayectoria en el espacio de pesos. Magoulas et al., obtuvieron
buenos resultados en diferentes tipos de problemas [27]. Yam et al., formularon un
enfoque novedoso basado en el metodo de Mınimos Cuadrados (Least Squares, LS)
para calcular los pesos iniciales optimos de las RNAs. Una vez determinados los
pesos iniciales optimos, el error inicial es sustancialmente menor y por lo tanto el
numero de iteraciones necesarias para alcanzar el criterio de error establecido se
reduce [28].
En 1998, Sexton et al., demostraron que las limitaciones impuestas por algunos
investigadores en el espacio de busqueda o la reestructuracion de la arquitectura
de las RNAs, son innecesarias sı se utiliza una arquitectura inicial suficientemente
compleja y un adecuado algoritmo de busqueda global. Sexton et al., utilizaron el Al-
goritmo Genetico (Genetic Algorithm, GA), a fin de lograr una mejor generalizacion
del ABP [29]. El mismo ano Sexton et al., presentaron otro algoritmo, y al igual que
en el artıculo anterior insisten en que los algoritmos basados en busqueda global son
los mejores para la optimizacion de las RNA. En esta oportunidad aplicaron una
version extendida del algoritmo Tabu Search, TS, como una posible alternativa a la
problematica del ABP [30].
5
1.2 Antecedentes
En 1999, Kamarthi y Pittne, propusieron una mejora del ABP para entrenamien-
to de las redes feed-forward. Este nuevo metodo es conocido como Backpropaga-
tion by weight extrapolation, BPWE. El BPWE esta basado en el concepto de la
extrapolacion de pesos calculados por la red. Extrapolando los pesos, es posible
economizar en el numero de epocas requeridas para el aprendizaje del BP antes de
alcanzar un vector de peso aceptable [31]. Lehtokangas presento un metodo llamado
Constructive Backpropagation, CBP, este algoritmo esta inspirado en el aprendizaje
de Correlacion en Cascada (CC). El algoritmo CBP comienza con una red pequena
y luego se van agregando unidades ocultas y pesos hasta encontrar una solucion
satisfactoria [32]. Cho y Chow, formularon un algoritmo de aprendizaje global hıbri-
do, rapido y robusto, basado en el metodo de mınimos cuadrados y en el metodo de
busqueda con penalizacion (Least Squares and Penalty, LS-PEN). El metodo LS se
emplea para determinar los pesos conectados entre la capa de salida y la capa oculta.
El metodo de optimizacion conocido como penalizacion es utilizado para evaluar los
pesos de entre la capa oculta y la capa de entrada [33]. Ampazisa et al., propusieron
un modelo dinamico del sistema, que permite acelerar el aprendizaje, reduciendo al
mınimo el tiempo de entrenamiento gastado en la vecindad de los mınimos tempo-
rales. Para ello utilizaron metodos de optimizacion con restricciones que logran la
minimizacion simultanea de la funcion de coste y la maximizacion de lo valores mas
grandes de la matriz jacobiana, de tal manera que evita que la red pueda quedar en
un mınimo temporal y por lo tanto, el tiempo total de entrenamiento es reducido
significativamente [34].
En 2000, Yam & Chow, desarrollaron un algoritmo para determinar los pesos
iniciales optimos de las redes feedforward basado en la desigualdad de Cauchy y
un metodo algebraico lineal. En el caso de que el sistema este sobredeterminado,
usando la factorizacion QR se obtiene una solucion que es la mejor aproximacion en
el sentido de los mınimos cuadrados. En el caso de un sistema indeterminado. la fac-
torizacion QR calcula la solucion de norma mınima. Segun los autores este metodo
garantiza que los resultados de las neuronas se encuentran en la region activa y au-
menta la velocidad de convergencia [35]. Chaudhuri & Bhattacharya, propusieron un
metodo para acelerar la velocidad de convergencia del BPA, basado en una seleccion
inteligente de las muestras de entrenamiento. Este metodo de aceleracion no implica
ninguna modificacion del algoritmo de BP original. El mencionado metodo funciona
bien en los casos complicados, donde las clases no son facilmente separables, es decir
6
1.2 Antecedentes
que, si las clases se superponen una con otra, un conjunto de entrenamiento formado
acorde con el metodo propuesto puede mejorar el rendimiento considerablemente de
un MLP [3].
En 2001, Lee et al., propusieron un metodo alternativo al gradiente descendiente
llamado Error Saturation Prevention, ESP, para prevenir el Error de Saturacion
(ES) en los nodos de la capa de salida, tambien aplicaron este metodo a los nodos
de las capas ocultas para ajustar los terminos de aprendizaje. El ESP, mejora la
eficiencia del aprendizaje y ademas mantiene el significado semantico de la funcion
de MSE utilizada para justificar la evaluacion de criterio de error [36].
En 2002, Mandische, propuso un metodo aprendizaje evolutivo a traves de Es-
trategias de Evolucion (Evolution Strategies, ES) como una alternativa a las tecni-
cas basadas en el gradiente para el entrenamiento de las RNA. Una ventaja de este
algoritmo sobre gradiente es que puede ser utilizado en redes con funciones de ac-
tivacion diferenciable [37]. Hoo et al., propusieron utilizar la informacion obtenida
del First-Principle Model, F-PM, para dar un sentido de “direccion” a la estimacion
del modelo de la RNA. Esto se logra mediante la modificacion de la funcion objetivo
a fin de incluir un termino adicional que es la diferencia entre la derivada de los
resultados, estimado por la red neuronal, y la de las salidas del modelo de primer
principio durante la fase de entrenamiento [38].
En 2003, Eom et al., propusieron metodo llamado Fuzzy General Backpropaga-
tion, FGBP, para mejorar el el rendimiento del ABP mediante un sistema de logica
difusa que de manera automatica ajusta el parametro de ganancia de la funcion de
activacion, basado en un conjunto de reglas heurısticas del dominio del problema
determinado a traves del estudio de una simulacion preliminar [39]. Zweiri et al.,
a los parametros tradicionales de la tasa de aprendizaje y al factor de momentum
anadieron un nuevo parametro, llamado Factor Proporcional (Proportional Factor,
PF). A este algoritmo con tres parametros lo llamaron algoritmo de BP de tres
terminos (three-term BP algorithm). El mencionado algoritmo es mas robusto a la
eleccion de pesos iniciales, especialmente cuando se seleccionan los valores relativa-
mente altos para los parametros de aprendizaje, ademas este algoritmo es aplicable
a cualquier red con diferentes funciones de activacion [40].
7
1.2 Antecedentes
En 2004, Abraham, formulo un algoritmo basado en los Algoritmos Evolutivos,
llamado Meta-Learning Evolutionary Artificial Neural Network, MLEANN, para la
optimizacion adaptativa de las RNA, donde la arquitectura, la funcion de activacion,
los pesos de las conexiones, el algoritmo de aprendizaje y sus parametros se adaptan
de acuerdo con el problema [41]. Wang et al., propusieron un algoritmo en que cada
patron de entrenamiento tiene sus propias funciones de activacion de las neuronas
en la capa oculta. Las funciones de activacion se ajustan por la adaptacion de los
parametros de ganancia durante el proceso de aprendizaje. Estos ajustes se hacen
con el fin de evitar que la red quede atrapada en un mınimo local causado por la
saturacion de las neuronas en la capa oculta. [42]. Mohammad y Pavesie, formularon
una mejora del ABP tradicional llamado Backpropagation with selective training,
BST y lo aplicaron al entrenamiento de una Red de Funcion de Base Radial (Radial
Basis Function Networks, RBFN) mejorando el rendimiento de la red RBF sustan-
cialmente, en terminos de velocidad de convergencia y el error de reconocimiento.
Ademas el BST resuelve tres problemas del ABP: el sobreentrenamiento, la con-
vergencia lenta al final del entrenamiento, y la incapacidad de aprender con un
porcentaje pequeno de patrones [43].
En 2005, Pernıa-Espinoza et al., propusieron un algoritmo para mejorar el entre-
namiento del ABP llamado TAO-Robust Backpropagation Learning Algorithm. El
mencionado algoritmo utiliza un estimador de escala, que es variable y depende de
una funcion Huber de los errores obtenidos en cada epoca. Ademas, con este enfoque
se consigue dos propiedades importantes: la robustez frente a valores extremos de
la data con un punto de ruptura elevada y una alta eficiencia en el modelo normal
[44].
En 2006, Steil, propuso un algoritmo llamado Backpropagation-Decorrelation,
BPDC, para probar y supervisar la estabilidad para grandes redes donde solo la
capa de salida es adaptada. El BPDC combina tres principios basicos: (i) un paso de
retropropagacion de los errores, (ii) el uso de la memoria temporal en la dinamica
se adapta basada en decorrelacion de las activaciones, and (iii) el empleo de una
reserva de neuronas interior que son no adaptativas para reducir la complejidad
[45]. Behera et al., formularon dos nuevos algoritmos de aprendizaje LF I y LF II
para la actualizacion de los pesos de las redes feedforward basados en la funcion
8
1.2 Antecedentes
de Lyapunov. La contribucion clave de esa investigacion fue mostrar el paralelismo
existente entre los algoritmos propuestos LF I y II y ABP. Se demuestra que los
algoritmos propuestos tienen la misma estructura que el ABP con la diferencia de
que la tasa de aprendizaje en el ABP es fijo y en los algoritmos se sustituye por una
tasa de aprendizaje adaptativo. [46].
En 2007, Wang et al., propusieron un modelo interactivo para mejorar el
rendimiento del aprendizaje de ABP. El modelo combina con exito una nueva tecnica
de ajustar la tasa de aprendizaje llamada Individual Inference Adjusting Learning
Rate technique, IIALR y una nueva manera de actualizar la frecuencia de los pesos,
llamada The Batch mode of weight updating frequency, BOWUF[47].
En 2008, Khashman, presento una modificacion del algoritmo de aprendizaje del
BP, llamado Backpropagation Emocional, EmBP. El algoritmo EmBP, esta basado
en dos emociones que el autor considera que pueden afectar al aprendizaje, como lo es
la ansiedad y la confianza. Cuando se aprende una nueva tarea, el nivel de ansiedad es
alto al principio y el nivel de confianza es baja. Despues de un tiempo, la practica y la
retroalimentacion positiva, el nivel de ansiedad disminuye mientras aumenta el nivel
de confianza. Por lo tanto el EmBP tiene “pesos emocionales” que son actualizando
usando los dos parametros emocionales mencionados anteriormente [48]. Yang et al.,
propusieron que el rango de los valores iniciales de los pesos cuando se entrena un
algoritmo de BP con Division-Compleja (Split-Complex Backpropagation, SCBP)
deberıa ser mayor que el de las cantidades de ajuste. Aplicando este criterio se puede
reducir el desajuste de los pesos y de las bıas durante el entrenamiento, ademas
evita la dependencia del rendimiento del SCBP relacionada con los pesos iniciales
[49]. Zhang et al., para mejorar la eficiencia de las tradicionales redes feed-forward
propusieron un algoritmo llamado Product Unit Neural Networks with Exponential
Weights, PUNNs [50]. Silva et al., formularon una nueva funcion de error EExp ,
inspirada en el Error Density at the Origin, Z-EDM, que es capaz de simular el
comportamiento de otras funciones de error por el ajuste de un solo parametro con
valores reales [51]. Soliman & Mohamed, propusieron una version modificada de
BP sobre la base de la multiplicacion de matrices para el procesamiento parallelo.
Para ello implementaron la Matrix BackPropagation, MBP usando un conjunto de
arquitecturas de instrucciones de matriz (matrix Instruction Set Architectures, ISAs)
9
1.2 Antecedentes
escalar y un conjunto de arquitecturas de instrucciones de matriz vectorial [52].
En 2009, Cheng & Park, desarrollaron un algoritmo para mejorar el rendimien-
to del ABP, llamado Learning Phase Evaluation Backpropagation neural network,
LPEBP. El LPEBP divide el proceso de entrenamiento en muchas fases de apren-
dizaje y evalua los efectos despues de cada fase de aprendizaje. Ademas aplicaron
la tecnica de Descomposicion del Valor Singular (Singular Value Decomposition,
SVD) para reducir la dimension y las construccion semantica de los terminos [53].
Kathirvalavakumar & Jeyaseeli, presentaron un algoritmo de entrenamiento (Algo-
rithm Neighborhood Modified Backpropagation, ANMBP) para RNAs con una capa
oculta, basado en la vecindad de la estructura de la red, para sustituir los paramet-
ros de aprendizaje fijos con parametros de aprendizaje adaptativo. El ANMBP es
eficiente en terminos del error de entrenamiento, de la memoria y en el tiempo de
entrenamiento [54]. Bai et al., formularon un algoritmo para mejorar el ABP, lla-
mado BP algorithm with varying slope of activation function, BPAVSAF, basado
en la variacion de la pendiente de la funcion de activacion con diferentes tasas de
aprendizaje. Los resultados obtenidos demuestran que el ABP clasico puede obtener
un buen rendimiento tanto en la fase de entrenamiento como en la de test con solo
el ajuste de dos diferentes tasa de aprendizaje y un parametro de la pendiente de la
funcion de activacion de la salida [55].
Finalmente en 2010, Sun, formulo un algoritmo llamado Local Coupled Feed-
forward Neural Network, LCFNN, donde a cada nodo oculto se asigna una direccion
en el espacio de entrada, y cada entrada activa solo los nodos cercanos a el. Ademas
la dimensionalidad de busqueda en el espacio durante el entrenamiento del LCFNN
no aumenta con el incremento del tamano de la red y el coste de calculo de cada
muestra de aprendizaje en el entrenamiento y en el proceso de trabajo del LCFNN
no aumenta con el incremento del tamano de la red [56].
Para resumir, en la Tabla 1.1 se presentan todos los algoritmos propuestos para
mejorar el ABP, con sus autores, el ano y el nombre de la publicacion en el perıodo
1990-2000. En la tabla 1.2. se presenta la misma informacion, pero del perıodo
2001-2010.
10
1.2 Antecedentes
Autor(s), Ano Metodo Publicacion
Leonard & Kramer, 1990 CG Computers & Chemical Engineering.
Lee & Weidman, 1991 SE Expert Systems with Applications.
Kim & Ra, 1991 DDB IEEE, IJCNN-91.
Scalero & Tepedelenlioglu, 1992 FBPA Signal Processing, IEEE Transactions on.
Karayiannis & Venetsanopoulos, 1992 ELEANNE Circuits and Systems II: Analog and Digital
Signal Processing, IEEE Transactions on.
Anand et al., 1993 VD Signal Processing, IEEE Transactions on.
Riedmiller et al., 1994 Review Computer Standards & Interfaces.
Alpsan et al., 1995 Diferentes Tecnicas Neural Networks.
Solomon & van-Hemmen, 1996 DS Neural Networks.
Fu et al., 1996 IBPLN Signal Processing, IEEE Transactions on.
Magoulas et al., 1997 BPVS Neural Networks.
Yam et al., 1997 LS Neurocomputing.
Sexton et al., 1998 GA Decision Support Systems.
Sexton et al., 1998 TS European Journal of Operational Research.
Kamarthi & Pittne, 1999 BPWE Neural Networks.
Lehtokangas, 1999 CBP Neural Networks.
Cho & Chow, 1999 LS-PEN Neurocomputing.
Ampazisa et al., 1999 Sistema dinamico Neural Networks.
Yam & Chow, 2000 Cauchy’s - LA method Neurocomputing.
Chaudhuri & Bhattacharya, 2000 STS Neurocomputing.
Tabla 1.1: Algoritmos propuestos para mejorar el ABP entre los anos 1990-2000.
11
1.2 Antecedentes
Autor(s), Ano Metodo Publicacion
Lee et al., 2001 ESP Neurocomputing.
Mandische, 2002 ES Neurocomputing.
Hoo et al., 2002 F-PM Journal of Process Control.
Eom et al., 2003 FGBP Neurocomputing.
Zweiri et al., 2003 PF Neurocomputing.
Abraham, 2004 MLEANN Neurocomputing.
Wang et al., 2004 IAF Neurocomputing.
Mohammad & Pavesie, 2004 BST Neurocomputing.
Pernıa-Espinoza et al., 2005 TAO-RBLA Neural Networks.
Steil, 2006 BPDC Neurocomputing.
Behera et al., 2006 LF I-II Signal Processing, IEEE Transactions on.
Wang et al., 2007 IIALR-BOWUF Automation in Construction.
Khashman, 2008 EmBP Signal Processing, IEEE Transactions on.
Yang et al., 2008 SCBP Signal Processing, IEEE Transactions on.
Zhang et al., 2008 PUNNs Neurocomputing.
Silva et al., 2008 Z-EDM Neural Networks.
Soliman & Mohamed, 2008 MBP Journal of Parallel and Distributed Computing.
Cheng & Park, 2009 LPEBP Expert Systems with Applications.
Kathirvalavakumar & Jeyaseeli, 2009 ANMBP Neurocomputing.
Bai et al., 2009 BPAVSAF Chaos, Solitons & Fractals.
Sun, 2010 LCFNN Neural Networks.
Tabla 1.2: Algoritmos propuestos para mejorar el ABP entre los anos 2001-2010.
12
1.3 Motivacion
1.3. Motivacion
La principal motivacion de esta investigacion es mejorar los problemas de lenti-
tud, convergencia y de exactitud en la clasificacion del Algoritmo de Retropropa-
gacion (Algoritmo de Backpropagation, ABP). Los inconvenientes del mencionado
algoritmo han dado lugar a un gran numero de investigaciones tratando de super-
ar estos problemas. Las investigaciones realizadas hasta los momentos se podrıan
organizar en dos categorıas.
La primera categorıa incluye el desarrollo de tecnicas heurısticas, basadas en
el estudio de las propiedades de rendimiento distintivas del ABP en general.
Estas tecnicas heurısticas incluyen ideas tales como la variacion de la tasa
de aprendizaje, usando momentum, el ajuste de la ganancia de la funcion de
activacion, y la optimizacion de la topologıa de la red neuronal.
La otra categorıa de investigacion ha usado, aplicado y desarrollado algoritmos
de optimizacion cada vez mas sofisticados, basados en tecnicas estandar de
optimizacion numerica para mejorar el aprendizaje del ABP.
Sin embargo, a pesar de todas las modificaciones y mejoras propuestas para
el ABP, todavıa no existe una solucion optima, que se pueda aplicar a todos los
problemas. En esta Tesis Doctoral se propone una alternativa para mejorar algunas
de estas deficiencias.
El algoritmo propuesto, esta basado en la Metaplasticidad Artificial y es aplica-
do a un Perceptron Multicapa (AMMLP). Estamos conciente de que el algoritmo
propuesto AMMLP, no resolvera por completo las limitaciones antes mencionadas
del ABP, pero si estamos convencidos de que sera un alternativa muy interesante,
facil de implementar y de aplicar, que reducira el tiempo de computo y el numero de
iteraciones durante la fase de entrenamiento, con lo que conseguira un entrenamiento
mucho mas eficiente y con muy alto nivel de exactitud en la clasificacion.
La segunda motivacion es aplicar y verificar la utilidad practica del algoritmo
propuesto de la Metaplasticidad Artificial en un Perceptron Multicapas (AMMLP).
En este sentido el AMMLP se utilizara para la clasificacion de objetos en senales en
1-D y 2-D y para ello se usara bases de datos estandar de diferentes ambitos que
permitan comprobar el rendimiento, la rapidez de convergencia y la exactitud del
algoritmo propuesto.
13
1.4 Objetivos
1.4. Objetivos
1.4.1. Objetivo General
Aplicar y optimizar el algoritmo basado en la Metaplasticidad Artificial en un
Perceptron Multicapa (AMMLP) para la clasificacion de objetos en senales 1-D y 2-
D. Mejorar la lentitud y convergencia del Algoritmo de Retropropagacion, y ademas
obtener un alto nivel de exactitud en la clasificacion.
1.4.2. Objetivos Especıficos
Seguidamente se indican los objetivos especıficos que se formularon para esta
investigacion y que sustentan esta tesis.
1. Definir la metaplasticidad biologica. Relacionar la metaplasticidad con la plas-
ticidad, la plasticidad intrınseca, la memoria y el aprendizaje.
2. Explicar e implementar el modelo neuronal basado de la Metaplasticidad Ar-
tificial en un Perceptron Multicapas (AMMLP).
3. Optimizar en la medida de lo posible los parametros relacionados el modelo de
la Metaplasticidad Artificial propuesto, con la finalidad de hacer mas eficiente
el mencionado algoritmo.
4. Aplicar la Metaplasticidad Artificial a diferentes problemas de alto impacto
relacionados con la clasificacion de patrones, para comprobar el rendimiento y
la exactitud en la clasificacion del algoritmo AMMLP.
5. Comparar las prestaciones del modelo neuronal basado en la Metaplasticidad
para la clasificacion de objetos en senales 1-D y 2-D con el Algoritmo de
Retropropagacion tradicional y con otros algoritmos aplicados recientemente
a los mismos problemas.
14
1.5 Estructura de la Tesis
1.5. Estructura de la Tesis
Se ofrece a continuacion un pequeno resumen de lo que se discutira en cada
uno de los 8 capıtulos, incluido este que conforman este trabajo. Los primeros 4
capıtulos tienen caracter teorico e informativo y los restantes presentan un enfoque
practico del metodo propuesto.
En el presente Capıtulo 1, se hace una pequena introduccion del tema a
tratar, se presentan los objetivos que se consideraron para la elaboracion de
la presente investigacion, ası como se justifica la idoneidad de este estudio,
ademas se muestra el estado del arte de esta investigacion.
En el Capıtulo 2 se presenta una introduccion general a las Redes Neuronales
Biologicas y Artificiales, se definen ambas redes, se mencionan las diferentes
tipos de redes neuronales artificiales, los aprendizajes y las arquitecturas bajo
las cuales funcionan las mencionadas redes.
En el Capıtulo 3 se describira en detalle el Perceptron Monocapa y
Multicapa, debido a que el modelo propuesto de la Metaplasticidad Artificial
se implementara en un Perceptron Multicapa. De tal manera que veremos sus
caracterısticas, limitaciones y el algoritmo tıpico usado para entrenar a este
tipo de red (Algoritmo de Retropropagacion).
En el Capıtulo 4 se explicara la propiedad biologica de la Metaplas-
ticidad, conceptos, funciones, mecanismos que la generan. Tambien se
definiran y explicaran otras propiedades biologicas que estan relacionadas
con la Metaplasticidad, como por ejemplo la Plasticidad y la Plasticidad
Intrınseca que permitira entender mejor la Metaplasticidad biologica y
ademas facilitara comprender el modelo neuronal basado en la Metaplasti-
cidad Artificial en un Perceptron Multicapa (AMMLP) propuesto es esta tesis.
15
1.5 Estructura de la Tesis
Los capıtulos anteriores son basicamente la formalizacion de conceptos e ideas
que permitiran comprender los siguientes capıtulos. Los capıtulos que se describen
a continuacion constituyen el aporte original de esta tesis:
En el Capıtulo 5 se presenta el modelo propuesto de la Metaplasticidad
Artificial, se muestra la relacion existente entre la metaplasticidad artificial y
la teorıa de la informacion de Shannon, se plantea la sustentacion matematica
del modelo, se implementa el modelo AMMLP, se describe el algoritmo
AMMLP, ası como tambien se presenta la seleccion de la mejor estructura de
red neuronal para el modelo propuesto.
En el Capıtulo 6 se presentan los experimentos y los resultados obtenidos
utilizando el AMMLP descrito en el capıtulo anterior. El AMMLP se ha
aplicado a cinco diferentes problemas de alto impacto en areas como la
Medica, Finanzas e Industrial y que estan relacionados con la clasificacion de
patrones.
En el Capıtulo 7 se presentan las principales conclusiones originadas de los
aportes realizados y de los resultados experimentales obtenidos, y una breve
discusion de los mismos
En el Capıtulo 8 se presentan las contribuciones originales de esta tesis,
ası como tambien se presenta una lista detallada de las lıneas futuras de
investigacion que se derivan a partir de los trabajos que se han desarrollando
y descrito en esta tesis.
16
Capıtulo 2
Redes Neuronales Artificiales
El cerebro es un procesador de informacion con unas caracterısticas muy
notables: es capaz de procesar a gran velocidad grandes cantidades de informacion
procedentes de los sentidos, combinarla o compararla con la informacion almacenada
y dar respuestas adecuadas incluso en situaciones nuevas. Dentro de todas las
capacidades del cerebro humano la mas impresionante de todas ellas es su capacidad
de aprender a representar la informacion necesaria para desarrollar el resto de sus
actividades propias sin instrucciones explıcitas para ello.
Aunque todavıa se ignora mucho sobre la forma en que el cerebro aprende a
procesar la informacion, se han desarrollado modelos que tratan de imitar este
proceso. Estos modelos reciben el nombre de Redes Neuronales Artificiales, RNA
(Artificial Neural Network, ANN). En la siguiente subseccion (2.0.1) se hablara de
las neuronas biologicas y luego, en forma amplia y detallada de las RNA (subseccion
2.0.2).
2.1. Neuronas Biologicas
Como la neurona biologica, es la celula basica del sistema nervioso, se
analizara brevemente su funcionamiento para comprender el de las neuronas ar-
tificiales y la analogıa entre las RNAs y redes biologicas.
17
2.1 Neuronas Biologicas
El cerebro humano continuamente recibe senales de entrada de muchas fuentes
y las procesa a manera de crear una apropiada respuesta de salida. Nuestros
cerebros cuentan con millones de neuronas que se interconectan para elaborar
“Redes Neuronales”. Estas redes ejecutan los millones de instrucciones necesarias
para mantener una vida normal.
La investigacion detallada de la estructura interna de las celulas nerviosas,
especialmente despues de la invencion del microscopio electronico, ha revelado que
todas las neuronas estan constituidas por las mismas partes basicas, independiente-
mente de su tamano y forma. Estas neuronas tienen tres componentes principales,
las dendritas, el cuerpo de la celula o soma, y el axon, en la Figura 2.1 se puede
apreciar la estructura basica de una neurona biologica.
Nucleo
Cuerpo celularo soma
Axon
Terminaldel Axon
Dendrita
Sinapsis
Figura 2.1: Estructura basica de una neurona biologica.
Las dendritas forman una estructura de filamentos muy fina que rodea el cuerpo
de la neurona. El axon es un tubo largo y delgado que se ramifica en su extremo
en pequenos bulbos finales que casi tocan las dendritas de las celulas vecinas. Del
extremo del axon nacen otras ramificaciones, mediante las cuales la neurona se
comunica con otras neuronas, produciendose la sinapsis. Las neuronas, a traves de
sus dendritas y axon, reciben senales electricas, pequenos impulsos provenientes de
otras neuronas o de ellas mismas si son neuronas externas. Esta integra de alguna
18
2.1 Neuronas Biologicas
forma todas las senales que le llegan, y puede excitarse, provocando un impulso que
le sera transmitido a otras neuronas, o inhibirse, lo que atenuara el impulso recibido
o simplemente lo anulara. La neurona recibe entonces a cada instante senales tanto
inhibidoras como excitadoras, provenientes de todas sus sinapsis. La integracion
de los efectos excitadores con los inhibidores (podrıa entenderse como la suma de
sus entradas) determina si la neurona sera o no estimulada, es decir, si emitira un
impulso, o un tren de ellos, a que velocidad, o si no lo emitira.
El aprendizaje se basa en las relaciones entre millones de neuronas del cerebro.
Una vez que van conociendo hechos, las neuronas van relacionandose entre sı a
traves de sus sinapsis, haciendose estas inhibidoras o excitadoras de acuerdo con
el estımulo determinado, y produciendo entonces respuestas frente a determinados
hechos o situaciones. Van “conociendo” hechos porque, ante una determinada
situacion, son ciertas neuronas externas las que reciben el primer estımulo, las que
de acuerdo con la fuerza y localizacion de este, se activaran o no, comenzando
una larga cadena absolutamente relacionada entre millones de neuronas, las que
llegaran al cerebro para producir una determinada respuesta. Si las neuronas
externas que recibieron el primer estımulo son otras, su contacto con la segunda
“capa” de neuronas sera diferente a la respuesta anterior, o bien si la intensidad de
la excitacion fue distinta, produciran diferentes reacciones.
Algunas de las estructuras neuronales son determinadas en el nacimiento, otra
parte es desarrollada a traves del aprendizaje, proceso en que nuevas conexiones
neuronales son realizadas y otras se pierden por completo.
Esto quiere decir que, las estructuras neuronales van cambiando durante toda
la vida, estos cambios consisten en el refuerzo o debilitamiento de las uniones
sinapticas. De la sinapsis, de sus procesos, funcionamiento, de su relacion con el
aprendizaje y de su vinculacion con la Metaplasticidad se hablara con detenimiento
en el Capıtulo 4 de esta tesis.
19
2.2 Redes Neuronales Artificiales
2.2. Redes Neuronales Artificiales
2.2.1. Definicion de Red Neuronal
Darpa, define una red neuronal como un sistema compuesto de muchos elementos
simples de procesamiento los cuales operan en paralelo y cuya funcion es determinada
por la estructura de la red, el peso de las conexiones; realizandose el procesamiento
en cada uno de los nodos o elementos de computo [57].
Segun Haykin, una red neuronal es un procesador paralelo masivamente dis-
tribuido que tiene una facilidad natural para el almacenamiento de conocimiento
obtenido de la experiencia para luego hacerlo utilizable. Se parece al cerebro en dos
aspectos [2]:
1. El conocimiento es obtenido por la red a traves de un proceso de aprendizaje.
2. Las conexiones interneuronales conocidas como pesos sinapticos son utilizadas
para almacenar dicho conocimiento.
Kohonen, las define como redes de elementos simples (usualmente adaptativos)
masivamente interconectados en paralelo y con organizacion jerarquica, las cuales
intentan interactuar con los objetos del mundo real del mismo modo que lo hace el
sistema nervioso biologico [58].
En sıntesis se puede considerar que una Red Neuronal Artificial es un sistema de
procesamiento de informacion que tiene ciertas caracterısticas de comportamiento
en comun con las redes neuronales biologicas. Las redes neuronales artificiales han
sido desarrolladas como generalizaciones de modelos matematicos del conocimiento
humano o de la biologıa neuronal, con base en los siguientes aspectos:
1. El procesamiento de informacion se realiza en muchos elementos simples lla-
mados neuronas.
2. Las senales son pasadas entre neuronas a traves de enlaces de conexion.
3. Cada enlace de conexion tiene un peso asociado, el cual, en una red neuronal
tıpica, multiplica la senal transmitida.
20
2.2 Redes Neuronales Artificiales
4. Cada neurona aplica una funcion de activacion (usualmente no lineal) a las
entradas de la red (suma de las senales de entrada pesadas) para determinar
su senal de salida.
Las RNAs han sido aplicadas en un gran numero de problemas reales de com-
plejidad considerable. Su mas importante ventaja es la de resolver problemas que
son muy complejos para tecnologıas convencionales, problemas que no tienen una
solucion determinıstica o para los cuales una solucion de este tipo es muy complicado
encontrarla. En general, por ser una abstraccion del cerebro biologico, las RNAs son
buenas para resolver aquellos problemas que las personas solucionan adecuadamente,
pero que los computadores no. Estos problemas, entre otros, incluyen reconocimien-
to de patrones y problemas de pronostico (los cuales requieren el reconocimiento de
una tendencia en unos datos).
2.2.2. La Neurona Artificial
Basandose en la descripcion que la neurociencia hace del funcionamiento de las
neuronas biologicas, se pasa a intentar simular el comportamiento de esta unidad
basica de proceso de informacion. Ası tenemos que las unidades basicas de las
RNA son las neuronas artificiales. Aunque hay varios tipos de neuronas diferentes,
la mas comun es la de tipo McCulloch-Pitts. En la Figura 2.2 puede verse una
representacion de la misma.
NEURONA i
axón f ( )
cuerpo celular
Salida
sinapsis
W i1
W ij
W i2
W in
dendritas umbral
Entradas
X j
X n
X 1
X 2 y
i
-1
y = f ( W X - ) ij i i
i
i
Figura 2.2: Representacion de una neurona artificial tipo McCulloch-Pitts.
21
2.2 Redes Neuronales Artificiales
Una neurona artificial es un procesador elemental, en el sentido de que procesa
un vector x(x1, x2, ...xN ), (x ∈ Rn) de entradas y produce un respuesta o salida
unica. Los elementos clave de una neurona artificial los podemos ver en la figura
anterior y son los siguientes:
Las entradas que reciben los datos de otras neuronas. En una neurona biologica
corresponderıan a las dendritas. Aquı las senales electricas se convierten en
valores numericos (las componentes del vector x).
Los pesos sinapticos wij ∈ R. Al igual que en una neurona biologica se es-
tablecen sinapsis entre las dendritas de una neurona y el axon de otra, en una
neurona artificial a las entradas que vienen de otras neuronas se les asigna
un peso, un factor de importancia. Este peso, que es un numero, se modifica
durante el entrenamiento de la red neuronal, y es aquı por, tanto, donde se
almacena la informacion que hara que la red sirva para un proposito u otro.
Una regla de propagacion. Con esas entradas y los pesos sinapticos, se suele
hacer algun tipo de operacion para obtener el valor del potencial postsinaptico
(valor que es funcion de las entradas y los pesos y que es el que se utiliza en
ultimo termino para realizar el procesamiento). Una de las operaciones mas
comunes es sumar las entradas, pero teniendo en cuenta la importancia de
cada una (el peso sinaptico asociado a cada entrada). Es lo que se llama suma
ponderada, aunque otras operaciones tambien son posibles.
hi = (t) =∑
j
wijxj (2.1)
donde xj es el valor de la j-enesima entrada (input), wij son los pesos
asignados a la conexion de las neuronas, j e i y hi es la salida de la neurona i.
Una funcion de activacion. El valor obtenido con la regla de propagacion, se fil-
tra a traves de una funcion conocida como funcion de activacion y es la que nos
da la salida de la neurona. Segun para lo que se desee entrenar la red neuronal,
se suele escoger una funcion de activacion u otra en ciertas neuronas de la
red. En la Tabla 1.1 se muestran las funciones de activacion mas usuales [2, 59].
22
2.2 Redes Neuronales Artificiales
Funcion Rango Grafica
Identidady = x [−∞,+∞]
x
f(x)
Escalony = sig(x) −1,+1
y = H(x) −0,+1
x
f(x)
Lineal a Tramosy =
−1 si x > −lx si l ≤ x ≤ −l+1 si x > +l
[−1,+1]x
f(x)
+1 -1
Sigmoideay = 1
1+e−x [0,+1]
y = tgh (x) [−1,+1]
x
f(x)
Gaussianay = Ae−Bx
2[0,+1]
x
f(x)
Sinusoidaly = Asen(ωx+ ϕ) [−1,+1]
x
f(x)
Tabla 2.1: Funciones de activacion.
En muchas ocasiones la razon para la aplicacion de una funcion de activacion
distinta de la identidad surge de la necesidad de que las neuronas produzcan una
salida acotada. Esto desde un punto de vista de similitud con el sistema biologico,
no es tan descabellado, ya que las respuestas de las neuronas biologicas estan
acotadas en amplitud. Ademas cada neurona tiene asociado un numero denominado
bias o umbral, que puede verse como un numero que indica a partir de que valor del
potencial postsinaptico la neurona produce una salida significativa. Este termino
θ ∈ R es anadido a la suma ponderada que posteriormente se transforma en la
23
2.2 Redes Neuronales Artificiales
funcion de activacion, es decir, se interpreta como una entrada mas de la neurona.
y = f
(
N−1∑
i=0
wixi − θ
)
= f
(
N∑
i=0
)
wixi (2.2)
donde y es la salida de la red, f es la funcion de activacion, N, es el numero de
componentes del vector de entrada, wi, es el peso (weights) de la conexion entre la
i-esima entrada y la neurona, xi, es el valor de la i-esima entrada (input), y θ, es el
valor umbral (threshold).
La caracterıstica mas importante de las redes neuronales artificiales, es la
capacidad que tienen estas unidades de procesamiento simple para aprender y
retener la informacion de su entorno. El aprendizaje en las RNA se discute en la
proxima subseccion (2.0.3.).
2.2.3. Aprendizaje de las Redes Neuronales Artificiales
La propiedad mas importante del sistema nervioso es su capacidad de aprender
de su entorno y mejorar ası su rendimiento. En el contexto de aprendizaje en redes
neuronales artificiales, el aprendizaje puede definirse como: “Un proceso mediante
el cual los parametros libres de una red neuronal se han adaptado a traves de
un proceso de simulacion al medio ambiente en el que se inserta la red” [60]. Del
mismo modo, una RNA tambien posee esta importante funcion. Con la ayuda de
un procedimiento de aprendizaje, la RNA puede extraer y almacenar la informacion
de los datos puestos a disposicion de la red. La informacion extraıda se almacena
en la red a traves de los pesos de conexion, y puede ser recuperado para su uso futuro.
Una regla de aprendizaje define exactamente como los pesos de la red deben
ser ajustados (actualizados) entre los sucesivos ciclos (epocas) de entrenamiento
de acuerdo con el entorno en que se encuentra la red. El aprendizaje de las RNAs
puede ser supervisado o no supervisado.
El aprendizaje en las RNAs con un profesor (Aprendizaje Supervisado), o
sin un profesor (Aprendizaje no Supervisado). En el aprendizaje supervisado a
24
2.2 Redes Neuronales Artificiales
la red se presentan un conjunto de ejemplos de patrones de entrada junto a los
patrones de salida deseados (targets) para cada patron de entrada. Basado en la
salida para un ejemplo dado, el profesor especificara una salida deseada que se
espera que la red produzca. La diferencia entre la salida real y la salida deseada se
llama senal de error (error signal). El objetivo del procedimiento de entrenamiento
es modificar los parametros de red de tal forma que la red produzca una salida
que sea lo mas cercana posible a la salida deseada, reduciendo ası el error. La
modificacion esta basada tanto en la senal de entrada como en la senal de error [2, 61].
Para el aprendizaje no supervisado, los ejemplos presentados no estan eti-
quetados y el aprendizaje se realiza sin ninguna supervision externa, es decir, no
se le indica a la red que resultados debe dar, sino que se le deja seguir alguna
regla de auto-organizacion. Hay dos modalidades en esta forma de aprendizaje,
el Aprendizaje Auto-organizado (Self-organising Learning) y el Aprendizaje por
Refuerzo (Reinforcement Learning).
En el Aprendizaje Auto-organizado los parametros de la red sufren un cambio
de acuerdo con sus normas de aprendizaje sin ningun tipo de supervision.
Las modificaciones de los parametros de red se llevan a cabo de tal manera
que la red detecta automaticamente por sı misma cualquier patron posible-
mente existente, como regularidades, que le permitan luego separarlos por
propiedades, etc.
Mientras que en el Aprendizaje de Refuerzo, a pesar de estar dentro de la
categorıa de aprendizaje no supervisado, puede ser considerado como un caso
especial de aprendizaje supervisado por el uso de un crıtico para controlar el
aprendizaje, es decir, en este caso existe un supervisor que se limita a indicar
si la salida ofrecida por la red es correcta o incorrecta, pero no indica que
respuesta debe dar la red [62].
Los aprendizajes supervisados y no supervisados se conocen como paradigmas
de aprendizaje. En ambos modelos las modificaciones a los parametros de red se
realizan a traves de normas de aprendizaje e indican como se modifican los pesos
de las conexiones en funcion de los datos usados en la entrada, es decir, dependen
25
2.2 Redes Neuronales Artificiales
del historial de aprendizaje de la red. Existen cinco reglas o normas basicas de
aprendizaje mencionados en la literatura. Estos aprendizajes son: Aprendizaje de
Correccion de Errores, Aprendizaje basado en Memoria, Aprendizaje de Hebb,
Aprendizaje Competitivo y el Aprendizaje de Boltman [2, 63]. A continuacion se
explicara en que consiste cada uno de estos aprendizajes.
Aprendizaje de Correccion del Error (Error-correction Learning, ECL),
como su nombre indica, trata de corregir un error de estimacion. Para una
muestra de entrenamiento particular, se considera la diferencia entre la salida
real de la red y una salida deseada como el error. Por ejemplo, entre los
algoritmos de aprendizaje supervisado, la regla delta generalizada, modifica
los pesos realizando en cada ciclo de aprendizaje un incremento de los pesos
proporcional a la tasa de variacion del error respecto al peso, en sentido
negativo.
∇wij = ηyi (yj − yi) = wij (t+ 1) − wij t = 0, 1.....n (2.3)
Aprendizaje basado en Memoria (Memory-based Learning), las funciones
almacenan toda la experiencias pasadas o las muestras de entrenamiento (xi,
di) de forma explıcita en una memoria de gran tamano. Aquı las muestras
de entrada-salida (xi, di) estan clasificadas correctamente. La clasificacion de
una muestra invisible se realiza mediante la recuperacion y el analisis de una
muestra de entrenamiento de la memoria almacenada que cae en la vecindad
logica de esta muestra nueva [2].
Aprendizaje de Hebb (Hebbian learning, HL), la regla de aprendizaje de Hebb
fue propuesta en un contexto neuro-biologico. Esta regla, que fue llamada
ası en honor de Hebb, es la mas antigua y mas popular entre las cinco reglas
de aprendizaje. La regla de aprendizaje de Hebb se introdujo para explicar
el aprendizaje en redes neuronales biologicas, la cual indica que una conexion
particular, se fortalecera si las neuronas en ambos extremos estan activas de
forma simultanea y persistente [64]. En terminos matematicos, la hipotesis de
26
2.2 Redes Neuronales Artificiales
Hebb se puede describir en la ecuacion (2.4):
dwji (n) = ηyi (n)xi (n) (2.4)
donde dwji (n) es el cambio en la fuerza de la conexion de la neurona i a j ;
yi (n) es la salida de la neurona j y la xi (n) es una entrada. η ∈ R, es el factor
de aprendizaje y n ∈ N , especifica alguna fase del proceso de aprendizaje.
Aprendizaje Competitivo (Competitive Learning), las neuronas de salida
compiten entre sı para convertirse en activas. Winner-Take-All es un ejemplo
de este tipo de aprendizaje. En general, esta regla de aprendizaje se utiliza
para el aprendizaje de las propiedades estadısticas de las entradas [2, 62, 65].
Aprendizaje de Boltman (Boltzmann Learning, BL), es un proceso estocastico
basado en la mecanica estadıstica. Una red neuronal con el aprendizaje de
Boltzmann se conoce a menudo como una maquina de Boltzmann. En general,
se trata de una red recurrente y las neuronas funcionan como nodos binarios
ya sea por estar en un estado activado o desactivado. Una funcion de energıa
acompana a la maquina que puede medir la energıa contenida por la red. Una
neurona es seleccionada al azar y su estado se invierte durante el proceso de
aprendizaje. Esto se continua hasta que se alcanza un estado de equilibrio
[2, 65].
Como hemos visto, indistintamente del tipo de aprendizaje usado, una carac-
terıstica esencial de la red es la regla de aprendizaje usada, que indica como se
modifican los pesos de las conexiones en funcion de los datos utilizados en la entra-
da, es decir, de la historia de aprendizaje de la red.
2.2.4. Arquitectura de las Redes Neuronales Artificiales
La arquitectura o topologıa de una RNA hace referencia a la forma como los
nodos son fısicamente dispuestos en la red. Los nodos forman capas o grupos de
nodos que comparten una entrada comun y alimentan su salida a nodos comunes
[2, 59]. La estructura de la red desempena un papel importante en el procesamiento
27
2.2 Redes Neuronales Artificiales
de la informacion, ya que esta estrechamente relacionada con el algoritmo de
aprendizaje utilizado para formar a la red.
En general, en una RNA, las neuronas se colocan en capas. Una red puede tener
mas de una capa de neuronas, ademas de la capa de entrada. La capa de entrada
es simplemente un conjunto de nodos de no-procesamiento, los nodos de entradas
alimentan a la red. Las neuronas de cada capa se conectan a las neuronas de otras
capas a traves de un conjunto de conexiones (conexiones sinapticas). Aunque no se
muestra en la Figura 2.1, las neuronas de una capa tambien se pueden conectar a
otras capas a traves de conexiones laterales.
La informacion se propaga en un unico sentido, desde una neurona presinaptica
(neurona origen) a una neurona postsinaptica (neurona destino). Puede darse el
caso en que la salida de un nodo de proceso o neurona se convierta en la entrada de
ese mismo nodo de proceso, en este caso en particular y dependiendo de la direccion
del flujo de la informacion, la red se conoce como una red neuronal progresiva (Feed-
forward Neuronal Network, FFNN). Cada conexion o vınculo se caracteriza por un
valor de peso (lo que significa que las conexiones tienen asociado un numero real, que
indica la importancia de esa conexion con respecto al resto de las conexiones), que se
conoce como, la fuerza de conexion (connection strength). Si dicho peso es positivo
la conexion se dice que es excitadora, mientras que si es negativa se dice que es
inhibidora. Estas conexiones son las vıas de la informacion dentro de la red [2, 3, 59].
Lo usual es que las neuronas se agrupen en capas de manera que una RNA
esta formada por varias capas de neuronas. Aunque todas las capas son conjuntos
de neuronas, segun la funcion que desempenan, suelen recibir un nombre especifico.
Las mas comunes son las siguientes:
Capa de entrada (Input Layer, IL): las neuronas de la capa de entrada, reciben
los datos que se proporcionan a la RNA para que los procese.
Capas ocultas (Hidden Layer, HL): estas capas introducen grados de libertad
adicionales en la RNA. El numero de ellas puede depender del tipo de red que
estemos considerando. Este tipo de capas realiza gran parte del procesamiento.
28
2.2 Redes Neuronales Artificiales
Capa de salida (Output Layer, OL): esta capa proporciona la respuesta de la
red neuronal. Normalmente tambien realiza parte del procesamiento.
Segun su arquitectura podemos clasificar las RNA en dos posibilidades
distintas:
1. Redes Progresivas (Feed-forward Network): como se comento anterior-
mente, en este tipo de red, la informacion se mueve en una sola direccion,
hacia adelante, de los nodos de entrada, a traves de los nodos ocultos (si
procede) a los nodos de salida. No hay ciclos o bucles en la red. En la
Figura 2.3(a), se puede observar un ejemplo de este tipo de redes.
2. Redes Recurrentes (Recurrent Network): son redes donde la informacion
puede ser transmitida en ambas direcciones, es decir, se permiten las
conexiones entre los nodos de las capas superiores con nodos de las capas
inferiores. Tambien llamadas redes realimentadas. Un ejemplo de esta
red se muestra en la Figura 2.3(b).
Capa Entrada
Capa Oculta
Capa Salida
(a)
Capa Entrada
Capa Oculta
Capa Salida
(b)
Figura 2.3: a) Muestra un ejemplo de una red Feed-forward, en esta red la informacionsiempre se mueve en una direccion, nunca va hacia atras. (b) En las redes recurrentes, lainformacion puede fluir en dos direcciones y los nodos de entrada se pueden comunicar conlos nodos de salida.
29
2.2 Redes Neuronales Artificiales
Los tres tipos de arquitectura mas utilizados son el Perceptron Multicapa (Mul-
tilayer Perceptron, MLP), las redes Autoorganizadas (Self-Organizing Maps, SOM)
y las redes de Funcion de Base Radial (Radial Basis function Networks)[2, 59].
Veremos ahora una breve descripcion de ellas (el Perceptron Multicapa sera tratado
mas ampliamente en la Capıtulo 3 de esta investigacion, ya que es el tipo de
arquitectura usada en esta tesis).
Perceptron Multicapa: Este es uno de los tipos de redes mas comunes. Se
basa en otra red mas simple llamada Perceptron Monocapa o simple pero en
este el numero de capas ocultas puede ser mayor o igual que una. Es una
red unidireccional (Feed-forward). La arquitectura tıpica de esta red se puede
observar en la Figura 2.4.
Objeto Capa de
Entrada
Capa
Oculta
Capa de
Salida
w ji ji
j w kj
'
x i
y j z
k t
k
'
Figura 2.4: Arquitectura de un Perceptron Multicapa.
Las neuronas de la capa oculta usan como regla de propagacion la suma
ponderada de las entradas con los pesos sinapticos wij y sobre esa suma
ponderada se aplica una funcion de transferencia de tipo sigmoidal, que es
acotada en respuesta.
El aprendizaje que se suele usar en este tipo de redes recibe el nombre
de retropropagacion del error (Backpropagation Error, BPE). Como funcion
de coste global, se usa el error cuadratico medio. Sobre esta funcion de coste
global se aplica algun procedimiento de minimizacion. En el caso del MLP se
hace mediante un descenso por gradiente.
30
2.2 Redes Neuronales Artificiales
Redes Autoorganizadas: En este tipo de redes el entrenamiento o aprendizaje
es diferente al de las redes con entrenamiento supervisado. A la red no se le
suministra junto con los patrones de entrenamiento, una salida deseada. Lo
que hara la red es encontrar regularidades o clases en los datos de entrada, y
modificar sus pesos para ser capaz de reconocer estas regularidades o clases.
Uno de los tipos de redes que pertenece a esta familia y que se ha usado
bastante son los mapas autoorganizadas (Self-Organizing Maps, SOM). La
arquitectura tıpica de este tipo de mapas se muestra en la Figura 2.5.
Sinapsis
Neuronas (i,j)
(i,j)
w ijk
x t
Mapa salida
Capa sensorial entradas
Figura 2.5: Arquitectura de un mapa autoorganizado.
Como se puede apreciar es una red de tipo unidireccional. La red se
organiza en dos capas, siendo la primera capa la formada por las neuronas
de entrada. La segunda capa consiste en una matriz de neuronas de dos
dimensiones. Como se necesitan dos ındices para etiquetar cada neurona,
los pesos sinapticos asociados a cada neurona tendran tres ındices (i, j, k)
donde (i, j) indican la posicion de la neurona en la capa y k, la componente o
conexion con cierta neurona de entrada.
31
2.2 Redes Neuronales Artificiales
En cuanto al entrenamiento, este es un ejemplo de red que utiliza un
aprendizaje de tipo no supervisado. Ademas, cada neurona utiliza como regla
de propagacion una distancia de su vector de pesos sinapticos al patron de
entrada. Un algoritmo de aprendizaje muy usado con este tipo de redes es el
algoritmo de Kohonen.
Redes de Funcion de Base Radial: Este tipo de redes se caracteriza por tener
un aprendizaje o entrenamiento hıbrido. La arquitectura de estas redes se
caracteriza por la presencia de tres capas: una de entrada, una unica capa
oculta y una capa de salida.
z k
y j
x i
c ji j
w ji k
'
Figura 2.6: Arquitectura de una red de funcion de base radial.
Aunque la arquitectura pueda recordar a la de un MLP, la diferencia
fundamental esta en que las neuronas de la capa oculta en vez de calcular una
suma ponderada de las entradas y aplicar una sigmoidal, calculan la distancia
euclıdea entre el vector de pesos sinapticos (que recibe el nombre en este tipo
de redes de centro o centroide) y la entrada (de manera casi analoga a como
se hacıa con los mapas SOM) y sobre esa distancia se aplica una funcion de
tipo radial con forma gaussiana.
Para el aprendizaje de la capa oculta, hay varios metodos, siendo uno
de los mas conocidos el algoritmo denominado k-medias (k-means) que es un
algoritmo no supervisado de clustering. K es el numero de grupos que se desea
encontrar, y se corresponde con el numero de neuronas de la capa oculta, que
32
2.2 Redes Neuronales Artificiales
es un parametro que hay que decidir de antemano.
Andina-Pham en el libro “Computational Intelligence for Engineering and
Manufacturing” [59], presentan una taxonomıa basica de las RNA, que resumen
todo lo planteado y expuesto acerca de las RNA en este capıtulo, en la Figura 2.7,
se presenta dicha taxonomıa.
Entradas
Continuas
Entradas
Binarias
Redes
Neuronales
Artificiales
Aprendizaje
No
Supervisado
Aprendizaje
Supervisado
Autoorganizadas
(SOM)
Perceptrón
Multicapa
(MLP)
Perceptrón
Carperter
Hamming
Holpfield
Aprendizaje
Supervisado
Aprendizaje
No
Supervisado
Figura 2.7: Taxonomıa Basica de las RNA
33
Capıtulo 3
El Perceptron
3.1. Introduccion
La primera red neuronal conocida, fue desarrollada en 1943 por Warren
McCulloch y Walter Pitts [66]. McCulloch-Pitts con su comprension del aprendizaje
tambien anticiparon ideas conexionistas. McCulloch-Pitts dieron mas importancia
al aprendizaje que a factores innatos, consideraron que nuestro cerebro comienza
con redes aleatorias, que los estımulos provocan conexiones de una determinada
manera y que los estımulos posteriores, si son fuertes y constantes, llevarıan a la red
a manifestar una configuracion determinada. Esta configuracion determinarıa que
la respuesta de la red fuese distinta ante nuevos estımulos. En definitiva, sus ideas
fueron importantes al tratar al cerebro como un organismo computacional. La red
de McCulloch-Pitts consistıa en una suma de las senales de entrada, multiplicadas
por unos valores de pesos escogidos aleatoriamente. La entrada es comparada con
un patron preestablecido para determinar la salida de la red. Si en la comparacion,
la suma de las entradas multiplicadas por los pesos es mayor o igual que el patron
preestablecido la salida de la red es uno (1), en caso contrario la salida es cero (0)
[66]. Al inicio del desarrollo de los sistemas de inteligencia artificial, se encontro gran
similitud entre su comportamiento y el de los sistemas biologicos y en principio se
creyo que este modelo podıa computar cualquier funcion aritmetica o logica.
34
3.2 El Perceptron Monocapa
3.2. El Perceptron Monocapa
En 1958 el psicologo Frank Rosenblatt escribio The Perceptron, a Probabilistc
Model for Information Storage and Organization in the Brain [67]. Su intencion era
ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general,
sin entrar en mayores detalles con respecto a condiciones especıficas y desconocidas
para organismos biologicos concretos. Rosenblatt creıa que la conectividad existente
en las redes biologicas tiene un elevado porcentaje de aleatoriedad, por lo que
se oponıa al analisis de McCulloch-Pitts en el cual se empleaba logica simbolica
para analizar estructuras bastante idealizadas y defendio metodos probabilısticos.
Rosenblatt opinaba que la herramienta de analisis mas apropiada era la teorıa
de probabilidades, y esto lo llevo a una teorıa de separabilidad estadıstica que
utilizaba para caracterizar las propiedades mas visibles de estas redes de inter-
conexion ligeramente aleatorias. En esta obra llamo “perceptrones” a unas redes
McCulloch-Pitts capaces de modificar los pesos de sus conexiones, si las respuestas
de la red no eran las correctas, y demostro que estas redes se podıan entrenar para
clasificar ciertos patrones en iguales o distintos, por tanto que eran capaces del
reconocimiento de formas sencillas.
El perceptron esta constituido por un conjunto de sensores que reciben los pa-
trones de entrada a reconocer o clasificar y una neurona de salida que se ocupa de
clasificar a los patrones de entrada en dos clases, segun que la salida de la mis-
ma sea 1 (activada) o 0 (desactivada). El esquema de un perceptron monocapa es
presentado en la Figura 3.1
Entradas
x 1
x 2
x 3
y Salidas
Figura 3.1: Esquema de un perceptron monocapa.
3.2.1. Dinamica del Perceptron
Supongamos que tenemos una funcion f de Rn en −1, 1, que aplica un patron
de entrada x = (x1, x2, ....., xn)T , en la salida deseada z ∈ −1, 1, es decir, f(x) = z.
35
3.2 El Perceptron Monocapa
La informacion de que disponemos sobre dicha funcion viene dada por p pares de
patrones de entrenamiento:
x1, z1 , x2, z2 , ...., xp, zp
donde xi ∈ Rn y f (xi) = zi ∈ −1, 1, i = 1, 2, ...., p. Dicha funcion re-
aliza una particion en el espacio Rn de patrones de entrada. Por una parte
estarıan los patrones con salida +1 y por otra parte los patrones con salida -1.
Por lo tanto, diremos que la funcion f clasifica a los patrones de entrada en dos
clases. Ejemplos de funciones f de este tipo son la funcion logica OR o la funcion par.
Ahora vamos a construir un dispositivo sencillo que realice dicha funcion a partir
de un conjunto conocido de patrones (relaciones) de entrenamiento. Para ello vamos
a utilizar una unidad de proceso bipolar que es una funcion matematica definida por
la siguiente expresion (estamos definiendo la funcion de activacion de la neurona,
podrıa ser cualquier otra funcion mas compleja):
f (xi, x2, ....xn) =
1 → w1x1 + ...+ wnxn ≥ θ
o→ w1x1 + ...+ wnxn ≥ θ(3.1)
Donde los parametros w1, w2, ...., wn, se llaman pesos sinapticos con los cuales se
ponderan los valores de entrada x1, x2, ...., xn, o argumentos de la funcion; la suma
ponderada se llama potencial sinaptico y el parametro θ se llama umbral o sesgo.
Analogamente, se define una unidad de proceso binaria como una funcion
matematica con dominio en el conjunto n-dimensional 0, 1n y rango el conjun-
to 0, 1, definida por
y = f (xi, x2, ....xn) =
1 → w1x1 + ...+ wnxn ≥ θ
o→ w1x1 + ...+ wnxn ≥ θ(3.2)
Cuando la salida de la unidad de proceso es igual a 1 se dice que dicha unidad
esta activada o encendida y presenta el estado 1, mientras que si su salida es igual
a 0 se dice que esta desactivada o apagada, presentando el estado 0.
36
3.2 El Perceptron Monocapa
El perceptron monocapa es por lo tanto equivalente a una funcion de
discriminacion lineal, donde los pesos determinan la pendiente de una recta y el
umbral determina la posicion de esta recta respecto al origen de coordenadas. Ası va-
mos a representar la separacion de regiones para dos funciones sencillas como son
AND y OR. Tenemos cuatro posibles entradas 0, 0,0, 1,1, 0,1, 1. Tenemos
las siguientes regiones:
Para la funcion AND, tenemos que para cada par de vectores le corresponden
las salidas siguientes:
Vectores Salidas
0, 0 0
0, 1 0
1, 0 0
1, 1 1
Como se puede apreciar en la Figura 3.2, la recta generada permite distribuir
correctamente los valores de salida, luego la red podrıa computar la funcion
logica AND.
1 x
(1,0) (0,0) 0
(1,1) (0,1)
2 x
+ w 2
w 1
0
0 0
Figura 3.2: Funcion logica AND.
En la funcion OR tenemos las siguientes salidas para los mismos vectores.
Vectores Salidas
0, 0 0
0, 1 1
1, 0 1
1, 1 1
37
3.2 El Perceptron Monocapa
Como en el caso anterior, la recta tambien distribuye correctamente los valores
de salida (ver Figura 3.3) , por ello la red podrıa computar la funcion logica
OR.
1 x
(1,0) (0,0) 0
(1,1) (0,1)
2 x
+ w 2
w 1
1
1 1
Figura 3.3: Funcion logica OR.
En general, sı en una misma capa tenemos N neuronas artificiales con M entradas
comunes, la salida consistira en un vector de N componentes, cada una de ellas
correspondiente a una de las neuronas de la red. De esta forma podrıamos distinguir
2N regiones. Estas regiones estarıan separadas en un espacio multidimensional por
un hiperplano [61]. En la Figura 3.4, puede apreciarse un ejemplo de un perceptron
monocapa con N neuronas de salidas.
Perceptrones
simples
Salidas
y
x 1
x 2
x 3
x 4
x 5
1
y 2
y 3
Entradas
Figura 3.4: Perceptron monocapa con N neuronas.
38
3.2 El Perceptron Monocapa
3.2.2. Aprendizaje del Perceptron
Para la determinacion de los pesos sinapticos y del umbral se sigue un proceso
adaptativo que consiste en comenzar con unos valores iniciales aleatorios e ir
modificandolos iterativamente cuando la salida de la unidad no coincide con la
salida deseada. Esto se realiza mediante metodos convergentes de aproximaciones
sucesivas. La regla que se sigue para modificar los pesos sinapticos se conoce con el
nombre de regla de aprendizaje del Perceptron simple y consiste en la presentacion
de un patron de entrenamiento a la red y calculo de los nuevos valores de pesos
y umbrales para cada nodo de la red anadiendo un termino de correccion. La
expresion tanto para los pesos como para el umbral (que se trata como un peso
mas) es la siguiente:
wi (t+ 1) = wi (t) + ∆wi (t)
θ (t+ 1) = θ (t) + ∆wi (t)(3.3)
Determinemos ahora el valor de los incrementos en cada paso del proceso. En su
configuracion inicial a los pesos de las conexiones se les dan valores arbitrarios, por
lo que ante la presencia de estımulos la red genera respuestas arbitrarias, respuestas
que no coinciden con las deseadas. Se considera que la red ha conseguido aprender
cuando los pesos se han ajustado de tal modo que la respuesta que emite es la
deseada.
El procedimiento propuesto por Rosenblatt para este entrenamiento era sencillo:
se le presenta a la red un patron cuya senal se transmite hasta la capa de salida,
provocando la activacion de alguna de sus unidades; si se activan las unidades
de respuesta correcta, no se hace ningun ajuste de sus pesos; si la respuesta es
incorrecta se procede de la manera siguiente: si la unidad debıa estar activada y
no lo esta, aumentar todos los pesos de sus conexiones; si la unidad debıa estar
desactivada y esta activada, disminuir los pesos de sus conexiones. Se repite este
procedimiento con todos los patrones deseados de estımulo-respuesta. Rosenblatt
creyo que era posible hacer que los pesos convergieran en un conjunto de valores,
a partir de los cuales le es posible a la red computar cada uno de los patrones de
entrada para producir los correspondientes patrones de salida.
39
3.2 El Perceptron Monocapa
Este procedimiento de forma numerica se resume en la convergencia de una
matriz de pesos W(t) que varıa en cada iteracion, a un valor W para el cual el
vector de entrada X produzca como respuesta el vector de salida Y correcto. De
[68], se definen los siguientes elementos para el algoritmo:
N: numero de neuronas artificiales del perceptron monocapa.
M: numero de datos de entrada al perceptron.
i: variable utilizada para numerar las entradas.
j: variable utilizada para numerar las neuronas.
T: iteracion temporal para la cual la matriz de pesos ha alcanzado el valor
deseado.
t: variable utilizada para numerar la iteracion en curso, t = 0, 1, 2, ..., T .
X(t): vector de entrada al perceptron para la iteracion t. Consiste en la
componente de entrada del patron de entrenamiento utilizado.
X (t) = (xo (t) , x1 (t) , ....xi (t) , ...., xM−1 (t))T (3.4)
Y(t): vector de salida ideal que se corresponde con X(t), es decir la salida
deseada del patron de entrenamiento utilizado.
Y (t) = (yo (t) , y1 (t) , ....yi (t) , ...., yN−1 (t))T (3.5)
W(t): matriz de pesos de la red para la iteracion en curso. Esta matriz
tiene dimensiones MxN y los valores de sus componentes son aquellos que
modificamos a lo largo del entrenamiento hasta llegar al valor deseado de la
matriz W en la iteracion T.
40
3.2 El Perceptron Monocapa
W (t) =
w00 (t) . . . . . . w0N−1 (t)
. . . . . . . . . . . .
. . . . . . . . . . . .
wM−10 (t) . . . . . . wM−1N−1 (t)
(3.6)
θ: es el umbral u offset correspondiente a la neurona artificial j.
Y (t): vector disponible a la salida del perceptron para la iteracion t. En las
sucesivas iteraciones, mediante la modificacion de los pesos, el objetivo es que
esta salida se asemeje lo mas posible a la ideal.
Y (t) = (y0 (t) , y1 (t) , ....yj (t) , ...., yN−1 (t))T (3.7)
η: ganancia de la red o coeficiente de aprendizaje. Es un valor positivo menor
que 1, de su valor dependera la velocidad de aprendizaje de la red y tambien
la capacidad de convergencia del algoritmo de aprendizaje.
Una vez que hemos definido los elementos que entran a formar parte del percep-
tron monocapa pasamos a estudiar los pasos que hay que dar para su entrenamiento:
1. Inicializamos de forma aleatoria los valores correspondientes a los pesos y a
los umbrales (wij (0) y θ (0)). Es recomendable que estos valores aleatorios
sean pequenos.
2. Tomamos un par de patrones de entrenamiento (X(t), Y (t)) y presentamos la
entrada al perceptron. Ası obtenemos la salida del mismo Y (t) de la siguiente
forma:
41
3.2 El Perceptron Monocapa
Y (t) (y0 (t) , y1 (t) , ...., yj (t) , ...., yN−1 (t))T
yj (t) = f
(
M−1∑
i=0wij (t)xi (t) − θ
)
f (x) = sign (x)
(3.8)
3. A partir de la salida obtenida podemos calcular la matriz de pesos para
la siguiente iteracion. El procedimiento tanto para los pesos como para los
valores de los umbrales es el siguiente:
wij (t+ 1) = wij (t) + η (yj (t) − yj (t))xi (t)
θij (t+ 1) = θij (t) + η (yj (t) − yj (t))xi (t)(3.9)
4. Como se puede deducir de las ecuaciones anteriores en el caso de que la salida
que nos proporciona la red coincida con la salida correspondiente al par de
entrenamiento utilizado, los pesos y los umbrales permanecen sin variar su
valor. En este caso consideramos que la matriz de pesos W(t) ha alcanzado el
valor de convergencia W en la iteracion T.
5. En el caso de no haber alcanzado la convergencia hacemos t = t+1 y volvemos
al paso 2, presentandole un nuevo patron de entrenamiento a la red.
Este funcionamiento describe el proceso por el cual los valores de los pesos
W(t) se adaptan hasta conseguir el valor de convergencia deseado W, de
igual forma con los valores de los umbrales. Este modo de funcionamiento se
denomina modo de entrenamiento.
En contraposicion, una vez entrenada la red se utiliza en el modo de fun-
cionamiento directo en el cual le presentamos a la red solo patrones de entrada
y obtenemos una salida de la misma.
La velocidad de convergencia de los pesos y umbrales esta determinada
principalmente por el valor del factor de ganancia de la red o coeficiente de
42
3.2 El Perceptron Monocapa
aprendizaje η. Como se comento tiene un valor positivo e inferior a 1, de
este modo si el valor del coeficiente es cercano a 0 los valores de los pesos
no se modificaran sustancialmente de una iteracion a otra y el entrenamiento
sera lento, aunque podemos asegurar que los pesos y los umbrales convergeran
al valor deseado. Si el valor es cercano a 1 entonces el entrenamiento sera mas
rapido pero es posible que los resultados no converjan y la red sea inestable.
El valor adecuado en cada caso dependera de la aplicacion concreta de la
red y de los pares de entrenamiento que se le presenten para conseguir un
equilibrio entre la velocidad del entrenamiento y la fiabilidad de la red.
3.2.3. Limitaciones del Perceptron Monocapa
En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An Intro-
duction to Computational Geometry [69]. En esta obra analizaron las capacidades
y limitaciones del Perceptron, y demostraron que hay cierta clase de problemas que
el Perceptron y cualquier modelo simple de dos capas no pueden resolver.
Los perceptrones monocapa solo pueden distinguir tramas o patrones lineal-
mente separables, y dado que hay muchos e importantes problemas que no son
linealmente separables, Minsky y Papert concluyeron que los perceptrones son poco
adecuados como clasificadores de patrones.
Los autores senalados concluyeron esto a partir del analisis de uno de los
los mas conocidos y sencillos problemas que la red no puede resolver: el relativo
al problema XOR o disyuncion exclusiva. Dado que el perceptron es capaz de
asociar patrones de entrada con patrones de salida y que las tablas de verdad son
tambien correspondencias entre pares de valores, parece que podemos utilizar los
perceptrones para decidir los valores de verdad correspondientes a las entradas a
la red. Si ahora representamos en el plano las vectores de entrada y los valores de
verdad correspondiente a la funcion XOR, se tienen los resultados que se pueden
observar en la Figura 3.5.
43
3.3 El Perceptron Multicapa
1 x
(1,0) (0,0) 0
(1,1) (0,1)
2 x
1
1 1
Figura 3.5: Funcion logica XOR.
Se observa facilmente que con una sola lınea es imposible separar los puntos 1
y 1 de los puntos 0 y 0 ; no hay forma de disponer la lınea de modo que separe los
conjuntos de puntos citados. Esto es precisamente lo que se quiere indicar cuando
se dice que este problema no es linealmente separable. Si tuviesemos dos lıneas
entonces serıa posible descomponer el espacio en tres regiones, en dos de las cuales
se encontrarıan los puntos 0 y en la otra los puntos 1.
Los perceptrones de dos capas no pueden dar lugar mas que a una lınea, pero
podemos conseguir dos lıneas si entre la capa de entrada y la de salida situamos
una capa intermedia con dos neuronas, cada una de las cuales nos permitira obtener
una lınea. En la epoca de Rosenblatt no se disponıa de un algoritmo de aprendizaje
adecuado para redes con capas ocultas y hubo que esperar a los anos ochenta
para su perfecto desarrollo (la regla delta generalizada) y, por lo tanto, para la
superacion del problema de la separabilidad lineal.
El perceptron monocapa presenta una serie de limitaciones. Debido a que la
funcion escalon es de tipo lineal solo le permite resolver problemas linealmente
separables como se comento anteriormente. Ademas al tener una solo neurona no
puede realizar varias separaciones lineales. Por estas dos razones en 1960
aparecio la red Perceptron Multicapa (MLP) que subsana los problemas mencionados
anteriormente, en la siguiente subseccion (3.3) se explicara con detalles el MLP.
3.3. El Perceptron Multicapa
El Perceptron Multicapa, MLP (Perceptron Multilayer, MLP), surge como una
necesidad de solventar las limitaciones del Perceptron monocapa (tambien llamado
44
3.3 El Perceptron Multicapa
perceptron simple), sobre todo en cuanto a separabilidad de funciones no lineales. El
MLP esta formado por multiples capas, esto le permite resolver problemas que no
son linealmente separables. La arquitectura del MLP surge en una combinacion de
esfuerzos de diversos autores Werbos [70], Parker [71], Rumelhart [1] entre otros por
corregir las limitaciones que las redes iniciales, Adaline y Perceptron presentaban.
Este hecho significativo no hubiera servido de nada sin el cambio de la funcion
de activacion de las neuronas artificiales pasando de una funcion diferenciable como
era la activacion logıstica a una funcion diferenciable y no lineal como lo es la
sigmoidal.
Un MLP es una red con alimentacion hacia delante, compuesta de una o varias
capas (que se conocen como capa oculta) de neuronas entre la entrada y la salida
de la misma, esta red permite establecer regiones de decision mucho mas complejas
que las de dos semiplanos, como lo hace el perceptron monocapa [2, 59, 72]. Cada
una de estas capas esta formada por un conjunto de neuronas artificiales que
reciben su vector de entrada de las neuronas situadas en la capa inmediatamente
anterior y su vector de salida se convierte en la entrada de las neuronas de la capa
inmediatamente posterior. Dependiendo del criterio utilizado podemos considerar
la existencia de una primera capa de neuronas cuya funcion consistirıa exclusiva-
mente en repartir las senales de entrada a las neuronas de la siguiente capa y no
realizarıan ningun tipo de proceso sobre estas senales de entrada. El otro criterio
consiste en considerar directamente las N0 componentes del vector de entrada como
la entrada de las N1 neuronas de la primera capa que sı realizan un proceso de senal.
Las capas se actualizan a partir de los insumos y terminan con las salidas.
Cada neurona calcula una suma ponderada de las senales de entrada, para dar una
entrada de red, y pasa este valor a traves de su funcion de activacion sigmoidal
para obtener el valor de activacion de la neurona. Los perceptrones multicapa
se han aplicado con exito en muchos problemas. Sin embargo, a diferencia del
percentron de una capa, no se ha demostrado la convergencia de sus algoritmos de
entrenamiento.
Las posibilidades de los perceptrones multicapa radican en las no linealidades
que se utilizan en los nodos, pues de otro modo sus posibilidades serıan las mismas
45
3.3 El Perceptron Multicapa
que en el perceptron de una capa. Se utilizara la notacion matricial para comprender
mejor las ventajas que tiene este tipo de estructura para trabajar con problemas
no linealmente separables. Para simplificar los calculos supongamos que estamos
trabajando un perceptron de dos capas con neuronas artificiales cuyos umbrales de
decision tienen valor 0 y cuyas funciones de activacion son lineales. En este caso, las
salidas de la primera capa (capa oculta), se pueden expresar de la siguiente manera:
Y 1 = W (1)T
X (3.10)
y las salidas de la segunda capa (capa de salida)
Y = W (2)T
Y (3.11)
Si expresamos la salida en funcion de las entrada obtendremos lo siguiente:
Y = W (2)t
Y 1 = W (2)t(
W (1)t
X)
=(
W (2)t
W (1)t)
X = W tTotX (3.12)
Esta funcion se podrıa haber realizado con un perceptron con una capa y
una matriz de peso fuera WTotT = W (1)T
W (0)T
. Por lo tanto tenemos que un
perceptron multicapa, cuyas funciones de activacion de las neuronas sean lineales,
es equivalente a un perceptron monocapa, con una funcion de activacion lineal,
y no se mejorarıan las prestaciones de la estructura al anadir nuevas capas, ya
que siempre se podrıa encontrar un perceptron de una capa equivalente al nuevo
multicapa. De tal manera que un perceptron multicapa de este estilo no podrıa
resolver el problema de la clasificacion de patrones segun regiones no linealmente
separables.
La solucion a este problema consiste en introducir no linealidades en las
funciones de activacion. El perceptron basico solo puede establecer dos regiones
separadas por una frontera lineal en el espacio de entrada de los patrones, un
perceptron con dos capas, puede formar cualquier region convexa en este espacio.
Las regiones convexas se forman mediante la interseccion entre las regiones formadas
por cada neurona de la segunda capa, cada uno de estos elementos se comporta
como un Perceptron simple, activandose su salida para los patrones de un lado del
hiperplano [72]. Si el valor de los pesos de las conexiones entre las neuronas de la
46
3.3 El Perceptron Multicapa
segunda capa y una neurona del nivel de salida son todos iguales a 1, y la funcion de
salida de activacion es adecuada, la salida de la red se activara solo si las salidas de
todos los nodos de la segunda capa estan activos, esto equivale a ejecutar la funcion
logica AND en el nodo de salida, resultando una region de decision interseccion de
todos los semiplanos formados en el nivel anterior. La region de decision resultante
de la interseccion sera una region convexa con un numero de lados a lo sumo igual
al numero de neuronas de la segunda capa.
Si anadimos una tercera capa, la primera de ellas serıa la encargada de separar
los hiperplanos y a partir de ese punto las otras podrıan implementar diversas
funciones logicas, siendo capaces de formar regiones complejas, convexas o no. En
la Figura 3.6, pueden observarse distintas formas de las regiones generadas por un
perceptron multicapa con diferentes numero de capas [61].
1 Capas
2 Capas
3 Capas
Medio planolimitado porun hiperplano
Regionescerradas
oConvexas
Complejidadarbitraria
limitada por elnúmero deneuronas
B
A
A
B
B
A
A
B
B
A
A
B
B A
AB
B A
AB
Estructura Regiones deDecisión
Problemas dela XOR
Clases conRegionesMezcladas
Formas deRegiones más
Generales
B
Figura 3.6: Distintas formas de las regiones generadas por un perceptron multicapa.
47
3.4 El Algoritmo de Retropropagacion
Entonces tenemos que con perceptrones multicapa, no se necesitan mas de tres
capas para crear la regiones de decision que necesitemos. Esto da cierta vision para
seleccionar el numero de nodos a usar en un perceptron de tres capas. En numero de
nodos en la segunda capa ha de ser mayor que uno, como se menciono anteriormente,
cuando las regiones de decision estan desconectadas o mezcladas y no puedan
separarse mediante un area convexa. En el peor de los casos, el numero de nodos
requerido en la segunda capa ha de ser igual o mayor que el numero de regiones
inconexas en las distribuciones de entrada. Usualmente, el numero de nodos que
forman la primera capa ha de ser suficiente para proveer tres o mas lados para cada
area convexa generada por los nodos de la segunda capa. En general, suele haber
por lo menos tres nodos en al primera capa por cada uno de la segunda [61].
Para perceptrones en los cuales las no linealidades no son del tipo limitador
duro, el comportamiento de la red es algo mas complejo, con regiones de decision
tıpicamente delimitadas por regiones menos abruptas que los fragmentos de lınea
recta [70]. Sin embargo, estas redes pueden ser entrenadas con el Algoritmo de
Retropropagacion (Algoritmo de Backpropagation, ABP). Para este tipo de MLP
se ha demostrado que una capa oculta de unidades sigmoidales es suficiente para
establecer cualquier clasificacion [73].
3.4. El Algoritmo de Retropropagacion
El Algoritmo de retropropagacion (Algoritmo Backpropagation, ABP), es uno
de los algoritmos mas usados con el Perceptron Multicapa. EL ABP tuvo su base
en el algoritmo de la regla delta [74] y fue extendido por Rumbelhart, Hinton
y Williams en 1986 [1], basandose en el trabajo propuesto por P. Werbos [75].
Rumbelhart, Hinton y Williams en 1986 [1] formalizaron un metodo para que una
red neuronal aprendiera la asociacion que existe entre los patrones de entrada y las
clases correspondientes, utilizando varios niveles de neuronas.
El funcionamiento del ABP consiste en el aprendizaje de un conjunto predefinido
de pares de entradas-salidas dados como ejemplo: primero se aplica un patron
de entrada como estımulo para la primera capa de las neuronas de la red, se va
propagando a traves de todas las capas superiores hasta generar una salida, se
compara el resultado en las neuronas de salida con la salida que se desea obtener y se
48
3.4 El Algoritmo de Retropropagacion
calcula un valor de error para cada neurona de salida. A continuacion, estos errores
se transmiten hacia atras, partiendo de la capa de salida hacia todas las neuronas de
la capa intermedia que contribuyen directamente a la salida. Este proceso se repite,
capa por capa, hasta que todas las neuronas de la red hayan recibido un error
que describa su aportacion relativa al error total. Basandose en el valor del error
recibido, se reajustan los pesos de conexion de cada neurona, de manera que en la
siguiente vez que se presente el mismo patron, la salida este mas cercana a la deseada.
La importancia del ABP consiste en su capacidad de autoadaptar los pesos de
las neuronas de las capas intermedias para aprender la relacion que existe entre
un conjunto de patrones de entrada y sus salidas correspondientes. Es importante
la capacidad de generalizacion, es decir, la facilidad de dar salidas satisfactorias
a entradas que el sistema no ha visto nunca en su fase de entrenamiento. La
red debe encontrar una representacion interna que le permita generar las sali-
das deseadas cuando se le dan entradas de entrenamiento, y que pueda aplicar,
ademas, a entradas no presentadas durante la etapa de aprendizaje para clasificarlas.
El ABP usa la tecnica de busqueda del gradiente para minimizar la funcion de
coste igual a la diferencia cuadratica media entre la salida deseada y la real. Vemos
con mas detalle que significa esto.
3.4.1. Metodo del Gradiente
Mediante el metodo de la retropropagacion se pretende entrenar la red de
manera satisfactoria. Este entrenamiento consiste en obtener los valores de los
elementos de la matriz de pesos de la red y tambien los valores de los umbrales
para cada una de las neuronas artificiales. Se considera que el entrenamiento se ha
completado cuando se han conseguido unos valores de wij correspondientes a W, es
decir que al presentar a la red una entrada X(t) la salida que obtengamos sea Y(t),
o sea, la salida deseada correspondiente al par de entrenamiento.
Para conseguir estos valores no se tienen formulas analıticas, sino que se recurre
a la utilizacion de metodos de aproximaciones sucesivas. En las sucesivas iteraciones
se pretende que el error de la red cada vez sea menor hasta alcanzar un objetivo
predeterminado. Al tratarse de un entrenamiento supervisado en el cual se conoce
el par de senales de entrada y salida correspondiente al patron de entrenamiento,
49
3.4 El Algoritmo de Retropropagacion
el error que cometa la red esta en funcion de los pesos y de los umbrales de
las neuronas. Esta funcion que notaremos como ε(W ) y denominamos funcion
objetivo (tambien se conoce como funcion de energıa, de coste o criterio) sera la
que tengamos que minimizar para considerar que la red esta entrenada.
Ası en el entrenamiento de perceptrones multicapa existen varios metodos para
minimizar esta funcion objetivo, en el caso de esta investigacion en concreto se
utilizara el metodo del gradiente, inicializando la red con unos valores de los pesos y
de los umbrales aleatorios y pequenos, en cada iteracion e la red se modifica el valor
de los mismos segun la siguiente ecuacion:
wlij (t+ 1) = wlij (t) − η∇lij (t) (3.13)
Los elementos de la ecuacion son los siguientes:
l: se refiere al ındice de la capa donde se encuentra la neurona artificial. l=0...L,
con l=1 la primera capa oculta y l=L la capa de salida.
t: corresponde al contador de las iteraciones del entrenamiento.
η: factor de aprendizaje de la red, entre 0 y 1.
∇: gradiente de la funcion objetivo a minimizar ε(W ). Se define como:
∇lij =
∂ε (W )
∂wlij(3.14)
La expresion del gradiente de la ecuacion 3.14 puede desarrollarse segun la regla
de la cadena de la siguiente forma:
∂ε (W )
∂wlij=∂ε (W )
∂y(l)j
.∂y
(l)j
∂w(l)ij
∂y(l)j
∂wlij=∂f lj
(
W lj Y
(l−1))
∂(
W(l)j Y (l−1)
) .∂(
W(l)j Y (l−1)
)
∂w(l)ij
50
3.4 El Algoritmo de Retropropagacion
∂(
W(l)j Y (l−1)
)
∂w(l)ij
= y(l−1)i
∂f(l)j
(
W(l)j Y (l−1)
)
∂(
W(l)j Y (l−1)
) = f(l)
′
i
∇(l)ij =
∂ε (W )
∂y(l)j
.y(l−1)i .f
(l)′
j (3.15)
donde
W lj : es el vector fila de pesos de las conexiones correspondientes a la neurona
j de la capa l.
Y (l−1): es el vector columna de las entradas correspondientes a la capa l.
f(l)j : es la funcion de activacion del nodo j de la capa l. En la red concreta con
la que vamos a trabajar, la funcion de activacion es la misma para todos los
nodos.
Ası pues podemos pasar a definir el error para cada uno de los nodos. Llamamos
termino de error o termino delta a:
δ(l)j =
∂ε (w)
∂y(l)j
.f(l)
′
j =∂ε (w)
∂w(l)ij
.1
y(l−1)i
Ası podemos reescribir el gradiente de la funcion objetivo como:
∇(l)ij = −δ(l)j .y
(l−1)i (3.16)
Aplicando la regla de la cadena, al gradiente en funcion de los terminos de error
de las capas anteriores (de esta forma podemos propagar la correccion de los pesos
en funcion del error a la salida de la red).
∂y(l)j =
Nl+1−1∑
n=0
∂ε (W )
∂y(l+1).∂y
(l+1)n
∂y(l)j
51
3.4 El Algoritmo de Retropropagacion
∂y(l+1)n
∂y(l)j
=∂f
(l+1)n
(
W(l+1)n Y (l)
)
∂(
W(l+1)n Y (l)
) .∂(
W(l+1)n Y (l)
)
∂y(l)j
∂(
W(l+1)n Y (l)
)
∂y(l)j
= w(l+1)jn
∂f(l+1)n
(
W(l+1)n Y (l)
)
∂(
W(l+1)n Y (l)
) = f (l+1)′
n
∂ε (W )
∂y(l)j
=
Nl+1−1∑
n=0
∂ε (W )
∂y(l+1).w
(l+1)jn .f (l+1)
′
n (3.17)
Finalmente obtenemos una expresion del gradiente en funcion del termino de
error y los pesos de la capa anterior. La expresion es la siguiente:
∂ε (W )
∂y(l)j
=
N(l+1)−1∑
n=0
δ(l+1)n .w
(l+1)jn (3.18)
Podemos expresar la variacion de los pesos de las conexiones en el tiempo como:
w(l)ij
w(L)ij (t) + ηy
(L−1)i (t) δ
(L)j (t)∗
w(l)ij (t) + ηy
(l−1)i (t) δ
(l)j (t)∗∗
(3.19)
*l = L; 0 ≤ j ≤ NL−1; 0 ≤ j ≤ NL − 1
**l = L− 1, L− 2, ...., 1; 0 ≤ i ≤ Nl−1; 0 ≤ j ≤ Nl − 1
El termino de error que aparece en esta expresion se calcula:
∂(l)j (t) = f
(l)′
j
N(l+1)−1∑
n=0
δ(l+1)n (t) .w
(l+1)jn (t) (3.20)
Es importante destacar que los pesos de la capa, l , solo pueden calcularse
cuando se conoce la expresion de los valores correspondientes a la capa siguiente
l+1, esto no es ası para la ultima capa ya que para la salida obtenemos el error
directamente al comparar la salida ideal y la salida de la red. Por esta razon a la
hora de calcular los nuevos valores para los pesos hemos de hacerlo desde la salida
a la entrada de la red. El nombre de retropropagacion hace alusion a la manera
52
3.4 El Algoritmo de Retropropagacion
en que se utilizan los terminos de la ecuacion (3.22) para ajustar los pesos de las
sucesivas capas, propagandolos hacia atras, desde los nodos de salidas a los de
entrada.
δ(l+1)n (3.21)
Vamos a definir el algoritmo para un perceptron multicapa con L capas y N1,....,
NL neuronas artificiales en cada capa. Como queremos que nuestro perceptron sea
capaz de resolver problemas con regiones no separables linealmente, es necesario que
la funcion de activacion de los nodos sea no lineal, para efectos de esta investigacion
utilizaremos un limitador sigmoidal con la siguiente expresion:
f (x) = 11+e−x
f ′ (x) = f (x) (1 − f (x))(3.22)
Los pasos a seguir para la actualizacion de los pesos para conseguir que la salida
ideal y la salida real de la red converjan a un mismo valor son los siguientes:
1. Inicializamos los valores de los pesos y los umbrales de la red a valores aleatorios
pequenos.
2. Se presenta un vector de entrada X(t) correspondiente a un par de entre-
namiento de la red, a la salida de la red tenemos el vector Y(t) del par.
Tenemos un conjunto de patrones de entrenamiento, este conjunto puede ser
suficientemente amplio para que no se repita ningun par a lo largo de todo
el entrenamiento, o bien podemos utilizar conjuntos mas reducidos repitien-
do los pares que le presentamos a la red (en este caso corremos el riesgo de
sobreentrenar la red para estos patrones y perder generalidad).
3. Calcula la salida de la red segun las siguientes expresiones:
Para una capa l cualquiera, la salida es:
y(l)j = f
N(l−1)−1∑
i=0
w(l)ij (t)y
(l−1)i (t) − θ
(l)j
; 0 ≤ j ≤ Nl − 1; 0 ≤ l ≤ L (3.23)
53
3.4 El Algoritmo de Retropropagacion
donde
y(0)j = xi
y(L)i = yiθ
(l)i
(3.24)
4. Calcular el termino de error a la salida y a partir de el las modificaciones de
los pesos de las capas anteriores:
δ(L)j =
∂ε (W )
∂y(L)j
f(L)
′
j (3.25)
se calculan los nuevos pesos para la capa de salida, segun la ecuacion (3.20)
de la siguiente manera:
w(L)j (t+ 1) = w
(L)ij (t) + ηδ
(L)j (t) y
(L−1)i ;
0 ≤ i ≤ NL−1 − 1; 0 ≤ j ≤ NL − 1(3.26)
Calculamos los terminos de error para el resto de las capas, de la manera
siguiente:
∂(l)j (t) = f
(l)′
j (t)
N(l+1)−1∑
n=0
δ(l+1)n (t) .w
(l+1)jn (t) (3.27)
y la modificacion de los pesos se obtendra ası:
w(l)ij (t+ 1) = w
(l)ij (t) + ηy
(l−1)j (t) δ
(l)j (t) (3.28)
5. En el caso de haber llegado al objetivo del entrenamiento en este punto
finaliza el algoritmo, sin embargo si no fuera ası debemos pasar a la iteracion
siguiente t = t+ 1 y volver al paso 2.
Para el entrenamiento de la red debemos tener en cuenta el valor del coeficiente
de aprendizaje que hayamos elegido para nuestra red. Si este valor es cercano a 0 la
red entrena mas lentamente pero podemos asegurar la convergencia del algoritmo,
54
3.4 El Algoritmo de Retropropagacion
pero si el valor del coeficiente es cercano a 1 la red entrenara mas rapidamente pero
no podemos asegurar la estabilidad del resultado. Ası pues para poder asegurar que
el algoritmo converja el valor del coeficiente de aprendizaje η debe estar comprendido
entre dos valores:
0 ≺ η ≺ 1
E[
|X|2] =
11P
∑
P
∑
i
x2ij
(3.29)
donde
Siendo p = 0, 1, ....P : el contador de patrones de entrenamiento.
xij : el valor de entrada i de la capa l proveniente de la capa j de la capa l-1
Para acelerar la convergencia del algoritmo es conveniente suavizar la pendiente
de los cambios en los pesos. Para ello a la hora de calcular el cambio de un peso
podemos considerar el cambio experimentado por el mismo en la iteracion anterior.
Esto se consigue utilizando un termino conocido como momento α [76], reescribiendo
la ecuacion (3.27) de la siguiente manera:
w(l)ij (t+ 1) = w
(l)ij (t) + ηy
(l−1)i (t) δ
(l)j (t) + α
[
w(l)ij (t) − w
(l)ij (t− 1)
]
; 0 ≺ α ≺ 1
(3.30)
El ABP es el mas utilizado para el entrenamiento de MLP, sin embargo en casos
concretos pueden darse situaciones que hagan que el algoritmo pierda efectividad o
incluso llegue a no converger. Los problemas de este algoritmo normalmente estan
relacionados con una inicializacion inadecuada de los pesos, o una eleccion incorrecta
del parametros llamado momento. Podemos enumerar los problemas principales de
este algoritmo:
La lınea de maxima pendiente no es siempre la ruta mas directa hacia el
mınimo de la funcion error.
Puede converger a un mınimo local.
55
3.4 El Algoritmo de Retropropagacion
Si la pendiente es escasa, el entrenamiento es muy lento.
Si la pendiente es nula, el algoritmo se detiene.
Para resolver algunos de estos inconvenientes el ABP muchos investigadores de-
sarrollan continuamente correcciones o variaciones de este algoritmo. Una buena
parte de estas modificaciones tratan de resolver el problema de su lenta conver-
gencia, mientras que otras se centran en conseguir una mejor generalizacion del
mencionado algoritmo. el Capıtulo 5 presentara la mejora realizada al ABP basada
en la propiedad biologica de la Metaplasticidad.
56
Capıtulo 4
La Metaplasticidad
4.1. Introduccion
La Metaplasticidad es un concepto biologico ampliamente conocido y usado
en areas del conocimiento como la Biologıa, Neuro-Biologıa, Informatica Medica,
Psicologıa, Neurologıa y Neuro-Fisiologıa entre otras [4, 5, 6, 7, 8].
La metaplasticidad esta relacionada con los procesos de la memoria y del apren-
dizaje, algunos investigadores como Abraham [77], aseguran que la Metaplasticidad
es “El elemento clave en la memoria y el aprendizaje.”
Siendo la metaplasticidad la base de esta investigacion, en este capıtulo se
hablara de los procesos biologicos que hacen posible que la metaplasticidad se
genere, tambien se hablara de los conceptos y propiedades relacionadas con ella,
ası como de la relacion que tiene con el aprendizaje y con los cambios que produce
en las estructuras neuronales. Ademas sentaremos las bases de la Metaplasticidad
Artificial que sera detallada ampliamente en el capıtulo 5.
4.2. Resena Historica
El cientıfico espanol Santiago Ramon y Cajal en 1894, describio por primera
vez los diferentes tipos de neuronas [78]. Al mismo tiempo planteo que el sistema
nervioso estarıa constituido por neuronas individuales, las que se comunicarıan
57
4.3 Plasticidad Sinaptica
entre sı a traves de contactos funcionales llamados sinapsis (teorıa de la neurona).
La hipotesis de Cajal se oponıa a la de otros cientıficos de su epoca que concebıan
al sistema nervioso como una amplia red de fibras nerviosas conectadas entre
sı formando una red continua (en analogıa con los vasos sanguıneos). Ramon y
Cajal senalo que la ocurrencia de cambios sostenidos en las sinapsis (plasticidad
sinaptica) esta relacionada con el aprendizaje. Al mismo tiempo que el aprendizaje
puede producir cambios en la comunicacion entre las neuronas y que estos cambios
podrıan ser los mecanismos esenciales de la memoria [78]. En 1948 Konorski,
sugirio que la activacion coincidencial de dos o mas neuronas al mismo tiempo
obliga a que las conexiones potenciales se transformen en conexiones excitatorias
reales. Ademas describio este proceso como que: “Los cambios en la plasticidad de
las neuronas podrıan estar relacionados con la formacion y multiplicacion de nuevas
uniones sinapticas entre los terminales del axon de una neurona y el soma de la
otra neurona”, es decir, hablo de los cambios plasticos persistentes en la memoria
[79]. Hebb en 1949, postulo que, en la fase de aprendizaje, las conexiones sinapticas
se fortalecen, debido a la actividad correlacionada de las neuronas presinapticas y
las neuronas postsinapticas [64].
Para una correcta comprension de los mecanismos que produce la metaplastici-
dad, vamos a comenzar con una introduccion a la plasticidad sinaptica.
4.3. Plasticidad Sinaptica
La eficacia de la transmision sinaptica es variable y cambia con la experiencia.
Esta capacidad de las sinapsis para modular su eficacia, es conocida como plasticidad
sinaptica, y abarca un gran numero de fenomenos celulares que modifican la funcion
sinaptica. Una amplia variedad de cambios pueden ocurrir antes en la sinapsis para
alterar las propiedades de la liberacion del transmisor y/o postsinapticamente para
modificar la capacidad de respuesta a la liberacion del transmisor. Estos cambios
se producen con frecuencia de forma dependiente y puede resultar en una mayor
eficacia, denominada Potenciacion a Largo Plazo, PLP (Long-term Potentiation,
LTP), o en una reduccion de la eficacia sinaptica, llamada Depresion a Largo Plazo,
DLP (Long-term Depression, LTD). Ademas, estos cambios en la eficacia sinaptica
puede ser acompanados y apoyados por cambios morfologicos, como la densidad
extrasinaptica y la cobertura sinaptica [80, 81].
58
4.3 Plasticidad Sinaptica
Tanto la Potenciacion como la Depresion a largo plazo son diferentes tipos
de plasticidad sinaptica y se pueden distinguir sobre la base de sus propiedades
temporales (en la subsecciones 4.3.1 y 4.3.2 hablaremos ampliamente de estos dos
tipos de plasticidad sinaptica).
Los cambios a largo plazo (Plasticidad a largo plazo) en las propiedades de
transmision de las sinapsis son importantes para el aprendizaje y la memoria,
mientras que los cambios a corto plazo permiten al sistema nervioso procesar
e integrar temporalmente la informacion, ya sea ampliando o disminuyendo la
capacidad de transmision de los circuitos sinapticos [80, 81].
4.3.1. Potenciacion y Depresion a largo plazo
La comunicacion neuronal y su modulacion afectan a las funciones fisiologicas
basicas y a las funciones psicologicas superiores como el aprendizaje y la memoria.
Esto es debido a que las sinapsis entre la neuronas pueden modificar continuamente
su estructura y su dinamica para adaptarse a las necesidades del ambiente. la sinapsis
no es un proceso rıgido, sino que puede variar a causa de la actividad del organismo.
En muchas sinapsis, una actividad repetitiva puede conducir no solo a una alteracion
de corto plazo, sino tambien a modificaciones que pueden durar horas o dıas, e incluso
volverse permanentes. Los fenomenos asociados a estos cambios son conocidos como
PLP y LTD. Podemos decir que la potenciacion implica un incremento de la eficacia
sinaptica (fortalecimiento o “enhancement”), mientras que la depresion implica una
disminucion (debilitamiento) [82].
4.3.1.1. Potenciacion a Largo Plazo, PLP
La PLP, fue descrita por primera vez al inicio de la decada de los 70, cuando
Bliss y Lomo la observaron en las sinapsis glutamaergica dentro de la formacion del
hipocampo [83]. Esta estructura, localizada en en lobulo temporal, consiste en dos
secciones conocidas como hipocampo y giro dentado. Bliss y Lomo demostraron que
la estimulacion de alta frecuencia en celulas del giro dentado produce un incremento
de sus potenciales de accion excitadores, y que esta se prolonga incluso durante dıas.
59
4.3 Plasticidad Sinaptica
Cabe destacar que la PLP ha sido registrada en otras regiones, como por ejemplo en
las zonas neocorticales. A continuacion explicaremos brevemente como se produce
en las neuronas la PLP.
En hipocampo cuando las neuronas estan en estado de reposo, el canal del re-
ceptor NMDA (N-Metil-D-Aspartato) se encuentra bloqueado por iones de magnesio
(Mg2+), cuando la neurona postsinaptica recibe un estımulo prolongado e intenso el
canal del receptor AMPA se abre y se une al glutamato (neurotransmisor excitador),
lo que permite la entrada de sodio (Na+) a la neurona, esto produce la despolar-
izacion (cambio en el potencial) de la neurona postsinaptica. Esta despolarizacion
expulsa el magnesio del canal NMDA y permite la entrada de calcio Ca2+ hacia el
interior de la neurona postsinaptica. La entrada de calcio a la neurona provoca la
activacion de ciertas proteınas cinasas, con lo cual la neurona postsinaptica se hace
mas sensible a nuevos estımulos y facilita la PLP.
Glutamato
Presinapsis
Postsinapsis
Ca2+
Mg2+
AltaFrecuencia
Ca2+
PLP
2+Na
AMPA
NMDA
AMPA
Figura 4.1: Proceso de induccion a la Potenciacion a Largo Plazo, PLP: a) Normalmenteel canal NMDA esta bloqueado por una molecula de Magnesio (Mg2+). b) La activacionrepetida del receptor AMPA permite la entrada de sodio (Na+) a la neurona lo que produceuna despolarizacion de la misma y expulsa el Magnesio del canal NMDA y permite la entradade iones de calcio Ca2+. c) el incremento del iones de calcio produce la activacion de lasproteınas cimasas lo que hace mas sensible a la neurona a nuevos estımulos, lo cual facilitala PLP.
60
4.3 Plasticidad Sinaptica
4.3.1.2. Depresion a Largo Plazo, DLP
La DLP es una disminucion duradera en la eficacia sinaptica que sigue a algunos
tipos de estimulacion en el hipocampo, es decir, produce una reduccion de la
sensibilidad de la neurona postsinaptica [86, 87, 88].
El DLP se produce de la siguiente manera, en el hipocampo, las sinapsis de baja
frecuencia de estimulacion inducen el DLP, el cual es crıticamente dependiente de
la activacion de los receptores NMDA y de un incremento mas pequeno de calcio
(Ca2+) en la neurona postsinaptica. Si la sinapsis ya ha sido objeto de un PLP, el
umbral de NMDA se eleva, aumentando la probabilidad de que un flujo de calcio
disminuya e induzca a un DLP. Esta retroalimentacion negativa mantiene la plastici-
dad sinaptica del sistema. Lo que determina que se produzca una PLP o una DPL es
la cantidad de calcio en la celula postsinaptica: pequenos aumentos de calcio desen-
cadenan depresion, mientras que los grandes incrementos conducen a potenciacion.
La PLP. La DPL ayuda a mantener el equilibrio de las neuronas, es decir, que actua
como un proceso homeostatico.
Mg2+
NMDAGlutamato
AMPA
Postsinapsis
BajaFrecuencia
2+Ca DLP
2+Ca
2+Na
Presinapsis
AMPA
Figura 4.2: Proceso de induccion a la Depresion a Largo Plazo, DLP: a) La DPL se producecon cuando se activan los receptores NMDA y el ingreso del calcio (Ca2+) a la neuronapostsinaptica es un pocas cantidades. b) La DLP tambien puede originarse despues de deun periodo de PLP cuando haya una disminucion en los niveles de calcio. La DPL ayuda amantener el equilibrio de las neuronas, es decir, que actua como un proceso homeostatico.
61
4.4 Plasticidad Intrınseca
4.4. Plasticidad Intrınseca
La plasticidad intrınseca es la modificacion persistente de las propiedades
intrınsecas de la neurona por la actividad electrica neuronal o sinaptica. Esta regu-
lada por los cambios en el nivel de expresion o de las propiedades biofısicas de los
canales ionicos en la membrana, y puede afectar a diversos procesos tales como la
integracion sinaptica, la propagacion de la senal subliminal y la metaplasticidad
entre otras.
Es importante senalar que la plasticidad intrınseca es totalmente diferente a
la plasticidad sinaptica, ya que la plasticidad sinaptica que implica cambios en la
sinapsis entre dos neuronas mientras que la plasticidad intrınseca se refiere a los
cambios en las propiedades electricas de una sola neurona.
La plasticidad intrınseca es un mecanismo homeostatico que ajusta la fuerza
sinaptica y los cambios en la inhibicion, lo implica que una neurona puede operar
en su rango optimo de normalizacion general y promover la estabilidad del sistema,
es decir, que la funcion de la plasticidad intrınseca es impedir que las neuronas se
inhiban o que se saturen totalmente. Como se comento inicialmente la plasticidad
intrınseca afecta o ayuda a la metaplasticidad a mantener la estabilidad del sistema.
4.5. Metaplasticidad
El concepto de la Metaplasticidad biologica fue definida en 1996 por Abraham
W.C. [4]. El prefijo “meta” viene del griego y significa “mas alla” o “por encima”, y
la palabra “Plasticidad”, esta relacionada con la capacidad que tienen las neuronas
de regenerar las sinapsis o con el establecimientos de nuevas sinapsis. Abraham
definio la metaplasticidad como la induccion de los cambios sinapticos en funcion
de la actividad sinaptica previa, es decir que, la metaplasticidad depende en buena
medida del historial de activacion de las sinapsis [4].
El concepto de metaplasticidad en neurociencia y otros ambitos se usa para
indicar un mayor nivel de plasticidad, expresado como un cambio o transformacion
en la forma en que la eficiencia sinaptica es modificada. La Metaplasticidad es
62
4.5 Metaplasticidad
definida, como la induccion de los cambios sinapticos, que dependen de la actividad
sinaptica previa. La Metaplasticidad se debe, al menos en parte, a las variaciones en
el nivel de la despolarizacion postsinaptica que inducen cambios sinapticos. Estas
variaciones facilitan la potenciacion sinaptica e inhiben la depresion sinaptica en
las sinapsis depresivas (y viceversa en las sinapsis potenciadas). La direccion y el
grado de la alteracion sinaptica son dependiente de la despolarizacion postsinaptica
que ocurre durante la activacion sinaptica. La potenciacion a largo plazo (PLP) se
genera despues de altos niveles de despolarizacion postsinaptica, mientras que la
depresion a largo plazo (DLP) se produce por una baja despolarizacion.
La induccion de los cambios sinapticos dependiente de los niveles de actividad
neuronal se explica en la Figura 4.3 [59]. La metaplasticidad consiste en el cambio
del umbral de PLP en funcion del peso inicial de la sinapsis con respecto al nivel de
actividad y que implica un cambio en el umbral del PLP y DLP [101]. En las figuras
4.3 y 4.4 se ilustra graficamente esta idea. Entendiendo la metaplasticidad se puede
comprender como se regula la modificacion de las sinapsis y como la informacion es
almacenada en el cerebro [77].
w
w1
w3
w1w2
w2
w3 > >
Cam
bio
en
la f
uerz
a
Sin
áp
tica
Actividad Postsináptica
DLP PLP
Figura 4.3: Los cambios en la fuerza sinaptica debido a la actividad postsinaptica de lasneuronas biologicas. Si la actividad postsinaptica es alta, la curva se desplazara hacia laderecha, lo que reforzara la LTP. En la grafica se muestra una familia de curvas en las quecada curva indica la variacion de los pesos, ∆ω, con respecto a la activacion de las neuronas.Para valores altos de los pesos, ω, la curva se alargara mas a la derecha.
63
4.5 Metaplasticidad
Ca
mb
io e
n l
a f
ue
rza
sin
áp
tic
a
w
Potenciación
Depresión
oltage)
w
Umbral PLP
Actividad Postsináptica (V
w
Metaplasticidad = PLPVariación del umbral
Ca
mb
io e
n l
a f
ue
rza
sin
áp
tic
a
Potenciación
Depresión
Peso inicial
Peso inicial
Actividad Postsináptica (Voltage)
Figura 4.4: La metaplasticidad consiste en el cambio del umbral de PLP en funcion delpeso inicial de la sinapsis. Estas dos imagenes muestran graficamente esta idea. Para valoressuperiores del peso inicial la curva sinaptica es alargada de manera que el valor umbral PLPcorresponde a los valores mas altos de la actividad postsinaptica.
64
Capıtulo 5
Metaplasticidad Artificial
Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-
Cedeno [10, 11, 12] han introducido y modelado la propiedad biologica de la
Metaplasticidad en el campo de las Redes Neuronales Artificiales (RNA), obtenien-
do excelentes resultados.
En este capıtulo se aplicara el concepto de la Metaplasticidad a las RNAs
ası como tambien se sentara la base matematica que sustenta esta teorıa y la
relacion que guarda la Metaplasticidad con la Teorıa de la Informacion de Shannon.
5.1. La Metaplasticidad y la Teorıa de la Informacion
de Shannon
En el campo de las RNA, Hebb postulo en 1949 que, en la fase de aprendizaje,
las conexiones sinapticas de las neuronas biologicas se fortalecen debido a la
correlacion de la actividad presinaptica y postsinaptica de las neuronas [64].
La plasticidad sinaptica de redes neuronales biologicas se ha modelado en
muchas RNA como un cambio en los valores de los pesos (fuerzas sinapticas) de las
conexiones de las neuronas artificiales o nodos. Los pesos son los parametros que
desempenan el rol mas importante en el aprendizaje y rendimiento de las RNA.
Recientes avances en neurociencias muestran que este paradigma clasico puede
65
5.2 Algoritmo de Backpropagation y AMP
ser mejorado. Por ejemplo, las propiedades biologicas descubiertas relacionadas
con los pesos sinapticos biologicos, como la normalizacion sinaptica y la metaplas-
ticidad son cruciales para el desarrollo de las arquitecturas de las nuevas redes
neuronales. Otros mecanismos biologicos peculiares como la sincronizacion entre
las neuronas, permiten la identificacion de la neurona con la maxima activacion, y
el comportamiento dual (alta / baja frecuencia) de algunas neuronas biologicas se
puede utilizar para mejorar el rendimiento de las redes neuronales artificiales [89, 90].
Es logico entonces pensar en que, si modelamos estas nuevas y conocidas
propiedades biologicas de las neuronas, como la metaplasticidad podrıamos
mejorar el aprendizaje y el rendimiento de las RNA, sabiendo de antemano
que esta propiedad esta muy relacionada con el aprendizaje. Bajo este esquema
modelara y se probara el modelo de la Metaplasticidad Artificial (AMP).
En 2007, Kinto et al. [104], aplico la plasticidad sinaptica y la plasticidad
intrınseca a una RNA para identificar la direccion del movimiento de un objeto.
Monteiro et al. [105], modelo con exito una RNA para simular la enfermedad de
Alzheimer, basada en la plasticidad intrınseca (la plasticidad intrınseca esta rela-
cionada directamente con la metaplasticidad) . En su trabajo Monteiro reforzo la
hipotesis de que la alteracion de la regulacion de calcio esta relacionado con la
enfermedad de Alzheimer. De todos los modelos AMP probados hasta ahora, el mas
eficiente desde el punto de vista de aprendizaje y de rendimiento es el que conecta
la Metaplasticidad con la teorıa de la informacion de Shannon [10], que establece
que los patrones menos frecuentes tienen mas informacion que los patrones mas
frecuentes [106].
5.2. Algoritmo de Backpropagation y AMP
La estrategia de cualquier procedimiento de aprendizaje de una RNA, es
minimizar un error esperado, EM , es definido por la siguiente expresion:
EM = ε E (x) (5.1)
66
5.2 Algoritmo de Backpropagation y AMP
Donde X es la variable aleatoria de los vectores de entrenamiento de entrada a
la red x = (x1, x2, ...., xn), (x ∈ Rn), donde Rn es el espacio n-dimensional y E (x)
es la funcion de error, que define el error entre la entrada y la salida de la red. Los
pesos se actualizan en cada iteracion siguiendo la estrategia de converger en un
error mınimo. Para introducir el AMP, se puede realizar la siguiente manipulacion:
EM =
∫
Rn
E (x)fX (x) dx =
∫
Rn
e (x) (5.2)
EM =
∫
Rn
e (x)
f∗X (x)f∗X (x) dx = ε∗
e (x)
f∗X (x)
(5.3)
y calcular EM a traves del estimador siguiente:
EM =1
M
M∑
k=1
e (x∗k)
f∗X(
x∗k) (5.4)
donde x∗k, k = 1, 2, .....,M , son vectores de muestras independientes cuya Fun-
cion de Densidad de Probabilidad (probability density function, pdf ) es f∗X (x)
puede ser elegida arbitrariamente, sı f∗X (x) 6= 0, siempre que sea e (x) 6= 0,∀x ∈ Rn.
Observe que de la ecuacion (5.4) f∗X (x) es ideal dada por:
(f∗X (x))opt =1
EMe (x) (5.5)
En la practica es imposible conocer f∗X (x)opt, pero se puede utilizar una funcion
suboptima. Todo lo que se tiene que encontrar es una funcion cuyo efecto en la Eq.
(5.4) sea la mejora de la convergencia en el entrenamiento [10]. Cuanto mas cerca
del optimo, mejores seran los resultados que se obtengan.
La Eq. (5.4) expresa que la estimacion del error E(x) se puede ponderar por una
funcion adecuada sin afectar al objetivo final, que es minimizar el error de cada clase.
67
5.3 Implementacion de la Metaplasticidad Artificial en el Entrenamiento de
un MLP
5.3. Implementacion de la Metaplasticidad Artificial en
el Entrenamiento de un MLP
En el caso de un MLP entrenado con un ABP, se ha demostrado que la salida
de cada clase es la estimacion inherente MLP de la probabilidad a posteriori de
la clase [10]. Esto permite una implementacion directa de la metaplasticidad. En
un MLP se aplica a la clasificacion de L clases Hl, l = 0, 1, ...., L − 1, basado en el
Teorema de Bayes se tiene que [10]:
yl = P (Hl/x) (5.6)
= fx(x/H).P (Hl)fX(x)
Se puede asumir sinceramente que f∗X (x) = fX (x) en Eq. (5.4), que para cada
clase l se hace
EMl=
1
Ml
Ml∑
k=1
E (xk) fX (xk/Hl)
fX (xk)
(5.7)
∼= 1Ml
E (xk)y
P (HL)
y se implementa la Eq. (5.4) mediante la inclusion de la funcion de suboptima
f∗x en la ecuacion de error del ABP:
∂ε(W )
∂w(S)i
= ∂
∂w(S)i
(
12
(y−y(S))2
f∗X
(x)
)
=1
f∗X (x)
∂ε (W )
∂w(S)i
(5.8)
δ(S)j =
(
y − y(S)j
)
.f′(S)j
f∗X
(x)
donde s es el contador de capas, s=1, 2, .., S,. j e i son los nodos y los contadores
de entrada, respectivamente, y propaga el error a las otras capas como es costumbre
68
5.3 Implementacion de la Metaplasticidad Artificial en el Entrenamiento de
un MLP
[10]. En el algoritmo general, la AMP se incluye en el algoritmo de entrenamiento,
afectando a los pesos en cada paso de iteracion mediante la funcion de peso siguiente:
w∗ (x) =1
f∗ (x)=
ylP (Hl)
=fX (x/Hl)
fX (x)(5.9)
En la Eq. (5.7) se obtiene la ventaja de la inherente estimacion de la probabi-
lidad a posteriori para cada clase de entrada de las salidas del MLP, por tanto la
distribucion estadıstica de los patrones de entrenamiento se usan para cuantificar la
frecuencia de un patron. Sin embargo, muchas de las funciones suboptimas puede
dar buenos resultados, tambien se puede probar una premisa de aproximacion
tıpica, que supone que las entradas de la red poseen una distribucion Gaussiana,
se propone la siguiente funcion para actualizar los pesos, la cual es conocida como
Funcion de Pesos [10].
w∗
X (x) =A
√
(2π)N .eB
N∑
i=1X2
i
(5.10)
donde N es el numero de componentes del vector de entrada X que alimenta
la primera capa oculta (para la segunda capa oculta, X es sustituido por el
vector de salida de la primera capa oculta, y ası sucesivamente) y A,B son
parametros que seran estimados empıricamente (A,B ∈ R+). En este punto
es importante recordar que se ha supuesto que las probabilidades a posteriori
seran bien estimadas por AMMLP. Sı esto diverge de la realidad, en las primeras
iteraciones, el entrenamiento puede incluso no converger. Esto es muy importante
al inicio del entrenamiento, donde las salidas de la redes todavıa no tienen una
estimacion estadıstica valida de la RNA. Ası, aunque la aproximacion dada por
la Eq. (5.9) se vuelve mas precisa mientras el aprendizaje avanza, la asuncion
hecha en la Eq. (5.10) es recomendable para iteraciones del entrenamiento donde se
asume que la Eq. (5.9) no es valida y que puede producir problemas de convergencia.
69
5.4 Algoritmo AMMLP
5.4. Algoritmo AMMLP
En esta subseccion se muestra claramente como se aplica el algoritmo AMP
durante el entrenamiento de un MLP con BP, ası como tambien se mostrara las
condiciones bajo las cuales el algoritmo finalizara el entrenamiento de la red.
1. Estructura de la red usada en los experimentos:
a) Numero de neuronas de entrada igual al numero de atributos de la base
de datos.
b) Numero de capas ocultas: 1.
c) Numero de neuronas de la capa oculta: 8 (puede variar dependiendo del
experimento, de la base de datos y de las simulaciones previas, ver sub-
seccion 5.5).
d) Numero de neuronas de salida: 1 (puede variar dependiendo del numero
de clases de la base de datos usada).
e) Tasa de Aprendizaje: η =1.
f ) Funcion de Activacion: Sigmoidal con valores entre [0,1].
2. Todos los pesos de la matriz de peso W se inicializan aleatoriamente, en el
rango [-.06,0.6] (se ha comprobado empıricamente que es optimo trabajar con
una distribucion uniforme en ese rango a la hora de generar los valores iniciales
de los pesos y umbrales)
3. Fase de entrenamiento
a) AMP es el modelado por la aplicacion de la Funcion de Pesos de la
Eq. (10) para la actualizacion de los pesos del BP durante la fase de
aprendizaje:
ω(l)ij (t+ 1) = ω
(l)ij (t) + η.δ
(l)j .y
(l−1)i (5.11)
δ(L) =(
y − y(L))
.y(L).(
1 − y(L))
/f∗X (x) (5.12)
70
5.5 Seleccion de la estructura de Red de un AMMLP
donde ω(l)ij son los pesos de las neuronas artificiales j en la capa l durante
la iteracion t, siendo y(l−1)i las salidas de las neuronas i de la capa previa
(xi para la primera capa oculta), y δ(l) el termino de error habitual
retropropagado en BP, para el caso de la funcion de activacion sigmoidal
y capa de salida L, siguiendo la Eq. (5.12 ), donde y es la salida deseada.
b) Condiciones de las pruebas de entrenamiento
1) Sı el numero de epocas = 2000
finaliza entrenamiento
2) Sı el Error Cuadratico Medio (MSE) = 0.01
finaliza entrenamiento
5.5. Seleccion de la estructura de Red de un AMMLP
Para determinar la estructura de la red y los parametros de la metaplasticidad
en esta investigacion, se partira de parametros y estructuras de red usados en
investigaciones recientes [10, 11],[12]. Para elegir una mejor estructura de red y los
parametros de metaplasticidad, se aplicaran dos criterios diferentes:
1. Parametros de la metaplasticidad : se fijara un numero de neuronas en la capa
oculta suficientemente alto como para suponer que la RNA logre realizar la
clasificacion, variarıan los parametros de la metaplasticidad comenzando por
A y finalizando con B, hasta conseguir el valor de (MSE ≈ 0, 01) en el mınimo
numero de iteraciones.
2. Numero de neuronas en las capas ocultas: se variara el numero de neuronas
en las capas ocultas hasta alcanzar un error cuadratico medio (MSE) de
aproximadamente 0,01 (los parametros de metaplasticidad se mantienen fijos)
con el menor numero de neuronas sin degradar el rendimiento final.
71
5.5 Seleccion de la estructura de Red de un AMMLP
Todos los experimentos realizados en esta investigacion se implementaron de la
siguiente manera:
El clasificador AMMLP propuesto fue implementado en MATLAB
r(MATLAB version 7.4, R2007a) en una ordenador Pentium IV de
3,4 GHz con 2 GB de RAM. Este algoritmo se aplicara a diferentes bases
de datos la base de datos muy conocidas en el area de clasificacion de patrones.
La funcion de activacion que se usara es una sigmoidal con un rango de
(0,1) y sera la misma funcion de activacion para todas las neuronas. Para
evaluar comparativamente el desempeno de los clasificadores, todos ellos seran
entrenados con el mismo conjuntos de datos, dependiendo de la base de datos.
En todos los casos el conjunto de datos fue dividido en dos partes:
Conjunto de Entrenamiento: estara conformado dependiendo del caso
por el 60 % o 70 % de los datos de cada base de datos.
Conjunto de Test: estara conformado dependiendo del caso por el 40 %
o 30 % de los datos de cada base de datos.
Conjunto de Validacion: estara conformado con el 10 % de los datos de
cada base de datos.
En esta investigacion se realizaron en cada caso dos experimentos diferentes;
uno de los experimentos fue desarrollado para obtener el mejor resultado de
exactitud en la clasificacion para cada base de datos usada. Para el segundo
caso, se generaron 100 AMMLPs (en algunos casos se generaron 50 AMMLPs)
con diferentes pesos iniciales, cuyos valores eran aleatorios con distribucion
normal (media 0 y varianza 1). En cada experimento se entreno 100 redes con
el fin de lograr un resultado medio que no dependa del valor inicial aleatorio
de los pesos de la RNA.
72
5.5 Seleccion de la estructura de Red de un AMMLP
Se aplicaron dos criterios para detener en entrenamiento de la RNA:
1. En entrenamiento se detiene cuando la RNA alcance un error de 0.01
(con este error el AMMLP logra una excelente generalizacion de los
diferentes problemas, aunque no converga a 0.)
2. En el segundo caso el entrenamiento se detiene cuando alcanza 2.000
epocas.
En el capıtulo 6 se presentaran los experimentos y los resultados obtenidos en
esta investigacion basados en los criterios que se mencionaron anteriormente.
73
Capıtulo 6
Experimentos y Resultados
6.1. Experimento 1
Uno de los objetivos de esta investigacion es clasificar las senales 1-D y 2-D
con un alto nivel de exactitud en la clasificacion de patrones aplicando el mode-
lo propuesto de la Metaplasticidad Artificial en un Perceptron Multicapa (AMMLP).
Uno de los grandes problemas que enfrenta la sociedad actual, las administra-
ciones y la comunidad medica a nivel mundial, es la clasificacion correcta de los
patrones de cancer de mama en sus primeras etapa. La exactitud del diagnostico de
esta enfermedad (al igual que en todos los temas medico) es de vital importancia
para los medicos, paciente y familiares.
Estando conciente de esta problematica, el algoritmo AMMLP sera probado con
la conocida Base de Datos de Cancer de Mama de Wisconsin (WBCD) [108].
6.1.1. Base de Datos de Cancer de Mama de Wisconsin
El cancer de mama se ha convertido en una de las principales causas de
mortalidad en todo el mundo y la investigacion sobre su diagnostico y tratamiento
se ha convertido en una cuestion importante para la comunidad cientıfica. La
etiologıa (causa) del cancer de mama sigue siendo poco clara y no ha aparecido
ninguna causa unica dominante [110, 111]. La prevencion sigue siendo un misterio
y la unica manera de ayudar a los pacientes sobrevivir es la deteccion temprana. Si
74
6.1 Experimento 1
las celulas cancerosas se detectan antes de propagarse a otros organos, la tasa de
supervivencia para los pacientes es mas del 97 % [112].
El cancer de mama es un tumor maligno que se desarrolla a partir de celulas
de la mama. Aunque los cientıficos saben que algunos de los factores de riesgo
(el envejecimiento, los factores geneticos, antecedentes familiares, los perıodos
menstruales, no tener hijos, la obesidad) aumentan la probabilidad de que una
mujer pueda desarrollar cancer de mama, aun no saben que causa la mayorıa de los
canceres de mama o exactamente como algunos de estos factores de riesgo hacen
que las celulas se vuelvan cancerosas. Se estan realizando investigaciones para
aprender mas y los cientıficos estan haciendo grandes progresos en la comprension
de como ciertos cambios en el ADN pueden causar que las celulas normales se
vuelvan cancerosas [109].
La base de datos de cancer de mama de Wisconsin (WBCD), consta de 699
muestras. Cada registro de la base de datos tiene 9 atributos. Los 9 atributos son
detallados en la Tabla 6.1. Las muestras tienen valores comprendidos entre 1 y 10,
siendo el valor de 1 el mas cercano a Benigno y 10 el valor mas cercano a Maligno.
Cada muestra esta asociada a una clase que puede ser Benigno o Maligno. La
base de datos contiene 16 casos con valores en los atributos que faltan, para esta
investigacion se trabajo con las 683 muestras restantes, Por lo tanto, las clases tiene
la siguiente distribucion: 444 (65,0 %) benignas y 239 (35,0 %) malignas.
Numero Descripcion Valores Media Desviacion
Atributo Atributo Atributos Estandar
1 Clump thickness 1-10 4.44 2.82
2 Uniformity of cell size 1-10 3.15 3.07
3 Uniformity of cell shape 1-10 3.22 2.99
4 Marginal adhesion 1-10 2.83 2.86
5 Single epithelial cell size 1-10 2.23 2.22
6 Bare nuclei 1-10 3.54 3.64
7 Bland chromatin 1-10 3.45 2.45
8 Normal nucleoli 1-10 2.87 3.05
9 Mitoses 1-10 1.60 1.73
Tabla 6.1: Descripcion de los atributos del cancer de mama de la base de datos de Wisconsin.
75
6.1 Experimento 1
6.1.2. Seleccion de la Estructura de Red
Como se comento en la Subseccion 5.5 del Capıtulo 5 para determinar mejor
estructura de la red y los parametros de la metaplasticidad que se usaran en esta
investigacion, se partira de parametros de metaplasticidad y estructuras de red
usados en investigaciones recientes [10, 11],[12]. De no obtener buenos resultados
en la exactitud en la clasificacion y rapidez en el entrenamiento de la red neuronal
entonces se procedera a variar los parametros de red y de la metaplasticidad
(usando los criterios del capıtulo antes mencionado).
El primer experimento se realizo con la finalidad de seleccionar la mejor
estructura de red y parametros de metaplasticidad a utilizar en con la WBCD. En
la Tabla 6.2 se muestran los resultados obtenidos para diferentes estructuras de red
y diferentes parametros de metaplasticidad.
Estructura Parametros Error Nro. Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)
I HL O A B Entrena2 Entrena2 Prueba
9 8 1 39 0.5 0.01 2000 265 77.5132 seg. 99.75 99.63
9 8 1 41 0.25 0.01 2000 282 88.7929 seg. 98.89 98.71
9 7 1 39 0.25 0.01 2000 336 75.2212 seg. 99.11 98.71
Tabla 6.2: Resultados obtenidos para AMMLP, con diferentes estructuras de red y diferentesparametros de metaplasticidad.
Para esta investigacion, la funcion de activacion fue una sigmoidal con un rango
de (0,1) y sera el misma para todas las neuronas. Para evaluar comparativamente el
rendimiento de los clasificadores, estos fueron entrenados, con el 60 % de los datos,
es decir, 410 muestras, de las cuales 144 eran malignos y 266 benignos. El conjunto
de prueba estuvo conformado con el restante 40 % de los datos, 233 muestras, 95
malignos y benignos 178.
En la tabla 6.3 se muestra la estructura de red, los parametros de meta-
plasticidad, las epocas, MSE y el numero de patrones que se utilizaron para el
entrenamiento y prueba de los clasificadores usados.
1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento
76
6.1 Experimento 1
Clasificadores Estructura Error Nro. Parametros Numero de
Neuronales de Red MSE Epocas Metaplasticidad Patrones
I HL O A B Entrena2 Prueba
AMMLP 9 8 1 0.01 2000 39 0.5 410 273
BPNNs 9 8 1 0.01 2000 NA3 NA3 410 273
Tabla 6.3: Parametros de red aplicados a la WBCD.
Para este caso se desarrollaron dos experimentos: uno para obtener el mejor
resultado de exactitud en la clasificacion en una simulacion y el otro para obtener
el promedio de 100 simulaciones. Para el segundo caso, se generaron 100 AMMLP
con pesos iniciales diferentes y cuyos valores eran aleatorios con distribucion normal
(media 0 y varianza 1). En cada experimento 100 redes fueron entrenadas para
obtener un promedio que sea independiente del valor aleatorio inicial de los pesos
de la RNA. Se aplicaron dos criterios diferentes para detener el entrenamiento de
la red: en un caso el entrenamiento fue detenido cuando el error alcanzo el valor de
0.01 y en el otro caso el entrenamiento se detenıa cuando la red alcanzaba las 2.000
epocas.
6.1.3. Evaluacion del Metodo
En esta seccion se presentaran los resultados obtenidos por el metodo propuesto
AMMLP y por el Algoritmo de Retropropagacion estandar, ademas se hace una
comparacion entre ambos clasificadores.
Para medir el rendimiento de los clasificadores se llevaron a cabo dos evalua-
ciones: la primera determina mediante el analisis de la especificidad y sensibilidad,
y de la matriz de confusion la exactitud en la clasificacion de los algoritmos. La
segunda muestra de manera visual mediante en analisis de la curva ROC y del
area bajo la curva (AUC) la exactitud en la clasificacion de los clasificadores. A
continuacion se explicaran ambos metodos.
6.1.3.1. Exactitud de los resultados
Exactitud en la clasificacion se sido obtenida mediante la siguiente ecuacion:
2Entrena: Entrenamiento3NA: No aplica
77
6.1 Experimento 1
Exactitud =V P + V N
TP + TN + FP + FN(6.1)
donde VP, VN, FP y FN denotan verdaderos positivos, verdaderos negativos,
falsos positivos y falsos negativos, respectivamente.
Verdadero Positivo (VP): se detecta una entrada como un paciente con cancer
de mama, diagnosticado por los medicos expertos.
Verdadero Negativos (VN): se detecta una entrada como normal y se etiqueta
como una persona sana por los medicos expertos.
Falsos Positivos (FP): se detecta una entrada como un paciente con cancer de
mama, aunque es etiquetado como una persona sana por los medicos expertos.
Falsos Negativos (FN): se detecta una entrada como normal, aunque diagnos-
ticado por los medicos expertos con cancer de mama.
Sensibilidad y Especificidad: para el analisis de Sensibilidad y Especificidad,
utilizamos las siguientes expresiones.
Sensibilidad =V P
V P + FN(%) (6.2)
Especificidad =V N
FP + V N(%) (6.3)
Matriz de confusion: contiene informacion sobre las clasificaciones actuales
y las que predice un clasificador. El comportamiento de los clasificadores
comunmente se evalua utilizando los datos de esta matriz. En la Tabla 6.4 se
muestra la matriz de confusion para un clasificador de dos clases.
78
6.1 Experimento 1
Representation of Confusion Matrix
ActualPrediccion
Positivo Negativo
Positivo a b
Negativo c d
Tabla 6.4: Matriz de confusion
donde:
a: es el numero de predicciones correctas cuando una instancia es positiva.
b: es el numero de predicciones incorrectas cuando una instancia es negativo.
c: es el numero de predicciones incorrectas cuando una instancia es positiva.
d : es el numero de predicciones correctas cuando una instancia es negativa.
La Tabla 6.5 muestra la mejor clasificacion obtenida por los clasificadores en
una simulacion, el resultado es presentado en una matriz de confusion.
Clasificadores Resultado Deseado
Resultados de
la Salida
Neuronales Benigno Maligno
Registros Benignos 178 1AMMLPsRegistros Malignos 0 95
Registros Benignos 175 3BPNNsRegistros Malignos 5 90
Tabla 6.5: Matriz de confusion de la mejor clasificacion obtenida por los clasificadores enuna simulacion.
Como se puede observar, AMMLP es superior al Algoritmo Retropropagacion
estandar en todos los casos.
En la Tabla 6.6 se presenta el resultado de la mejor simulacion obtenida por
cada clasificador en terminos de especificidad, sensibilidad ası como el total de la
exactitud de la clasificacion del cancer de mama. El promedio obtenido en 100
simulaciones para cada clasificador se muestra en la Tabla 6.7.
79
6.1 Experimento 1
ClasificadoresExactitud de la Clasificacion ( %)
NeuronalesEspecificidad Sensibilidad
Total Exactitud de
la Clasificacion
AMMLPs 100 99.43 99.63
BPNNs 94.73 98.31 97.06
Tabla 6.6: Exactitud obtenida en la mejor simulacion para cada clasificador para la clasifi-cacion del cancer de mama.
ClasificadoresExactitud de la Clasificacion ( %)
NeuronalesEspecificidad Sensibilidad
Total Exactitud de
la Clasificacion
AMMLPs 100 ± 0.6 99.43 ± 0.3 99.58 ± 0.3
BPNNs 94.46 ± 0.9 98.57 ± 0.4 97.79 ± .04
Tabla 6.7: Promedio de exactitud de la clasificacion del cancer de mama obtenido por cadaclasificador en 100 simulaciones.
6.1.3.2. Resultados de la curva ROC
Curva de la Caracterıstica Operativa del Receptor (Receiver Operating Char-
acteristic, ROC):
La curva caracterıstica operativa del receptor (ROC) es una medida en dos
dimensiones que se utiliza ampliamente en la investigacion biomedica para
evaluar los resultados de las pruebas diagnosticas [113, 114, 115]. Una curva
ROC es un grafico de la sensibilidad vs la (1-especificidad), que representa,
la fraccion verdaderos positivos vs la fraccion de falsos positivos, calculada a
partir de la aplicacion de una serie de umbrales para la salida del sistema. En
la curva ROC los falsos positivos (1-especificidad) estan representados en el
eje x y los verdaderos positivos (sensibilidad) en el eje y. Una manera facil y
sencilla de generar una curva ROC es reunido todas las probabilidades de la
clasificacion obtenidas en las diversas pruebas, junto con las etiquetas reales
correspondientes a cada clase para generar una clasificacion de la base de
datos a partir de estos nuevo resultados. [115].
Si la curva ROC se eleva rapidamente hacia la esquina superior derecha de
la grafica, o si el valor del area bajo la curva es grande, se puede decir que
la prueba tiene un buen desempeno. Si la grafica es cercana a 1,0 indica que
la prueba es confiable, mientras que sı la grafica es cercana a 0,5 indica que
80
6.1 Experimento 1
la prueba no es fiable. En este caso se utilizo la curva ROC para mostrar la
superioridad del AMMPL sobre el BP estandar. En la Figura 6.1 se presenta
la curva ROC tanto para el modelo propuesto AMML como para el BP
estandar.
El Area Bajo la Curva ROC (AUC):
Otro metodo que se utiliza para medir el desempeno de los clasificadores es
calcular el area bajo la curva ROC (Area Under the Curve, AUC). Una AUC
es una medida de exactitud de las pruebas obtenidas en la clasificacion. Para
comparar dos clasificadores se debe reducir la representacion del rendimiento
bajo el espacio ROC a un unico valor, el valor AUC [114]. El metodo mas facil
de obtener el area bajo la curva ROC, es calcular una porcion del area de la
unidad cuadrada. En consecuencia, el valor de AUC siempre debe satisfacer
la siguiente desigualdades:
0 ≤ AUC ≤ 1
Esta claro que una AUC cercana a 1 (area de la unidad cuadrada) indica
que la prueba de diagnostico es muy fiable [113]. Las AUC se puede calcular
mediante la integracion del area bajo la curva ROC (sumando las areas de los
trapecios) o por el metodo de prueba estadıstica de Mann-Whitney-Wilcoxon
[116, 117, 118]. En este estudio, los valores del AUC se obtuvieron por la regla
del trapecio. Es decir, si se corta el area en segmentos verticales, cada segmen-
to sera un trapecio, sumando todos las areas de los segmentos se obtendra el
AUC. Los resultados obtenidos al calcular la AUC en este caso fueron los
siguientes: 0,989 para el AMMLP y de 0,928 para BP respectivamente. Los
resultados indican una vez mas la superioridad de AMMLP sobre el BP, en
este caso en particular.
81
6.1 Experimento 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
AMMLP ROC
1 − Specificity
Se
nsitiv
ity
AUC= 0989
(a)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
BP ROC
1− Specificity
Se
nsitiv
ity
AUC = 0.928
(b)
Figura 6.1: Muestra la curva ROC de los clasificadores, donde se puede apreciar claramentey una vez mas la superioridad del AMMLP sobre el BP estandar, en este caso en particular.(a) Muestra la curva ROC y la AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y laAUC de 0.928 del BP.
82
6.1 Experimento 1
6.1.3.3. Comparacion con el Estado-del-Arte
Los resultados obtenidos por el AMMLP se compararon con los resultados
de otros algoritmos de dos maneras: Primero se compararon estos resultados con
algoritmos propuestos recientemente aplicados a la base de datos de WBCD. En
segundo lugar, los resultados se comparo tambien con otros buenos algoritmos que
han sido desarrollados por otros investigadores y que han utilizando la misma base
de datos.
Los resultados del AMMLP fueron comparados con algoritmos propuestos
recientemente aplicados a la base de datos WBCD, Conforti & Guido en
[120] generaron una funcion optima del nucleo, mediante la formulacion
y resolucion de un modelo de programacion semi-definido (Semi-defined
Programming, SDP), obteniendo una exactitud en la clasificacion de 96,79 %.
El algoritmo SDP es ineficiente cuando el conjunto de entrenamiento es muy
grande, en estos casos el SDP requiere de mucho de tiempo de entrenamiento
y de un alto coste computacional. Peng et al., [119] presentaron una tecnica
de seleccion de caracterısticas para disminuir la alta dimensionalidad en la
clasificacion de datos biomedicos. La tecnica esta basada en la integracion
de filtros y metodos de envoltura dentro de un procedimiento de busqueda
secuencial que mejora el rendimiento de clasificacion de las caracterısticas.
La tecnica propuesta fue implementada en dos pasos: 1) anadieron un paso
de pre-seleccion para mejorar la efectividad en la busqueda del subconjunto
de caracterısticas obtenido un mejor rendimiento en la clasificacion y 2)
utilizaron las curvas ROC para representar el rendimiento de la clasificacion
de las caracterısticas individuales y del subconjunto de caracterısticas. Peng
et al., obtuvieron a valor de 0.997 en el area bajo la curva ROC. En [121]
Akay presento un modelo basado en una Maquina vector soporte (SVM,
Maquine Support Vector), usando una busqueda en rejilla (Grid Search)
para optimizar los parametros del modelo y las caracterısticas de entrada
fueron seleccionadas aplicando el calculo estadıstico llamado de F-score (que
es una medida de la exactitud de una prueba). Akay alcanzo una exactitud
en la clasificacion de 99,519 %. Ubeyli [122] en su investigacion utilizo cinco
clasificadores (SVM, red neuronal probabilıstica, red neuronal recurrente,
red combinada y un perceptron multicapa). Ubeyli reporto una exactitud de
99.54 %.
83
6.1 Experimento 1
Es importante destacar, que los autores de estos estudios no indican si los
resultados obtenidos son el mejor resultado de la mejor simulacion o si es resultado
el promedio de varias simulaciones. El metodo propuesto AMMLP obtiene un
99,63 % de exactitud en la clasificacion en la mejor simulacion y un promedio de
99,58 % en 100 simulaciones.
Los resultados obtenidos en la clasificacion por el AMMLP fueron compara-
dos tambien con los mejores resultados obtenidos por otros investigadores que
utilizaron la misma base de datos en sus estudios. En la Tabla 6.8 se presenta
los nombres de los investigadores, los algoritmos usados en sus estudios y la
exactitud en la clasificacion obtenida.
Autor(s) (Ano) Metodo Exactitud de la Clasificacion (%)
Quinlan, 1996 [123] C4.5 94.74
Hamiton et al., 1996 [124] RAIC 95.00
Ster and Dobnikar, 1996 [125] LDA 96.80
Nauck and Kruse, 1999 [126] NEFCLASS 95.06
Pena-Reyes and Sipper, 1999 [127] Fuzzy-GA1 97.36
Setiono, 2000 [128] Neuro-rule 2a 98.10
Albrecht at el., 2002 [129] LSA machine 98.80
Abonyi and Szeifert, 2003 [130] SFC 95.57
Ubeyli, 2007 [122] SVM 99.54
Polat and Gunes, 2007 [131] LS-SVM 98.53
Guijarro et al., 2007 [132] LLS 96.00
Akay, 2009 [121] SVM-CFS 99.51
Karabatak and Cevdet, 2009 [133] AR + NN 97.40
Peng et al., 2010 [119] CFW 0.9974
Conforti and Guido, 2010 [120] SVM-SDP 96.79
En este estudio (2010) AMMLP 99.635
En este estudio (2010) AMMLP 99.586
Tabla 6.8: Exactitud de la clasificacion obtenida por el metodo propuesto AMMLP y porotros clasificadores consultados en la literatura.
4Resultado obtenido en el AUC de ROC.5El mejor resultado obtenido en una simulacion.6Average obtenido en 100 simulaciones.
84
6.1 Experimento 1
6.1.4. Conclusiones
En este estudio, se aplico el algoritmo AMMLP relevante y crıtico problema de la
clasificacion del cancer de mama. Para medir el rendimiento del algoritmo propuesto
AMMLP se uso la conocida base de datos de Wisconsin cancer de mama (WBCD). El
AMMLP obtuvo mejores resultados que el Algoritmo de Retropropagacion estandar
y tambien que otros los algoritmos de ultima generacion aplicados a la misma base
de datos. Los resultados indican que el algoritmo AMMLP puede ser usado para
la clasificacion del cancer de mama ya que mejora el rendimiento actual de los
clasificadores y puede ser utilizado como una segunda opinion de los medicos al
tomar sus decisiones de diagnostico final.
85
6.2 Experimento 2
6.2. Experimento 2
En los actuales momentos de crisis economica los problemas relacionados con la
banca y las finanzas, son objeto de estudios y de interes para muchos investigadores,
especialmente los relacionados con la aprobacion de creditos [15].
En los ultimos veinte anos se ha experimentado un rapido crecimiento tanto
de la disponibilidad como en el uso del credito de consumo. Hasta hace poco, las
decisiones relacionadas con los prestamos de credito se basaba principalmente en
las percepciones individuales y la capacidad humana para evaluar el riesgo de pago.
La creciente demanda de credito ha conducido al uso de un metodo estadıstico,
conocido como Puntuacion del credito, (Credit Scoring), para decidir si se debe
conceder o no el credito a un solicitante en concreto. El metodo de puntuacion de
credito fue introduciendo en la decada de 1950. El metodo de puntuacion de credito
es muy utilizado para los prestamos de consumo, y cada vez es mas utilizado para
prestamos comerciales [134].
El puntaje de credito es una tarea de clasificacion binaria basica en finanzas. Una
ventaja de la puntuacion de credito, es la reduccion de los costes de analisis de credi-
to, lo que permite tomar decisiones mas rapidas de credito, tener mayor control de
las cuentas existentes, y reducir posibles riesgos de impagos y de morosidad [15, 135].
Por este motivo se aplicara el AMMLP para apoyar las decisiones de los analistas
de riesgo bancario en el momento de otorgar o no el credito. Para ello se usara la
conocida base de datos Aprobacion de Credito de Australia [108] (Australian Credit
Approval datasets, ACAS), la cual es muy usada en los problemas de puntuacion de
credito.
6.2.1. Base de Datos de Aprobacion de Credito de Australia
Para este estudio se selecciono una base de datos real, la base de datos de
Aprobacion de Credito Australiana (ACAS). La ACAS contiene 690 casos, divididos
en dos clases, 307 solicitantes “aceptados” y 383 solicitantes “rechazados”. Cada
solicitante contiene 15 caracterısticas, incluyendo 6 nominales, 8 atributos numericos
y la ultima que es la etiqueta de cada clase (aceptados o rechazados). Este conjunto
de datos es interesante porque hay una buena mezcla de atributos: continuos y
86
6.2 Experimento 2
nominales, nominales con valores pequenos y nominales con valores grandes (ver
Tabla 6.9). Otra caracterıstica importante de esta base de datos, es que faltan
pocos valores.
Para proteger la confidencialidad de estos datos, los nombres de los atributos y
sus valores se han cambiado a datos simbolicos. El conjunto de datos contiene una
mezcla de atributos, donde seis atributos son continuos y ocho son de categorıas
variables.
Base de Total Caracterısticas Caracterısticas Total Numero
Datos Instancias Nominal Numericas Caracterısticas de Clases
Australia 307/383 6 8 14 2
Tabla 6.9: Descripcion de los atributos de la base de datos Aprobacion de Credito de Aus-tralia.
6.2.2. Seleccion de la Estructura de Red
La seccion de la estructura de red se realizo como se indico en la Subseccion
5.5 del Capıtulo 5. El primer experimento se realizo con la finalidad de seleccionar
la mejor estructura de red y parametros de metaplasticidad a utilizar la base de
datos ACAS. En la Tabla 6.10 se muestran los resultados obtenidos para diferentes
estructuras de red y diferentes parametros de metaplasticidad.
Estructura Parametros Error Nro. Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion (%)
I HL O A B Entrena2 Entrena2 Prueba
9 8 1 38 0.5 0.01 2000 210 63.9815 seg. 97.78 98.07
9 8 1 39 0.5 0.01 2000 253 71.2589 seg. 94.56 93.71
9 6 1 37 0.5 0.01 2000 319 90.3624 seg. 93.89 94.20
Tabla 6.10: Resultados obtenidos por el AMMLP al aplicarlo a la base de datos ACAS,usando diferentes estructuras de red y diferentes parametros de metaplasticidad.
Para este caso, la funcion de activacion fue tipo sigmoidal con un rango de
(0,1) y sera el misma para todas las neuronas. Para evaluar comparativamente
el rendimiento de los clasificadores, todos los clasificadores que se presentan es
este caso fueron entrenados, con el 70 % de los datos, es decir, 483 muestras, de
las cuales 215 eran registros aceptados y 268 registros rechazados. El conjunto de
87
6.2 Experimento 2
prueba estaba conformado con el restante 30 % de los datos, 207 muestras, dividido
de la siguiente manera 92 eran registros aceptados y 115 rechazados.
En la tabla 6.11 se muestra la estructura de red, los parametros de meta-
plasticidad, las epocas, MSE y el numero de patrones que se utilizaron para el
entrenamiento y prueba de los clasificadores usados.
Clasificadores Estructura Error Nro. Parametros Numeros de
Neuronales de Red MSE Epocas Metaplasticidad Patrones
I HL O A B Entrena2 Prueba
AMMLP 9 8 1 0.01 2000 38 0.5 483 207
BPNNs 9 8 1 0.01 2000 NA3 NA3 483 207
Tabla 6.11: Parametros de red aplicados a la ACAS.
Una vez conseguida la mejor estructura de red para esta base de datos se
procedio a realizar dos experimentos: uno para obtener la mejor exactitud en la
clasificacion para cada clasificador en una simulacion y el otro para obtener el
promedio de 50 simulaciones. Para el segundo caso, 50 AMMLP se generaron con
pesos iniciales diferentes y cuyos valores eran aleatorios con distribucion normal
(media 0 y varianza 1). En cada experimento 50 redes fueron entrenadas para
alcanzar un promedio que sea independiente del valor aleatorio inicial de los pesos
de la RNA. Dos diferentes criterios fueron aplicados para detener el entrenamiento
de la red: en un caso el entrenamiento fue detenido cuando el error alcanzo el valor
de 0.01 (el error se reduce, pero no puede converger a 0 ), y en el otro caso el
entrenamiento se detenıa cuando la red alcanzaba las 2.000 epocas.
6.2.3. Evaluacion del Metodo
En esta seccion se presentan los experimentos realizados para medir el com-
portamiento del metodo propuesto AMMLP usando la base de datos ACAS. Los
resultados obtenidos por el AMMLP fueron comparados con el Algoritmo de
Retropropagacion estandar.
2Entrena: Entrenamiento3NA: No aplica
88
6.2 Experimento 2
6.2.3.1. Exactitud de los resultados
Exactitud general: es la medida mas comun de evaluacion de los clasificadores.
Exactitud =V P + V N
TP + TN + FP + FN(6.4)
donde VP, VN, FP y FN denotan verdaderos positivos, verdaderos negativos,
falsos positivos y falsos negativos, respectivamente.
Verdadero Positivo (VP): es un registro de credito correctamente aceptado .
Verdadero Negativos (VN): es un registro de credito correctamente rechazada.
Falsos Positivos (FP): es un registro de credito rechazado clasificado como
aceptado.
Falsos Negativos (FN): es un registro de credito aceptado clasificado como
rechazado.
Aprobacion de credito, AC: es una funcion de los ejemplos clasificados correcta-
mente (verdaderos positivos) y los ejemplos mal clasificados (falsos positivos).
AC =V P
V P + FP(6.5)
Negacion de credito. NC: es una funcion de positivo verdaderos y negativos
falsos.
NC =FP
V P + FP(6.6)
89
6.2 Experimento 2
Matriz de confusion: al igual que en el Experimento 1, se usara la matriz de
confusion para representar el rendimiento de los clasificadores.
La tabla 6.12 muestra el mejor resultado de la clasificacion obtenida por cada
uno los clasificadores en una matriz de confusion.
Clasificadores Resultado Deseado
Resultados de
la Salida
Neuronales Aceptado Rechazado
Aceptados 92 0AMMLPsRechazados 4 111
Aceptados 76 16BPNNsRechazados 12 103
Tabla 6.12: Matrices de confusion de la mejor clasificacion obtenida por los clasificadores enuna simulacion usando la base de datos ACAS.
En la tabla 6.13 se presenta el mejor resultado obtenido pro cada clasificador
usando la base de datos ACAS. El promedio obtenido por los clasificadores en 50
simulaciones de muestra en la tabla 6.14.
ClasificadoresExactitud de la Clasificacion ( %)
Neuronales Aprobacion de
Credito
Negacion de
Credito
Total Exactitud de la
Clasificacion
AMMLPs 100 96.52 98.07
BPNNs 82.63 89.56 86.47
Tabla 6.13: Exactitud de la clasificacion obtenida por los clasificadores en la mejor simu-lacion.
ClasificadoresExactitud de la Clasificacion ( %)
NeuronalesAprobacion de
Credito
Negacion de
Credito
Total Exactitud de la
Clasificacion
AMMLPs 90.41 ± 2.9 95.08 ± 2.1 92.86 ± 1.6
BPNNs 82.67 ± 3.6 90.43 ± 3.9 84.98 ± 2.3
Tabla 6.14: Promedio en la exactitud de la clasificacion obtenida en 50 simulaciones paracada clasificador.
Como se puede observar, AMMLP es superior al Algoritmo de Retropropagacion
estandar en todos los casos.
90
6.2 Experimento 2
6.2.3.2. Comparacion con el Estado-del-Arte
Los resultados obtenidos con el AMMLP se comparo con los resultados de otros
algoritmos de dos maneras: Primero se comparo estos resultados con algoritmos
propuestos recientemente aplicados a la base de datos de ACAS. En segundo lugar,
los resultados se compararon tambien con otros buenos algoritmos que han sido
desarrollados por otros investigadores y que han utilizando la misma base de datos.
Los resultados obtenidos por el AMMLP fueron comparados con diferentes
algoritmos propuestos recientemente por otros investigadores. En 2008 Peng et
al., [136] obtuvieron una exactitud de 86,36 %, Tsai & Wu [137] alcanzaron un
87.25 % de exactitud en la clasificacion. En 2009 Khasman [15] presento una
exactitud de 89,28 %, en [138] Nanni & Lumini obtuvieron un 87.05 % de
exactitud, Xu et al., [139] informaron de una exactitud de 89.28 %, Luo et al.,
[140] alcanzaron un 86.52 % de exactitud, mientras que Tsai [141] obtuvo un
89.93 % , Ping presento un 87.52 % [142]. En 2010 Chen & Li obtuvieron una
exactitud de 88.52 % [143].
En este estudio el mejor resultado obtenido en una simulacion fue de 98.07 % de
exactitud y se obtuvo un average de 92.86 % en 50 simulaciones.
Los resultados obtenidos en la clasificacion por el AMMLP fueron comparados
tambien con los mejores resultados obtenidos por otros investigadores que
utilizaron la misma base de datos en sus estudios. En la Tabla 6.15 se presenta
los nombres de los investigadores, los algoritmos usados en sus estudios y la
exactitud en la clasificacion obtenida.
91
6.2 Experimento 2
Autor(s) (Ano) Metodo Exactitud de la
Clasificacion (%)
West, 2.000 [144] MEO 87.14
Ong et al., 2005 [145] GP 88.27
Huang et al., 2006 [146] 2SGP 89.17
Martens et al., 2007 [147] SVM 85.70
Hoffman et al., 2007 [148] Bayes 86.70
Huang et al., 2007 [149] GA-SVM 86.90
Peng et al., 2008 [136] MCQP 86.36
Tsai and Wu, 2008 [137] Multiples Clasificadores 87.25
Khasman, 2009 [15] LS3 89.28
Nanni and Lumini, 2009 [138] LMNC 87.05
Xu et al., 2009 [139] HARA 89.28
Luo et al., 2009 [140] CLC 86.52
Tsai, 2009 [141] MLP 89.93
Ping, 2009 [142] SVM-Hıbrido 87.52
Chen and Li, 2010 [143] LDA + SVM 88.52
En este estudio AMMLP 98.074
En este estudio AMMLP 92.865
Tabla 6.15: Exactitud de la clasificacion usando la base de datos Aprobacion de Credito Aus-traliana obtenida por el metodo propuesto AMMLP y por otros clasificadores consultadosen la literatura.
6.2.4. Conclusiones
La puntuacion de credito se ha convertido en una tarea muy importante para los
bancos, especialmente en los ultimos anos con el aumento de las situaciones impago
y de morosidad. Mientras los bancos requiere de tecnicas cada vez mas sofisticadas
para basar sus decisiones de prestamos de credito, cada vez mas investigadores estan
buscando mejores estrategias para mejorar los modelos de puntuacion de credito. En
esta investigacion se presento un modelo de evaluacion del riesgo de credito utilizando
el algoritmo AMMLP, para mejorar las decisiones en el momento de otorgar o no
el credito. El metodo propuesto fue aplicado a la la base de datos Aprobacion de
Credito Australiana (ACAS). Los resultados obtenidos demuestran la superioridad
del AMMLP con respecto al Algoritmo de Retropropagacion estandar y con respecto
a otros algoritmos desarrollados por diferentes investigadores y aplicados a la misma
base de datos. Por lo tanto, se puede concluir que el algoritmo propuesto AMMLP se
deberıa considerar para tomar como una segunda opcion para apoyar las decisiones
de prestamo de credito.
4El mejor resultado obtenido en una simulacion.5Average obtenido en 50 simulaciones.
92
6.3 Experimento 3
6.3. Experimento 3
El valor de una pieza de madera esta directamente relacionado con la calidad de
la misma. La calidad de la madera se determina teniendo en cuenta el numero de
defectos y su distribucion. Los nudos (knots) son los defectos mas comunes encon-
trados durante la inspeccion de la madera [150, 151]. Estos defectos se clasifican en
7 clases: Seco (Dry, DR), Encerrado (Encased, EN), Resonante (Sound, SO), Hoja
(Leaf, LE), Borde (Edge, ED), Cuerno (Horn, HO), y Muerto (Decayed, DE) [152].
En esta investigacion solo se consideraron tres nudos, ED, EN y LE. En la Figura
6.2 muestra algunos ejemplos de estos tipos de nudos.
(a)
(c)
(b)
Figura 6.2: Tipos de nudos usados en esta investigacion: a) Nudo de Borde. b) NudoEncerrado. c) Nudo de Hoja.
El algoritmo propuesto AMMLP en este caso se aplico para clasificar los
diferentes tipos de nudos de la madera, para ello se uso la base de datos de
la Universidad de Oulu de Finlandia. Los resultados obtenidos por el AMMLP
se compararon con el Algoritmo de Retropropagacion estandar y con recientes
algoritmos aplicados a la misma base de datos.
93
6.3 Experimento 3
6.3.1. Base de datos de Nudos
La base de datos de nudos en la madera de la Universidad de Oulu de Finlandia
[153], esta constituida por 438 imagenes de 2 cm x 2 cm de 7 diferentes tipos
de nudos distribuidos de la siguiente manera: Seco: 69 imagenes, Encerrado: 29,
resonante: 179, Hoja: 47, Borde: 65, Cuerno: 35 y Muerto: 14. Para este estudio
se seleccionaron 100 imagenes de manera aleatoria, correspondientes a tres clases
de nudos, Encerrado, Borde y Hoja. De las cuales 52 imagenes se utilizaron para
entrenar la red y las 48 imagenes restante se utilizaron para probar la red. Cada
registro de la base de datos tiene dos atributos. En la Tabla 6.16, se muestra la
distribucion por clases de las muestras seleccionadas.
Tipo de Numero de Muestras
Nudo Entrena Prueba Total
Encerrada 10 8 18
Borde 22 21 43
Hoja 20 19 39
Total 52 48 100
Tabla 6.16: Distribucion de las muestras utilizadas en este estudio por clases.
6.3.1.1. Extraccion de Caracterısticas
Como la base de datos de nudos, esta formada por imagenes, la extraccion de
caracterıstica es de vital importancia para este estudio. Las caracterısticas pueden
obtenerse a partir de las caracterısticas del nudo tales como: el tamano, forma,
densidad, y la suavidad de las fronteras, etc. Cuando el espacio de caracterıstica
es muy grande y complicado como en este caso, utilizar un numero excesivo de
caracterısticas puede degradar el funcionamiento del algoritmo y aumentar la com-
plejidad del clasificador. Algunas caracterısticas redundantes deben ser removidas
para mejorar el rendimiento del clasificador. De acuerdo con las caracterısticas
seleccionadas, el espacio de caracterıstica puede dividirse en tres sub-espacios:
caracterıstica de intensidad, caracterısticas geometricas y caracterısticas de textura
[154].
En este estudio se utilizaron las caracterısticas de textura extraıdas de las
imagenes de los nudo con un banco de filtros de Gabor. Los filtros de Gabor son
sensibles a la frecuencia y a la orientacion. Este tipo de filtros son filtros paso banda
94
6.3 Experimento 3
selectivos en 2D (dos dimensiones) respecto a la frecuencia y a la orientacion. Ellos
operan directamente sobre la imagen en el dominio espacial. Tıpicamente, una
imagen es filtrada con un conjunto de filtros de Gabor de diferentes orientaciones y
frecuencias espaciales que cubren adecuadamente el dominio de la frecuencia espa-
cial y las caracterısticas se obtiene a partir del campo de vectores de caracterısticas
que se seguira utilizando para el analisis, la clasificacion o segmentacion [150, 151].
Los filtros de Gabor son una familia o un banco de filtros donde cada filtro es
dilatado, trasladado y rotado con respecto a los otros filtros, la definicion matematica
es:
ψf,θ(x, y) = exp
(
i(fxx+ fyy) −f2(x2 + y2)
2σ2
)
(6.7)
donde
fx = f cos θ
fy = f sin θ
i =√−1
(6.8)
x y y son las coordenadas en pıxeles de la imagen. f es la frecuencia central del
paso banda, θ es la orientacion del filtro y σ es el ancho de banda. Para este estudio
σ = 1,5π, f es definido por
fk =π√2k
k = 0, 1, . . . , 5 (6.9)
y θ por
θt =πt
8t = 1, . . . , 6 (6.10)
La convolucion de la imagen I(x, y), (x, y) ∈ Ω (Ω es el conjunto de puntos
de la imagen) con la funcion de Gabor de 2D ψ(x, y), (x, y) ∈ Ω, corresponde a la
transformada de Gabor de una imagen. Para este estudio, se utilizo unicamente in-
formacion de la magnitud del filtro. Todas las imagenes de los nudos se normalizaron
a tamano 32 × 32 pıxeles y se utilizo su escala de grises. Un conjunto de 36 bancos
filtros de Gabor utilizo, con 6 frecuencias y 6 orientaciones. La imagen del nodo
se convoluciona con este conjunto de banco de filtros y se obtienen 36 imagenes
filtradas. De cada imagen filtrada se obtuvo informacion diferente que corresponde
95
6.3 Experimento 3
a la frecuencia y la orientacion de cada filtro. Cada imagen de salida se concate-
na por filas para construir un vector de caracterısticas, Yψ(f,θ)de dimension 1024×36.
6.3.1.2. Seleccion de Caracterısticas
La seleccion de caracterısticas es el proceso de disminuir el numero de car-
acterısticas de una base de datos, manteniendo o mejorando la exactitud en la
clasificacion. La seleccion caracterısticas ayuda a eliminar informacion redundante
de la data, mejorar la generalizacion y reducir el coste computacional del clasificador
[11]. En este estudio la seleccion de caracterısticas fue realizada empıricamente,
solamente teniendo en cuenta las caracterısticas de los valores de la media (µ) y
desviacion estandar (σ) de las imagenes generadas por los filtros de Gabor. El
vector de caracterıstica se define de la siguiente manera:
Y = [µψ(f,θ), σψ(f,θ)
]T (6.11)
donde µψ(f,θ), σψ(f,θ)
, son los valores de desviacion estandar y la media de las
imagenes, los filtros de Gabor.
6.3.2. Seleccion de la Estructura de Red
La seccion de la estructura de red se realizo igual que en los experimentos
anteriores. De tal manera que los primeros experimentos se realizan con la finalidad
de seleccionar la mejor estructura de red y parametros de metaplasticidad a utilizar
en este caso. En la Tabla 6.17 se muestran los resultados obtenidos para diferentes
estructuras de red y diferentes parametros de metaplasticidad.
2Entrena: Entrenamiento
96
6.3 Experimento 3
Estructura Parametros Error Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas de la Clasificacion (%)
I HL O A B Entrena2 Entrena2 Prueba
2 8 3 37.5 0.5 0.01 2000 6.9219 seg. 100 91.16
2 7 3 37.5 0.5 0.01 2000 5.4465 seg. 100 93.55
2 6 3 37.5 0.5 0.01 2000 106.0134 seg. 100 94.16
2 5 3 37.5 0.5 0.01 2000 26.9824 seg. 100 95.71
2 4 3 37.5 0.5 0.01 2000 26.1765 seg. 100 97.91
Tabla 6.17: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad usados con base de datos de nudos en la madera.
6.3.3. Evaluacion del Metodo
En esta seccion se presentan los resultados experimentales obtenido por el
metodo propuesto AMMLP usando la base de datos de nudos en la madera y
tambien se comparan los resultados obtenidos por el AMMLP y el Algoritmo de
Retropropagacion estandar.
Los resultados de la mejor simulacion obtenida por cada clasificadores se pre-
sentan en una matriz de confusion. En la tabla 6.18 se presentan dichos resultados.
Clasificadores Defectos Encased Edge Leaf Nro. Muestras Error
Encased 7 0 1 8 1
AMMLPNs Edge 0 21 0 21 0
Leaf 0 0 19 19 0
Total error 1 1
Encased 5 0 3 8 3
BPNNs Edge 0 21 0 21 0
Leaf 0 0 19 19 0
Total error 3 3
Tabla 6.18: Matrices de confusion del mejor resultado obtenido por cada clasificador en unasimulacion clasificando los nudos en la madera.
97
6.3 Experimento 3
En la Figura 6.3, se presenta la distribucion de los patrones de cada clase usados
durante la fase de entrenamiento, donde los ejes se corresponde al vector de carac-
terısticas.
5 10 15 20 25 30 355
10
15
20
25
30
EN
ED
LE
Media ( )µ
De
sv
iac
ión
Es
tán
da
r (
)σ
Figura 6.3: Distribucion de lo patrones usados en la etapa de entrenamiento.
La Figura 6.4 muestra la distribucion de los patrones de prueba clasificados
correctamente e incorrectamente por el AMMLP y Algoritmo de Retropropagacion
estandar.
5 10 15 20 25 30 355
10
15
20
25
30
35
EN
ED
LE
Patrón malclassificadorpor el AMMLP
Patrón malclassificadorpor el BP
Media ( )µMedia ( )µ
)D
esvia
ció
n E
stá
nd
ar
(σ
Figura 6.4: Distribucion de la clasificacion de los patrones obtenida en la fase de prueba
98
6.3 Experimento 3
6.3.3.1. Comparacion con el Estado-del-Arte
Los resultados obtenidos por el AMMLP en este estudio se comparo con otro
resultado obtenido por otros investigadores que han utilizando la misma base de
datos. Chacon & Graciela obtuvieron un 91,17 % de exactitud aplicando una SONN
difusa (usando 9 caracterısticas para cada clase)[151]. Con la finalidad de garantizar
la fiabilidad que los resultados obtenidos 50 AMMLP se generaron con pesos iniciales
diferentes y cuyos valores eran aleatorios con distribucion normal (media 0 y varianza
1). Las 50 redes fueron entrenadas para alcanzar un promedio que sea independiente
del valor aleatorio inicial de los pesos de la RNA. En la tabla 6.19 se presentan
los resultados obtenidos por el AMMLP y por el Algoritmo de Retropropagacion
estandar.
ClasificadoresExactitud de la Clasificacion ( %)
NeuronalesEntrena Prueba
AMMLPs 100 97.45 ± 0.4
BPNNs 100 91.60 ± 3.9
Tabla 6.19: Promedio de exactitud de la clasificacion de nudos en la madera obtenida porlos clasificadores en 50 simulaciones.
6.3.4. Conclusiones
En este estudio se aplico el algoritmo propuesto AMMLP para la clasificacion
de nudos en la madera. El vector de caracterısticas usado por los clasificadores se
obtuvo con los filtros de Gabor. Los resultados obtenidos por el AMMLP fueron
comparado con el Retropropagacion estandar. El AMMLP demostro un excelente
rendimiento tanto en la fase de entrenamiento con el la fase de pruebas usando solo 2
caracterısticas. Este resultado obtenido por el AMMLP fue tambien comparado con
trabajos recientes y demostro ser mejor. El AMMLP demostro ser una interesante
combinacion de velocidad, fiabilidad, simplicidad y de bajo coste computacional.
Por lo tanto se considera que el AMMLP puede ser una alternativa interesante en
la industria de la madera.
99
6.4 Experimento 4
6.4. Experimento 4
La clasificacion correcta de patrones es un problema muy importante en apli-
caciones del mundo real tales como en: la Cibernetica, Inteligencia Computacional
(IC), Industria Medica, Aeroespacial, Telecomunicaciones, entre otras, son algunos
de los ejemplos de la amplia, variada y relevantes industrias que se benefician de la
aplicacion de los algoritmos de CI.
Por este motivo en este estudio se aplico el algoritmo propuesto AMMLP a tres
bases de datos muy conocidas y usadas en problemas de clasificacion de patrones
tales como: Iris, Vino e Ionosfera.
6.4.1. Bases de datos
En este caso se utilizaron tres diferentes bases de datos para validar el metodo
propuesto AMMLP. Estas bases de datos, abarcan ejemplos de datos de baja,
mediana y grande dimensiones. A continuacion se describen las mencionadas bases
de datos.
Iris: se ha utilizado ampliamente para evaluar diversos algoritmos de agru-
pamiento y de clasificacion. La base de datos consta de 3 clases de 50 registros
cada una, por lo tanto la base de datos contiene 150 registros en total donde
cada clase se refiere a un tipo de planta Iris (Iris Setosa , Iris Virginica e Iris
Versicolor). Cada registro en la base de datos cuenta con 4 atributos (lon-
gitud sepalos, longitud ancho, sepalo, longitud petalo y ancho de petalos) [108].
Vino: esta base de datos consta de 178 registros, con 13 atributos (alcohol,
acido malico, cenizas, alcalinidad de las cenizas, magnesio, fenoles totales,
flavonoides, fenoles nonflavanoid, proanthocyanins, la intensidad del color,
tono, OD280/OD315 de vinos diluidos y praline). Los atributos son el resul-
tado de un analisis quımico de vinos elaborados en la misma region en Italia,
pero provienen de tres diferentes variedades. La base de datos consta de 3
clases divididos de la siguiente manera: Clase 1 (59 instancias), clase 2 (71
instancias), y clase 3 (48 instancias) [108].
100
6.4 Experimento 4
Ionosfera: esta base de datos esta formada por 351 casos, los cuales se dividen
en dos clases de “buenos” y “malos”. El conjunto de datos contiene 225 mues-
tras que pertencen a la clase “buenos” lo cual equivale a un (64,1 %) y tiene 126
que pertenecen a la clase “malos” lo que representa un (35,9 %). Cada registro
de la base de datos tiene 34 atributos. Para esta investigacion solo se uti-
lizaran 33 atributo, ya que uno de los atributos solo contiene valores cero [108].
En la Tabla 6.20 se resume las caracterısticas de las bases de datos usadas en
este estudio.
Base de Numero Caracterısticas Total
Datos de Clases Numericas Instancias
Iris 3 4 150
Wine 3 13 178
Ionosfera 2 33 351
Tabla 6.20: Distribucion de las bases de datos consideradas en este estudio.
6.4.2. Seleccion de la Estructura de Red
Lo primero que se realizo para verificar el rendimiento del algoritmo propuesto
AMMLP fue buscar la mejor estructura de red para cada base de datos y eso se
hizo siguiendo el procedimiento aplicado anteriormente en los experimentos. Para
este estudio las bases de datos fueron divididas de la siguiente manera: se utilizo el
60 % de los datos de cada base de datos para entrenar las redes y el 40 % restante
se uso para probar el rendimiento de las redes. En la Tabla 6.21, se muestra la
distribucion por clases de las muestras seleccionadas.
Bases de Numero Numero de Muestras Total
Datos de Clases Entrena PruebaInstancias
Iris 3 90 60 150
Wine 3 107 71 178
Ionosfera 2 211 140 351
Tabla 6.21: Distribucion de los patrones usados para el entrenamiento y prueba de las redesusando diferentes bases de datos.
101
6.4 Experimento 4
En las Tablas 6.22, 6.23 y 6.24, se muestran los resultados obtenidos para
diferentes estructuras de red y parametros de metaplasticidad.
Estructura Parametros Error Nro. Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)
I HL O A B Entrena2 Entrena2 Prueba
4 8 3 39 0.5 0.01 2000 6480 4.6363 seg. 100 98.33
4 7 3 38 0.5 0.01 2000 9990 6.5080 seg. 100 98.33
4 6 3 37 0.5 0.01 2000 16200 9.9630 seg. 100 98.33
Tabla 6.22: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos Iris.
2
Estructura Parametros Error Nro. Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)
I HL O A B Entrena2 Entrena2 Prueba
13 7 3 39 0.5 0.01 2000 2247 1.1239 seg. 100 97.18
13 8 3 39 0.5 0.01 2000 2033 1.2108 seg. 100 94.36
13 9 3 38 0.5 0.01 2000 1926 1.9207 seg. 100 94.36
Tabla 6.23: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos del Vino.
Estructura Parametros Error Nro. Nro. Tiempo Exactitud de
de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)
I HL O A B Entrena2 Entrena2 Prueba
33 7 1 37 0.20 0.01 2000 16247 5.9843 seg. 99.52 97.85
33 7 1 37 0.5 0.01 2000 21100 7.6972 seg. 99.52 95.71
33 7 1 36 0.5 0.01 2000 192221 14.6274 seg. 99.05 95.71
Tabla 6.24: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos Ionosfera.
6.4.3. Evaluacion del Metodo
En esta seccion se evaluo el rendimiento del metodo propuesto AMMLP para
cada una de las bases de datos antes mencionadas. Los resultados obtenidos por el
AMMLP fueron comparados con los obtenidos por el Retropropagacion estandar.
1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento
102
6.4 Experimento 4
En la Tabla 6.26 se presenta el mejor resultado obtenido por el BPNNs para cada
base de datos, mientras que en la Tabla 6.27 se resumen el mejor resultado obtenido
por los clasificadores AMMLP y el Algoritmo de Retropropagacion estandar en las
bases de datos usadas en este estudio.
BPNNs
Bases Estructura Error Nro. Nro. Tiempo Exactitud de
de de Red MSE Epocas PUE1 de la Clasificacion ( %)
datos I HL O Entrena2 Entrena2 Prueba
Iris 4 8 3 0.01 2000 59130 42.2678 seg. 99.88 96.66
Wine 13 7 3 0.01 2000 15729 8.1865 seg. 100 96.42
Ionosfera 33 7 1 0.01 2000 206147 79.7714 seg. 99.05 93.57
Tabla 6.25: El mejor resultado obtenido por el BP estandar, para cada base de datos usadaen este estudio.
Bases Exactitud de la Clasificacion ( %)
de AMMLPs BPNNs
Datos Entrena Prueba Entrena Prueba
Iris 100 98.33 98.88 96.66
Wine 100 97.18 100 96.42
Ionosfera 99.52 97.85 99.05 93.57
Tabla 6.26: Comparacion de los resultados obtenidos por el AMMLP y el BP estandar paracada base de datos.
A continuacion en la Tabla 6.28 se muestran el promedio en la exactitud de la
clasificacion obtenida por el AMMLP y BP estandar en 100 simulaciones.
Bases Exactitud de la Clasificacion ( %)
de AMMLPs BPNNs
Datos Entrena Prueba Entrena Prueba
Iris 100 ± 0.0 98.33 ± 1.7 97.77± 1.1 96.66 ± 1.7
Wine 97.56 ± 1.2 95.88 ± 1.9 94.39 ± 2.5 94.33 ± 1.4
Ionosfera 96.44 ± 0.6 95.17 ± 1.2 94.31 ± 1.6 93.84 ± 1.2
Tabla 6.27: Promedio de exactitud obtenido en la clasificacion del AMMLP y del BP estandaren 100 simulaciones.
1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento
103
6.4 Experimento 4
6.4.3.1. Comparacion con el Estado-del-Arte
Con el proposito de verificar el rendimiento del metodo propuesto AMMLP, los
resultados obtenidos se compararon con otros obtenidos por investigadores que han
utilizando la mismas bases de datos y que han aplicado diferentes algoritmos es sus
estudios. En la Tabla 6.29 se indican los nombres de estos investigadores, ano de
publicacion y los algoritmos utilizados en sus estudios.
Exactitud de la
Clasificacion ( %)Autor(s), Ano MetodoIris Wine Ionosfera
Brunzella and Eriksson, 2000 [155] MLT 98.00 99.40 82.90
Berzal et al., 2003 [156] TDIDT 95.33 94.97 88.60
Lee and Yoon, 2005 [157] Ellipsoids NA 98.90 90.60
Altincay, 2007 [158] LMPens 94.93 92.50 87.49
Cai et al., 2007 [159] RFRC 83.10 93.00 60.40
Qin Y. and Zhang, 2008 [160] EL 94.10 98.80 98.30
Evsukoff et al., 2009, [161] FSM-WM 96.00 96.07 87.14
Park and Choi, 2009 [162] CA-PCA 95.47 97.54 90.17
Chandra B. and Varghese, 2009 [163] G-FDT 98.00 88.89 89.71
Ouyanga et al., 2009 [164] PLDA 97.46 97.19 87.11
Vallejo et al., 2010 [165] ISR 95.33 96.07 91.17
Al-Batah et al., 2010, [166] HMLP 99.62 99.94 96.37
Jin et al., 2010, [167] LOGM 94.00 97.75 88.89
Zhao et al., 2010, [168] ESBER96.20
91.00∗97.27
92.92∗88.38
84.67∗
Zhanget al., 2010, [169] PMOCCA 98.67 98.31 93.73
En este estudio AMMLP98.33
98.33
97.36
95.88
97.85
95.17
Tabla 6.28: Comparacion en la exactitud de la clasificacion obtenida por el metodo propuestoAMMLP y por otros metodos usando las mismas bases de datos.
6.4.4. Conclusiones
El objetivo de esta investigacion era aplicar el metodo propuesto AMMLP a
tres diferentes bases de datos (Iris, Wine, Ionosfera) muy conocidas y utilizadas en
problemas de clasificacion de patrones. con la finalidad de medir el rendimiento de
este en cada caso. Los resultados obtenidos por el AMMLP fueron comparado con los
obtenidos por el BP estandar. El AMMLP demostro ser superior al BP estandar en
todos los casos. Los resultados obtenidos por el AMMLP tambien fueron comparados
otros algoritmos aplicados recientemente a las mismas bases de datos, en todos los
caso excepto en uno el AMMLP fue superior a los algoritmos comparados. De los
104
6.4 Experimento 4
resultados experimentales obtenidos se puede decir que, el AMMLP es un algoritmo
fiable, eficiente, que reduce el coste computacional y proporciona una alta exactitud
en la clasificacion.
105
6.5 Experimento 5
6.5. Experimento 5
Este experimento se realizo con la finalidad de aplicar una tecnica de seleccion
de caracterısticas para reducir la dimensionalidad de las bases de datos y luego
clasificar las caracterısticas seleccionadas con el metodo propuesto del AMMLP,
para de esta manera verificar una vez mas el rendimiento del AMMLP.
El analisis y la clasificacion de patrones con un gran numero de variables
por lo general exige una gran cantidad de memoria y el coste de computacional.
En muchos casos, cuando los datos de entrada son demasiado grandes para ser
procesados por un algoritmo, se sospecha que puede haber datos redundantes (gran
cantidad de datos, pero poca informacion). El objetivo principal de la seleccion
caracterısticas es encontrar un subconjunto optimo de un conjunto completo de
caracterısticas, es decir, el objetivo es obtener un subconjunto de las caracterısticas
mas representativas y que proporcionen suficiente informacion con el fin de igualar
o mejorar la exactitud de los clasificadores [170].
El procedimiento para la seleccion de caracterısticas es una operacion que esta
basada en dos aspectos fundamentales: un criterio de seleccion y un procedimiento
de busqueda. La seleccion de caracterısticas basada en los procedimientos de busque-
da se pueden clasificar en tres categorıas: exponencial, secuencial y estocasticos [171].
En este estudio se uso un metodo de seleccion de caracterısticas llamado
SFS-FFNN. Este metodo esta basado en la seleccion secuencial adelante (Sequential
Forward Selection, SFS) y en una red neuronal de alimentacion adelante (Feed
Forward Neural Network, FFNN) para estimar el error de prediccion como criterio
de seleccion. Los algoritmos de busqueda secuenciales son estrategias que reducen
el numero de caracterısticas aplicando una busqueda local.
El metodo de SFS empieza con un conjunto de caracterısticas y de una manera
secuencial va adicionando parametros, y ası continua hasta que el criterio de
seleccion haya alcanzado un mınimo o todos los parametros sean anadidos al
modelo.
Para probar la efectividad del metodo SFS-FFNN, se aplico el AMMLP y
106
6.5 Experimento 5
el Algoritmo de Retropropagacion estandar para clasificar las caracterısticas
seleccionadas y se comparo los resultados obtenidos. En este estudio se trabajo con
tres bases de datos muy conocidas usadas en la seleccion de caracterısticas.
6.5.1. Bases de datos
En este trabajo, las bases de datos Iris, Vino y Cancer de mama de Wisconsin
(WBCD) fueron usadas para validar el metodo SFS-FFNN. Estas bases de datos
tiene bajas, medias y altas dimensionalidad.
1. Iris (n4 = 150, f5 = 4, c6 = 3), se ha utilizado ampliamente para evaluar
problemas de agrupamientos y de clasificacion. La base de datos Iris consta de
tres diferentes especies de flor de iris: Iris setosa, Iris virginica e Iris versicolor.
Cada especie tiene 50 muestras con cuatro caracterısticas (longitud sepalo,
sepalo ancho, largo petalo, petalo y anchura).
2. Base de datos de Vino (n4 = 178, f5 = 13, c6 = 3), esta compuesta por
178 objetos caracterizados por 13 elementos (alcohol, acido malico, cenizas,
alcalinidad de las cenizas, magnesio, fenoles totales, flavonoides, fenoles no
flavonoides, proanthocyanins, color intensidad, tono, OD280/OD315 de vinos
diluidos y praline) que son los resultados de un analisis quımico de vinos
elaborada en la misma region en Italia, pero provienen de tres diferentes
variedades. Esta base de datos esta dividida de la siguiente manera: Clase 1
(59 objetos), clase 2 (71 objetos), y la clase 3 (48 objetos).
3. Base de datos cancer de mama de Wisconsin (WBCD) (n4 = 683, f5 = 9, c6
= 2) consta de 683 objetos caracterizados por 9 caracterısticas: espesor de
grumos, uniformidad del tamano de la celda, uniformidad de la forma de celda,
adhesion periferica, tamano de la celula epitelial simple, nucleos desnudos,
cromatina suave, nucleolos Normales y mitosis. Tiene dos categorıas: Maligno
(444 objetos) y benigno (239 objetos).
4Numero de datos5Numero de atributos6Numero de clases
107
6.5 Experimento 5
Todos las bases de datos estan disponibles en [108]. Tabla 6.29 se resumen las
caracterısticas de estos conjuntos de datos.
Bases No. de No. de No. de
de datos clases Caracterısticas Patrones
Iris 3 4 150
Wine 3 13 178
WBCD 2 9 683
Tabla 6.29: Caracterısticas de las bases de datos consideradas en este estudio.
6.5.2. Seleccion de Caracterısticas
6.5.2.1. Seleccion Secuencial Adelante
El algoritmo de seleccion secuencial adelante (Sequential Forward Selection,
SFS) es un procedimiento de busqueda de abajo-arriba, el cual que comienza con un
conjunto de caracterısticas vacıo que gradualmente va agregando las caracterısticas
seleccionadas por alguna funcion de evaluacion. En cada iteracion, una carac-
terıstica que debe incluirse en el conjunto de caracterısticas, dicha caracterıstica se
seleccionara de entre las caracterısticas que queden a disposicion del conjunto y que
no se ha agregado. El SFS es ampliamente utilizado por su simplicidad y velocidad.
Una descripcion mas detallada del SFS, ası como algunas variantes de este metodo
se puede encontrar en [172, 173, 174]
6.5.2.2. Red Neuronal de Alimentacion Adelante
En este estudio se uso una red neuronal de alimentacion adelante (Feed Forward
Neural Network, FFNN) multicapa para realizar el criterio de seleccion de carac-
terısticas basado en el errores de clasificacion. La medida del error de clasificacion
es usualmente el error cuadratico medio de la clasificacion, que desde el punto de
vista del reconocimiento de patrones, se define como:
ε =1
M
M∑
i=1
(y(i) − y(i))2 (6.12)
donde i es el vector enesimo a ser clasificado, y es la salida real del clasificador,
y es la salida deseada, y M es el numero total de muestras de entrenamiento.
108
6.5 Experimento 5
6.5.2.3. Implementacion del SFS-FFNN
Despues de aplicar el metodo SFS FFNN, las caracterısticas seleccionadas para
cada base de datos fueron las siguientes:
1. Base de datos Iris: se seleccionaron solo 3 caracterısticas, las cuales son:
Ancho del petalo - 4
Ancho sepalo - 2
Longitud del petalo - 3
2. Base de datos de Vino: las caracterısticas seleccionadas fueron 3:
Intensidad del color - 10
Fenoles totales - 6
Prolina - 13
3. Base de datos WBCD: las caracterısticas seleccionadas para esta base de datos
fueron 2, las cuales son:
Espesor de grumos - 2
Tamano de la celula epitelial simple - 6
La Figura 6.5 muestra los resultados obtenidos despues de aplicar el metodo
SFS-FFNN para cada base de datos. La Figura 6.5(a) muestra la evolucion del error
en la clasificacion para la base de datos iris, el subconjunto de caracterısticas (4,2,3)
tienen el mınimo error de clasificacion de todos los atributos. En la Figura 6.5(b), se
puede observar la evolucion del error en la clasificacion para la base de datos del vino,
el subconjunto de caracterısticas (10,6,13) tienen el mınimo error de clasificacion.
Por ultimo en la Figura 6.5(c), se muestra la evolucion del error en la clasificacion
para la base de datos WBCD el subconjunto de caracterısticas (2,6) tienen el mınimo
de clasificacion.
109
6.5 Experimento 5
1 2 3 40
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0.01
Número de características incluidas Iris
erro
rε
(a)
1 2 3 4 5 6 7 8 9 10 11 12 130.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
0.22
erro
rε
Número de características incluidas Vino
(b)
1 2 3 4 5 6 7 8 90
0.02
0.04
0.06
0.08
0.1
0.12
0.14
Número de características incluidas WBCD
erro
rε
(c)
Figura 6.5: Evolucion del error en la clasificacion usando SFS-FFNN para cada base dedatos.
110
6.5 Experimento 5
Tabla 6.30 resume el subconjunto formado con caracterısticas seleccionados
para cada base de datos y el error alcanzado en la clasificacion.
Bases Clases Caracterısticas Errorε
de datos
Iris 3 4,2,3 1.606E-04
Wine 3 10,6,13 2.34E-02
WBCD 2 2,6 1.03E-02
Tabla 6.30: Resultado de la seleccion de caracterısticas despues de aplicar el metodo pro-puesto SFS-FFNN.
6.5.3. Seleccion de la Estructura de Red
Para determinar la mejor estructura de red y parametros de metaplasticidad
para cada base de datos, se procedio de la siguiente manera: primero a los sub-
conjuntos de datos (obtenidos despues de aplicar el metodo SFS-FFNN) de cada
base de datos, se selecciono el 70 % de cada base de datos para entrenar la red y
el 30 % restante se utilizo para probar la red (Tabla 6.31). Segundo se utilizo el
mismo procedimiento aplicado en los experimentos anteriores. En las Tablas 6.32
y 6.33, muestran los resultados obtenidos para diferentes estructuras de red y los
parametros metaplasticidad para cada base de datos.
Bases Numero de Patrones
de datos Entrena Prueba
Iris 105 45
Wine 125 53
WBCD 410 273
Tabla 6.31: Numero de patrones utilizando para el entrenamiento y prueba para cada basede datos usada en este estudio.
Bases de datos Estructura de Red
I HL O
Iris 3 8 3
Wine 9 8 3
WBCD 2 8 2
Tabla 6.32: Diferentes estructuras de redes neuronales aplicados para cada base de datos eneste estudio.
111
6.5 Experimento 5
Bases BPNN AMMLP
de datos
MSE Epoch L.R.Parametros Metaplasticidad
A B
Iris 0.01 2000 1.0 39 0.5
Wine 0.01 2000 1.0 39 0.5
WBCD 0.01 2000 1.0 39 0.25
Tabla 6.33: Diferentes parametros de red y de metaplasticidad aplicados para cada base dedatos en este estudio.
La Tabla 6.34 muestra la mejor estructura de la red, parametros de metaplas-
ticidad para cada base de datos, ademas se presenta los resultados obtenido por el
AMMLP en terminos de velocidad y exactitud en la clasificacion para cada caso.
Bases Estructura Parametros Exactitud de la
de Datos de Red Metaplasticidad MSE Clasificacion (% )
I HL O A B Entrena Prueba
Iris 3 8 3 39 0.5 0.01 97.14 97.78
Wine 3 8 3 39 0.5 0.01 92.20 96.23
WBCD 2 8 1 39 0.25 0.01 99.11 98.53
Tabla 6.34: La mejor estructura de red y parametros de metaplasticidad para cada base dedatos.
6.5.4. Evaluacion del Metodo
Para comprobar el rendimiento metodo porpuesto AMMLP en este caso se
procedio de la siguiente manera:
Se comparo los resultados obtenidos por el AMMLP y BP estandar utilizando
la caracterısticas seleccionados por el metodo SFS-FFNN.
La Tabla 6.35 muestra el mejor resultado obtenido por AMMLP y BP estandar
en terminos de velocidad y de exactitud en la clasificacion para cada base de datos
en una simulacion.
112
6.5 Experimento 5
Exactitud de la Clasificacion (%)
Bases AMMLPs BPNNs
de datosEntrena Prueba
Tiempo de
Entrena (seg.)Entrena Prueba
Tiempo de
Entrena (seg.)
Iris 97.14 97.78 96.3548 98.09 95.55 129.2260
Wine 92.20 96.23 1.7122 97.56 94.44 142.2158
WBCD 99.11 98.53 61.9513 98.08 97.43 75.3139
Tabla 6.35: Los mejores resultados obtenidos en una simulacion por el AMMLP y el BPestandar con las caracterısticas seleccionadas de cada base de datos por el metodo SFS-FFNN.
Con el proposito de corroborar y evaluar los resultados obtenidos con el
metodo propuesto en una simulacion, se entreno y se promedio el resultado de 100
simulaciones con el objeto de evaluar la estabilidad del metodo sugerido. En la
Tabla 6.36 muestra el promedio obtenido en 100 simulaciones para cada clasificador
con las caracterısticas seleccionadas de cada base de datos por metodo SFS-FFNN.
Exactitud de la Clasificacion (%)
Bases AMMLPs BPNNs
de datosEntrena Prueba Entrena Prueba
Iris 97.63 ± 1.2 98.00 ± 1.7 97.35 ±1.4 96.86 ± 1.6
Wine 98.58 ± .04 92.04 ± 2.8 94.58 ± 2.5 91.57 ± 3.2
WBCD 93.31 ± 0.6 98.48 ± 0.5 95.67± 0.7 94.51 ± 0.9
Tabla 6.36: Promedio obtenido en 100 simulaciones por el AMMLP y el BP estandar usandolas caracterısticas seleccionadas de cada base de datos por el metodo SFS-FFNN.
6.5.4.1. Comparacion con el Estado-del-Arte
Los resultados obtenidos por el SFS-FFNN y AMMLPs se compararon con
otros metodos de seleccion de caracterısticas aplicados por investigadores que
utilizaron las mismas bases de datos. En la Tabla 6.37 se indican los nombres
de estos investigadores, ano de publicacion y los algoritmos utilizados en sus estudios.
113
6.5 Experimento 5
Nro. de Caracterısticas Exactitud de
Autor(s), ano Metodo Seleccionadas la Clasificacion (%)
Iris WBCD Wine Iris WBCD Wine
Last et al., 2001[172] IFN 1 3 3 60.00 32.2 33.00
Lee et al., 2001[36] FEBFC 2 6 NA 97.12 95.14 NA
Lazzerini & Marcelloni, 2001[175] FSBS NA NA 7 NA NA 93.80
Oh et al., 2004[176] HGAs NA NA 8 NA NA 95.51
Chen & Shie, 2005[177]FUZZY-
ENTROPY2 4 NA 96.00 97.21 NA
Muni et al., 2006[171] GP 1.57 2.237 4.087 98.69 96.84 94.82
Weiguo et al., 2008[178] NMACFS 1.97 15.97 NA 96.27 90.80 NA
Bratu et al., 2008[179] GBW;BFS NA 5 NA NA 96.48 NA
Jensen & Shen, 2009[180] FRFS NA NA 6 NA NA 95.50
Xiao and Zhang, 2009[181] ID 1 NA 4 97.33 NA 95.89
Hu et al., 2010[182] NDEM NA NA 6 NA NA99.448
86.509
En este estudio AMMLP 3 3 2 97.788 98.538 96.238
En este estudio AMMLP 3 3 2 98.0010 98.4810 92.0410
NA: No aplica
Tabla 6.37: Reduccion de la dimensionalidad de las bases de datos y la exactitud en laclasificacion del AMMLP y de otros algoritmo propuesto usando las mismas bases de datos
6.5.5. Conclusiones
En estudio, se aplico un metodo basado en la Seleccion Secuencial Adelante
y una red de alimentacion adelante (SFS-FFNN) con al finalidad de disminuir la
dimension de la data. Se uso el algoritmo AMMLP y el BP estandar para clasificar
los subcojuntos obtenidos por el metodo SFS-FFNN . Los resultados obtenidos con
el AMMLP fueron superiores a los obtenidos por el BP estandar en terminos de
velocidad y exactitud en la clasificacion. Los resultados obtenidos en conjunto por el
metodo (SFS-FFNN) + Algoritmo AMMLP demostraron ser superiores comparados
con otros algoritmos propuesto recientemente para disminuir la dimension de la data
y para clasificar los subconjuntos obtenidos aplicados a las mismas base de datos. De
los resultados obtenidos podemos concluir que el metodo (SFS-FFNN) + Algoritmo
AMMLP reduce la dimension de la data, reduce el coste computacional, provee una
alta exactitud de la clasificacion.
7Promedio de caracterıstica seleccionadas8Mejor resultado obtenido en una simulacion9Promedio de 10 simulaciones
10Promedio de 100 simulaciones
114
Capıtulo 7
Conclusiones
En esta tesis se propone y se desarrolla un modelo neuronal basado en la
propiedad biologica de la Metaplasticidad para mejorar las limitaciones de lentitud,
convergencia y exactitud del Algoritmo de Retropropagacion. La Metaplasticidad
biologica esta relacionada con el aprendizaje y la memoria y con la Teorıa de la
informacion de Shannon, en este sentido el modelo propuesto AMMLP modela dicha
propiedad en la fase de entrenamiento de las Redes Neuronales Artificiales (RNAs),
dandole mas relevancia a los patrones menos frecuentes y substrayendo importancia
a los mas frecuentes durante esta fase. Concretamente el algoritmo AMMLP se ha
implementado en un Perceptron Multicapas (MLP) y ha sido aplicado a diferentes
problemas de la clasificacion de patrones.
El algoritmo AMMLP en el problema de la clasificacion del cancer de mama
demostro ser superior en terminos exactitud en la clasificacion, velocidad,
fiabilidad y de bajo coste computacional a todos los algoritmos propuestos
recientemente y que han sido aplicados es este problema. muchos algoritmos
y metodos ha sido aplicados al problema de la clasificacion de cancer de
mama. Sin embargo ninguna de estas soluciones a logrado obtener la exac-
titud y la fiabilidad (los resultados obtenidos tienen muy poca dispersion)
en la clasificacion alcanzada por el algoritmo AMMLP propuesto en esta
investigacion. De los resultados obtenidos por el AMMLP en este problema
podemos concluir que el mencionado algoritmo puede ser utilizados por los
especialistas de esta area como una segunda opinion medica en el momentos
de tomar sus decisiones con respecto al cancer de mama.
115
El algoritmo AMMLP en el problema de la evaluacion del riesgo de credito
bancario fue usado para apoyar las decisiones de los analista de riesgos
bancarios en el momento de otorgar o no el credito. El AMMLP obtuvo los
mejores resultados presentados hasta el momento por otros investigadores.
Cabe destacar que ninguno de los algoritmos aplicados a este problema a
logrado obtener la exactitud y fiabilidad alcanzada por el AMMLP. Esto
demuestra que el algoritmo propuesto AMMLP puede ser considerado co-
mo una herramienta que apoye las decisiones de los analista de riego bancarios.
Los parametros relacionados con la metaplasticidad (A y B) de algoritmo
AMMLP fueron optimizados en todas las bases de datos utilizadas, y pueden
ser utilizados como una primera aproximacion en futuras investigaciones.
El AMMLP demostro ser un algoritmo que mejora de manera cuantitativa
los problemas de lentitud, convergencia y exactitud en la clasificacion del
algoritmo de retropropagacion.
En general podemos concluir que, el algoritmo propuesto AMMLP es una
alternativa, facil de implementar y aplicar, que reduce el tiempo de computo
y el numero de iteraciones durante la fase de entrenamiento, con lo que se
consigue un entrenamiento mucho mas eficiente y con muy alto nivel de
exactitud en la clasificacion.
Aunque con el AMMLP se han obtenido excelentes resultados experimentales,
somos conciente de que este algoritmo no es la solucion definitiva a los problemas
del algoritmo de retropropagacion, sin embargo con el mencionado algoritmo se
han obtenidos nuevas hipotesis que puede servir de inspiracion para estudiar la
metaplasticidad biologica desde otro punto de vista.
116
Capıtulo 8
Contribuciones y Lıneas Futuras
de Investigacion
8.1. Contribuciones
A continuacion se presentan las principales contribuciones originales que se han
realizado al implementar un modelo neuronal basado en propiedad biologica de la
Metaplasticidad en esta investigacion.
Se ha implementado un modelo neuronal basado en la propiedad biologi-
ca de la metaplasticidad y se ha aplicado en un Perceptron Multicapa
[10, 11, 12, 184, 185].
Se ha aplicado por primera vez el algoritmo AMMLP al relevante y crıtico
problema de la clasificacion del cancer de mama, obtenido un alto nivel de
exactitud en la clasificacion. Los resultado obtenidos por el AMMLP fueron
superiores a los obtenidos por el algoritmo de retropropagacion estandar
y a los obtenidos por otros algoritmos de ultima generacion que han sido
aplicados al mismo problema. En base a los resultados obtenidos se puede
decir que, el AMMLP puede ser utilizado como una segunda opinion medica
por los especialista en el momento de tomar sus decisiones con respecto al
cancer de mama [11, 185].
117
8.1 Contribuciones
Con el objeto de comprobar la potencialidad del AMMLP, este ha sido
aplicado al difıcil problema de la evaluacion del riesgo de credito bancario.
El AMMLP se ha usado para apoyar las decisiones de los analistas de riesgo
bancario en el momento de otorgar o no el credito. Los resultados obtenidos
por el AMMLP en este caso fueron superiores a los del estado del arte. El
algoritmo AMMLP se debe considerar como una herramienta que puede
apoyar las decisiones de prestamo de credito bancario.
Se demuestra la viabilidad de la aplicacion del AMMLP en la industria,
aplican-dolo al representativo problema de la clasificacion de nudos en la
madera. Las prestaciones obtenidas por el AMMLP fueron superiores a otros
algoritmos aplicados recientemente a este problema [12].
Se ha propuesto un nuevo algoritmo para la seleccion de caracterısticas
(SFS-FFNN) con la finalidad de disminuir la dimensionalidad de los datos y se
uso el AMMLP para clasificar las caracterısticas seleccionada. Los resultados
obtenidos por el SFS-FFNN + AMMLP fueron superiores los consultados en
la literatura.
Para demostrar la capacidad de generalizacion del algoritmo AMMLP, este
ha sido aplicado a diferentes bases datos estandar usadas en la clasificacion de
patrones (iris, vino, cancer de mama de wisconsin e ionosfera). Los resultados
obtenidos por el AMMLP fueron iguales o superiores a los obtenidos por otros
investigados que han usado estas mismas bases de datos en sus estudios [184].
Los parametros relacionados con la metaplasticidad (A y B) del algoritmo
AMMLP fueron optimizados en todas las bases de datos utilizadas en esta tesis
y los valores obtenidos pueden ser utilizados como una primera aproximacion
en futuras aplicaciones [11, 12, 184, 185].
En general el AMMLP reduce el tiempo de computo y el numero de iteraciones
durante la fase de entrenamiento, logrando de esta manera un entrenamiento
mas eficaz. Ademas, alcanza un alto nivel de exactitud en la clasificacion. Con
esta eficacia el AMMLP parece mejorar al MLP y al resto de los algoritmos
118
8.2 Lıneas Futuras de Investigacion
de clasificacion en todas las aplicaciones [11, 12, 184, 185].
8.2. Lıneas Futuras de Investigacion
Con la experiencia adquirida durante el desarrollo de esta tesis, se pueden
plantear plantear varias lıneas de investigacion que se pueden llevar acabo a partir
de los trabajos que se han desarrollado y descrito.
1. Algunas de estas lıneas son la continuacion natural y directa de esta investi-
gacion. De las cuales se pueden mencionar las siguientes:
Implementar la Metaplasticidad Artificial en otras RNAs y comparar los
resultados obtenidos de esta implementacion con el AMMLP propuesto
en esta tesis.
Optimizar los valores de los parametros A y B de la Metaplasticidad
Artificial ya que, hasta el momento estos valores se han seleccionado de
manera empırica. Lo ideal serıa establecer un metodo sistematico para
la seleccion optima de estos valores.
Aplicar una fase de preproceso utilizando algoritmos recientes de opti-
mizacion tales como: Colonias de Hormigas (Ant Colony Optimization,
ACO), Enjambre de Partıculas (Particle Warm Optimization, PSO),
Algoritmo de Abejas (Bees Algorithm), etc, con la finalidad de obtener
los mejores parametros tanto de la red (capas ocultas, numeros de
neuronas de dichas capas, numeros de nodos de salidas, etc) como de la
metaplasticidad (A y B) para lograr mayor rapidez en el entrenamiento
y mayor exactitud en la clasificacion.
Investigar si el Algoritmo AMMLP cumple con la propiedad biologica
de la Homeostasis, la cual evita la saturacion de las neuronas biologicas
y en el caso de las artificiales estarıa modelada en evitar que estas se
saturen o que se bloqueen en la fase de entrenamiento.
119
8.2 Lıneas Futuras de Investigacion
2. Otra lınea de investigacion se centra en realizar un modelo similar al propuesto.
Modelar, disenar, implementar y probar un nuevo algoritmo neuronal basado
en la propiedad biologica de la Homeostasis.
120
Parte I
APENDICES
121
8.3 Publicaciones que sustentan la Tesis
8.3. Publicaciones que sustentan la Tesis
8.3.1. Publicaciones en Revistas (JCR)
1. Nombre de la Revista: Neurocomputing. (2da. revision)
Ranking JCR: 54/95.
Factor de Impacto: 1.234.
Cuartil de la categorıa: Q2.
Tıtulo: Breast Cancer Classification Applying Artificial Metaplasticity Algorithm.
Autores: Alexis Marcano-Cedeno, Joel Quintanilla-Domınguez, Diego Andina.
2. Nombre de la Revista: International Journal of Neural Systems. (2da. revision)
Ranking JCR: 12/102
Factor de Impacto: 2.988
Cuartil de la categorıa: Q1
Tıtulo: Artificial Metaplasticity Neural Network Applied To Credit Scoring.
Autores:Alexis Marcano-Cedeno, Amparo Marin B., Juan Pinuela and D. Andina
8.3.2. Publicaciones en Congresos
1. Congreso: IEEE International Conference of Industrial Electronics (IECON’10).
Ranking:
Tıtulo: Feature Selection Using Sequential Forward Selection and classification
applying Artificial Metaplasticity Neural Network..
Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.
Publicacion: Aceptado
Lugar: Phoenix - USA.
Fecha: 7-10 de Noviembre de 2010.
2. Congreso: IEEE International Conference of Industrial Electronics (IECON’09).
Tıtulo: Wood Defects Classification Using Artificial Metaplasticity Neural Network.
Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.
Publicacion: Proceedings of IECON 2009 IEEE 35th Annual Conference of
Industrial Electronics.
Doi: 10.1109/IECON.2009.5415189.
Paginas: 3422 - 3427.
Lugar: Oporto - Portugal.
Fecha: 3-5 de Noviembre de 2009.
122
8.3 Publicaciones que sustentan la Tesis
3. Congreso: IEEE International Conference on Systems, Man and Cybernetics
(SMC 2009).
Tıtulo: Testing Artificial Metaplasticity in MLP Applications.
Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.
Publicacion: Proceedings of the 2009 IEEE International Conference on Systems,
Man, and Cybernetics .
Doi: 10.1109/ICSMC.2009.5346818. Paginas: 4256-4261 .
Lugar: San Antonio, Texas, USA.
Fecha: 11-14 de Octubre de 2009.
4. Congreso: IEEE International Conference on Industrial Informatics (INDIN 2009).
Tıtulo: Artificial Metaplasticity MLP applied to Image Classification.
Autores: Alexis Marcano-Cedeno, Aleksandar Jevtic,Antonio Alvarez-Vellisco,
Diego Andina.
Publicacion: Proceedings of the 2009 7th IEEE International Conference On
Industrial Informatics, Vols. 1 AND 2.
Paginas: 650-653.
Doi: 10.1109/INDIN.2009.5195879.
Lugar: Cardiff - GALES.
Fecha: 24-26 de Junio de 2009.
5. Congreso: International Work-Conference On The Interplay Between Natural And
Artificial Computation (IWINAC 2009).
Tıtulo: Breast Cancer Classification Applying Artificial Metaplasticity.
Autores: Alexis Marcano-Cedeno, F.S. Buendıa-Buendıa, Diego Andina
Publicacion: Lecture Notes In Computer Science; Vol.5602. Proceedings of the 3rd.
International Work-Conference On The Interplay Between Natural And Artificial
Computation: Part I: Bio-Inspired Systems: Computational and Ambient Intelligence.
Paginas: 48-54.
Doi: 10.1007/978-3-642-02267-8.
Lugar: Santiago de Compostela - Espana.
Fecha: 22-26 de Junio de 2009.
6. Congreso: International Work-Conference on Artificial Neural Networks
(IWANN’09).
Ranking: 55/620.
Tıtulo: New Artificial Metaplasticity MLP Results on Standard Data Base.
Autores: Alexis Marcano-Cedeno, Aleksandar Jevtic,Antonio Alvarez-Vellisco,
Diego Andina.
123
8.3 Publicaciones que sustentan la Tesis
Publicacion: Lecture Notes In Computer Science; Vol. 5517. Proceedings of the 10th
International Work-Conference on Artificial Neural Networks: Part I: Bio-Inspired
Systems: Computational and Ambient Intelligence.
Paginas: 174-179.
Doi: 10.1007/978-3-642-02478-8 22
Lugar: Salamanca - Espana.
Fecha: 10-12 de Junio de 2009.
7. Congreso: International Work-Conference On The Interplay Between Natural And
Artificial Computation (IWINAC 2007).
Tıtulo: Error Weighting in Artificial Neural Networks Learning Interpreted as a
Metaplasticity Model.
Autores: Diego Andina, Aleksandar Jevtic, Alexis Marcano, Jose Miguel Barron
Adame.
Publicacion: Lecture Notes In Computer Science; Vol. 4527. Proceedings of the 2nd.
International Work-Conference On The Interplay Between Natural And Artificial
Computation: Part I: Bio-Inspired Systems: Computational and Ambient Intelligence.
Paginas:244-252 .
Doi: 10.1007/978-3-540-73053-8.
Lugar: La Manga del Mar Menor, Murcia - Espana.
Fecha: 18-21 Junio de 2007.
8. Congreso: International Work-Conference On The Interplay Between Natural And
Artificial Computation (IWINAC 2007).
Tıtulo: A Preliminary Neural Model for Movement Direction Recognition Based on
Biologically Plausible Plasticity Rules.
Autores: Eduardo Akira Kinto, Emılio Del Moral Hernandez, Alexis Marcano,
Francisco Javier Ropero Pelaez.
Publicacion: Lecture Notes In Computer Science; Vol. 4528. Proceedings of
the 2nd. International Work-Conference On The Interplay Between Natural And
Artificial Computation: Part II: Bio-Inspired Systems: Computational and Ambient
Intelligence.
Paginas: 628-636.
Doi: 10.1007/978-3-540-73055-2 65
Lugar: La Manga del Mar Menor, Murcia - Espana.
Fecha: 18-21 Junio de 2007.
124
8.4 Otras Publicaciones
8.4. Otras Publicaciones
1. Congreso: World Automation Congress (WAC2010).
Tıtulo: Modeling Logic and Neural Approaches to Bankruptcy Prediction Models.
Autores: Amparo Marin de la Barcena, Alexis Marcano, J.A. Pinuela, Diego Andina.
Publicacion: Aceptado.
Lugar: Kobe - Japon.
Fecha: 10-23 de Septiembre 2010.
2. Congreso: World Congress of Soil Science, Pedometrics Symposia (Pedometrics
2007).
Tıtulo: Quantifying Soil Permeability through 2D Multifractal and Wavelet
Approach.
Autores: Joaquın Torres, Alexis Marcano, R. Heck, Juan Grau, J.M. Anton, Ana
Tarquis.
Paginas: 34.
Lugar: Tuebingen - Alemania.
Fecha: 27-30 de Agosto 2007.
3. Congreso: International Conference on Cybernetics and Information Technologies,
Systems and Applications (CITSA 2007).
Tıtulo: A Radar Detector Proposal Based on DTW Echo Properties.
Autores: Joaquın Torres, Alexis Marcano, Diego Andina.
Publicacion: Proceedings of the 2007 4th International Conference on Cybernetics
and Information Technologies, Systems and Applications.
Paginas: 16-19.
Lugar: Orlando, Florida - USA.
Fecha: 12-15 de Julio 2007.
4. Congreso: International Conference on Cybernetics and Information Technologies,
Systems and Applications (CITSA 2007).
Tıtulo: Computer-Aided Diagnosis Scheme Applying GRNN Neural Network.
Autores: Antonio Vega-Corona, Alexis Marcano, Diego Andina.
Publicacion: Proceedings of the 2007 4th International Conference on Cybernetics
and Information Technologies, Systems and Applications.
Paginas: 16-19.
Lugar: Orlando, Florida - USA.
Fecha: 12-15 de Julio 2007.
125
8.4 Otras Publicaciones
5. Congreso: IEEE International Symposium on Industrial Electronics (ISIE 2007).
Tıtulo: Radar Signal Processing Through Wavelet Transform.
Autores: Joaquın Torres, Alexis Marcano, Diego Andina.
Publicacion: Proceedings of the 2007 7th IEEE International Symposium on
Industrial Electronics.
Paginas: 3420-3423.
Lugar: Vigo - Espana.
Fecha: 4-7 de Junio 2007.
126
Bibliografıa
[1] Rumelhart D.E. and McClelland J. J. and the PDP Research Group . Parallel
distributed processing in the microsturcture in congnition. Vol. 1, pp. 216-271,
1986. Cambridge, MA: MIT Press
[2] Haykin S. Neural networks: a comprehensive foundation. Prentice-Hall Prentice
hall, New Jersey,USA. second edition. 1994
[3] Chaudhuri B.B. and Bhattacharya U. “Efficient training and improved perfor-
mance of multilayer perceptron in pattern classification”. Neurocomputing, Vol.
34(4), pp. 11-27. 2000. doi:10.1016/S0925-2312(00)00305-2.
[4] Abraham W.C. “Activity-dependent regulation of synaptic plasticity (meta-
plasticity) in the hippocampus. in the hippocampus”. In: The Hippocampus:
Functions and Clinical Relevance, Ed. N. Kato. Elsevier Science B.V., pp. 15
26. 1996.
[5] Parker D. and Grillner S. “Activity-Dependent Metaplasticity of Inhibitory and
Excitatory Synaptic Transmission in the Lamprey Spinal Cord Locomotor”. The
Journal of Neuroscience, Vol. 19(5), pp. 1647-1656. 1999.
[6] Thiagarajana T.C., Lindskoga M., Malgarolib A., Tsiena R.W. “LTP
and adaptation to inactivity: Overlapping mechanisms and implica-
tions for metaplasticit”. Neuropharmacology, 52(1), pp. 156-175. 2007.
doi:10.1016/j.neuropharm.2006.07.030.
[7] Young J., Isiegas C., Abel T. and Nguyen P.V. “Metaplasticity of the late-
phase of long-term potentiation a critical role for protein kinase A in synap-
tic tagging”. European Journal of Neuroscience, Vol. 23, pp. 1784-1794. 2006.
doi:10.1111/j.1460-9568.2006.04707.x
[8] Yu X., Shouval H.Z. and Knierim J.J. “A Biophysical Model of Synaptic Plas-
ticity and Metaplasticity Can Account for the Dynamics of the Backward Shift
127
BIBLIOGRAFIA
of Hippocampal Place Fields”. Journal of Neurophysiology, Vol. 100, pp. 2008.
983-992. doi:10.1152/jn.01256.2007
[9] Ropero-Pelaez J., Piqueira J.R. and Piqueira J.R. “Biological clues for up-
to-date artificial neurons”. In Computational Intelligence for Engineering and
Manufacturing, Andina D and Pham D.T. (Eds), Springer-Verlag, The Neder-
lands. 2007.
[10] Andina D., Alvarez-Vellisco A., Jevtic A. and Fombellida J. “Artificial meta-
plasticity can improve artificial neural network learning”. In Intelligent Automa-
tion and Soft Computing, Special Issue in Signal Processing and Soft Comput-
ing. Guest Editor D. Andina., Vol. 15(4), pp. 681-649. 2009. TSI Press, USA.
ISSN: 1079-8587.
[11] Marcano-Cedeno A., Alvarez-Vellisco A., Andina D. “Artificial metaplasticity
MLP applied to image classification”. IEEE International Conference on In-
dustrial Informatics, pp. 650-653. 2009. doi:10.1109/INDIN.2009.5195879.
[12] Marcano-Cedeno A., Quintanilla-Domınguez J., Andina D. “Wood Defects
Classification Using Artificial Metaplasticity Neural Network”. IEEE Preprint
of IECON Proceedings, pp. 3458-3463. 2009. doi: 10.1109/IECON.2009.5415189.
[13] Choi B. and Lee J.H. “Comparison of generalization ability on solv-
ing differential equations using backpropagation and reformulated radi-
al basis function networks”. Neurocomputing, Vol. 73, pp. 115-118. 2009.
doi:10.1016/j.neucom.2009.02.026.
[14] Karabatak M. and Cevdet-Ince M. “An expert system for detection of breast
cancer based on association rules and neural network”. Expert Systems with
Applications, Vol. 36, pp. 3465-3469. 2009. doi:10.1016/j.eswa.2008.02.064.
[15] Khashman A. “A neural network model for credit risk evaluation”. Int J Neural
Syst., Vol. 19(1), pp. 285-294. 2009.
[16] Leonard J. and Kramer M.A. “Improvement of the backpropagation algorithm
for training neural networks”. Computers & Chemical Engineering, Vol. 14(3),
pp. 337-341. 1990.doi:10.1016/0098-1354(90)87070-6.
[17] Lee M. and Weidman S.T. “Expert systems for guiding backpropagation train-
ing of layered perceptrons”. Expert Systems with Applications, Vol. 2(1), pp.
73-81. 1991. doi:10.1016/0957-4174(91)90135-2.
128
BIBLIOGRAFIA
[18] Kim Y.K. and Ra J.B. “Weight value initialization for improving training
speed in the backpropagation network”. In Proc. IEEE International Joint
Conference on Neural Networks, IJCNN’91, Vol. 3, pp. 2396-2401. 1991.
doi:110.1109/IJCNN.1991.170747.
[19] Scalero R.S. and Tepedelenlioglu N. “A fast new algorithm for training feedfor-
ward neural networks”. Signal Processing, IEEE Transactions on , Vol. 40(1),
pp. 202-210. 1992. doi: 10.1109/78.157194.
[20] Karayiannis N.B. and Venetsanopoulos A.N. “Fast learning algorithms for neu-
ral networks”. Circuits and Systems II: Analog and Digital Signal Processing,
IEEE Transactions on , Vol. 39(7), pp. 453-474. 1992. doi: 10.1109/82.160170.
[21] Anand R., Mehrotra K.G., Mohan C.K. and Ranka S. “An improved algorithm
for neural network classification of imbalanced training sets”. Neural Networks,
IEEE Transactions on, Vol. 4(6), pp. 962-969. 1993. doi:10.1109/72.286891.
[22] Riedmiller M. “Advanced supervised learning in multi-layer perceptrons - From
backpropagation to adaptive learning algorithms”. Computer Standards & In-
terfaces, Vol. 16(3), pp. 265-278. 1994. doi:10.1016/0920-5489(94)90017-5.
[23] Chen D.S. and Jain R.C. “A robust backpropagation learning algorithm for
function approximation”. Neural Networks, IEEE Transactions on, Vol. 5(3),
pp. 467-479. 1994. doi:10.1109/72.286917.
[24] Alpsan D., Towsey M., Ozdamar Z., Tsoi A.C. and Ghista D.N. “Efficacy of
Modified Backpropagation and Optimisation Methods on a Real-world Medical
Problem”. Neural Networks, Vol. 8(6), pp. 945-962. 1995. doi:10.1016/0167-
8655(95)00124-Y.
[25] Solomon R. and Van-Hemmen J.L. “Accelerating backpropagation through
dynamic self-adaptation”. Neural Networks, Vol. 9(4), pp. 589-601. 1996.
doi:10.1016/0893-6080(95)00144-1.
[26] Fu L., Hsu H.H. and Principe J.C. “Incremental backpropagation learning net-
works”. IEEE Transactions on Neural Neworks, Vol. 7(3), pp. 757-761. 1996.
doi:10.1109/72.5017321.
[27] Magoulas G.D., Vrahatis M.N. and G.S. “Effective Backpropagation Training
with Variable Stepsize Neural Networks”. Neural Networks, Vol. 10(1), pp. 69-
82. 1997. doi:10.1016/S0893-6080(96)00052-4.
129
BIBLIOGRAFIA
[28] Yam Y.F., Chow T.W. and Leung C.T. “A new method in determining initial
weights of feedforward neural networks for training enhancement”. Neurocom-
puting, Vol. 16(1), pp. 23-32. 1997. doi:10.1016/S0925-2312(96)00058-6.
[29] Sexton R.S., Dorsey R.E. and Johnson J.D. “Toward global optimization of
neural networks: A comparison of the genetic algorithm and backpropagation”.
Decision Support Systems, Vol. 22(2), pp. 171-185. 1998. doi:10.1016/S0167-
9236(97)00040-7.
[30] Sexton R.S., Alidaee B., Dorsey R.E. and Johnson J.D. “Global optimization
for artificial neural networks: A tabu search application”. European Journal
of Operational Research, Vol. 160(2), pp. 570-584. 1998. doi:10.1016/S0377-
2217(97)00292-0.
[31] Kamarthi S.V. and Pittne S. “Accelerating neural network training using
weight extrapolations”. Neural Networks, Vol. 12(9), pp. 1285-1299. 1999.
doi:10.1016/S0893-6080(99)00072-6.
[32] Kamarthi M. “Modelling with constructive backpropagation”. Neural Networks,
Vol. 12(4), pp. 707-716. 1999. doi:0.1016/S0893-6080(99)00018-0.
[33] Cho S.Y. and Chow T.W. “Training multilayer neural networks using fast global
learning algorithm - least-squares and penalized optimization methods”. Neuro-
computing, Vol. 25(1), pp. 115-131. 1999. doi:10.1016/S0925-2312(99)00055-7.
[34] Ampazisa K., Perantonisa S.J. and Taylor J.G. “Dynamics of multilayer net-
works in the vicinity of temporary minima”. Neural Networks, Vol. 12(1), pp.
43-58. 1999. doi:10.1016/S0893-6080(98)00103-8.
[35] Yam Y.F. and Chow T.W. “A weight initialization method for improving train-
ing speed in feedforward neural network”. Neurocomputing, Vol. 30(1), pp. 219-
232. 2000. doi:10.1016/S0925-2312(99)00127-7.
[36] Lee H.M., Chen C.M. and Huang T.C. “Learning efficiency improvement of
back-propagation algorithm by error saturation prevention method”. Neuro-
computing, Vol. 41, pp. 125-143. 2001. doi:10.1016/S0925-2312(00)00352-0.
[37] Mandische M. “A comparison of evolution strategies and backpropagation
for neural network training”. Neurocomputing, Vol. 42, pp. 87-117. 2002.
doi:10.1016/S0925-2312(01)00596-3.
130
BIBLIOGRAFIA
[38] Hoo k.A., Sinzinger E.D. and Piovoso M.J. “Improvements in the predictive
capability of neural networks”. Journal of Process Control, Vol. 12(1), pp.193-
202. 2002. doi:10.1016/S0959-1524(01)00007-5.
[39] Eom K., Jung K. and Sirisena H. “Performance improvement of backpropaga-
tion algorithm by automatic activation function gain tuning using fuzzy logic”.
Neurocomputing, Vol. 50, pp. 439-460. 2003. doi:10.1016/S0925-2312(02)00576-
3.
[40] Zweiri Y.H., Whidborne J.F. and Seneviratne L.D. “A three-term back-
propagation algorithm”. Neurocomputing, Vol. 50, pp. 305-318. 2003.
doi:10.1016/S0925-2312(02)00569-6.
[41] Abraham A. “Meta learning evolutionary artificial neural networks”. Neuro-
computing, Vol. 56, pp. 1-38. 2004. doi:10.1016/S0925-2312(03)00369-2
[42] Wang X.G., Tang Z., Tamura H., Ishii M and Sun W.D. “An improved back-
propagation algorithm to avoid the local minima problem”. Neurocomputing,
Vol. 56, pp. 455-460. 2004. doi:10.1016/j.neucom.2003.08.006.
[43] Mohammad-Taghi V.B and Pavesie N. “Training RBF networks with
selective backpropagation”. Neurocomputing, Vol. 62, pp. 39-64. 2004.
doi:10.1016/j.neucom.2003.11.011.
[44] Pernıa-Espinoza A.V., Ordieres-Mere J.B., Martınez-de-Pison F.J. and
Gonzalez-Marcos A. “TAO-robust backpropagation learning algorithm”. Neural
Networks, Vol. 18(2), pp. 191-204. 2005. doi:10.1016/j.neunet.2004.11.007.
[45] Steil J.J. “Online stability of backpropagation-decorrelation recur-
rent learning”. Neurocomputing, Vol. 69(7-9), pp. 642-650. 2006.
doi:10.1016/j.neucom.2005.12.012.
[46] Behera L., Kumar S. and Patnaik A. “On Adaptive Learning Rate That Guar-
antees Convergence in Feedforward Networks”. Neural Networks, IEEE Trans-
actions on, Vol. 17(5), pp. 1116-1125. 2006. doi:0.1109/TNN.2006.878121.
[47] Wang C.H., Kao C.H. and Lee W.H. “A new interactive model for improving
the learning performance of back propagation neural network”. Automation in
Construction, Vol. 16(6), pp. 745-758. 2007. doi:10.1016/j.autcon.2006.12.007.
131
BIBLIOGRAFIA
[48] Khashman A. “A Modified Backpropagation Learning Algorithm With Added
Emotional Coefficients”. Neural Networks, IEEE Transactions on, Vol. 19(11),
pp. 1896-1909. 2008. doi:10.1109/TNN.2008.2002913.
[49] Yang S.S., Siu S. and Ho C.L. “Analysis of the Initial Values in Split-Complex
Backpropagation Algorithm”. Neural Networks, IEEE Transactions on, Vol.
19(9), pp. 1564-1573. 2008.doi:10.1109/TNN.2008.2000805.
[50] Zhang C., Wu W., Chen X.H. and Xiong Y. “Convergence of BP algorithm for
product unit neural networks with exponential weights”. Neurocomputing, Vol.
72(1), pp. 513-5203. 2008. doi:10.1016/j.neucom.2007.12.004.
[51] Silva L.M., Marques de Sa J. and Alexandre L.A. “Data classification with
multilayer perceptrons using a generalized error function”. Neural Networks,
Vol. 21(9), pp. 1302-1310. 2008. doi:10.1016/j.neunet.2008.04.004.
[52] Soliman M.I. and Mohamed S.A. “A highly efficient implementation
of a backpropagation learning algorithm using matrix ISA. Journal of
Parallel and Distributed Computing , Vol. 68(7), pp. 949-961. 2008.
doi:10.1016/j.jpdc.2007.12.004.
[53] Cheng H.L and Park S.C. “An efficient document classification model using
an improved back propagation neural network and singular value decompo-
sition”. Expert Systems with Applications, Vol. 36(2), pp. 3208-3215. 2009.
doi:10.1016/j.eswa.2008.01.014.
[54] Kathirvalavakumar T. and Jeyaseeli-Subavathi S. “Neighborhood based modi-
fied backpropagation algorithm using adaptive learning parameters for training
feedforward neural networks”. Neurocomputing, Vol. 72, pp. 3915-3921. 2009.
doi:10.1016/j.neucom.2009.04.010.
[55] Bai Y., Zhang H. and Hao Y. “The performance of the backpropagation algo-
rithm with varying slope of the activation function”. Chaos, Solitons & Fractals,
Vol. 40(1), pp. 69-77. 2009. doi:10.1016/j.chaos.2007.07.033.
[56] Sun J. “Local coupled feedforward neural network”. Neural Networks , Vol.
23(1), pp. 108-113. 2010. doi:110.1016/j.neunet.2009.06.016.
[57] DARPA. DARPA Neural Network Study. AFCEA International Press, pp. 60.
1988.
132
BIBLIOGRAFIA
[58] Kohonen T. “The self-organizing map”. Neurocomputing, Vol.21, pp. 1-6. 1998.
doi:10.1016/S0925-2312(98)00030-7.
[59] Andina D. and Pham D.T. Computational Intelligence for Engineering and
Manufacturing (Eds), Springer-Verlag, The Nederlands. (2007). ISBN: 978-0-
387-37450-5.
[60] Mendel J.M. and McLaren R.W. “Reinforcement-learning control and pattern
recognition systems”. In Mendel, J. and Fu, K., editors. Adaptive, Learning
and Pattern Recognition Systems: Theory and Applications, pp. 287-318. 1970.
Academic Press, New York.
[61] Lippmann R.P. “An introduction to computing with neural nets”. IEEE ASSP
Magazine, Vol. 3(4), pp. 4-22. 1987.
[62] Zurada J.M. Introduction to Artificial Neural Systems. West Publishing Com-
pany, St. Paul. 1999.USA.
[63] Hassoun M.H. “Fundamentals of Artificial Neural Networks”. MIT Press, Cam-
bridge, MA. 1995.
[64] Hebb DO. The Organization of Behavior. Laurence Erlbaum Associates, 2002
(reedition of the 1949 original). 1949.ISBN 0805843000, 978080584300
[65] Jain A.K., Mao J. and Mohiuddin K.M. “Artificial neural networks: a tutorial”.
Comput. IEEE March, pp. 31-44. 1996.
[66] McCulloch W.S. and Pitts W.H. “A logical calculus of the ideas immanent in
nervous activity”. Bulletin of mathematical Biohysics, Vol. 5, pp. 115-133. 1943.
[67] Rosenblat F. “The Perceptron: A Probabilistic Model for Information Storage
and Organization in the Brain”. Psychological Review, Vol. 65(6), pp. 386-408.
1958.
[68] Andina D.(1995). Optimizacion de detectores neuronales. Aplicacion a Radar
y Sonar. Tesis Doctoral, ETSIT, Universidad Politecnica de Madrid.
[69] Minsky M. and Papert S. “Perceptrons: An Introduction to Computational
Geometry”. MIT Press, Cambridge, MA. 1969.
[70] Werbos P.J. “Backpropagation through time: What it does and how to do it”.
IEEE Proceedings, Vol. 78(10), pp. 1550-1560. 1990. doi: 10.1007/BF02551274.
133
BIBLIOGRAFIA
[71] Parker D. “A Comparison of Algorithms for Neuron-Like Cells”. AIP
Proc.: Neural Networks for Computing, Vol. 151, pp. 327-332. 1986.
doi:10.1063/1.36233.
[72] Hilera J.R. and Martınez V.J. Redes neuronales artificiales: fundamentos, mod-
elos y aplicaciones. 1995. RA-MA.Madrid.
[73] Cybenko G. “Approximation by superposition of a sigmoidal function”. Math-
ematics of Control, Signals and Systems, Vol. 2(4), pp. 303-314. 1989. doi:
10.1109/5.58337.
[74] Widrow B. and Hoff M.E. Associative Storage andRetrieval of Digital Infor-
mation in Network of Adaptive ”Neurons”. Biological Prototypes and Sinthetic
Systems. Published by Plenum Press. Vol. 1, 1962. New York.
[75] Werbos P.J. Beyond regression: New tools for prediction and analysis in the be-
havioral sciences. Harvard University Unpublished doctoral dissertation. 1974.
[76] Phansalkar V.V. and Sastry P.S. Analysis of the back-propagation algorithm
with momentum. IEEE Trans Neural Network, Vol. 5(3), pp. 505-506. 1994.
doi:10.1109/72.286925.
[77] Abraham W.C. “Metaplasticity: Key Element in Memory and Learning?”. News
in Physiological Sciences, Vol. 14(2), pp. 85. 1999.
[78] Cajal S.R. “La fine structure des centres nerveux”. Proceedings of Royal Society,
Vol. 55, pp. 444-468. 1894.
[79] Konorski J. “Conditioned Reflexes and Neuron Organization”. Cambridge, UK:
Cambridge Univ. Press. (948.
[80] Jedlicka P. “Synaptic plasticity, metaplasticidad and BCM theory”. Institute
of Pathophysiology. Medical Faculty. Comenius University, Vol.103(4), pp. 137-
143. 2002.
[81] Todd K., Serrano A., Lacaille J. and Robitaille R. “Glial cells in synap-
tic plasticity”. Journal of Physiology - Paris, Vol. 99, pp. 75-83. 2007.
doi:10.1016/j.jphysparis.2005.12.002.
[82] Malenka R. and Bear M.“LTP and LTD : An Embarrassment of Riches”. Neu-
ron, Vol. 44(1), pp. 5-21. 2004. doi:10.1016/j.neuron.2004.09.012.
134
BIBLIOGRAFIA
[83] Bliss T.V. and Lomo T. “Long-lasting potentiation of synaptic transmission
in the dentate area of the anaesthetized rabbit following stimulation of the
perforant path”. Journal of Physiology, Vol. 232(2), pp. 331-56. 1973.
[84] Aroniadou V.A. and Teyler T.J. “The role of NMDA receptors in long-term
potentiation (LTP) and depression (LTD) in rat visual cortex”. Brain Research,
Vol. 562(1), pp. 136-143. 1991. doi:10.1016/0006-8993(91)91197-9.
[85] Cudmore R.H. and Turrigiano G.G. “Long-Term Potentiation of Intrinsic Ex-
citability in LV Visual Cortical Neurons”. Journal Neurophysiology, Vol. 92, pp.
341-348. 2004. doi:10.1152/jn.01059.2003. 0022-3077/04.
[86] Barrionuevo G., Schotteler F. and Lynch G. “The effects of repetitive low fre-
quency stimulation on control and potentiatied synaptic responses in the hip-
pocampus”. Life Sci, Vol. 27, pp. 12385-2391. 1980.
[87] Bear M.F. “Progress in understanding NMDA-receptor-dependent synaptic
plasticity in the visual cortex”. J. Physiology(Paris), Vol. 90(3-4), pp. 223-227.
1996. doi:10.1016/S0928-4257(97)81428-3.
[88] Massey P.V. and Bashir Z.B. “Long-term depression: multiple forms and impli-
cations for brain function”. Trends in Neurosciences, Vol. 30(4), pp. 176-184.
2007. doi:10.1016/j.tins.2007.02.005.
[89] Martin S.J., Grimwood P.D. and Morris R.G. “Synaptic plasticity and memory:
an evaluation of the hypothesis”. Annual Review of Neuroscience, Vol. 23, pp.
649-711. 2000. doi:10.1146/annurev.neuro.23.1.649.
[90] Neves G., Cooke S.F. and Bliss T.V. “Synaptic plasticity, memory and the
hippocampus: a neural network approach to causality”. Nature Rev. Neurosci,
Vol. 9, pp. 65-75. 2008. doi:10.1146/annurev.neuro.23.1.649.
[91] Abraham W.C. and Bear M.F. “Metaplasticity: the plasticity of synap-
tic plasticity.” Trends in Neurosciences, Vol. 19(4), pp. 126-130. 1996.
doi:10.1016/S0166-2236(96)80018-X.
[92] Abraham W.C. and Tate W.P. “Metaplasticity: a new vista across the field of
synaptic plasticity”. Progress in Neurobiology, Vol. 52(4), pp. 303-323. 1997.doi:
10.1016/S0301-0082(97)00018-X.
135
BIBLIOGRAFIA
[93] Shouval H.Z., Bear M.F. and Cooper L.N. “A unified model of NMDA recep-
tordependent bidirectional synaptic plasticity”. Neurobiology, Vol. 99(16), pp.
10831-10836. 2002. doi: 10.1073/pnas.152343099.
[94] Philpot B.D., Espinosa J.S. and Bear M.F. “Evidence for altered NMDA re-
ceptor function as a basis for metaplasticity in visual cortex”. Journal of Neu-
roscience, Vol. 23(13), pp. 5583-5588. 2003.
[95] Burrone J. and Murthy V.N. “Synaptic gain control and homeostasis”.
Current Opinion in Neurobiology, Vol. 13(5), pp. 560-567. 2003. doi:
10.1016/j.conb.2003.09.007.
[96] Turrigiano G.G. and Nelson S.B. “Homeostatic plasticity in the developing
nervous system”. Nature Reviews Neuroscience, Vol. 5(2), pp. 97-107. 2004.
doi: 10.1038/nrn1327.
[97] Philpot B.D., Cho K. and Bear M. “Obligatory role of NR2A for meta-
plasticity in visual cortex”. Neuron, Vol. 53(4), pp. 495-502. 2007. doi:
10.1016/j.neuron.2007.01.027.
[98] Bear M.F., Cooper L.N. and Ebner F.F. “A physiological basis for a theory
of synapse modification”. Science, Vol. 237, pp. 42-48. 1987. doi: 10.1126/sci-
ence.3037696.
[99] Perez-Otano Isabel and Ehlers M.D. “Homeostatic plasticity and NMDA re-
ceptor trafficking”. Trends in Neurosciences, Vol. 28(5), pp. 229-238. 2005. doi:
10.1016/j.tins.2005.03.004.
[100] Bienenstock E.L., Cooper L.N. and Munro P.W. “Theory for the development
of neuron selectivity: orientation specificity and binocular interaction in visual
cortex”. Journal of Neuroscience, Vol. 2(1), pp. 32-48. 1982.
[101] Abraham W.C. “Metaplasticity: tuning synapses and networks for plas-
ticity”. Nature Reviews Neuroscience, Vol. 9, pp. 387-399. 2008. doi:
doi:10.1038/nrn2356
[102] Davies, C.H., Starkey S.J., Pozza M.F. and Collingridge G.L. “GABAB au-
toreceptors regulate the induction of LTP”. Nature, Vol. 349, pp. 609-611. (1991.
doi: 10.1038/349609a0
136
BIBLIOGRAFIA
[103] Wagner J.J. and Alger B.E. “Homosynaptic LTD and depotentiation: Do
they differ in name only?”. Hippocampus, Vol. 6(1), pp. 24-29. 1998. doi:
10,1002/(SICI)1098 − 1063(1996)6 : 1 < 24 :: AID −HIPO5 > 3,0.CO; 2 − 7
[104] Kinto E., Del-Moral-Hernandez E., Marcano-Cedeno A., and Ropero-Pelaez
J. “A preliminary neural model for movement direction recognition based on
biologically plausible plasticity rules”. in: Proc. IWINAC 2007, Lecture Notes
in Computer Science, Vol. 4528 (Springer, Berlin, 2007), pp. 628-636. 2007. doi:
10.1007/978-3-540-73055-2 65.
[105] Monteiro J.L., Lobo-Netto M., Andina D. and Pelez J.R. “Using Neural Net-
works to Simulate the Alzheimer’s Disease”. in: Proc. WAC 2008, World Au-
tomation Congress. (Hawaii, HI, USA, 2008) pp. 1-6. 2008. ISBN: 978-1- 889335-
38-4. INSPEC Accession Number: 10411864.
[106] Shannon C.E. “A mathematical theory of communication”.The Bell System
Technical Journal, Vol. (27), pp. 379-423. 1948. doi: 10.1145/584091.584093.
[107] Rucky D.W., Rogers S.K., Kabrisk M., Oxley M.E. and Suter B.W.0“ The
multi-layer perceptron as an approximation to a Bayers optimal discrimination
function”. IEEE Transactions on Neural Networks, Vol. 1(4), pp. 296-298. 1990.
doi: 10.1109/72.80266.
[108] http://archive.ics.uci.edu/ml/datasets.html
[109] Jerez-Aragones J.M., Gomez-Ruiz J.A., Ramos-Jimenez G., Munoz-Perez J.
and Alba-Conejo E. A combined neural network and decision trees model for
prognosis of breast cancer relapse. Artificial Intelligence in Medicine. Vo. 27(1),
pp. 45-63. 2003. doi: 10.1016/S0933-3657(02)00086-6.
[110] Christoyianni I., Dermatas E. and Kokkinakis G. “Fast detection of masses in
computer-aided mammography”. IEEE Signal Processing Magazine. Vol. 17(1)
pp. 54-64. 2000. doi: 10.1109/79.814646
[111] Rodrigues P.S., Giraldi G.A., Chang R.F. and Suri J.S. “Non-extensive en-
tropy for cad systems of breast cancer images”. 19th Brazilian Symposium on
Computer Graphics and Image Processing. pp. 121-128. 2006. doi: 10.1109/SIB-
GRAPI.2006.31.
[112] American Cancer Society Hompage (2008). Citing Internet sources URL:
http://www.cancer.org.
137
BIBLIOGRAFIA
[113] Bradley A.P. “The use of the area under the ROC curve in the evaluation of
machine learning algorithms”. Pattern Recognition. Vol. 30(7), pp. 1145-1159.
1997. doi:10.1016/S0031-3203(96)00142-2.
[114] Hopley L. and Schalkwyk, J.V. The magnificent ROC. 2001. Available at
http://www.anaesthetist.com/mnm/stats/roc/.
[115] Zhou X.H. and Harezlak J. “Comparison of bandwidth selection methods for
kernel smoothing of ROC curves”. Statistics in Medicine. Vol. 21(14), pp. 2045-
2055. 2002. doi:10.1002/sim.1156.
[116] Purves R.D. “Optimum numerical integration methods for estimation of area-
under-the-curve (AUC) and area-under-the-moment-curve (AUMC)”. Journal
of Pharmacokinetics and Pharmacodynamics. Vol. 20(3), pp.211-226. 1992. doi:
10.1007/BF01062525.
[117] Spritzler J., DeGruttola V. and Pei L. “Two-Sample Tests of Area-Under-the-
Curve in the Presence of Missing Data”. The International Journal of Biostatis-
tics. Vol. 4(1), pp. 1-18. 2008. doi: 10.2202/1557-4679.1068
[118] Mazurowski M.A. and Tourassi G.D. “Evaluating classifiers: Relation between
area under the receiver operator characteristic curve and overall accuracy.”
In: Proc. IJCNN 2009, International Joint Conference on Neural Networks,
(Atlanta, Georgia, USA, 2009) 2045-2049. doi: 10.1109/IJCNN.2009.5178752.
[119] Peng L., Yang B., Jiang J. “A novel feature selection approach for biomedical
data classification”. Journal of Biomedical Informatics. Vol. 43(1), pp. 15-23.
2010. doi: 10.1016/j.jbi.2009.07.008.
[120] Conforti D. and Guido R. “Kernel based support vector machine via semidefi-
nite programming: Application to medical diagnosis”. Computers & Operations
Research. Vol. 37, pp. 1389-1394. 2010. doi: 10.1016/j.cor.2009.02.018.
[121] Akay M.F. “Support vector machines combined with feature selection for
breast cancer diagnosis”. Expert Systems with Applications. Vol.36(2), pp. 3240-
3247. 2009. doi: 10.1016/j.eswa.2008.01.009.
[122] Ubeyli E.D. “Implementing automated diagnostic systems for breast cancer
detection”. Expert Systems with Applications. Vol. 33(4), pp. 1054-1062. 2007.
doi: 10.1016/j.eswa.2008.02.064.
138
BIBLIOGRAFIA
[123] Quinlan, J.R. “Improved use of continuous attributes in C4,5”. Journal of
Artificial Intelligence Research. Vol. 4, pp. 77-909. 1996.
[124] Hamiton, H.J., Shan, N., and Cercone N. “RIAC: A rule induction algorithm
based on approximate classification Technical Report”. University of Regina.
(1996)
[125] Ster B. and Dobnikar A. “Neural networks in medical diagnosis: Compar-
ison with other methods”. In: Proc. EANN’96, International Conference on
Engineering Applications of Neural Networks, (London, United Kingdom,1996)
427-430.
[126] Nauck D. and Kruse R. “Obtaining interpretable fuzzy classification rules from
medical data”. Artificial Intelligence in Medicine. Vol. 16, pp. 149-169. 1999.
doi: 10.1016/S0933-3657(98)00070-0
[127] Pena-Reyes C.A. and Sipper M. “A fuzzy-genetic approach to breast cancer
diagnosis”. Artificial Intelligence in Medicine. Vol.17, pp. 131-155. 1999. doi:
10.1016/S0933-3657(99)00019-6.
[128] Setiono, R. “Generating concise and accurate classification rules for breast
cancer diagnosis”. Artificial Intelligence in Medicine. Vol. 18(3), pp. 205-217.
2000. doi: 1 0.1016/S0933-3657(99)00041-X.
[129] Albrecht A.A., Lappas G., Vinterbo S.A., Wong C.K. and Ohno-Machado L.
”Two applications of the LSA machine”. In Proc. ICONIP ’02, 9th International
Conference on Neural Information Processing. (Singapore, China, 2002) 184-
189. doi: 10.1109/ICONIP.2002.1202156.
[130] Abonyi J. and Szeifert F. “Supervised fuzzy clustering for the identification of
fuzzy classifiers”. Pattern Recognition Letters. Vol. 14(24), pp. 2195-2207. 2003.
doi: 10.1016/S0167-8655(03)00047-3.
[131] Polat K., and Gunes S. “Breast cancer diagnosis using least square support
vector machine”. Digital Signal Processing. Vol. 17(4), pp. 694-701. 2007. doi:
10.1016/j.dsp.2006.10.008.
[132] Guijarro-Berdias B., Fontenla-Romero O., Perez-Sanchez B., and Fraguela P.
“A linear learning method for multilayer perceptrons using least squares”. In:
Proc. IDEAL 2007, Lecture Notes in Computer Science, Vol. 4881 (Springer,
Berlin, 2007) 365-374. doi: 10.1007/978-3-540-77226-2 38.
139
BIBLIOGRAFIA
[133] Karabatak M., Cevdet-Ince M. “An expert system for detection of breast can-
cer based on association rules and neural network”. Expert Systems with Appli-
cations. Vol. 36, pp. 3465-3469. 2009. doi: 10.1016/j.eswa.2008.02.064.
[134] Thomas L.C. “A survey of credit and behavioral scoring: forecasting finan-
cial”. International Journal of Forecasting, Vol. 16(2), pp. 149-172. 2000. doi:
10.1016/S0169-2070(00)00034-0.
[135] Lee T.S., Chiu C.C., Lu C.J. and Chen I.F. “Credit scoring using the hybrid
neural discriminant technique”. Expert Systems with applications, Vol. 23(3),
pp. 245-254. 2002. doi: 10.1016/S0957-4174(02)00044-1.
[136] Peng Y., Kou G., Shi Y. and Chen Z. “A Multi-criteria Convex Quadratic
Programming model for credit data analysis”. Decision Support Systems, Vol.
44(4), pp. 1016-1030. 2008. doi:10.1016/j.dss.2007.12.001.
[137] Tsai C.F and Wu J.W. Z. “Using neural network ensembles for bankruptcy
prediction and credit scoring”. Expert Systems with Applications, Vol. 44(4),
pp. 2639-2649. 2008. doi:10.1016/j.eswa.2007.05.019.
[138] Nanni L. and Lumini A. “An experimental comparison of ensemble of classi-
fiers for bankruptcy prediction and credit scoring”. Expert Systems with Appli-
cations, Vol. 36, pp. 3028-3033. 2009. doi:10.1016/j.eswa.2007.05.019.
[139] Xu X., Zhou C. and Wang Z. “Credit scoring algorithm based on link analysis
ranking with support vector machine”. Expert Systems with Applications, Vol.
36(2), pp. 2625-2632. 2009. doi:doi:10.1016/j.eswa.2008.01.024.
[140] Luo S.T., Cheng B. W. and Hsieh C.H. “Prediction model building with
clustering-launched classification and support vector machines in credit scor-
ing”. Expert Systems with Applications, Vol. 36(4), pp. 7562-7566. 2009.
doi:10.1016/j.eswa.2008.09.028.
[141] Tsai C.F. “Feature selection in bankruptcy prediction”. Knowledge-Based
Systems, Vol. 22(22), pp. 120-127. 2009. doi:10.1016/j.knosys.2008.08.002.
[142] Ping Y. “Hybrid Classifier Using Neighborhood Rough Set and SVM for
Credit Scoring”. In Proc. BIFE ’09, International Conference on Business
Intelligence and Financial Engineering.(Beijing, China,2009) 138-142. doi:
10.1109/BIFE.2009.41.
140
BIBLIOGRAFIA
[143] Chen F.L. and Li F.C. “Combination of feature selection approaches with SVM
in credit scoring”. Expert Systems with Applications, Vol. 37(7), pp. 4902-4909.
2010. doi:110.1016/j.eswa.2009.12.025.
[144] West D. “Neural network credit scoring models. Computers and Operations
Research, Vol. 27, pp. 1131-152. 2000. doi:10.1016/S0305-0548(99)00149-55.
[145] Ong C.S, Huang J.J and Tzeng G.H. “Building credit scoring models using
genetic programming”. Expert Systems with Applications, Vol. 29, pp. 41-47.
2005. doi:10.1016/j.eswa.2005.01.003.
[146] Huang J.J., G.H. and Ong C.S. “Two-stage genetic programming (2SGP) for
the credit scoring model”. Applied Mathematics and Computation, Vol. 174(2),
pp. 1039-1053. 2006. doi:10.1016/j.amc.2005.05.027.
[147] Martens D., Baesens B., Van Gestel T. and Vanthienen J. “Comprehensi-
ble credit scoring models using rule extraction from support vector machines”.
European Journal of Operational Research, Vol. 183(3), pp. 11466-1476. 2007.
doi:10.1016/j.ejor.2006.04.051.
[148] Hoffmann F., Baesens B., Mues C., Van Gestel T. and Vanthienen J. “Inferring
descriptive and approximate fuzzy rules for credit scoring using evolutionary
algorithms”. European Journal of Operational Research, Vol. 177, pp. 540-5556.
2007. doi:10.1016/j.ejor.2005.09.044.
[149] Huang C.L, Chen M.C. and Wang C.J. “Credit scoring with a data mining
approach based on support vector machines”. Expert Systems with Applications,
Vol. 33(4), pp. 847-856. 2007. doi:10.1016/j.eswa.2006.07.007.
[150] Lampinen J. and Smolander S. “Self-organizing feature extraction in recogni-
tion of wood surface defects and color images”. International Journal of Pat-
tern Recognition and Artificial intelligence, Vol. 10(2), pp. 97-113. 1996. doi:
10.1142/S0218001496000098.
[151] Chacon M.I. and Graciela R. “Wood Defects Classification Using a SOM/FFP
Approach with Minimum Dimension Feature Vector”. In: Proc. ECML 2001,
Lecture Notes in Computer Science, Vol. 3973 (Springer, Berlin, 2006) 1105-
1110. doi: 0.1007/11760191.
[152] Silven O., Niskanen M. and Kauppinen H. “Wood inspection with nonsuper-
vised clustering”. Machine Vision and application, Vol. 13, pp. 275-285. 2003.
doi: 10.1007/s00138-002-0084-z.
141
BIBLIOGRAFIA
[153] http://www.ee.oulu.fi/research/imag/knots/KNOTS/
[154] Grigorescu S.E., Petkov N. and Kruizinga P. “Comparison of texture features
based on Gabor filters”. Image Processing, IEEE Transactions on, Vol. 11(10),
pp. 1160-1167. 2003. doi: 110.1109/TIP.2002.804262.
[155] Brunzella H. and Eriksson J. “Feature reduction for classification of mul-
tidimensional data”. Pattern Recognition, Vol. 33(10), pp. 1741-1748. 2003.
doi:10.1016/S0031-3203(99)00142-9.
[156] Berzal F., Cubero J.C., Cuenca F. and Martın-BautistaM.J. “On the quest
for easy-to-understand splitting rules”. Data & Knowledge Engineering, Vol.
44, pp. 31-48. 2003. doi:10.1016/S0169-023X(02)00062-9.
[157] Lee k.K. and Yoon W.C. “Adaptive classification with ellipsoidal regions for
multidimensional pattern classification problems”. Pattern Recognition Letters,
Vol. 26(9), pp. 1232-1243. 2005. doi:10.1016/j.patrec.2004.11.004.
[158] Altincay H. “Decision trees using model ensemble-based nodes”. Pattern
Recognition, Vol. 40(12), pp. 3540-3551. 2007. doi:10.1016/j.patcog.2007.03.023.
[159] Cai W., Chen S. and Zhang D.“Robust fuzzy relational classifier incorporating
the soft class labels”. Pattern Recognition Letters, Vol. 28(16), pp. 2250-2263.
2007. doi:10.1016/j.patrec.2007.07.013.
[160] Qin Y. and Zhang S.“Empirical likelihood confidence intervals for differences
between two datasets with missing data”. Pattern Recognition Letters, Vol.
29(15), pp. 803-812. 2008. doi:10.1016/j.patrec.2007.12.010.
[161] Evsukoff A.G, Galichet S, de Lima B.L.P. and Ebeckena N.F.“Design of inter-
pretable fuzzy rule-based classifiers using spectral analysis with structure and
parameters optimization”. Fuzzy Sets and Systems, Vol. 160(7), pp. 857-881.
2009. doi:10.1016/j.eswa.2008.07.068.
[162] Park M.S. and Choi J.Y.“Theoretical analysis on feature extraction capability
of class-augmented PCA”. Pattern Recognition, Vol. 42(117), pp. 2353-2362.
2009. doi:10.1016/j.patcog.2009.04.011.
[163] Chandra B. and Varghese P.P. “Fuzzifying Gini Index based decision
trees”. Expert Systems with Applications, Vol. 36(4), pp. 8549-8559. 2009.
doi:10.1016/j.eswa.2008.10.053.
142
BIBLIOGRAFIA
[164] Ouyanga J., Patel N. and Sethi I. “Induction of multiclass multifeature split
decision trees from distributed data”. Pattern Recognition, Vol. 42(9), pp. 1786-
1794. 2009. doi:10.1016/j.patcog.2009.01.0333.
[165] Vallejo C.G., Troyano J.A. and Ortega F. “InstanceRank: Bringing order
to datasets”. Pattern Recognition Letters, Vol. 31(2), pp. 133-142. 2010.
doi:10.1016/j.patrec.2009.09.022.
[166] Al-Batah M.S., Mat N.A., Zamli K.Z. and Azizli K. “Modified Recur-
sive Least Squares algorithm to train the Hybrid Multilayered Perceptron
(HMLP) network”. Applied Soft Computing, Vol. 10(1), pp. 236-244. 2010.
doi:10.1016/j.asoc.2009.06.018.
[167] Jin X.B., Lui C.L. and Hou X. “Regularized margin-based conditional log-
likelihood loss for prototype learning”. Pattern Recognition, Vol. 43(7), pp.
2428-2438. 2010. doi:10.1016/j.patcog.2010.01.013.
[168] Zhao F., Jiao L., Liu H., Gao X. and Gong M. “Spectral clustering with
eigenvector selection based on entropy ranking”. Neurocomputing, Vol. 73(10),
pp. 1704-1717. 2010. doi:10.1016/j.neucom.2009.12.029.
[169] Zhang Y., Wu X., Xing Z.Y. and Hu W.L. “On generating in-
terpretable and precise fuzzy systems based on Pareto multi-objective
cooperative co-evolutionary algorithm”. Applied Soft Computing. 2010.
doi:10.1016/j.asoc.2010.03.005.
[170] Kudo M. and Sklansky J.“Comparison of algorithms that select features
for pattern classifiers”. Pattern Recognition. Vol. 33(1), pp 25-41. 2000.
doi:10.1016/S0031-3203(99)00041-2.
[171] Muni D.P., Pal N.R. and Das J. “Genetic programming for simultane-
ous feature selection and classifier design”. Systems, Man, and Cybernetics,
Part B: Cybernetics, IEEE Transactions on. Vol. 36(1), pp 1100-1103. 2006.
doi:10.1109/TSMCB.2005.854499.
[172] Last M., Kandel A. and Maimon O. “Information-theoretic algorithm for fea-
ture selection”. Pattern Recognition Letters. Vol. 22(6-7), pp 799-811. 2001.
doi:10.1016/S0167-8655(01)00019-8.
[173] Nakariyakul S. and Casasent D.P. “An improvement on floating search algo-
rithms for feature subset selection”. Pattern Recognition. Vol. 42(9), pp 1932-
19401. 2009. doi:10.1016/j.patcog.2008.11.018.
143
BIBLIOGRAFIA
[174] Schenk J., Kaiser M. and Rigoll G. “Selecting Features in On-Line Handwrit-
ten Whiteboard Note Recognition: SFS or SFFS?”. 10th International Confer-
ence on Document Analysis and Recognition. ICDAR’09, pp 1251-1254. 2009.
doi:10.1109/ICDAR.2009.130.
[175] Lazzerini B. and Marcelloni F. “Feature selection based on similarity”. Elec-
tronics Letters, Vol. 38(3), pp. 121-122, 2001. doi: 10.1049/el:20020078.
[176] Oh I.S., Lee J.S. and Moon B.R. “Hybrid genetic algorithms for feature selec-
tion”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.
26(11), pp. 1424-1437, 2004. doi: 10.1109/TPAMI.2004.105.
[177] Chen S.M. and Shie J.D. “A New Method for Feature Subset Selection for
Handling Classification Problems”. In Proc. FUZZ’05, 14th IEEE Interna-
tional Conference on Fuzzy Systems. (Reno, Nevada, USA, 2005) 183-188. doi:
10.1109/FUZZY.2005.1452390.
[178] Weiguo S., Xiaohui L. and Fairhurst M. “A Niching Memetic Algorithm
for Simultaneous Clustering and Feature Selection”. IEEE Transactions
on Knowledge And Data Engineering, Vol. 20(7), pp. 868-879, 2008. doi:
10.1109/TKDE.2008.33.
[179] Bratu C.V., Muresan T. and Potolea R. “Improving classification accuracy
through feature selection”. In Proc. ICCP 2008, 4th International Conference
on Intelligent Computer Communication and Processing. (Cluj, Napoca, Roma-
nia, 2008) 25-32. 10.1109/ICCP.2008.4648350.
[180] Jensen R. and Qiang S. “New Approaches to Fuzzy-Rough Feature Selec-
tion”. IEEE Transaction on Fuzzy system, Vol. 17(4), pp. 824-838 , 2009. doi:
10.1109/TFUZZ.2008.924209.
[181] Xiao D. and Zhang J. “Importance Degree of Features and Feature Se-
lection”. In Proc. FSKD’09, 6th IEEE International Conference on Fuzzy
Systems and Knowledge Discovery. (Shandong, China, 2009) 197-201. doi:
10.1109/FSKD.2009.625.
[182] Qinghua H., Pedrycz W., Yu D. and Jun L. “Selecting Discrete and Contin-
uous Features Based on Neighborhood Decision Error Minimization”. IEEE
Transactions on Systems, Man, and Cybernetics,Part B: Cybernetics, Vol. 40,
pp. 137-150, 2010. doi: 10.1109/TSMCB.2009.2024166.
144
BIBLIOGRAFIA
[183] Proceedings of the 2009 IEEE International Conference on Systems, Man, and
Cybernetics San Antonio, TX, USA - October 2009
[184] Andina D., Marcano-Cedeno A., Torres J. and Alarcon M.J. “Testing Artifi-
cial Metaplasticity in MLP Applications”. In Proceedings of SMC 2009, IEEE
International Conference on Systems, Man, and Cybernetics, pp. 4361-4366.
2009. doi: 10.1109/ICSMC.2009.5346818.
[185] Marcano-Cedeno A., Alvarez-Vellisco A. and Andina D. “Artificial metaplas-
ticity MLP applied to image classification”. In Proceedings of INDIN 2009, 7th
IEEE International Conference on Industrial Informatics, pp. 650-653. 2009.
doi: 110.1109/INDIN.2009.5195879 .
145
top related