universidade federal da bahia instituto de fÍsica...
TRANSCRIPT
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE FÍSICAPrograma de Pós-Graduação em Física
Dissertação de Mestrado
Aplicação do Método de Funções de Base Radiais noAjuste de Curvas de Energia Potencial
Elymar Souza De Oliveira
2015
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE FÍSICA
PROGRAMA DE PÓS-GRADUAÇÃO EM FÍSICA
Aplicação do Método de Funções de Base Radiais no
Ajuste de Curvas de Energia Potencial
Elymar Souza De Oliveira
Orientador: Prof. Dr. Frederico Vasconcellos Prudente
Co-orientador: Prof. Dra. Ana Carla Peixoto Bitencourt
Dissertação apresentada ao Instituto de Física da
Universidade Federal da Bahia como parte dos
requisitos para a obtenção do título de Mestre em
Física.
Salvador - 2015
Souza De Oliveira, Elymar
Aplicacao do Metodo de Funcoes de Base Radiais no
Ajuste de Curvas de Energia Potencial/Elymar Souza De
Oliveira. – Salvador: 2015.
XV, 73 p.: il.; 29, 7cm.
Orientadores: Frederico Vasconcellos Prudente
Ana Carla Peixoto Bitencourt
Dissertacao (mestrado) – Programa de Pos-Graduacao
em Fısica, Universidade Federal da Bahia, 2015.
Referencias Bibliograficas: p. 68 – 70.
1. Modelagem Computacional. 2. Treinamento de
Redes Neurais. 3. Funcao de Base Radial. I. Vasconcellos
Prudente, Frederico et al. II. Universidade Federal da
Bahia, UFBA, Programa de Pos-Graduacao em Fısica. III.
Aplicacao do Metodo de Funcoes de Base Radiais no Ajuste
de Curvas de Energia Potencial.
iii
”Nao fui eu que ordenei a voce?
Seja forte e corajoso! Nao se
apavore nem desanime, pois o
Senhor, o seu Deus, estara com
voce por onde voce andar”
(Josue 1:9)
”O Senhor, pois, e aquele que vai
adiante de ti; ele sera contigo,
nao te deixara, nem te
desamparara; nao temas, nem te
espantes”
(Deuteronomio 31:8)
iv
Agradecimentos
A Deus, pela renovacao da forca de vontade e coragem em cada momento
de cansaco, desanimo e ate mesmo desespero na realizacao dessa dissertacao.
Aos meus pais Nelson e Reginalda, pelo eterno auxılio, compreensao,
e em especial, pelo apoio incondicional durante a superacao de de-
safios ao longo nao so deste trabalho, mas por toda caminhada da
vida, sempre acreditando em mim, oferecendo conselhos e protecao.
A minha irma Hellen, pela compreensao durante todos os momentos em que
estive ocupado estudando e pela grande ajuda nos momentos de necessidade.
Agradeco aos meus familiares que sempre estiveram do meu lado durante todas
as batalhas: As minhas avos Helenita, Regina e Maria Georgina (in memorian),
ao meu avo Eugenio (in memorian), aos meus tios Fabio e Agostinho a minha
irma Luana, aos meus primos Thiago, Vitoria, Tayane, Maick, Marcos Vinicius
e Jussara, alem das minhas tias Madalena (in memorian), Edite (in memorian),
Valdelice (in memorian), Edelvita (in memorian), Adelmira, Maria Jose, Ivonildes,
Margarida, Rita, Suzana, Sueli e Judite. A Edelzuıta, Graca, Claudia, Jurandi,
Jacy, Carlos, Gilberto, Dayse, Dayanna, Dinha, Edcarlos, Tatiane, Bom Conselho,
Israel, Nilza, Novaes e muitos outros que participaram e participam da minha vida.
Ao Frederico Vasconcellos Prudente, Ana Carla Peixoto Bitencourt e Mirco Ragni:
Orientadores que, com tanta presteza e principalmente paciencia, acompanharam
e colaboraram em todo o processo de construcao desta dissertacao; e por acre-
ditarem, apoiarem e confiarem em mim durante este momento de aprendizado.
A minha turma de 2013.1: Mariana, Rone, Damon, Cirlei, Eslaine, Cleud-
son, Andre, Edwin, Jhon, Jairo, Rodrigo e a tantos outros com quem
convivi e partilhei bons momentos Aureliano, Rosana, Leonardo, Robenil-
son, Beliato, Naiara, Josenilton, Nilton, Wanderson, Anderson e Bruno.
A Escola Criacao/Sistema de Ensino Integrado SEI, Universidade Federal do
Reconcavo da Bahia UFRB, Universidade Federal da Bahia UFBA, a Coordenacao
de Aperfeicoamento de Pessoal de Nıvel Superior CAPES, ao CNPQ e a FA-
PESB, pelo apoio financeiro que possibilitou um bom percurso de aprendizado e
desenvolvimento.
v
Resumo da Dissertacao apresentada ao Programa de Pos-graduacao em Fısica, da
Universidade Federal da Bahia, como parte dos pre-requisitos necessarios para a
obtencao do grau de Mestre em Fısica.
APLICACAO DO METODO DE FUNCOES DE BASE RADIAIS NO AJUSTE
DE CURVAS DE ENERGIA POTENCIAL
Elymar Souza De Oliveira
Marco/2015
Orientadores: Frederico Vasconcellos Prudente
Ana Carla Peixoto Bitencourt
Programa: Fısica
Em sistemas complexos, a modelagem, baseada em leis elementares para determinar
o comportamento de sistemas dinamicos, se constitui como aspecto essencial na escolha
metodologica, principalmente se tratamos de um sistema nao-linear. Uma alternativa, para
contornar esta dificuldade, e a utilizacao de estrategias e procedimentos com o objetivo de
determinacao de modelos matematicos mais apropriados as condicoes observadas, tendo
por base os dados teoricos e experimentais parciais do sistema. Em perspectiva, as Redes
Neurais Artificiais RNA sao tecnicas computacionais baseadas em um modelo matematico
inspirado na estrutura neural de organismos inteligentes, por possuırem um sistema de
processamento de informacoes altamente complexo e nao-linear, que realiza calculos em
paralelo, e adquire conhecimento atraves da experiencia, aplicado inclusive, em processos
de reconhecimento/classificacao de padroes, utilizadas como ferramenta nesta dissertacao.
O interesse reside no ajuste de curvas de energia potencial relacionadas ao tratamento
do espalhamento reativo H+LiH, cujo processo e de interesse na literatura, uma vez que
a formacao e a deplecao da especie LiH pode ter desempenhado papel relevante durante
a evolucao do universo primitivo. Assim, tendo em vista a obtencao de resultados para
a situacao analisada, o mapeamento nao-linear escolhido baseou-se nas Funcoes de Base
Radial RBF, que consistem em uma “base” arbitraria para determinar os provaveis padroes
associados aos vetores de entrada, possibilitando a construcao de modelos matematicos a
partir dos processos de treinamento e reconhecimento da RNA. O resultado satisfatorio,
para as geometrias e condicoes consideradas, pode ser observado na proximidade entre os
dados obtidos do ajuste em relacao aos dados utilizados para aprendizagem e teste.
vi
Abstract of the dissertation presented to the Graduate Program in Physics, Federal
University of Bahia, as part of the prerequisites for obtaining a Master’s degree in
Physics.
APPLICATION OF RADIAL BASIS FUNCTION METHOD IN THE FITTING
OF THE POTENTIAL ENERGY CURVES
Elymar Souza De Oliveira
March/2015
Advisors: Frederico Vasconcellos Prudente
Ana Carla Peixoto Bitencourt
Department: Physic
In complex systems, modeling, based on fundamental laws to determine the behavior
of dynamic systems, constitutes an essential aspect of methodological choice, especially if
dealing with a non-linear system. An alternative to overcome this difficulty is the use of
strategies and procedures aimed at determining the most appropriate mathematical models
to the observed conditions based on theoretical and experimental partial system data.
In perspective, Artificial Neural Networks RNA are computer-based techniques inspired
by a mathematical model of intelligent neural structure bodies, having an information
processing complex and highly non-linear system which performs calculations in parallel,
and acquires knowledge by experience, including applied in recognition processes / pattern
classification, used as a tool in this work. The interest lies in the fitting of potential
energy curves related to the treatment of reactive scattering H + LiH, a process that is
of interest in literature, since the formation and depletion of LiH species may have played
an important role during the evolution of the early universe. Therefore, in order to obtain
results for the analyzed situation, the nonlinear mapping chosen were the Radial Basis
Function RBF, consisting of a arbitrary basis of determine the likely patterns associated
with the input vectors, enabling the construction of mathematical models from the training
processes and recognition of the RNA. The successful outcome, to the geometries and
conditions considered, can be observed in proximity of the data fit with the data used for
learning and testing.
vii
Sumario
Lista de Figuras x
Lista de Tabelas xiii
1 Introducao 1
2 O Problema Molecular 3
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Definicao do problema . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Separacao adiabatica . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Separacao de Born-Oppenheimer . . . . . . . . . . . . . . . . . . . . 9
2.5 Superfıcie de Energia Potencial . . . . . . . . . . . . . . . . . . . . . 11
2.5.1 Ajustes de Superfıcie de Energia Potencial . . . . . . . . . . . 14
2.5.2 Potenciais Diatomicos . . . . . . . . . . . . . . . . . . . . . . 18
3 Redes Neurais 20
3.1 Estrutura Neural Biologica . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Rede Neural Artificial RNA . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Caracterısticas das Redes Neurais Artificiais . . . . . . . . . . 23
3.3 Estrutura Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Funcao de Ativacao . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Funcao de Base Radial RN-RBF . . . . . . . . . . . . . . . . . 32
3.3.3 O problema de interpolacao . . . . . . . . . . . . . . . . . . . 33
4 Resultados 40
4.1 Procedimento Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Molecula H2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Forma 1: Λ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Forma 1: Λ 6= 0 . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.3 Forma 2: Λ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.4 Forma 2: Λ 6= 0 . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Molecula LiH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
viii
4.3.1 Forma 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.2 Forma 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5 Conclusao e Perspectivas 66
Referencias Bibliograficas 68
A Tabelas 71
ix
Lista de Figuras
2.1 Representacao pictorica do processo de espalhamento completo e de
meio espalhamento (excitacao da molecula estavel por um foton) na
situacao em que, ambos os processos, podem decair em um dos quatro
possıveis canais de rearranjamento (ver Ref.[3]). . . . . . . . . . . . . 13
3.1 Neuronio Biologico (ver Ref. [27]) . . . . . . . . . . . . . . . . . . . 21
3.2 Modelo de um Sistema Nervoso (ver Ref. [4]) . . . . . . . . . . . . . 21
3.3 Modelo de um Sistema de Processamento. . . . . . . . . . . . . . . . 22
3.4 Modelo Geral de um Neuronio Artificial. . . . . . . . . . . . . . . . . 27
3.5 Redes neurais com uma unica camada de unidades processadoras (ver
Ref. [4]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 Redes neurais com camadas intermediarias (ver Ref. [4]). . . . . . . . 29
3.7 Funcao de Limiar (ver Ref. [4]) . . . . . . . . . . . . . . . . . . . . . 31
3.8 Funcao Sigmoıde (ver Ref. [4]) . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Representacao dos parametros de entrada e saıda utilizados pela Rede
Neural RN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Representacao de Curva de Energia Potencial da Molecula H2 para
um conjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A,
funcional analıtico da Forma 1 e matriz de correlacao Λ nula. . . . . . 45
4.3 Representacao de Curvas de Energia Potencial da Molecula H2 para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 1 e matriz
de correlacao Λ nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 1 e matriz de correlacao Λ nula. . . . . . . . . . . . . . . . . . 47
x
4.5 Representacao de Curva de Energia Potencial da Molecula H2 para
um conjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A,
funcional analıtico da Forma 1 e matriz de correlacao Λ nao nula. . . 48
4.6 Representacao de Curvas de Energia Potencial da Molecula H2 para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 1 e matriz
de correlacao Λ nao nula. . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 1, e matriz de correlacao Λ nao nula. . . . . . . . . . . . . . . 51
4.8 Representacao de Curva de Energia Potencial da Molecula H2 para
um conjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A,
funcional analıtico da Forma 2 e matriz de correlacao Λ nula. . . . . . 52
4.9 Representacao de Curvas de Energia Potencial da Molecula H2 para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 2 e matriz
de correlacao Λ nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.10 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 2 e matriz de correlacao Λ nula. . . . . . . . . . . . . . . . . . 55
4.11 Representacao de Curva de Energia Potencial da Molecula H2 para
um conjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A,
funcional analıtico da Forma 2 e matriz de correlacao Λ nao nula. . . 56
4.12 Representacao de Curvas de Energia Potencial da Molecula H2 para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 2 e matriz
de correlacao Λ nao nula. . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.13 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 2 e Matriz de Correlacao Λ nao nula. . . . . . . . . . . . . . . 58
xi
4.14 Representacao de Curvas de Energia Potencial da Molecula LiH para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 1 e matriz
de correlacao Λ nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.15 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula LiH para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 1 e matriz de correlacao Λ nula. . . . . . . . . . . . . . . . . . 61
4.16 Representacao de Curvas de Energia Potencial da Molecula LiH para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 1 e matriz
de correlacao Λ nao nula. . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.17 Regiao ampliada da representacao de Curvas de Energia Potencial
da Molecula LiH para um conjunto de 10, 20, 30 e 40 configuracoes,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M de configuracoes de validacao, funcional analıtico da
Forma 1 e matriz de correlacao Λ nao nula. . . . . . . . . . . . . . . . 63
4.18 Representacao de Curvas de Energia Potencial da Molecula LiH para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 2 e matriz
de correlacao Λ nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.19 Representacao de Curvas de Energia Potencial da Molecula LiH para
um conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, funcional analıtico da Forma 2 e matriz
de correlacao Λ nao nula. . . . . . . . . . . . . . . . . . . . . . . . . . 65
xii
Lista de Tabelas
4.1 Representacao da convergencia RMS do diatomo H2 para um con-
junto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, fun-
cional analıtico da Forma 1 e matriz de correlacao Λ nula; para o
conjunto M de configuracoes de validacao da curva de energia poten-
cial e o conjunto N de configuracoes de geracao. . . . . . . . . . . . . 44
4.2 Representacao da convergencia RMS de Curvas de Energia Potencial
para um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2,
para os casos em que δ apresentou a melhor convergencia RMS para
o conjunto M configuracoes de validacao, e funcional analıtico da
Forma 1, conjunto N de configuracoes de teste, matriz de correlacao
Λ nula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Representacao da convergencia RMS do diatomo H2 para um con-
junto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, fun-
cional analıtico da Forma 1 e matriz de correlacao Λ nao nula; para
o conjunto M e N de configuracoes de validacao e teste da curva de
energia potencial, respectivamente. . . . . . . . . . . . . . . . . . . . 49
4.4 Representacao da convergencia RMS de Curvas de Energia Potencial
para um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2,
para os casos em que δ apresentou a melhor convergencia RMS para o
conjuntoM de configuracoes de validacao, assim como a convergencia
RMS para o conjunto N de configuracoes de teste, funcional analıtico
da Forma 1 e matriz de correlacao Λ nao nula. . . . . . . . . . . . . . 50
4.5 Representacao da convergencia RMS do diatomo H2 para um con-
junto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, fun-
cional analıtico da Forma 2 e matriz de correlacao Λ nula; para o
conjunto M de configuracoes de validacao da curva de energia poten-
cial e o conjunto N de configuracoes de teste. . . . . . . . . . . . . . 52
xiii
4.6 Representacao da convergencia RMS do diatomo H2 comparado entre
o funcional analıtico da Forma 1 e o funcional analıtico da Forma 2;
para um conjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0
Ae matriz de correlacao Λ nula; para o conjunto M de configuracoes
de validacao da curva de energia potencial . . . . . . . . . . . . . . . 53
4.7 Representacao convergencia RMS de Curvas de Energia Potencial
para um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2 ,
para os casos em que δ apresentou a melhor convergencia RMS para o
conjuntoM de configuracoes de validacao, assim como a convergencia
RMS para o conjunto N de configuracoes de teste, funcional analıtico
da Forma 2 e matriz de correlacao Λ nula. . . . . . . . . . . . . . . . 53
4.8 Representacao da convergencia RMS do diatomo H2 para um con-
junto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funci-
onal analıtico da Forma 2 e matriz de correlacao Λ nao nula; para o
conjunto M de configuracoes de validacao da curva de energia poten-
cial e o conjunto N de configuracoes de teste. . . . . . . . . . . . . . 56
4.9 Representacao da convergencia RMS de Curvas de Energia Potencial
para um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2,
para os casos em que δ apresentou a melhor convergencia RMS para o
conjuntoM de configuracoes de validacao, assim como a convergencia
RMS para o conjunto N de configuracoes de teste, funcional analıtico
da Forma 2 e matriz de correlacao Λ nao nula. . . . . . . . . . . . . . 58
4.10 Representacao da convergencia RMS de Curvas de Energia Potencial
para um conjunto de 10, 20, 30 e 40 configuracoes da molecula LiH,
para os casos em que δ apresentou a melhor convergencia RMS para o
conjuntoM de configuracoes de validacao, assim como a convergencia
RMS para o conjunto N de configuracoes de teste, funcional analıtico
da Forma 1 e matriz de correlacao Λ nula. . . . . . . . . . . . . . . . 60
4.11 Representacao de Curvas de Energia Potencial para um conjunto de
10, 20, 30 e 40 configuracoes da molecula LiH, para os casos em que
δ apresentou a melhor convergencia RMS para o conjunto M de
configuracoes de validacao, assim como a convergencia RMS para o
conjunto N de configuracoes de teste, funcional analıtico da Forma 2
e matriz de correlacao Λ = 0 e Λ 6= 0. . . . . . . . . . . . . . . . . . . 63
xiv
A.1 Representacao da convergencia RMS da molecula H2 para um con-
junto de 10, 20, 30 e 40 configuracoes, delta (δ) variando de 2.0a0 a
6.0a0, Funcional Analıtico de Forma 1 e 2; e Matriz de Correlacao
Λ = 0 e Λ 6= 0; para o conjunto M de configuracoes de validacao da
curva de energia potencial. . . . . . . . . . . . . . . . . . . . . . . . . 72
A.2 Representacao da convergencia RMS da molecula H2 para um con-
junto de 10, 20, 30 e 40 configuracoes, delta (δ) variando de 3.0a0 a
7.0a0, Funcional Analıtico de Forma 1 e 2; e Matriz de Correlacao
Λ = 0 e Λ 6= 0; para o conjunto M de configuracoes de validacao da
curva de energia potencial. . . . . . . . . . . . . . . . . . . . . . . . . 73
xv
Capıtulo 1
Introducao
Em teoria dos sistemas denomina-se caixa preta um sistema fechado de complexi-
dade potencialmente alta, no qual a sua estrutura interna e desconhecida ou nao e
levada em consideracao em sua analise, que limita-se, assim, as medidas das relacoes
de entrada e saıda [1]. A metodologia de abordagem de caixa preta utilizada para
analisar um sistema faz uso apenas da analise da relacao entre o estımulo de entrada
e a resposta de saıda. De fato, em sistemas complexos a modelagem baseada em leis
elementares para determinar o comportamento de sistemas dinamicos nem sempre
e possıvel. Uma alternativa, nesse sentido consiste no uso do metodo de Redes
Neurais que tem provado ser eficiente na resolucao de problemas nao lineares [1–7].
Muitas vezes nestes tipos de problemas deseja-se reconhecer, classificar, e prever
certos padroes ou comportamentos [8, 9], mesmo que necessariamente nao tenhamos
controle sobre o sistema ou conhecimento de como sao processadas as informacoes.
Na identificacao de sistemas, normalmente, utiliza-se um conjunto de mode-
los parametrizados de acordo ao tipo de estrutura do problema [1, 10]. Mas
sem termos conhecimentos previos sobre o sistema, o procedimento de mode-
lagem pode se tornar complexo, carecendo assim da utilizacao de tecnicas de
representacao do conhecimento [7]. Alguns estudos e aplicacoes referente a
redes neurais em identificacao de sistemas nao-lineares tem sido apresentados
[1, 4–7] como possıvel metodologias para tratamento destes tipos de sistemas.
Em sistemas moleculares, processos relacionados a interacao atomica e interacao
eletronica necessitam, certas vezes, de tratamento quantum-mecanico associados a
construcao de modelos, bem como a consideracao de aproximacoes visando a solucao
de determinados problemas. Com este intuito, a superfıcie de energia potencial e
fundamental por apresentar a dinamica eletronica para nucleos fixos [2, 3, 11–20].
1
Na literatura existem algumas iniciativas [2–4, 21–23] quanto ao uso de redes
neurais em processos de ajuste de superfıcies de energia potencial. Em geral os
procedimentos consistem no uso do metodo de redes neurais multicamadas ou
a implementacao de algoritmos de retropropagacao. O metodo de redes neurais
e viavel quanto ao nosso objetivo por consistir em sua metodologia que visa o
reconhecimento e classificacao de padroes de um determinado sistema utilizando
como parametros o conjunto de sinais ou vetores de entrada e suas respectivas saıdas
independente de se ter conhecimento sobre os processos internos do referido sistema.
O interesse aqui reside no ajuste de curvas de energia potencial relacionadas
ao tratamento do espalhamento reativo H+LiH, cujo processo e de interesse na
literatura [24], uma vez que a formacao e a deplecao da especie LiH pode ter
desempenhado papel relevante durante a evolucao do universo primitivo. Dessa
forma, trataremos mais precisamente as curvas de energia potencial das moleculas
H2 e LiH. Em particular, implementamos o Metodo de Redes Neurais com Funcoes
de Base Radial objetivando a interpolacao dos pontos e o ajuste destas curvas.
A dissertacao esta construıda da seguinte forma. No capıtulo 2 sao apre-
sentados alguns dos pressupostos existentes para se estudar a dinamica
molecular, assim como algumas das aproximacoes utilizadas visando a sim-
plificacao de problemas moleculares complexos. As etapas necessarias
para a construcao de uma superfıcie de energia potencial sao delinea-
das, assim como as caracterısticas associadas a mesma sao apresentadas.
O capıtulo terceiro desta dissertacao visa apresentar, em linhas gerais, os
parametros e os conceitos necessarios para a sua aplicacao. No capıtulo 4 temos
os resultados obtidos com a aplicacao do metodo para interpolacao e ajuste de
determinados conjuntos de pontos e configuracoes pertinentes as moleculas H2 e
LiH. Em seguida, no capıtulo 5 encontra-se a conclusao em que se discute acerca
do proposto como objetivo inicial neste trabalho de pesquisa, alem de indicativos
sobre a eficacia da metodologia empregada.
2
Capıtulo 2
O Problema Molecular
2.1 Introducao
Um sistema fısico pode ser encontrado em varios estados possıveis, assim como
uma partıcula pode ser encontrada em um estado de repouso ou em um estado de
movimento, ou talvez, na possibilidade que um atomo de dois nıveis, por exemplo,
possa ser encontrado em um estado excitado ou desexcitado [16]. No que se
relaciona a um sistema fısico, que esteja inserido no contexto da Mecanica Quantica
Ondulatoria, apresenta-se para compor a este tratamento, a funcao de onda Ψ(~r, t),
que e correlacionada como solucao da equacao de Schrodinger e determina comple-
tamente o estado fısico do sistema. De modo que, atraves desta solucao, adquirimos
todas as informacoes quanticas possıveis de serem obtidas de um sistema [2, 17].
Em um sistema quantico de muitos corpos, na busca da solucao da
equacao de Schrodinger, faz-se necessario, certas vezes, a existencia de
um conjunto de aproximacoes [18]. Neste trabalho, considera-se a apro-
ximacao de Born-Oppenheimer, que consiste em supor que os nucleos,
sendo mais massivos que os eletrons, movem-se mais lentamente em
relacao a estes, e por isto podem ser tratados como se fossem fixos.
Neste vies, para a organizacao da nuvem eletronica em torno dos nucleos,
na situacao de uma pequena pertubacao na configuracao nuclear, e razoavel
pensar que esta viria a ocorrer praticamente de maneira instantanea. Desta
forma, pode-se, entao, separar ou desacoplar o movimento eletronico do movi-
mento nuclear, dentro de uma boa aproximacao [3, 11, 18]. Aproximacao esta,
que pode ser feita, uma vez que leva-se em consideracao o fato dos nucleos
atomicos serem muito mais massivos em comparacao ao eletron, onde um
proton tem massa, aproximadamente, 1836 vezes superior a massa do eletron.
3
Nestas proximas secoes, o interesse reside na apresentacao do que consiste a
aproximacao de Born-Oppenheimer, por esta ser tradicionalmente utilizada para se
estudar teoricamente o problema molecular. Assim como, tambem vir a explicitar
em linhas gerais, algumas das etapas consideradas em seu desenvolvimento, que
consiste em: (i) resolver o problema eletronico mantendo os nucleos fixos no espaco;
a partir da solucao do problema eletronico, (ii) construir potenciais efetivos para os
nucleos que caracterizam os estados eletronicos (ou superfıcies de energia potencial)
adiabaticos do sistema; e (iii) resolver o problema resultante para o movimento dos
nucleos governados por essas superfıcies.
2.2 Definicao do problema
O intuito desta dissertacao nao esta relacionado a resolucao do problema
eletronico ou mesmo do problema nuclear para um determinado conjunto
de atomos, mas delinear este metodo de modo a tornar clara algumas das
consideracoes feitas quando se trata deste tipo de aproximacao. Nosso in-
tuito principal, como sera mostrado nos capitulos que se seguem, encontra-se
na estruturacao do processo de ajuste de curvas no que tange a um caso
particular ja obtido atraves de processos atrelado a Modelagem Computacional.
Para discutirmos os espectros de energia de uma molecula e necessario defi-
nir seu operador Hamiltoniano H, observavel responsavel pela dinamica do sistema
[11],
Hmolψ(~R,~r) = Emolψ(~R,~r), (2.1)
onde Hmol e o operador Hamiltoniano molecular total, ψ(~R,~r) e a funcao de
onda do sistema, ~R representa as coordenadas nucleares, e ~r as coordenadas
eletronicas do sistema, ou seja, Hmol depende de todos os vetores posicao dos
nucleos ~R e dos eletrons ~r. Na ausencia de campos externos Hmol e indepen-
dente do tempo e e dado por dentro da mecanica quantica nao relativıstica [3, 19, 20].
A equacao (2.1) e obtida usando como ponto de partida a equacao de Schrodinger
dependente do tempo e do espaco como parametro inicial. Assim, a equacao de
Schrodinger para uma molecula poliatomica qualquer, ou para o estado quantico de
uma partıcula microscopica, que se movimenta de acordo a influencia exercida pela
acao de um potencial V (~r, t), e definida da seguinte forma [20],
− ~2
2m∇2
RΨ(~r, t) + V (~r, t)Ψ(~r, t) = i~∂Ψ(~r, t)
∂t, (2.2)
4
onde, de acordo com a interpretacao estatıstica de Born, a integracao sobre o modulo
ao quadrado desta funcao de onda Ψ(~r, t), solucao da equacao de Schrodinger, em
uma determinada regiao do espaco, representa entao, a probabilidade de encontrar-
mos a partıcula nessa regiao [16]. Assim, uma vez considerado todo o espaco, como
mostrado a seguir, temos a certeza de que a encontraremos,
∫ +∞
−∞
|Ψ(~r, t)|2 d~r = 1 (2.3)
No tratamento da equacao de Schrodinger podemos utilizar o metodo de separacao
de variaveis a fim de definir a dependencia espacial e temporal, escrevendo a funcao
de onda como um produto de duas funcoes de cada uma dessas variaveis, isto e,
Ψ(~r, t) = ψ(~r)Φ(t) (2.4)
A solucao da equacao diferencial ordinaria de primeira ordem para a dependencia
temporal e, a menos de uma constante multiplicativa,
Φ(t) = exp
{−iEt~
}
(2.5)
O produto Ψ(~r, t) = ψ(~r)Φ(t) e de fato uma solucao possıvel para a equacao de
Schrodinger desde que o valor particular de energia E = En, onde n e um ındice
interno qualquer, seja capaz de gerar uma solucao particular ψ = ψn, fisicamente
possıvel na equacao de Schrodinger independente do tempo significando estado es-
tacionario. Deste modo, a equacao de Schrodinger pode ser apresentada da seguinte
forma:
Ψ(~r, t) = ψ(~r)exp
{−iEnt)
~
}
(2.6)
Hψn(~r, t) = Enψn(~r, t), (2.7)
Entretanto, e importante destacar novamente, que se trata somente de uma solucao
possıvel da equacao de Schrodinger para o sistema com energia particular En. Neste
caso, uma solucao geral seria dada por uma combinacao linear de solucoes fisica-
mente aceitaveis com difentes energias En. Conclui-se que as solucoes da equacao de
Schrodinger para qualquer sistema fısico submetido a um potencial V (~r) particular,
fornece um conjunto de valores de energia En e funcoes de onda Ψ(~r, t), que descre-
vem as energias e as configuracoes espaciais possıveis do sistema quantico particular.
Dessa forma, uma vez apresentado o caminho utilizado objetivando a separacao
da dependencia temporal e espacial da equacao de Schrodinger, podemos, entao,
direcionar a atencao a analise do estado estacionario e definir inicialmente quais
5
sao os componentes do Hamiltoniano Molecular Total. Reforcando entao, em nossa
situacao, temos que;
Ψ(~R,~r, t)n = ψ(~R,~r)nexp
{−iEmolt)
~
}
(2.8)
Hmol(~R,~r)ψ(~R,~r) = Emolψ(~R,~r), (2.9)
Hmol = Tnuc + Tele + Vnuc + Vele + Vne, (2.10)
Considerando que a molecula possui um total de N nucleos eM eletrons, temos que
o operador energia cinetica nuclear e definido como,
Tnuc = −N∑
A=1
~2
2MA
∇2A, (2.11)
onde MA e a massa do A-esimo nucleo; o operador energica cinetica dos eletrons e
Tele = −N∑
A=1
~2
2me
∇2i , (2.12)
onde me e a massa do eletron; o operador energia potencial da interacao repuslsiva
nucleo-nucleo e
Vnuc =N∑
A>B
ZAZB
RAB
, (2.13)
onde ZA e ZB sao os numeros atomicos dos nucleos A e B, respectivamente, e
RAB = |~RAB| = |~RA − ~RB| e a distancia entre o A-esimo e o B-esimo nucleo; o
operador energia potencial de interacao repulsiva eletron-eletron e
Vele =M∑
i>j
1
rij, (2.14)
rij = |~rij| = |~ri − ~rj| e a distancia entre o i-esimo e o j-esimo eletron; e por ultimo,
o operador energia potencial de interacao atrativa eletron-nucleo e:
Vele = −M∑
i=1
N∑
A=1
ZA
riA, (2.15)
riA = |~riA| = |~ri − ~RA| e a distancia entre o i-esimo eletron e o A-esimo nucleo.
Temos entao que
Hmol = −N∑
A=1
~2
2MA
∇2A −
N∑
A=1
~2
2me
∇2i +
N∑
A>B
ZAZB
RAB
+M∑
i>j
1
rij−
M∑
i=1
N∑
A=1
ZA
riA. (2.16)
6
Sendo o operador Hmol independente do tempo, podemos separar a funcao de onda
Ψ(~R,~r; t) em uma parte independente do tempo e um fator de fase dependente do
tempo, ou seja,
Ψ(~R,~r; t) = ψα(~R,~r)exp
{−iEαt
~
}
(2.17)
As autofuncoes estacionarias ψα(~R,~r) sao as solucoes da equacao de Schrodinger
independente do tempo, dada pela equacao abaixo, com as correspondentes auto-
energias Eα,
[Hmol(~R,~r)− Eα]ψα(~R,~r) = 0, (2.18)
Como a razao entre a massa dos eletrons e a massa dos nucleos e proporcional a
10−4, Born e Oppnheimer propuseram o seguinte metodo para resolver problemas
moleculares: define-se o parametro χ ={
mM
}1
4 , onde m e a ordem de grandeza da
massa dos eletrons e M e a ordem de grandeza da massa dos nucleos [2, 3, 17, 18]
expande-se o Hamiltoniano Hmol em termos desse parametro; e resolve-se o problema
correspondente utilizando a teoria de pertubacao. Assim, eles mostraram a seguinte
relacao entre as ordens de grandeza da energia eletronica, Eele, da energia vibracional
Evib, da energia rotacional Erot e de termos de energia adicionais δE (termos de
acoplamento nao adiabaticos):
Eele ≈ χ2Evib ≈ χ4Erot ≈ χ6δE, (2.19)
2.3 Separacao adiabatica
Desacoplar o movimento eletronico do movimento nuclear, dentro de uma boa apro-
ximacao, significa escrever a autofuncao ψα(~R,~r) como o produto da autofuncao
φ(~r; ~R) que descreve os eletrons e depende parametricamente da posicao dos nucleos,
pela autofuncao ψ(~R) [11], ou seja,
ψα(~R,~r) =∑
k
φk(~r; ~R)ψk(~R), (2.20)
que consiste na separacao adiabatica, onde o ındice k representa os
diferentes estados eletronicos, e ψk(~R) representam, por assim di-
zer, os coeficientes desta expansao que e exata se considerarmos
o conjunto completo de autofuncoes ψk do espaco de Hilbert.
Em linhas gerais, na representacao adiabatica a base eletronica depende parametri-
camente das coordenadas dos nucleos e temos, portanto, informacoes da estrutura
eletronica para configuracoes nucleares diferentes. E exatamente neste contexto que
aparece o conceito de superfıcie de energia potencial eletronica adiabatica, interpre-
7
tada como sendo um potencial efetivo sentido pelos nucleos devido ao movimento dos
eletrons, que nos conduz a aproximacao de Born-Oppenheimer quando nao existe
cruzamento ou acoplamento significativo entre diferentes estados eletronicos. Neste
caso, apenas um estado eletronico e considerado no calculo de estados rovibraci-
onais ou no estudo de processos de espalhamento envolvendo atomos e moleculas [2].
Desta forma, essa formulacao nos permite separar o Hamiltoniano Molecular
em dois operadores; o Hamiltoniano molecular nuclear e o Hamiltoniano eletronico.
A parte eletronica pode ser expressa da seguinte maneira:
Hele = Tele + Vele + Vne, (2.21)
Hele = −N∑
A=1
~2
2me
∇2i +
M∑
i>j
1
rij−
M∑
i=1
N∑
A=1
ZA
riA, (2.22)
Hele(~r; ~R)φk(~r; ~R) = Eelek (~R)φk(~r; ~R) (2.23)
onde a energia eletronica depende parametricamente das coordenadas nucleares ~R.
Aplicando o operador Hamiltoniano Molecular Total na autofuncao ψα(~R,~r) dada
pela expressao (2.20), temos
−∑
k
N∑
A=1
~2
2MA
∇2A[φk(~r; ~R)ψk(~R)] =
∑
k
(E − Vk(~R))φk(~r; ~R)ψk(~R), (2.24)
onde a superfıcie de energia potencial para o estado eletronico k e dada por:
Vk(~R) = Ek(~R) + Vnuc(~R), (2.25)
Considerando que,
∇2A[φk(~r; ~R)ψk(~R)] = (∇2
Aψk(~R))φk(~r; ~R)+2(∇Aψk(~R))·(∇Aφk(~r; ~R)+ψk(~R)(∇2Aφk(~r; ~R),
(2.26)
e que as autofuncoes eletronicas φk(~r; ~R), em princıpio, sao funcoes multieletronicas
obtidas numericamente e de forma exata, a eq.(2.24) pode ser expressa como:
−N∑
A=1
~2
2MA
∇2A[ψk(~R)] + (Vk − E)ψk(~R) =
∑
k′
Ckk′(~R,∇)ψk′(~R) (2.27)
Ckk′(~R,∇)ψk′(~R) =N∑
A=1
~2
MA
(X(A)kk′ (
~R)∇A + Y(A)kk′ (
~R)) (2.28)
X(A)kk′ (
~R) =
∫
φ∗
k′(~r; ~R)∇Aφk(~r; ~R)d~r (2.29)
8
Y(A)kk′ (
~R) =
∫
φ∗
k′(~r; ~R)∇2Aφk(~r; ~R)d~r (2.30)
As funcoes X(A)kk′ (
~R) sao denominadas de termos nao-adiabaticos de primeira ordem
Y(A)k k′(~R), k 6= k′ sao denominadas de termos nao-adiabaticos de segunda ordem e
Y(A)kk (~R) sao denominadas de termos adiabaticos.
2.4 Separacao de Born-Oppenheimer
Em analise, a aproximacao de Born-Oppenheimer consiste em considerar que a va-
riacao de φk com relacao as coordenadas nucleares ~R seja pequena, de modo que o
primeiro termo da equacao possa ser aproximado, ou seja,
∇2A[φk(~r; ~R)ψk(~R)] ≈ φk(~r; ~R)(∇2
Aψk(~R)), (2.31)
A funcao de onda eletronica, dentro da aproximacao de Born-Oppenheimer, varia
de forma suave com relacao as coordenadas nucleares ~R. Assim os termos de aco-
plamento devido ao operador energia cinetica dos nucleos sao realmente pequenos,
bem como as transicoes entre os estados eletronicos sao pouco provaveis em que os
nucleos se movem sob o efeito de uma unica superfıcie de energia potencial Vk(~R) [2].
Desta forma, obtemos para a eq.(2.27) que, ao substituir a consideracao acima
[eq.(2.31)], multiplicar a esquerda por um particular auto estado eletronico φ∗
k′(~r;~R),
integrar em todas as coordenadas eletronicas e usar a ortogonalidade dessas funcoes,
implica consequentemente em considerar os termos Ckk′ nulos. Assim, a equacao
de Schrodinger independente do tempo para o movimento dos nucleos da molecula
[eq.(2.27)] e dada por:
{
−N∑
A=1
~2
2MA
∇2A + Vk(~R)
}
ψk(~R) = Eψk(~R) (2.32)
Hnuclψk(~R) = Eψk(~R) (2.33)
onde
Hnucl = −N∑
A=1
~2
2MA
∇2A + Vk(~R), (2.34)
e Vk(~R) e o potencial sentido pelos nucleos quando a molecula estiver no
k-esimo estado eletronico. Esta aproximacao e valida quando nao existe aco-
plamento ou cruzamento entre os diferentes estados eletronicos e e justificada
pela ordem de grandeza dos nıveis de energia (apresentado na segunda secao
deste capıtulo) envolvidos na molecula; a recordar, o eletronico, vibracional
9
e rotacional. Sempre que for possıvel considerar apenas uma superfıcie de
energiqa potencial como sendo o potencial efetivo sentido pelos nucleos, esta-
mos nos referindo entao a aproximacao introduzida por Born e Oppenheimer [2].
Neste entanto, e necessario se observar com cuidado que, na hipotese em que
dois estados eletronicos se misturem, ou mesmo se cruzem, em alguma regiao do
espaco das coordenadas nucleares, as caracterısticas das funcoes de onda eletronica
mudam repentinamente com ~R, e, por sequencia, as suas derivadas em relacao a ~R
deixam de ser desprezıveis. Isso leva a um grande acoplamento nao-adiabatico entre
diferentes estados eletronicos, o que implica na perda da validade da aproximacao
de Born-Oppenheimer. Neste caso, fazendo-se necessario considerar os termos refe-
rentes a estes acoplamentos na equacao, situacao esta, nao tratada nesta dissertacao.
De modo geral, a aproximacao de Born-Oppenheimer separa a solucao do
problema molecular completo em dois problemas consecutivos:
(i) A solucao da equacao de Schrodinger eletronica para um conjunto de coorde-
nadas nucleares ~R fixas. Sendo este problema que origina a area de estrutura
eletronica e;
(ii) A solucao da equacao de Schrodinger nuclear com a utilizacao da Superfıcie
de Energia Potencial Vk obtida da solucao do problema eletronico.
Como foi colocado anteriormente, a motivacao fısica para a aproximacao de Born-
Oppenheimer tem origem na diferenca entre as massas dos eletrons e dos nucleos,
e, por consequencia, na diferenca de velocidade entre os mesmos, que ocasiona a
existencia de diferentes escalas de tempo do movimento eletronico e nuclear. Uma
mudanca gradual nas condicoes dos nucleos permite que a nuvem eletronica se
readapte as novas configuracoes nucleares, ou seja, se a posicao dos nucleos e alte-
rada em um infinitesimo d~R; os eletrons se reorganizam quase que instantaneamente.
Ate o momento, destacou-se o motivo do interesse na aproximacao de Born-
Oppenheimer, bem como o seu uso na solucao do problema eletronico, mantendo
os nucleos fixos no espaco, a partir da solucao do problema eletronico. Alem
disso, deixou claro a possibilidade de construir potenciais efetivos para os nucleos,
que caracterizam os estados eletronicos (ou superfıcies de energia potencial)
adiabaticos do sistema. Assim desta forma, permitir a resolucao do problema
resultante para o movimento dos nucleos, que sao governados por essas superfıcies.
10
Apresentaremos na proxima secao, como ferramenta de grande importancia,
tendo em vista a sua utilizacao, tanto a caracterizacao da superfıcie de energia
potencial, bem como, em linhas gerais, alguns dos metodos teoricos para ajuste
destas superfıcies.
2.5 Superfıcie de Energia Potencial
A dinamica quantica molecular e uma sub area da Fısica Atomica e Molecular. Nela
se estuda, entre outras coisas, o movimento vibracional e rotacional, os estados meta-
estaveis, o processo de fotodissociacao e o espalhamento elastico, inelastico e reativo
de moleculas. Estes estudos sao normalmente realizados dentro da aproximacao de
Born-Oppenheimer ou adiabatica e consistem na resolucao da equacao de Schrodin-
ger dependente ou independente do tempo para o movimento dos nucleos [3].
Na solucao do problema molecular, como discutido anteriormente, a estrutura
eletronica e tratada separadamente do problema nuclear. O problema eletronico
e resolvido no ambito da representacao adiabatica, ou mais especificamente, na
aproximacao de Born-Oppenheimer. Desta forma, a Superfıcie de Energia Poten-
cial(SEP), que representa o potencial no qual os nucleos se movem, e calculada resol-
vendo o problema eletronico com nucleos fixos. Nesta medida, a solucao do problema
eletronico consiste em resolver a equacao de autovalor e autovetor [equacao(2.27)]
para a equacao de Schrodinger para os eletrons numa particular configuracao
nuclear. Certas vezes esse problema e oneroso, pois se trata de um problema
de muitos corpos envolvendo partıculas identicas com interacao Coulombiana [2].
A superfıcie de energia potencial SEP e um ponto central para o estudo do
processo de dinamica dos nucleos nas moleculas. Assim, de grande interesse no
estudo teorico dos processos de dinamica molecular, auxilia na determinacao
de diversas propriedades do sistema, a exemplo: os espectros vibracionais, as
probabilidades de transicao, os tempos de vida radioativo, a seccao de choque de
fotodissociacao, o momento de dipolo, momento de quadrupolo, dentre outros.
As superfıcies de energia potencial sao normalmente funcoes analıticas mul-
tidimensionais com varios parametros ajustaveis. Esses parametros sao ajus-
tados para que a superfıcie reproduza resultados experimentais e teoricos
que caracterizem um determinado estado eletronico do sistema molecular [3].
Existem tres processos basicos em dinamica molecular e, para
exemplifica-los, vamos considerar um sistema triatomico ABC:
11
i Os processos de espalhamento completo: os reagentes (por exemplo,
A + BC) sao preparados em distancias infinitas onde a interacao entre eles
e nula. Durante a colisao, os reagentes formam um complexo intermediario
(ABC) que no fim decai em um dos quatro possıveis canais de rearranjamento,
Figura 2.1. Os atomos e diatomos produtos sao encontrados apos a colisao
em algum particular estado quantico interno (eletronico, vibracional e rota-
cional). Nesta classe de processos estao o espalhamento elastico e as reacoes
quımicas (espalhamento reativo) [3], cujas propriedades de interesse sao as
probabilidade de transicao ou as seccoes de choque diferencial e integral [18].
ii Os processos de meio espalhamento: a molecula se encontra inici-
almente em alguma forma estavel ou ligada ABC e o complexo (ABC)
e formado pela excitacao dessa molecula. E assim como no caso do es-
palhamento completo, o complexo decai em algum dos quatro canais de
rearranjamento, Figura 2.1. A exemplo, temos: a fotodissociacao, a pre-
dissociacao e o decaimento unimolecular[3]. Ou seja, estados que ocorrem
devido a excitacao de um sistema inicialmente em um estado estavel para
um estado instavel que possui um tempo de vida finito; esta excitacao
pode ocorrer de varias maneiras, como por fotons, por eletrons, etc [18].
iii Estado eletronico estavel: onde de nenhuma forma a molecula se dissocia
ou se quebra [3]. Ou seja, estados ligados ou estaveis do sistema molecular.
As propriedades de maior interesse sao as localizacoes dos nıveis de energia
vibracionais e rotacionais, bem como o estudo das suas intensidades, alem das
correspondentes autofuncoes [18]
Apesar da SEP ser uma funcao global das coordenadas, algumas caracterısticas
de determinadas regioes sao mais importantes do que em outras regioes. Nos
sistemas moleculares diatomicos, por exemplo, normalmente as curvas de energia
potencial tem formas muito simples: ou elas contem um mınimo que corresponde
a um estado ligado ou sao repulsivas apresentando, geralmente, somente um
mınimo raso a uma distancia internuclear muito grande, que e denominado de
van der Waals. O acontecimento de mais de uma dessas regioes importantes (ou
de pontos crıticos) e muito raro em sistemas diatomicos [3]. Em comparacao, a
superfıcie de energia potencial de sistemas poliatomicos sao muito mais complexas
que as curvas de energia potencial de diatomos, podendo conter varias regioes
com caracterısticas importantes que influenciam no estudo da dinamica molecular.
12
Figura 2.1: Representacao pictorica do processo de espalhamento completo e demeio espalhamento (excitacao da molecula estavel por um foton) na situacao emque, ambos os processos, podem decair em um dos quatro possıveis canais de rear-ranjamento (ver Ref.[3]).
A construcao de superfıcies de energia potencial (ab initio) e feita em duas
etapas: (i) a solucao ab initio da equacao de Schrodinger eletronica do sistema para
um conjunto de cnfiguracoes nucleares, e (ii) o ajuste destes pontos para definir
a SEP em todo o espaco de configuracoes nucleares (ou pelo menos nas regioes
fisicamente importantes). Uma SEP construıda desta forma deve satisfazer as
seguintes propriedades [3]:
(i) Caracterizar com precisao os canais assintoticos do sistema; as regioes onde
e possıvel que ocorra a dissociacao do sistema molecular, ou que exista forte
interacao entre os atomos; analisando assim, a sua estabilidade. A exemplo,
o estudo eletronico quando o atomo C e afastado ou aproximado do diatomo
AB, ou talvez, o atomo B em relacao aos atomos A e C;
(ii) Conter as propriedades de simetria do sistema; considerando que os atomos que
sao identicos entre si nao alterem as demais propriedades do sistema molecular;
A exemplo, considerando a molecula ABC, sendo A e C correspondente ao
mesmo atomo, nao ocorreria alteracoes como consequencias da troca C por A
resultando em CBA.
(iii) Representar o potencial com exatidao nas regioes onde se tem informacoes
teoricas ou experimentais;
(iv) Comportar-se de maneira fisicamente aceitavel nas regioes de interacao onde
nao se dispoe de informacoes;
(v) Conectar suavemente as regioes assintoticas e as regioes de forte interacao
do potencial, sejam estas regioes de mınimos locais ou globais de energia,
13
regioes de estabilidade ou instabilidade, ionizacao ou dissociacao, dentre outras
possibilidades;
(vi) A forma algebrica das funcoes usadas para o ajuste da SEP deve ser o mais
simples possıvel;
(vii) Requerer um numero de dados teoricos e/ou experimentais tao pequeno quanto
seja possıvel para alcancar um ajuste preciso;
(viii) Convergir para a superfıcie verdadeira a medida que se disponha de mais dados
teoricos ou experimentais;
(ix) Indicar qual e a zona mais significativa da SEP para se calcular novos dados;
(x) Ter uma quantidade mınima de correcoes ou modificacoes uteis unicamente a
sistemas moleculares especıficos.
2.5.1 Ajustes de Superfıcie de Energia Potencial
O processo de ajuste permite contornar uma limitacao no calculo de dinamica mole-
cular, que esta relacionado ao conhecimento da energia eletronica para um conjunto
maior de configuracoes nucleares. Os metodos usuais de ajustes, entretanto, apresen-
tam dificuldades e erros que crescem com o aumento do grau de liberdade do sistema.
Assim, procedimentos alternativos para estes metodos tem sido constantemente
investigados. Um deles e o metodo de Rede Neural que, no ajuste de superfıcies
permite, em princıpio, tratar sistemas poliatomicos minimizando custos compu-
tacionais. Uma de suas vantagens e que o conhecimento previo de caracterısticas
como mınimos e singularidades da forma funcional a ser ajustada e dispensado. Por
causa da sua versatilidade, as RN tem sido aplicadas com grande sucesso em muitas
areas do conhecimento, inclusive na quımica teorica e fısica atomica e molecular [2].
O intuito desta secao objetiva apresentar, em linhas gerais, alguns dos procedimentos
basicos de ajustes de curvas e superfıcies, bem como suas principais caracterısticas e
indicacoes. Deste modo, esta dissertacao se propoe a caracterizar de forma mais de-
talhada, no proximo capıtulo, o metodo de rede neural, por este ter sido o processo
metodologico escolhido, a ser implementado dentre os demais, como ferramenta para
o referido ajuste, explorando assim, a sua potencialidade no processo de interpolacao.
Em sequencia, a etapa da solucao da equacao eletronica tem-se a inter-
polacao ou extrapolacao dos pontos obtidos por meio de algum metodo que
seja adequado ao sistema desejado, gerado uma funcao analıtica que represente
14
a SEP, tendo em vista as caracterısticas necessarias, que foram discutidas na
secao anterior. Ou seja, o interesse reside em apresentar alguns dos processos
envolvidos no ajuste de pontos com a finalidade de gerar uma SEP precisa
[18]. O procedimento no ajuste de funcoes e buscar valores para os parametros
de uma funcao dada a priori e que melhor descreva um conjunto de dados [2].
Assim, classificamos as formas funcionais utilizadas para interpolacao em dois tipos:
• locais: que estao associadas aos calculos de pontos ab initio ou experimen-
tais. Fazem uso de funcoes simples (em geral spline cubico e suas variacoes)
onde os parametros sao otimizados para reproduzirem localmente a interacao
e assegurar a continuidade da funcao e de sua primeira derivada. A prinicpal
vantagem deste metodo e a sua generalidade, pois, a princıpio pode ser apli-
cado a um grande espectro de diferentes sistemas moleculares. No entanto,
esta interpolacao e flexıvel e numericamente eficiente, porem nao se comporta
bem em regioes com poucos pontos, requerendo assim, um numero grande
de dados teoricos, alem do fato de se tornar de muito difıcil aplicacao para
sistemas que necessitam de mais de quatro dimensoes espaciais para serem
representadas [3, 18].
• globais: que estao associados (i) aos metodos que empregam potenciais semi-
empıricos com parametros ajustaveis para reproduzir resultados experimen-
tais e teoricos ab initio, (ii) aos metodos que usam uma expansao em serie
de potencias em um sistema de coordenadas apropriadas para descrever a su-
perfıcie, (iii) aos metodos que utilizam a estrategia de expansao de muitos
corpos para construir a SEP, e (iv) ao metodo de Redes Neurais
.
Ha alguns outros metodos de ajuste de superfıcies de energia poten-
cial que nao estao incluıdos na classificacao acima. Estes metodos
visam encontrar diferentes metodologias na tentativa de simplificar o
processo de construcao e de obter melhores resultados das SEP ajustadas.
Em fısica atomica e molecular os tratamentos chamados ab initio
sao aqueles nos quais as autofuncoes e os autovalores sao calcu-
lados a partir dos princıpios fundamentais, ou seja, dos primeiros
princıpios da mecanica quantica [2]. Sao os metodos que partem
da formulacao teorica rigorosa para o calculo da energia eletronica.
Os metodos semi-empıricos sao introduzidos devido as dificuldades en-
contradas para a realizacao de todos calculos pelos metodos ab initio. Nesses
15
casos, sao introduzidas aproximacoes que diminuem a complexidade do
problema e que, em geral, consistem na utilizacao da SEP experimentais
referentes aos diatomos componentes do sistema poliatomicos [18]. Os
metodos semi-empıricos se baseiam na ideia de usar funcoes analıticas sim-
ples, construıdas a partir de aproximacoes da teoria, que podem ser ajustadas
para repreoduzir os resultados ab initio e experimentais. A vantagem desses
metodos e que sao de simples implementacao e implicam em um baixo esforco
computacional. A desvantagem basica e que nao se tratam de metodos
gerais, pois so podem ser utilizados em conjuntos restritos de sistemas
moleculares, e normalmente nao proporcionam a qualidade necessaria para
uma boa SEP [3]. Dentre as desvantagens dos metodos semi-empıricos,
na construcao de SEP, esta o fato destes nem sempre representarem bem
o potencial com exatidao e/ou convergir para a superfıcie verdadeira a
medida que se disponha de mais dados teoricos ou experimentais; bem
como apresentar indicativos sobre qual seja a zona mais significativa de SEP
para se calcular novos dados. Diante disto, para contornar o problema de
convergencia, pode-se adicionar funcoes de correcao as funcoes analıticas
para melhor ajustar regioes especificas do potencial. A SEP semi-empırica
mais usada para descrever sistemas diatomicos, que sao de fundamental
importancia no estudo do comportamento de sistemas moleculares e que
serao apresentados de forma mais detalhada na secao seguinte, tem como
exemplo o potencial de Morse. Para moleculas triatomicas, a SEP tipo LEPS
(London-Eyring-Polaanyi-Sato), que por escolha metodologica nao e descrita
de forma mais minunciosa. Outros metodos semi-empıricos que tambem sao
empregados, mas que nao sao alvo de estudo nesta dissertacao, a citar: o
metodo de Diatomos em Moleculas e spline de curvas de Morse girantes [3, 18].
Em metodos completamente empıricos, temos aqueles que se baseiam
em modelos fısicos simples que sao utilizados para a construcao de uma SEP
contendo parametros a serem otimizados para o sistema [3].
16
A segunda classe de metodos apresentada se utiliza de series de potencias para
ajustar os dados ab initio de uma SEP, e funciona da seguinte forma, supondo
que a SEP depende de k coordenadas, e tem a forma geral
V(x1, ..., xk) =
i1+...+ik=nmax∑
i1,...,ik=0
ci1...ik
k∏
j=1
(fj(xj))ij , (2.35)
onde xj sao as k coordenadas do sistema, nmax e a ordem maxima do polinomio,
fj sao funcoes que definem o tipo de coordenadas (conhecidas como funcoes
coordenadas) e estao associadas a coordenada j do sistema, e ci1...ik sao os
coeficientes da expansao. Estes coeficientes sao obtidos empregando-se algum
algoritmo de minimizacao do erro como, por exemplo, o metodo de mınimos
quadrados. Em particular, a SEP de uma molecula triatomica cujo potencial
depende de tres coordenadas nucleares pode ser escrita da seguinte forma:
V(x1, x2, x3) =
i1+i2+i3=nmax∑
i1,i2,i3=0
ci1i2i3(f1(x1))i1(f2(x2))
i2(f3(x3))i3 . (2.36)
As funcoes coordenadas fj podem ser definidas de diversas formas e
a utilizacao de cada uma funcao particular vai depender do tipo de
sistema em que se esta interessado. Esta classe de metodos e muito utili-
zada para ajustar as superfıcies de energia potencial de moleculas estaveis.
A terceira classe de metodos e conhecida como expansao de muitos cor-
pos (MBE)Do termo em ingles “Many Body Expansion
. Nesta estrategia, o potencial de um sistema cons-
tituıdo por N atomos se expressa como a soma dos po-
tenciais dos subsistemas que o compoe da seguinte forma:
VABC...N =∑
K
V(1)K +
∑
K,L
V(2)KL(rKL)+
∑
K,L,M
V(3)KLM(rKL, rLM , rKM)+...+V
(N)ABC...N
(2.37)
A primeira soma corresponde aos termos referentes a um atomo e tem N
termos. Estes termos sao zero quando os atomos estao no estado eletronico fun-
damental. A segunda soma corresponde aos termos referentes a interacao entre
17
dois atomos e contem(
N2
)
termos. Estes termos V(2)KL devem se anular quando
a distancia rKL for grande. A terceira soma corresponde aos termos referentes
a interacao entre tres atomos e tem(
N3
)
termos. Estes termos V(3)KLM devem
se anular quando pelo menos uma das distancias rKL, rLM , rKM ficar grande.
As outras somas referem-se aos termos de interacao de quatro ate N -atomos.
Cada um dos termos da expansao MBE pode ser ajustado usando-se
funcoes analıticas semi-empıricas ou usando-se uma serie de potencias
(ou polinomios), em que diversos tipos de funcoes coordenadas po-
dem ser usadas. A formulacao original da estrategia MBE utiliza
um polinomio em coordenadas fısicas multiplicado a uma funcao de
amortizacao para que o potencial se anule para grandes distancias.
A quarta classe e o metodos de Redes Neurais, salientado na literatura,
pela possibilidade de tambem ser utilizado no ajuste de superfıcies de energia
potencial para sistemas moleculares poliatomicos [3, 21–23]. No proximo
capıtulo, apresentaremos mais detalhadamente este metodo, uma vez que
foi escolhido como ferramenta para ajuste nesta dissertacao. Nesse vies,
na proxima secao, e entao apresentado mais especificamente, algumas das
caracterıticas e propriedades pertinentes aos potenciais diatomicos, por serem
elementos essenciais no processo de construcao e ajuste da superfıcie de
energia potencial SEP atrelada ao uso do metodo de Redes Neurais.
2.5.2 Potenciais Diatomicos
As curvas de energia potencial referentes aos sistemas diatomicos sao muito im-
portantes para o estudo de sistemas moleculares mais complexos, e constituem-
se no problema inicial a ser abordado no desenvolvimento de estudos sobre as
SEP. Este problema pode ser considerado resolvido por duas razoes principais
[18]:
(i) Os potenciais diatomicos dependem somente de uma unica variavel, a
distancia interatomica, que conduz a uma funcao V (~R) que e mais sim-
ples que as funcoes de muitas variaveis correspondentes aos sistemas
poliatomicos;
(ii) Existem tecnicas que permitem a inversao, tanto de da-
dos de espalhamento como de dados espectroscopicos, para
obtencao da funcao de energia potencial destes sistemas;
18
A depender do sistema e modelo de potencial escolhido, a fim de represen-
tar um determinado problema, podem ser obtidas curvas que, em certas
regioes, apresentam um comportamento mais preciso e proximo dos dados
desejados do que em relacao a outras. Nesse sentido, tem-se por exemplo o
comportamento do potencial na regiao assintotica e na regiao do mınimo do
potencial. Assim, nao podemos afirmar que todos os potenciais diatomicos
sejam obtidos com precisao para qualquer regiao. Alem disso, existem mui-
tos sistemas em que so sao obtidas as curvas referentes ao estado fundamental.
Em particular, as funcoes mais usadas para a representacao dos poten-
ciais diatomicos sao as funcoes do tipo Morse, dadas por;
VMorse(R) = De
{
e−2α(R−Re) − 2e−α(R−Re)}
(2.38)
cujo parametro α da funcao de Morse pode ser determinado a partir do espec-
tro infra-vermelho da molecula, e que sao utilizadas na descricao de sistemas
em que os dois atomos formam uma ligacao quımica; e as funcoes do tipo
Lennard-Jones, dadas por;
VLJ(R) = 4ǫ
{
( σ
R
)12
−( σ
R
)6}
(2.39)
que sao utilizadas na descricao de sistemas em que os atomos nao for-
mam uma ligacao quımica, mas existe um mınimo raso, do tipo van
der Waals, localizado em uma dada distancia intermediaria entre os
atomos. Outros exemplos podem ser encontrados nas Ref. [25, 26].
As funcoes de Morse nao reproduzem corretamente o comporta-
mento do potencial na regiao assintotica, porem, na regiao do mınimo
do potencial representa corretamente o comportamento desejado.
Utilizando os parametros discutidos anteriormente, e importante desta-
car que nesta dissertacao nosso intuito consiste no uso de Redes Neurais com
Funcao de Base Radial RN-FBR, que sera explicitado no capitulo seguinte,
como o metodo ou ferramenta para ajuste de curvas de energia potencial de
uma SEP conhecida.
19
Capıtulo 3
Redes Neurais
3.1 Estrutura Neural Biologica
O neuronio e uma celula altamente especializada, capaz de receber impulsos
eletricos a partir de seus dendritos, processa-los no corpo celular e, finalmente,
transmiti-los atraves de seu axonio (geralmente unico) para os dendritos
(ou mesmo para o corpo celular) de outros neuronios (ver Figura 3.1).
A conexao entre um axonio de um neuronio e um dendrito de outro e
denominada sinapse. A sinapse e a unidade funcional basica envolvendo
as membranas plasmaticas de dois neuronios, de modo a formar uma
juncao pontual e orientada do neuronio pre-sinaptico para o pos-sinaptico [1].
Em linhas gerais, os dendritos sao filamentos por onde o neuronio re-
cebe informacoes. Frequentemente os dendritos cobrem uma area maior
do que o proprio corpo celular e formam uma arvore dendrital; o axonio
pode ser considerado como a projecao do corpo celular e as vezes e
referido como fibra nervosa servindo para conectar a celula nervosa a
outras celulas do sistema nervoso. Geralmente, a celula possui um unico
axonio; e a sinapse e a regiao de conexao entre um dendrito e um axonio.
Nesse aspecto, sabe-se que o cerebro e composto de bilhoes de neuronios.
Um neuronio e uma celula formada por tres secoes com funcoes especıficas e
complementares: corpo, dendritos e axonio. Os dendritos captam os estımulos
recebidos em um determinado perıodo de tempo e os transmitem ao corpo do
neuronio, onde sao processados. Quando tais estımulos atingirem determinado
limite, o corpo da celula envia novo impulso que se propaga pelo axonio e
e transmitido as celulas vizinhas por meio de sinapses. Este processo pode
se repetir em varias camadas de neuronios. Como resultado, a informacao
20
3.2 Rede Neural Artificial RNA
Em teoria de sistemas denomina-se caixa preta um sistema de complexidade
potencialmente alta, no qual existe pouco conhecimento a priori e sua
estrutura interna e praticamente desconhecida ou nao levada em consideracao
em sua analise [1]. Neste modelo, a metodologia de abordagem de caixa preta
que e utilizada para analisar um sistema faz uso apenas da analise da relacao
entre o estımulo de entrada (sinais ou vetores) e a respectiva resposta de saıda.
Figura 3.3: Modelo de um Sistema de Processamento.
Nesse contexto, o metodo de Redes Neurais e uma das ferramentas
matematicas a ser considerada nessas situacoes em que nao se tem co-
nhecimento exato do sistema estudado sobre como um determinado
conjunto de dados ou sinais de entrada devem ser tratados de modo
a resultar em uma determinada resposta. No entanto, uma Rede
Neural Artificial RNA pode ser empregada de modo a classificar e
representar um determinado padrao ou comportamento, tendo como in-
formacoes iniciais necessarias o par de sinais entrada-saıda (~x, ~y = f(~x)).
Os fundamentos das redes neurais artificiais sao inspirados em sistemas
neurais biologicos, com intencao de simular, mesmo que rudimentarmente,
a forma como o cerebro aprende, recorda e processa as informacoes.
As redes neurais artificiais podem ser projetadas como um sistema in-
terconectado de elementos de processamento (neuronios), cada um dos
quais com um numero limitado de entradas e saıdas. Neste sentido,
uma rede neural artificial e um sistema de processamento massiva-
mente paralelo, composto por unidades simples com capacidade natu-
ral de armazenar conhecimento e disponibiliza-lo para uso futuro [4].
Em linhas gerais, as redes neurais artificiais consistem em um metodo
de solucionar problemas de inteligencia artificial, construindo um sistema que
tenha circuitos que simulem o cerebro humano, inclusive seu comportamento,
ou seja, aprendendo, errando e fazendo descobertas. Inspirados na habilidade
apresentada pelos seres humanos e outros animais no desempenho de funcoes
como o processamento de informacao sensorial e a capacidade de interacao com
22
ambientes pouco definidos, os engenheiros estao preocupados em desenvolver
sistemas artificiais capazes de desempenhar tarefas semelhantes. Habilidades
como capacidade de processamento de informacao incompleta ou imprecisa
e generalizacao sao propriedades desejadas em tais sistemas [5]. Assim, as
redes neurais podem ser consideradas sistemas dinamicos nao-lineares com
elementos de processamento (neuronios), que se interconectam e possuem
ponderacoes ajustaveis [1].
3.2.1 Caracterısticas das Redes Neurais Artificiais
Uma das propriedades mais importantes de uma rede neural artifi-
cial e a capacidade de aprender por intermedio de exemplos e fa-
zer inferencias sobre o que aprendeu, melhorando gradativamente
o seu desempenho. As redes neurais utilizam um algoritmo de
aprendizagem cuja tarefa e ajustar os pesos de suas conexoes [6].
Entre as aplicacoes usuais de RNs tem-se: reconhecimento e classificacao de
padroes, agrupamento (clustering), previsao de series temporais, aproximacao
de funcoes, predicao, otimizacao, setor militar (processamento de sinais
para identificacao de alvos e analise de imagens), sistemas especialistas,
processamento de sinais (imagens, sensores, voz, caracteres, visao, compressao
de dados, filtragem de sinais), telecomunicacoes, manufatura, monitoramento
de processos e robotica [1]. No entanto, e importante destacar que o interesse
desta dissertacao se destina a aplicacao do Metodo de Redes Neurais Arti-
ficiais visando a interpolacao de pontos e ajuste de curvas de energia potencial.
As redes neurais apresentam as seguintes propriedades [4]:
(i) Nao-linearidade. Um neuronio artificial pode ser linear ou nao-linear.
Caso a rede neural seja composta por uma interligacao de neuronios nao
lineares, ela e por si so nao-linear. A nao-linearidade e uma propriedade
muito importante, especialmente se o mecanismo fısico subjacente, res-
ponsavel pela geracao do sinal de entrada (por exemplo, sinal de voz), e
inerentemente nao-linear.
(ii) Mapeamento Entrada-Saıda. Envolve a modificacao dos pesos
sinapticos de uma rede neural atraves da aplicacao de um conjunto de
exemplos de treinamento. Nesse sentido, cada exemplo consiste de um
sinal de entrada unico e uma resposta (alvo) correspondente desejada.
Assim, os pesos sinapticos (parametros livres) da rede sao modificados
23
para minimizar a diferenca entre a resposta desejada e a resposta real
da rede produzida pelo sinal de entrada em acordo com um criterio es-
tatıstico apropriado. A formacao da rede e repetida para muitos exem-
plos em conjunto, ate que a rede atinja um estado de equilıbrio onde
nao ha mais alteracoes significativas nos pesos sinapticos. Neste treina-
mento os exemplos iniciais podem ser reaplicados, mas em uma ordem
diferente. Assim, a rede aprende com os exemplos atraves da construcao
de um mapeamento de entrada-saıda para o problema em questao.
(iii) A adaptacao. As redes neurais tem uma capacidade interna para adap-
tar os seus pesos sinapticos para mudancas no ambiente circundante.
Em particular, uma rede neural treinada para operar num ambiente es-
pecıfico pode ser alterada a fim de lidar com mudancas nas condicoes
ambientais de operacao. Alem disso, quando se esta a operar num ambi-
ente nao-estacionario (ou seja, aquele em que as estatısticas mudam com
o tempo), uma rede neural pode ser concebida para mudar seus pesos
sinapticos em tempo real. A arquitetura natural de uma rede neural
permite a classificacao de padroes, processamento de sinal, e controle
de aplicacoes, que juntamente com a capacidade de adaptacao da rede,
faz com que seja uma ferramenta util na classificacao adaptativa padrao,
processamento de sinais de adaptacao e controle adaptativo. No entanto,
para que seja percebido os benefıcios da adaptabilidade, as modificacoes
no proprio sistema devem ocorrer em um tempo suficientemente longo
para o sistema ignorar disturbios espurios, e ainda curto o suficiente para
responder a alteracoes significativas no ambiente; o problema descrito
aqui e referido como o dilema estabilidade-plasticidade.
(iv) Resposta Evidencial. No ambito da classificacao de padroes, uma rede
neural pode ser projetada para fornecer informacoes nao so sobre qual
padrao especıfico selecionar, mas tambem sobre a confianca na decisao
tomada. Esta ultima informacao pode ser utilizada para rejeitar padroes
ambıguos, e assim melhorar a classificacao e o desempenho da rede.
(v) Informacao Contextual. O conhecimento e representado pela propria
estrutura e estado de ativacao de uma rede neural. Cada neuronio na
rede e potencialmente afetado pela atividade global de todos os outros
neuronios na rede.
(vi) Tolerancia a falhas. Uma rede neural, implementada na forma de
hardware, tem o potencial para ser inerentemente tolerante a falhas, ou
capaz de computacao robusta. A falha de alguns neuronios nao causam
24
consequencias significativas para o desempenho do sistema de forma in-
tegral, uma vez que toda a informacao e distribuida e redistribuıda entre
os neuronios que compoe a rede. Assim, em princıpio, uma rede neural
exibe um degradacao progressiva no desempenho, em vez de uma falha
catastrofica.
(vii) A exequibilidade. O conjunto massivo de unidades de processamento
de uma rede neural permite que a mesma seja potencialmente rapida
para o calculo de certas tarefas. Esta mesma caracterıstica faz com
que uma rede neural adequada possa ser implementada em uma rede
integrada em grande escala, possibilitando assim, a execucao de calculos
mais complexos.
(viii) Uniformidade de Analise e Design. Basicamente, as redes neurais
desfrutam da universalidade como processadores de informacao no sen-
tido que a mesma notacao e usada em todos os domınios que envolvem a
aplicacao de redes neurais. Esta caracterıstica manifesta-se de diferentes
maneiras como, por exemplo, o fato dos neuronios, de uma forma ou
de outra, representarem um dos ingredientes comum a todas as redes
neurais. Atraves desta comunhao, torna possıvel compartilhar teorias e
algoritmos de aprendizagem em diferentes aplicacoes de redes neurais.
(ix) Analogia neurobiologica. A criacao de uma rede neural e motivada
por analogia com o cerebro, que e a prova viva de que o processamento
paralelo tolerante a falhas nao so e fisicamente possıvel, mas tambem
rapido e poderoso. Neurobiologos olham para redes neurais artificiais
como uma ferramenta de pesquisa para a interpretacao de fenomenos
neurobiologicos. Enquanto, por outro lado, os engenheiros olham para a
neurobiologia visando discutir e trabalhar sob novas ideias para resolver
problemas mais complexos do que aqueles com base no design e tecnicas
convencionais.
3.3 Estrutura Neural Artificial
As redes neurais artificiais sao modelos que buscam simular o processamento
de informacao do cerebro humano. Sao compostas por unidades de processa-
mentos simples, os neuronios, que se unem por meio de conexoes sinapticas [6].
Assim, uma rede neural e um processador distribuıdo massivamente em para-
lelo e tem a propensao natural para armazenar conhecimentos experimentais
25
ou teoricos e torna-los disponıveis para uso futuro. Parece-se com a mente em
dois aspectos [4]:
(i) O conhecimento e adquirido pela rede atraves do processo de aprendiza-
gem.;
(ii) Os pesos das conexoes entre neuronios, conhecido como sinapses, sao
usados para armazenar o conhecimento;
O procedimento usado para representar o processo de aprendizagem, comu-
mente chamado algoritmo de aprendizagem, tem a funcao de modificar os
pesos das conexoes da rede buscando alcancar um objetivo inicial projetado.
Redes neurais sao tambem referenciada na literatura como neurocom-
putadores, redes conexionistas, processadores distribuıdos em paralelo, etc.
Uma rede neural artificial e composta por varias unidades de processa-
mento, cujo funcionamento e bastante simples. Essas unidades, geralmente,
sao conectadas por canais de comunicacao que estao associada a determinado
peso. As unidades fazem operacoes apenas sobre seus dados locais, que sao
entradas recebidas pelas suas conexoes. O comportamento inteligente de uma
Rede Neural Artificial vem das interacoes entre as unidades de processamento
da rede [28]. A operacao de uma unidade de processamento, proposta por
McCullock e Pitts em 1943, pode ser resumida da seguinte maneira:
(i) Sinais sao apresentados a entrada;
(ii) Cada sinal e multiplicado por um numero, ou peso, que indica a sua
influencia na saıda da unidade;
(iii) E feita a soma ponderada dos sinais que produz um nıvel de atividade;
(iv) Se este nıvel de atividade exceder um certo limite (threshold) a unidade
produz uma determinada resposta de saıda.
26
Dessa forma, apresenta-se na Figura 3.4 o Neuronio Artifi-
cial de acordo ao modelo de McCulloch-Pitts usado largamente
em diferentes paradigmas de Redes Neurais Artificiais RNAs:
Figura 3.4: Modelo Geral de um Neuronio Artificial.
Em termos matematicos, podemos descrever um neuronio k da seguinte
maneira:
φk =m∑
j=1
ωkjxj + bk (3.1)
No caso em que w0j = b0 e x0 = 1, podemos ter
φk =m∑
j=0
ωkjxj (3.2)
yk = θk(φk) (3.3)
onde cada variavel e definida a seguir:
– xj e o sinal ou vetor de entrada;
– yk e o sinal ou vetor de saıda;
– wkj e um numero, ou peso associado ao neuronio k, que indica a sua
influencia na saıda da unidade;
– bk e responsavel, por exemplo, a uma adicao a um determinado peso
sinaptico de um neuronio particular.
– φk e o potencial de ativacao; a soma ponderada dos sinais que pode
produzir um nıvel de atividade;
– θk esta relacionada ao nıvel de atividade que, ao exceder um certo li-
mite, faz com que a unidade produza uma determinada resposta de saıda
27
(funcao de ativacao). Devemos pensar esta funcao como um filtro, uma
selecao ou um sensor adaptativo.
O comportamento de um neuronio e governado por uma relacao linear de
entrada-saıda. Mais especificamente, o sinal de entrada xi e recebido, depois
e multiplicado pelo peso sinaptico wki associado ao respectivo neuronio, alem
de acrescentar o fator bias, caso seja necessario, resultando assim, no sinal de
saıda yk que e transmitido as camadas posteriores. Procedimento este, que e
implementado a partir do uso dos respectivos pares de sinais, entrada-saıda
(~x, ~y = f(~x)), visando o ajuste dos pesos sinapticos de suas conexoes, tendo
em vista a representacao de um determinado padrao. Assim, caso este padrao
seja apreendido e reproduzido, diz-se que houve aprendizado na rede neural.
Figura 3.5: Redes neurais com uma unica camada de unidades processadoras (verRef. [4]).
A rede neural pode conter uma ou mais camadas intermediarias (Fi-
gura 3.5 e 3.6) de neuronios, os chamados ocultos. Estes neuronios ocultos
capacitam a rede a aprender tarefas complexas, extraindo progressivamente
as caracterısticas mais significativas dos padroes (vetores) de entrada [1].
E se comunicam da seguinte forma: os sinais ou vetores de saıda de um
neuronio k podem ser os sinais ou vetores de entrada de um neuronio
k + 1 da camada seguinte, e assim sucessivamente ate percorrer toda a
rede. Todavia, o interesse desta dissertacao nao esta relacionada ao uso
de Redes Neurais construıdas com multiplas camadas, mas a utilizacao de
um caso especial de Rede Neural com apenas uma camada oculta usando
para isso Funcoes de Base Radial RBF. Em linhas gerais, existem duas
formas basicas de aprendizado de redes neurais: aprendizado supervisionado
e aprendizado nao-supervisionado: No aprendizado supervisionado, um
28
Figura 3.6: Redes neurais com camadas intermediarias (ver Ref. [4]).
agente externo (professor) apresenta a rede neural alguns conjuntos de
padroes de entrada e seus correspondentes padroes de saıda. Portanto, e
necessario ter um conhecimento previo do comportamento que se deseja
ou se espera da rede. Para cada entrada, o professor indica explicitamente
se a resposta calculada e boa ou ruim. A resposta fornecida pela rede
neural e comparada a resposta esperada. O erro verificado e informado a
rede para que sejam feitos ajustes a fim de melhorar suas futuras respostas.
Na aprendizagem nao supervisionada, ou aprendizado auto-supervisionado,
nao existe um agente externo para acompanhar o processo de aprendi-
zado. Neste tipo de aprendizagem, somente os padroes de entrada estao
disponıveis para a rede neural. A rede processa as entradas e, detec-
tando suas regularidades, tenta progressivamente estabelecer representacoes
internas para codificar caracterısticas e classifica-las automaticamente.
Este tipo de aprendizado so e possıvel quando existe redundancia nos
dados de entrada, para que se consiga encontrar padroes em tais dados [5, 6].
O treinamento propriamente dito se da pela alteracao do conjunto de
pesos da rede em cada interacao, ou seja, a cada apresentacao de um par
entrada/saıda a rede. Em cada iteracao, a rede ajusta os pesos na direcao
de menor erro, ou seja, naquela em que classifica mais padroes dentro de
um nıvel aceitavel de erro. O aprendizado consiste em utilizar o conjunto
de treinamento para buscar a regiao de menor erro. Quando este conjunto
descreve adequadamente o domınio do problema e quando o algoritmo
29
de ajuste dos pesos e eficaz, a rede chegara eventualmente a situacao de
classificar tanto os padroes do conjunto de treinamento como padroes nunca
antes conhecidos. No segundo caso, afirma-se que a rede adquiriu poder de
generalizacao [9].
3.3.1 Funcao de Ativacao
A funcao de ativacao representa o efeito que a entrada interna e o estado
atual de ativacao exercem na definicao do proximo estado de ativacao da
unidade. Quando propriedades dinamicas estao envolvidas na definicao
do estado de ativacao, equacoes diferenciais (caso contınuo) ou a dife-
rencas (caso discreto) sao empregadas. Tendo em vista a simplicidade
desejada para as unidades processadoras, geralmente define-se seu estado
de ativacao como uma funcao algebrica da entrada interna atual. Geral-
mente, esta funcao e monotonicamente nao-decrescente e apresenta um tipo
de nao-linearidade associada ao efeito da saturacao [8]. Nessa logica, a
origem deste tipo de funcao esta vinculada a preocupacao em limitar o inter-
valo de variacao da derivada da funcao, pela inclusao deste efeito de saturacao.
O modelo de cada neuronio da rede inclui uma funcao de ativacao nao-
linear. Um aspecto importante a se enfatizar e que a nao-linearidade e suave
(diferenciavel em qualquer ponto). De modo geral, a funcao de ativacao define
a saıda de um neuronio em termos do campo local induzido. No que se segue,
identificamos dois tipos basicos de funcoes de ativacao [4].
– Modelo de Limiar: Na modelacao matematica ou estatıstica, um mo-
delo de limiar e qualquer modelo em que um valor limiar, ou conjunto de
valores de limiar, e utilizado para distinguir as gamas de valores, onde o
comportamento previsto pelo modelo varia de algum modo importante.
Um exemplo particularmente importante surge na toxicologia, onde o
modelo para o efeito de uma droga pode ser que haja efeito zero para
uma dose inferior a um valor crıtico ou limite, enquanto um efeito de
alguma importancia existe acima desse valor. Em geral, a Funcao de
Limiar (Figura 3.7) faz referencia na literatura a Funcao de Heaviside
(Funcao Degrau):
ϕ(ϑ) =
{
1, se ϑ e maior ou igual a zero
0, se ϑ e menor que zero(3.4)
30
nesta dissertacao com o objetivo de interpolacao de pontos e ajuste de curvas
de energia potencial.
3.3.2 Funcao de Base Radial RN-RBF
A Rede Neural de Funcao de Base Radial RN-RBF1 pode ser consi-
derada como uma rede neural para um problema de ajuste de funcao
(aproximacao) em um espaco de alta dimensionalidade. Desta ma-
neira, aprender e equivalente a encontrar uma hiper-superfıcie em um
espaco multidimensional que forneca o melhor ajuste para os dados de
treinamento, com o criterio de “melhor ajuste” sendo medido em um
sentido estatıstico. Entao o processo de generalizacao equivale a utilizar
esta superfıcie multidimensional para interpolar outros pontos que nao
pertencam aos dados de treinamento, mas estejam em sua vizinhanca [1].
Para uma RN-RBF, as unidades ocultas fornecem um conjunto de “funcoes”
que consistem em uma “base” arbitraria para os padroes (vetores) de
entrada, quando estes sao expandidos sobre o espaco oculto: estas funcoes
sao denominadas funcoes de base radial, das quais a rede deriva seu
nome. Cada uma dessas funcoes e centrada em uma coordenada parti-
cular do espaco multidimensional dos pontos que compoem o espaco de
dados de entrada. Cada uma destas coordenadas particulares caracteriza-
se por definir o centro de uma (entre varias possıveis) regiao de maior
aglomeracao de pontos ou grupo (clusters), do espaco de dados de entrada.
Em linhas gerais, podemos caracterizar uma RBF (na sua forma mais
basica) como aquela que possui apenas uma simples camada intermediaria.
Nesta estrutura, o valor de ativacao e dado em funcao da distancia euclidiana
entre o vetor de entrada e o vetor de centro da unidade. No entanto, existe a
desvantagem da resposta de uma funcao de base radial diminuir conforme os
padroes se distanciam do centro da funcao de base radial. A fim de contornar
este aspecto, usa-se a nao-linearidade local com decrescimo exponencial, como
e o caso da funcao de Gauss. Neste caso, sao introduzidas aproximacoes locais
para mapas de entrada-saıda nao lineares. Todavia, isso nos remete a outra
desvantagem, que consiste no fato da rede apresentar resposta apenas para
as regioes do espaco de entrada em que o conjunto de dados de treinamento
tenha sido apresentado.
1Do termo em ingles “Radial Basis Function Neural Network”
32
3.3.3 O problema de interpolacao
As funcoes de base radial sao funcoes em geral nao-lineares, cujo valor cresce
ou decresce monotonicamente a medida que a distancia a um ponto central
aumenta. A esse ponto costuma-se denominar ’centro” da funcao de base ra-
dial. A utilizacao destas funcoes, no contexto de aproximacao de funcoes, tem
sua origem na teoria da interpolacao multivariada. Para a demonstracao deste
problema, considere uma rede com uma camada de entrada, uma unica camada
oculta e uma camada de saıda consistindo de uma unica unidade. A escolha
de uma unidade de saıda e proposital para simplificar a exposicao sem perda
de generalidade. A rede e projetada para realizar um mapeamento nao-linear
do espaco de entrada para o espaco oculto, seguido de um mapeamento linear
do espaco oculto para o espaco de saıda [1, 4]. Considere que ρ represente a
dimensao do espaco de entrada. Entao, de uma maneira global a rede repre-
senta um mapa do espaco de entrada de dimensionalidade ρ para um espaco
de saıda unidimensional, escrito como:
S : Rρ −→ R1 (3.6)
A construcao de uma RBF em sua forma mais basica envolve tres camadas,
cujos nodos de saıda formam uma combinacao linear das funcoes de base
radial (kernel) calculada pelos nodos da camada oculta (intermediaria).
As funcoes de base radial na camada oculta produzem uma resposta lo-
calizada para o estımulo (padrao) de entrada. Isto e, eles produzem uma
resposta significativamente diferente de zero somente quando o padrao
de entrada esta dentro de uma regiao pequena localizada no espaco de
entradas. Por esta razao esta categoria de rede algumas vezes e refe-
renciada na literatura como redes de campos receptivos localizados. A
entrada (input) e feita dos nodos fontes (unidades sensoriais). Cada funcao
de ativacao requer um “centro” e um parametro escalar. Uma funcao
que pode ser utilizada como ativacao e a funcao de Gauss, sendo que
esta rede pode ser usada para tomar decisoes de maxima verossimilhanca,
determinando qual dos varios centros e mais similar com o vetor de entrada [9].
Dado um vetor de entrada x, a saıda de um nodo simples sera
y = f(x− c) (3.7)
33
onde, por exemplo, a funcao f pode ser tomada como,
y = f(x− c) =1
(2π)n/2σ1 · σ2 · σ3 · · · σnexp
{
−1
2
n∑
j=1
{
xj − cjσj
}2}
(3.8)
Os valores σ1 · σ2 · σ3 · · · σn, j = [1, n], sao usados da mesma maneira
que na distribuicao de probabilidade normal para determinar a dispersao
escalar em cada direcao. Uma outra variacao comum nas funcoes ba-
ses e aumentar sua funcionalidade usando a distancia na funcao Gaussiana.
A camada de saıda e uma soma ponderada das saıdas da camada intermediaria.
Quando apresentando um vetor de entrada x para rede, a rede implementa:
y = w · f(||x− c||) (3.9)
onde f representa o vetor de saıda funcional da camada intermediaria,
e c o correspondente vetor centro. Fornecido alguns dados com respostas
desejadas, os pesos w podem ser determinados usando-se o algoritmo de
treinamento interativamente ou nao-interativamente. Uma forma simples
para determinar o parametro de variacao σ2 para as funcoes de Gauss e
coloca-los igual a distancia media entre todos os dados de treinamento:
σ2j =
1
Mj
∑
x∈Θj
(x− c)T · (x− c) (3.10)
onde j refere-se ao conjunto de padroes de treinamento agrupados no
centro do cluster c, cj e a localizacao do j-esimo centro, e Mj e o
numero de padroes. Uma outra maneira de escolher o parametro
σ2 e calcular as distancias entre os centros em cada dimensao e
usar alguma porcentagem desta distancia para o fator de escala.
A abordagem de centros fixos e uma das aproximacoes consideradas
simples, para o treinamento de uma rede RBF, que consiste em assumir fixos
os parametros cj e σj (j = 1, ...,m1), das funcoes de base radial [5]. As loca-
lizacoes dos centros devem ser escolhidas de alguma forma, geralmente baseada
nos dados de treinamento. Assumindo uma funcao Gaussiana como funcao de
base radial, pode-se tambem definir o desvio padrao pela seguinte equacao:
σ =dmax√2m1
(3.11)
34
que garante as RBFs individuais a condicao de nao serem muito acha-
tadas ou alargadas [4, 5]. Assim, os unicos parametros que ainda precisam ser
definidos sao os pesos da camada de saıda da rede. Nesta linha, uma outra
abordagem para estimar a localizacao apropriada dos centros das camadas
intermediarias e a Selecao Auto-Organizada de Centros, na situacao em que e
utilizada uma etapa de auto-organizacao antes de estimar os pesos da camada
de saıda da rede. O algoritmo de clusterizacao denominado k-means tende
a posicionar centros das RBFs nas regioes do espaco de entrada onde dados
significativos estao presentes. A determinacao de um valor adequado para
quantidade de funcoes de base radial, bem como a quantidade de centros,
pode requerer experimentacao. Uma limitacao do algoritmo k-means e que ele
so e capaz de atingir solucoes otimas locais, dependendo da escolha inicial dos
centros. Assim, uma escolha inicial inapropriada dos centros pode resultar
em centros posicionados em regioes do espaco com baixa densidade de dados.
Levando em consideracao o que foi tratado, considera-se o mapa s como uma
hiper-superfıcie (grafico) Γ ⊂ Rρ+1. A superfıcie e um grafico multidimensio-
nal da saıda como funcao da entrada. Em uma situacao pratica, a superfıcie
Γ e desconhecida e os dados de treinamento estao normalmente contaminados
com ruıdo [1, 4]. A fase de treinamento e a fase de generalizacao do processo
de aprendizagem podem ser entendidas, respectivamente, como:
– A fase de treinamento constitui a otimizacao de um procedimento de
ajuste para a superfıcie Γ, baseada nos pontos dos dados conhecidos
apresentados a rede na forma de exemplos (padroes) de entrada-saıda;
– A fase de generalizacao e sinonimo de interpolacao entre os pontos dos
dados conhecidos, com a interpolacao sendo formada ao longo da su-
perfıcie restrita gerada pelo procedimento de ajuste, como a aproximacao
otima a superfıcie verdadeira Γ.
Desta maneira leva-se a teoria da interpolacao multivariada em um espaco
de alta dimensionalidade. O problema de interpolacao, no seu sentido
estrito, pode ser formulado como: Dados um conjunto de N pontos diferentes
xi ∈ Rρ|i = 1, 2, ..., N e um conjunto correspondente de N numeros
reais di ∈ R1|i = 1, 2, ..., N , encontrar uma funcao F : R
N −→ R1 que
satisfaca a condicao de interpolacao, em que: F (xi) = di, i = 1, 2, ..., N .
Para a interpolacao mais rigorosa, a superfıcie de interpolacao (ou seja,
35
a funcao F) e constrangida a passar atraves de todos os pontos de dados
de treino. A tecnica de Redes Neurais utilizando Funcoes de Base Radial
consiste na escolha de uma funcao F que tem a seguinte forma:
F (x) =N∑
i=1
ωiϕ(||x− xi||) (3.12)
onde ϕ(||x − xi||)|i = 1, 2, ..., N e o conjunto de N funcoes (geralmente nao-
lineares) arbitrarias, conhecidas como funcoes de base radial, e seu argumento
representa uma norma, geralmente Euclidiana. Os pontos de dados conhecidos
por xi ∈ Rρ|i = 1, 2, ..., N sao tomados como centros das funcoes de base radial.
Inserindo as condicoes de interpolacao, obtem-se um conjunto de equacoes
lineares simultaneas para os coeficientes desconhecidos, os pesos, da expansi-
bilidade dada por:
F (x) = di =N∑
i=1
ωiϕ(||x− xi||) (3.13)
ϕ · ω = d (3.14)
ϕ11 ϕ12 · · · ϕ1N
ϕ21 ϕ22 · · · ϕ2N
......
......
ϕN1 ϕN2 · · · ϕNN
·
ω1
ω2
...
ωN
=
d1
d2...
dN
(3.15)
onde,
ϕij = ϕ(||x− xi||), i = 1, 2, ..., N (3.16)
e
d = [d1, d2, ..., dN ]T (3.17)
w = [ω1, ω2, ..., ωN ]T (3.18)
Os vetores d e w representam a resposta desejada e o vetor de pesos, res-
pectivamente, em que N e o tamanho da amostra de treino. Podemos incluir
tambem uma matriz de regularizacao do ajuste para evitar o overfitting,
quando forcamos que a curva obrigatoriamente passe por todos os pontos, o
que nao garante que esta seja bem comportada no intervalo entre estes; a
matriz Λ. De modo que, ao inves de termos:
ϕ · ω = d (3.19)
36
passarıamos a considerar,
(ϕ+ Λ) · ω = d (3.20)
onde a matriz Λ e definida da seguinte forma:
Λ =
λ1 0 · · · 0
0 λ2 · · · 0...
......
...
0 0 · · · λN
(3.21)
Resultando em:
ϕ11 ϕ12 · · · ϕ1N
ϕ21 ϕ22 · · · ϕ2N
......
......
ϕN1 ϕN2 · · · ϕNN
+
λ1 0 · · · 0
0 λ2 · · · 0...
......
...
0 0 · · · λN
·
ω1
ω2
...
ωN
=
d1
d2...
dN
(3.22)
Podemos denotar a matriz N × N com seus elementos ϕij e Λij da
seguinte forma:
Φ = [ϕ+ Λ] −→ Φ = [ϕij + Λij]Ni,j=1 (3.23)
Que se trata da matriz de interpolacao, que pode ser re-escrita como apresen-
tada abaixo;
Φ ·w = d (3.24)
Partindo do princıpio de que a matriz de interpolacao Φ nao e singu-
lar, e, portanto, existe a matriz inversa Φ−1 podemos resolver a seguinte
equacao para o vector de ponderacao w, obtendo;
Φ−1Φ ·w = Φ−1 · d (3.25)
w = Φ−1 · d (3.26)
No que se relaciona a matriz de interpolacao, para uma grande classe
de funcoes de base radial e sob certa condicoes, podemos ter certeza
se a mesma e singular, atraves da aplicacao do teorema de Micchelli
[1, 4]. Este teorema explicita o fato que ao considerar que [xi]Ni
seja um conjunto de pontos distintos em Rρ, entao a matriz de in-
terpolacao ΦN×N , cujo elemento ji e ϕij = ϕ(||x − xi||), e nao-singular.
37
A seguir e apresentada algumas das funcoes que sao de especial interesse no
estudo das redes RBF e que sao cobertas pelo teorema de Micchelli:
– Multiquadraticas:
ϕ(x) =√
||x− ci||2 + σ2i (3.27)
– Multiquadraticas Inversas:
ϕ(x) =1
√
||x− ci||2 + σ2i
(3.28)
– Funcoes Gaussianas:
ϕ(x) = exp
{ ||x− ci||2σ2i
}
(3.29)
Em todos os casos ci representa o centro da funcao de base radial e σi e a sua
largura. O parametro i pode ser interpretado como um fator de escala para
a distancia ||x − ci||2. No caso da funcao Gaussiana, por exemplo, o valor
de ϕ(x) decresce mais rapidamente quando σi → 0. A definicao das largu-
ras σi tem um forte impacto sobre as caracterısticas da funcao de aproximacao.
A funcao Gaussiana e a multiquadratica inversa sao funcoes locais, ou
seja, fornecem uma resposta significativa apenas na vizinhanca do cen-
tro ci. A funcao multiquadratica, por sua vez, e global, uma vez que
o seu valor ϕ(x) torna-se ilimitado quando a distancia ao centro tende
ao infinito. E notavel que as funcoes de base radial que crescem ao
infinito, como as multiquadraticas, podem ser usadas para aproximar
um mapeamento de entrada-saıda suave com maior precisao que aquelas
que produzem uma matriz de interpolacao definida positivamente [1, 4, 5].
A funcao de base radial do tipo Gaussiana e a mais comumente utili-
zada em aplicacoes praticas. Neste tipo de funcao de base radial, o parametro
corresponde ao desvio padrao da funcao Gaussiana. Assim, σi define a
distancia Euclidiana media (raio medio) que mede o espalhamento dos dados
representados pela funcao de base radial em torno de seu centro. Os raios
de cada uma das funcoes de base radial de uma mesma RN-RBF podem
assumir diferentes valores, no entanto, para as RN-RBF usuais, o mesmo
raio utilizado para cada neuronio nao-linear ja permite que a rede aproxime
uniformemente qualquer funcao contınua, desde que exista numero suficiente
38
de funcoes de base radial. Em sıntese, a valor do raio das funcoes de base
radial afeta as propriedades numericas dos algoritmos de aprendizado, mas
nao afeta a capacidade geral de aproximacao das RN-RBF.
39
Capıtulo 4
Resultados
4.1 Procedimento Geral
O interesse desta dissertacao reside no ajuste de curvas de energia potencial
relacionadas ao tratamento do espalhamento reativo H+HLi, cujo processo e
de interesse, uma vez que a formacao e a deplecao da especie LiH pode ter
desempenhado papel relevante durante a evolucao do universo primitivo [24].
Visando este ajuste, e importante ressaltar que no estudo teorico de reacoes
bimoleculares, a obtencao e analise de uma Superfıcie de Energia Potencial
e fundamental, pois ela representa o potencial de interacao entre os consti-
tuintes. Em nosso estudo, busca-se inicialmente ter informacoes quanto aos
potenciais diatomicos H2 e LiH, cujos parametros para o estudo do sistema mo-
lecular em questao ocorre a partir da analise de sua configuracao geometrica.
O procedimento geral utilizado para o ajuste de curvas de energia po-
tencial dessas moleculas diatomicas consistiu inicialmente do uso de um
conjunto de dados referente as distancias internucleares RLiH e RH2como os
vetores de entrada, e suas respectivas energias potenciais VLiH e VH2como
os vetores ou sinais de saıda, representando assim, uma dada configuracao
nuclear: VLiH(RLiH) e VH2(RH2
). Em particular, como estamos interessados
na metodologia de ajuste das CEP’s, utilizamos como dados de entrada
valores de energia potencial obtidos a partir de funcoes analıticas previamente
publicadas na literatura (ver Ref.[24]), ao inves de valores de energia obtidos
diretamente de algum calculo de estrutura eletronica. Na presente aplicacao
do metodo de funcoes de base radiais, queremos utilizar a funcao:
F (x) =N∑
i=1
ωiϕ(||x− xi||) (4.1)
40
Figura 4.1: Representacao dos parametros de entrada e saıda utilizados pela RedeNeural RN.
onde ϕ(||x − xi||)|i = 1, 2, ..., N sao, no presente caso, funcoes gaus-
sianas, para ajustar as curvas de energia potencial de interesse.
Como discutido no capıtulo 3, o procedimento de ajuste tem uma parte
linear, quando sao obtidos os pesos ωi mantendo fixo os parametros
nao lineares da funcao ϕi, e a etapa de minimizacao destes parametros
propriamente ditos. Para tanto, sao definidos dois conjuntos de da-
dos de entrada (distancias interatomicas) e saıda (energia potencial)
com o mesmo numero das funcoes de base radiais com N pon-
tos (denominado de A) e outro com M pontos (denominado B).
As distancias interatomicas do conjunto A sao consideradas como os
centros das funcoes de base radiais, e a obtencao dos pesos ωi (parte linear) e
feita invertendo a matriz Φ [equacao (3.26)] da seguinte forma:
~w = Φ−1 · ~d (4.2)
onde~d−1 = (V (x1), V (x1), ..., V (xn)) (4.3)
A parte do ajuste nao linear e realizada minimizando-se a raiz do desvio
quadratico medio entre os pares de entrada e saıda definidos no conjunto B e a
funcao de base radiais com os pesos obtidos na parte linear do ajuste, definido
por
RMS(λ, σ) =
√
∑Mi=1[y
Ai −∑N
j=1 ωλ,σj ϕj(xAi |λ, σ)]2
M(4.4)
41
Para este procedimento de minimizacao, utilizamos o metodo de minimizacao qua-
draticamente convergente de Powell [5], que miniminiza uma funcao (no nosso caso
o RMS) sem necessidade de conhecer a sua derivada por meio de uma pesquisa bi-
direcional ao longo de cada setor de busca. Assim, de forma sistematica, o processo
de ajuste empregado pode ser sintetizado da seguinte forma:
(1) Fixa-se os valores dos parametros nao lineares.
(2) Encontra-se os pesos sinapticos utilizando o conjunto A de dados por meio da
equacao ~d−1 = (V (x1), V (x1), ..., V (xn)).
(3) Calcula-se o RMS utilizando o conjunto de dados B [equacao (4.9)].
(4) Utilizando o metodo de Powell, escolhe-se novos valores para os parametros
nao lineares.
(5) Repete-se os passos 2 e 4 ate ser atingido a minimizacao do RMS, dentro de
uma dada tolerancia.
As geometrias que serao utilizadas no ajuste sao geradas aleatoriamente em coorde-
nadas cartesianas para nos prevenirmos de pontos nao fısicos. O valor exato para
determinada energia potencial de uma dada geometria e assumido como sendo o
valor de uma curva de energia potencial que descreve o sistema fısico em questao.
Estas geometrias sao geradas da seguinte forma:
(a) Define-se uma esfera tridimensional de raio δ.
(b) Distribui-se aleatoriamente as partıculas nesta esfera, da seguinte forma:
r = δ · rand2 (4.5)
θ = π · rand (4.6)
φ = 2π · rand (4.7)
onde rand e um numero aleatorio gerado entre 0 e 1.
(c) Calcula-se as distancias internucleares entre as partıculas. Se a estiverem den-
tro de um determinado intervalo (a,b), esta geometria e aceita, caso contrario,
e descartada.
Como explicitado anteriormente, utilizamos os valores de energia potencial a partir
de funcoes analıticas publicadas na literatura por Prudente, Marques e Maniero
[24]. Nesta dissertacao estamos interessados no processo de interpolacao e ajuste
da curva de energia potencial dos diatomos H2 e LiH. Naquele trabalho, os autores
42
utilizaram a seguinte forma funcional [equacao (4.8)] para descrever as curvas de
energia potencial desses sistemas diatomicos:
V (2)(R) =
{
5∑
i=0
AiRi−1exp(−αR− βR2) +
5∑
n=3
f2n(bR)C2n
R2n
}
(4.8)
se R ≥ R0, e
V (2)(R) =Aexp(−αR)
R, (4.9)
se R < R0. As constantes Ai(i = 0, ..., 5), α, β e b sao parametros de ajuste,
enquanto C2n sao os coeficientes de dispersao, e A e α foram calculados de modo
que os potenciais e as primeiras derivadas coincidam em R0 = 0.15 A[24]. Alem
disso, f2n(bR) sao as funcoes de amortecimento:
f2n(bR) =
{
1− exp(−bR)2n∑
k=0
(bR)k
k!
}
(4.10)
Os valores para alguns dos parametros encon-
trados sao apresentados na Tabela 1A e 2A.
Nota-se que se adotou uma funcao de dois ramos para escrever o po-
tencial diatomico: para R ≥ R0 e R < R0. Isto foi realizado
pois a forma [equacao (4.8)] apresenta um comportamento nao fısico
para distancias internucleares muito curtas (normalmente R < 0.1 A).
E importante salientar que parte do processo de obtencao de uma curva
de energia potencial consiste em certas aproximacoes a serem utilizadas, a
exemplo o uso de funcoes do tipo Gaussiana. O comportamento de uma
funcao do tipo Gaussiana tem como propriedade tender a zero em seus ex-
tremos (−∞, +∞). Por outro lado, a curva de energia potencial a qual
queremos aproximar vai para infinito quando a distancia intermolecular vai a
zero. Nessa linha de raciocınio, buscam as formas para contornas esta difi-
culdade e auxiliar para o sucesso dos procedimentos de interpolacao e ajustes.
Neste caso, utilizaremos duas estrategias para ajustar as CEP’s de interesse.
A primeira e ajustar a curva de energia potencial dada pelas equacoes (4.8) e (4.9)
propriamente dita que denominamos da Forma 1. Na segunda, denominada de
Forma 2, utilizamos como valores a serem ajustados a funcao que faz com que
V (R) = 0 para R ≤ R0.
V = V (R)− Aexp(−αR)R
(4.11)
43
Nas proximas secoes apresentaremos os resultados para o ajuste das curvas de energia
potencial dos diatomos H2 e LiH em seus respectivos estados fundamentais utilizando
tanto as formas 1 e 2, bem como ajustando somente o parametro nao linear σ
(mantendo a matriz de regularizacao Λ = 0) ou ajustando ambos os parametros (σ
e λ).
4.2 Molecula H2
Nesta secao aplicamos o metodo de funcoes de base radiais para a obtencao da
curva de energia potencial da molecula de H2. Em particular, realizamos calculos
para diferentes numeros de gaussianas, valores do parametro δ, que define o intervalo
de pontos, considerando as duas formas funcionais de ajuste de dados e otimizando
um (σ, com Λ = 0) ou dois (σ, λ) parametros nao lineares.
4.2.1 Forma 1: Λ = 0
Inicialmente realizamos o ajuste da CEP da molecula de H2 considerando N=10
centros das Gaussianas, variando o raio da esfera (o parametro δ) de 2.0 Aa 6.0
Apara a forma 1 mantendo Λ = 0. Recordando que o valor δ esta diretamente
associado ao intervalo possıvel das distancias internucleares entre as partıculas, uma
vez que estas devem estar circunscritas em um intervalo (a,b) determinado. Esse
procedimento resulta em cinco conjuntos distintos de 10 configuracoes nucleares. O
numero de configuracoes utilizadas para a etapa nao linear eM=1000. Os resultados
RMS dos conjuntosM e N de pontos para esses diferentes calculos sao apresentados
na Tabela 4.1, enquanto as curvas resultantes para cada valor de δ sao apresentados
na Figura 4.2.
Tabela 4.1: Representacao da convergencia RMS do diatomo H2 para um conjuntode 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıtico da Forma1 e matriz de correlacao Λ nula; para o conjunto M de configuracoes de validacaoda curva de energia potencial e o conjunto N de configuracoes de geracao.
Delta (A) RMS do Conjunto M (eV ) RMS do Conjunto N (eV )2.0 0,317806 7,1 ×10−13
3.0 0,842851 4,8 ×10−11
4.0 1,250444 1,0 ×10−13
5.0 0,840715 8,8 ×10−13
6.0 1,009214 2,1 ×10−14
Podemos perceber na Tabela 4.1 a influencia que o parametro δ possui em
relacao ao ajuste da curva de energia potencial original, onde nao necessariamente a
escolha em aumentar o diminuir o valor δ implica um melhor ajuste (considerando
44
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
Delta 2.0Delta 3.0Delta 4.0Delta 5.0Delta 6.0
PRUDENTE et al.
Figura 4.2: Representacao de Curva de Energia Potencial da Molecula H2 para umconjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıticoda Forma 1 e matriz de correlacao Λ nula.
o conceito de melhor ajuste diretamente relacionado ao menor valor do RMS do
conjunto M de configuracoes de validacao). Por exemplo, de acordo ao criterio de
convergencia apresentado na Tabela 4.1, a curva para δ = 2.0 Atem maior proximi-
dade em relacao a curva real do que para δ = 3.0 A, no entanto ao compararmos,
observa-se que a curva para δ = 6.0 Aapresenta melhor resultado que a curva para
δ = 4.0 A. O crescimento do valor δ nao implica de forma linear em se ter uma
curva melhor ajustada em relacao a sua original. Isso indica que uma escolha
adequada dos pontos (ou configuracoes nucleares) pode levar a um bom resultado.
Um dos aspectos interessantes a ser analisado e referente ao parametro que
indica o valor de convergencia. E possıvel observar que a convergencia dentre as
configuracoes teste do conjunto N e consideravelmente maior que a convergencia
dentre as configuracoes de validacao do conjunto M . Fato este associado a
consideracao inicial de utilizarmos a matriz de correlacao Λ nula, o que implica
“forcar”que a curva ajustada passe por cada um dos pontos das configuracoes
de teste. No entanto, nosso interesse esta na otimizacao e ajuste de uma curva,
e nao apenas, de um determinado conjunto pequeno de pontos. Dessa forma,
estudamos tambem os casos em que a matriz de correlacao Λ nao e nula, permitindo
uma maior flexibilidade na curva ajustada. E nos resultados serao apresentados
45
ao decorrer deste capıtulo a fim de verificar a sua influencia quanto ao ajuste.
Uma vez realizado o ajuste da curva de energia potencial CEP da molecula
H2 considerando 10 centros das Gaussianas, variando o raio da esfera (o parametro
δ) de 2.0 Aa 6.0 A, torna-se de interesse estudar o comportamento desta curva de
energia potencial nas situacoes em que variamos a quantidade de centros das Gaus-
sianas. Nessa intencao, apresentamos quatro conjuntos distintos de configuracoes
nucleares com N= 10,20,30 e 40, sendo possıvel comparar o comportamento do
metodo RBF com o aumento do numero de gaussianas. Para representar cada
conjunto destas configuracoes, foi escolhida a curva cujo parametro δ indicasse o
melhor ajuste quanto a convergencia RMS para o conjunto M de configuracoes de
validacao. Esses resultados sao apresentados na Tabela 4.2, as curvas para cada N
sao apresentadas na Figura 4.3, em conjunto com a CEP de Prudente et al [24].
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.3: Representacao de Curvas de Energia Potencial da Molecula H2 paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 1 e matriz de correlacao Λ nula.
Na Figura 4.4 e apresentada uma ampliacao da Figura 4.3, com o objetivo de
proporcionar uma maior capacidade de analise na regiao do mınimo do potencial.
E possıvel observar atraves tanto da analise da Figura 4.4 quanto dos dados da
46
Tabela 4.2: Representacao da convergencia RMS de Curvas de Energia Potencialpara um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M configuracoes devalidacao, e funcional analıtico da Forma 1, conjunto N de configuracoes de teste,matriz de correlacao Λ nula.
No Configuracoes RMS M (eV ) RMS N (eV )
10 (δ = 2.0 A) 0,317806 7,1×10−13
20 (δ = 2.0 A) 0,046942 1,3×10−12
30 (δ = 4.0 A) 0,067874 2,4×10−9
40 (δ = 2.0 A) 0,008903 1,2×10−10
-5
-4
-3
-2
-1
0
1
0 1 2 3 4 5 6 7
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.4: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 1 e matriz de correlacao Λ nula.
Tabela 4.2 que a convergencia da curva ajustada para com a curva original aumenta
a medida em que dispomos de um conjunto de configuracoes de teste no conjunto
N . Fato este que e desejado: a convergencia para a curva original a medida que
dispomos de um conjunto maior de pontos, que por exemplo, poderiam a depender
da situacao, serem teoricos e ou experimentais.
47
4.2.2 Forma 1: Λ 6= 0
Na subsecao anterior realizamos o ajuste da curva de energia potencial da
molecula H2 utilizando a forma analıtica 1 e mantendo Λ = 0. No entanto,
e interessante tambem analisar o caso em que as outras caracterısticas sejam
mantidas, mas que esta matriz de correlacao seja nao nula e, deste modo, verificar
quais sao as influencias decorrentes desta alteracao no comportamento da curva
de energia potencial ajustada, bem como na qualidade do ajuste. Realizamos
entao nesta subsecao um estudo considerando tambem o parametro λ na mi-
nimizacao. Comecamos novamente com o ajuste da CEP de H2 empregando
10 configuracoes nucleares, fazendo delta (δ) variar de 2.0 Aa 6.0 A, com o fun-
cional analıtico mantido na Forma 1, mas agora a matriz de correlacao Λ e nao nula.
Os valores do RMS dos conjuntos com M e N pontos para esses calculos sao
apresentados na Tabela 4.3, enquanto os potenciais ajustados para a coordenada δ
sao mostrados na Figura 4.5.
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
Delta 2.0Delta 3.0Delta 4.0Delta 5.0Delta 6.0
PRUDENTE et al.
Figura 4.5: Representacao de Curva de Energia Potencial da Molecula H2 para umconjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıticoda Forma 1 e matriz de correlacao Λ nao nula.
Analisando os resultados (Figura 4.5) apresentados, percebemos que visual-
mente o grafico para o caso em que Λ = 0 aparentemente esta melhor ajustado que
para o caso em que Λ 6= 0, fixada as mesmas condicoes. No entanto, observa-se
48
Tabela 4.3: Representacao da convergencia RMS do diatomo H2 para um conjuntode 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıtico da Forma1 e matriz de correlacao Λ nao nula; para o conjunto M e N de configuracoes devalidacao e teste da curva de energia potencial, respectivamente.
Delta ( A) RMS do Conjunto M (eV ) RMS do Conjunto N (eV )2.0 0,192230 0,0036423.0 0.681624 0,0002044.0 1.152796 0,0113575.0 0,661313 0,0001836.0 0,702855 0,018178
que segundo o criterio de convergencia por meio do RMS, a curva de energia
potencial para Λ 6= 0 alcanca melhores ajustes que para Λ = 0. A questao
fundamental e o fato de estarmos interessados em um procedimento de ajuste que
consiga ajustar a curva como um todo, e nao apenas uma regiao em especıfico.
Verifica-se tambem a partir da analise desses resultados (Tabela 4.3) que o
RMS da curva ajustada, neste caso em que Λ 6= 0, em comparacao ao conjunto
de configuracoes de teste a qual dispomos no conjunto N , teve um significativo
crescimento com a situacao em que Λ = 0. Esta consequencia esta relacionada com
o fato de forcamos a curva de energia potencial ajustada, ao manter a matriz de
correlacao Λ = 0, a passar por todos os pontos. Por isso temos um RMS bem
maior para o conjunto N de pontos. No caso em que Λ 6= 0 concedemos uma
certa flexibilidade ao ajuste de modo que a curva ajustada nao necessariamente
tenha que passar por todos os pontos, podendo se afastar um pouco deles, o que
tem como consequencia um melhor ajuste geral da curva de energia potencial.
Em linhas gerais, ao analisarmos a Tabela 4.3 perceberemos que a con-
vergencia do RMS, para o conjunto de configuracoes de teste N entre os
casos de Λ = 0 e Λ 6= 0, foi influenciada implicando a reducao de seu va-
lor. No entanto, nota-se que e estabelecido, em contraposicao, um melhor
ajuste RMS para o conjunto M composto pelas mil configuracoes nucleares
utilizadas para a validacao da curva de energia potencial do H2. Isto indica
que a liberacao de λ leva a um melhor ajuste da Curva de Energia Potencial.
O proximo passo e verificar, a tıtulo de comparacao, o uso da matriz de re-
gularizacao Λ 6= 0 nos casos em que podemos dispor de um conjunto maior de
configuracoes. Nesse vies, apresentamos o resultado para quatro conjuntos distintos
de configuracoes nucleares, em que sera possıvel comparar o comportamento dentre
o uso de 10, 20, 30 e 40 configuracoes. Para representar cada resultado para um
49
dado N foi escolhida a curva cujo parametro δ indicasse o melhor ajuste quanto a
convergencia RMS para o conjunto M de configuracoes de validacao. Os resultados
sao apresentados na Tabela 4.4 e nas Figuras 4.6 e 4.7.
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.6: Representacao de Curvas de Energia Potencial da Molecula H2 paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 1 e matriz de correlacao Λ nao nula.
Tabela 4.4: Representacao da convergencia RMS de Curvas de Energia Potencialpara um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, assim como a convergencia RMS para o conjunto N de configuracoesde teste, funcional analıtico da Forma 1 e matriz de correlacao Λ nao nula.
No Configuracoes RMS M (eV ) RMS N (eV )
10 (δ = 2.0 A) 0,192230 0,00364220 (δ = 2.0 A) 0,011183 0,00023330 (δ = 2.0 A) 0,007077 0,00022340 (δ = 5.0 A) 0,000196 0,000001
Na Figura 4.7 e apresentada uma ampliacao da Figura 4.6 com o objetivo
de proporcionar uma maior capacidade de analise na regiao de mınimo do po-
tencial. E possıvel observar atraves tanto da analise da Figura 4.7 quanto da
Tabela 4.4 que a convergencia da curva ajustada com a curva original aumenta a
medida que dispomos de um conjunto maior de configuracoes de teste no conjuntoN .
50
-5
-4
-3
-2
-1
0
1
0 1 2 3 4 5 6 7
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.7: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 1, e matriz de correlacao Λ nao nula.
Nos resultados e possıvel observar novamente um fato que ate entao ja era esperado;
a convergencia para a curva original a medida que dispomos de um conjunto maior
de pontos, que por exemplo, poderiam, a depender da situacao, serem teoricos e
ou experimentais. Dessa forma, permite-se visualizar a proximidade que existe
entre as curvas de energia potencial para os casos de 30 e 40 configuracoes (centros
de Gaussianas) e a curva de energia potencial utilizada como parametro base.
No entanto, e tambem importante destacar que o emprego da matriz de re-
gularizacao nao nula (Λ 6= 0) constitui etapa essencial no processo de ajustes,
apresentando benefıcios observaveis quanto a convergencia da curva ajustada em
relacao a curva de energia potencial original.
4.2.3 Forma 2: Λ = 0
Com o intuito de verificar a eficacia do uso do funcional 2, em particular quando
a distancia interatomica tende a zero, construımos as curvas de energia potencial
da molecula H2 considerando as mesmas caracterısticas inicialmente utilizadas na
51
Forma 1, que sao: 10 centros das Gaussianas, variando o raio da esfera (o parametro
δ) de 2.0 Aa 6.0 Ae matriz de correlacao Λ nula. Os resultados sao mostrados na
Figura 4.8 e Tabela 4.5.
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
Delta 2.0Delta 3.0Delta 4.0Delta 5.0Delta 6.0
PRUDENTE et al.
Figura 4.8: Representacao de Curva de Energia Potencial da Molecula H2 para umconjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıticoda Forma 2 e matriz de correlacao Λ nula.
Tabela 4.5: Representacao da convergencia RMS do diatomo H2 para um conjuntode 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıtico da Forma2 e matriz de correlacao Λ nula; para o conjunto M de configuracoes de validacaoda curva de energia potencial e o conjunto N de configuracoes de teste.
Delta ( A) RMS do Conjunto M (eV ) RMS do Conjunto N (eV )2.0 0,015324 2,7×10−13
3.0 0,180282 5,6×10−12
4.0 0,338311 1,0×10−12
5.0 0,199517 7,5×10−14
6.0 0,200510 6,2×10−15
E possıvel observar que o processo de ajuste utilizando a forma funcional 2
apresentou em uma melhor convergencia RMS para cada um dos deltas que foram
analisados, se comparados aos resultados considerando as mesmas caracterısticas da
situacao inicialmente apresentada para a primeira forma funcional, Forma 1. Esta
observacao fica clara na Tabela 4.6, onde apresentamos uma comparacao entre o
52
RMS para o conjunto de validacao utilizando as duas formas funcionais. Destaca-
mos, por exemplo, que o resultado para N=10 com δ = 2.0 Ae bem melhor do que
o resultado obtido pela forma 1 para N=30 (com δ = 4.0 A) com Λ = 0 (ver Tabela
4.2) e comparavel ao resultado da Forma 1 com Λ 6= 0 para N=20 gaussianas (ver
Tabela 4.4).
Tabela 4.6: Representacao da convergencia RMS do diatomo H2 comparado entre ofuncional analıtico da Forma 1 e o funcional analıtico da Forma 2; para um conjuntode 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 Ae matriz de correlacao Λ nula;para o conjunto M de configuracoes de validacao da curva de energia potencialDelta ( A) RMS do Conjunto M (eV ) Forma 1 RMS do Conjunto M (eV ) Forma 2
2.0 0,317806 0,0153243.0 0,842851 0,1802824.0 1,250444 0,3383115.0 0,840715 0,1995176.0 1,009214 0,200510
Verificado o exito quanto ao uso da segunda forma funcional (Forma 2) para
o conjunto de 10 configuracoes distintas, deve-se tambem analisar os casos em
que dispomos de um numero ainda maior no conjunto de configuracoes de teste.
Relembrando que este numero de configuracoes nucleares de teste representam o
numero de centros de Gaussianas utilizadas no processo de interpolacao e ajuste.
Para tanto, apresentamos os resultados, utilizando a segunda forma funcio-
nal, para quatro conjuntos com diferentes numeros de configuracoes nucleares (N=
10, 20, 30 e 40). Foi escolhida a curva cujo parametro δ indicasse o melhor ajuste
quanto a convergencia RMS para o conjunto M de configuracoes de validacao
obtendo, dessa forma, a Tabela 4.7 e Figura 4.9, assim como a Figura 4.10 que
consiste em uma forma ampliada da Figura 4.9 destacando a regiao de mınimo do
potencial.
Tabela 4.7: Representacao convergencia RMS de Curvas de Energia Potencial paraum conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2 , para os casos em queδ apresentou a melhor convergencia RMS para o conjunto M de configuracoes devalidacao, assim como a convergencia RMS para o conjunto N de configuracoes deteste, funcional analıtico da Forma 2 e matriz de correlacao Λ nula.
No Configuracoes RMS M (eV ) RMS N (eV )
10 (δ = 2.0 A) 0,015324 2,7×10−13
20 (δ = 4.0 A) 0,009892 2,3×10−11
30 (δ = 4.0 A) 0,000956 6,5×10−12
40 (δ = 3.0 A) 0,000285 1,8×10−9
Torna-se evidente, de acordo aos dados analisados, que regularizar a curva
a ser ajustada retirando o termo que vai a infinito como feito na segunda
53
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.9: Representacao de Curvas de Energia Potencial da Molecula H2 paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 2 e matriz de correlacao Λ nula.
forma funcional (Forma 2), vem a implicar o desenvolvimento de um melhor
processo de interpolacao e ajuste no qual o parametro RMS, que indica a
convergencia, passa a explicitar os melhores resultados. Convergencia que se
torna ainda mais eficaz a medida em que dispomos de um conjunto maior de
pontos. Observe por exemplo que o RMS para 10 configuracoes (0,015324
eV ) e duas ordens de grandeza maior que o RMS para 40 configuracoes
(0,000285 eV ), existindo uma melhora sensıvel neste procedimento de ajuste.
Deve-se ainda ressaltar que mesmo considerando a matriz de regularizacao
Λ = 0, que e responsavel por “forcar”a curva de energia potencial ajustada a
passar exatamente pelas configuracoes de teste, podendo causar o sobre-ajuste (ou
overfitting), ainda assim temos obtidos melhores resultados quanto a convergencia
a partir da implementacao da segunda forma funcional (Forma 2). Na sequencia,
realizamos o estudo do caso em que se utiliza a segunda forma funcional aliada a
influencia da matriz de regularizacao Λ 6= 0, que sera apresentada e descrita na
proxima subsecao.
54
-5
-4
-3
-2
-1
0
1
2
3
4
5
0.5 1.5 2.5 3.5
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.10: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 2 e matriz de correlacao Λ nula.
4.2.4 Forma 2: Λ 6= 0
Apresentamos a seguir o ajuste da curva de energia potencial CEP da molecula
H2 em seu estado eletronico fundamental considerando 10 centros das gaussianas,
variando o raio da esfera (o parametro δ) de 2.0 Aa 6.0 A, utilizando o funcional
analıtico da Forma 2 e matriz de correlacao Λ nao nula. Esse procedimento resulta
em cinco conjuntos distintos de configuracoes nucleares consideradas como mostrado
na Figura 4.11 e Tabela 4.8.
Diante dos dados apresentados, observamos que ocorreu um melhor ajuste
da CEP da molecula H2, de acordo ao criterio de convergencia RMS do con-
junto M de configuracoes de validacao da curva quando comparado com o
ajuste realizado fixando Λ = 0. E possıvel perceber, levando em consideracao
as Tabelas expostas ao longo deste capıtulo que, sistematicamente, quando
melhoramos o ajuste da curva como um todo (analisando o RMS do conjunto
de configuracoes de validacao) devido ao emprego da matriz de correlacao Λ,
temos um pior ajuste dos pontos (centros) das gaussianas. Esta caracterıstica
55
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
Delta 2.0Delta 3.0Delta 4.0Delta 5.0Delta 6.0
PRUDENTE et al.
Figura 4.11: Representacao de Curva de Energia Potencial da Molecula H2 para umconjunto de 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıticoda Forma 2 e matriz de correlacao Λ nao nula.
Tabela 4.8: Representacao da convergencia RMS do diatomo H2 para um conjuntode 10 configuracoes, delta (δ) variando de 2.0 Aa 6.0 A, funcional analıtico da Forma2 e matriz de correlacao Λ nao nula; para o conjuntoM de configuracoes de validacaoda curva de energia potencial e o conjunto N de configuracoes de teste.
Delta (A) RMS do Conjunto M (eV ) RMS do Conjunto N (eV )2.0 0,014634 0,0000723.0 0,122299 0,0002084.0 0,264804 0,0026605.0 0,122579 0,0001176.0 0,165642 0,000067
ja foi descrita anteriormente, mas o destaque esta na ordem desta diferenca.
Para comparacao vamos citar o caso para este conjunto N apresentado na si-
tuacao em que temos 10 configuracoes de teste, delta (δ) variando de 2.0 Aa 6.0 A,
o funcional analıtico em sua Forma 2 e matriz de correlacao Λ nao nula (Tabela 4.8)
para com o caso semelhante de 10 configuracoes de teste, delta (δ) variando de 2.0
Aa 6.0 A, o funcional analıtico na Forma 1 e matriz de correlacao Λ nula (Tabela
4.1). E possıvel observar que para a Forma 1 tem-se, uma convergencia da ordem de
10−12, enquanto para a Forma 2 tem-se, considerando as configuracoes teste, uma
56
convergencia da ordem de 10−3-10−5 eV , trata-se de uma situacao esperada, pois a
questao fundamental e o fato de estarmos interessados em um procedimento de ajuste
que consiga ajustar a curva como um todo, e nao apenas uma regiao em especıfico.
Levando em consideracao a discussao ate entao construıda, apresentamos em
sequencia a situacao em que temos a representacao de Curvas de Energia Potencial
da Molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes distintas,
nos casos em que δ apresentou o menor valor do RMS para o conjunto M de
configuracoes de validacao, nas quais se utilizou a segunda forma funcional (Forma
2) e matriz de correlacao Λ nao nula mostrada na Figura 4.12 e Tabela 4.9.
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.12: Representacao de Curvas de Energia Potencial da Molecula H2 paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 2 e matriz de correlacao Λ nao nula.
Analisando os parametros apresentados e destacados nesta secao, e possıvel
perceber que o nosso intuito em melhorar os indicativos de convergencia tem
alcancado resultados favoraveis. Vale ressaltar que, na situacao apresentada para a
segunda forma funcional (Forma 2) aliada ao uso da matriz de regularizacao, ocorreu
como consequencia uma melhora consideravel nos resultados obtidos ate entao.
Nota-se pela analise da Figura 4.12 que, tomando como unica excecao visıvel
a curva de energia potencial referente ao conjunto com 10 configuracoes nucleares
57
Tabela 4.9: Representacao da convergencia RMS de Curvas de Energia Potencialpara um conjunto de 10, 20, 30 e 40 configuracoes da Molecula H2, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, assim como a convergencia RMS para o conjunto N de configuracoesde teste, funcional analıtico da Forma 2 e matriz de correlacao Λ nao nula.
No Configuracoes RMS M (eV ) RMS N (eV )
10 (δ = 2.0 A) 0.014634 0,00007220 (δ = 3.0 A) 0,004801 0,00000730 (δ = 2.0 A) 0,000642 0,00016040 (δ = 3.0 A) 0,000143 1.3×10−9
-5
-4
-3
-2
-1
0
1
2
3
0.3 1.3 2.3 3.3
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.13: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 2 e Matriz de Correlacao Λ nao nula.
de teste, todos os outros tres conjuntos visualmente aparentam estar sobrepostas
com a curva modelo. E na analise do parametro de convergencia RMS, constata-se
que o procedimento utilizado para interpolacao e ajuste das Curvas de Energia
Potencial da molecula H2 obteve exito em seu objetivo, nos conduzindo a um grau
de proximidade consideravel da curva original. E importante destacar, entretanto,
que um teste importante para verificar a qualidade de uma curva de energia
potencial e utiliza-la para se resolver o problema quantico associado ao movimento
dos nucleos, seja de estado ligado, seja de espalhamento. Nosso intuito e realizar
tais calculos em breve.
58
4.3 Molecula LiH
Nesta secao aplicamos o metodo de funcoes de base radiais para a obtencao da curva
de energia potencial da molecula de LiH. Foi realizado um estudo tao abrangente
quanto no caso da molecula de H2 mas, no que segue, serao apresentados uma parte
dos resultados. A discussao do ajuste das curvas de energia potencial e apresen-
tada para conjuntos distintos de 10, 20, 30 e 40 configuracoes nucleares (centro das
gaussianas).
4.3.1 Forma 1
Um dos aspectos interessantes que foi analisado e referente ao parametro RMS
que indica, nesta situacao, a convergencia de ajuste para a curva de energia
potencial. Apresentamos a convergencia RMS para o conjunto M de configuracoes
de validacao, e para o conjunto N de configuracoes de teste, que foram obtidos para
quatro conjuntos distintos de configuracoes nucleares a fim de comparar o comporta-
mento dentre o uso de 10, 20, 30 e 40 configuracoes. Para representar cada conjunto,
foi escolhida a curva cujo parametro δ indicasse o melhor ajuste para o conjunto
de pontos de validacao M composto por mil configuracoes. Busca-se estudar a
situacao em que a convergencia sofre a influencia da matriz de correlacao Λ, es-
colhida com o intuito de oferecer uma certa flexibilidade ao procedimento de ajustes.
Considerando a discussao anterior e interessante a comparacao entre os re-
sultados para as situacoes em que terıamos uma variabilidade quanto ao
numero de configuracoes, escolhendo o melhor ajuste e convergencia RMS
para cada conjunto, utilizando o mesmo funcional analıtico na Forma 1, mas
que fossem referentes aos casos em que o λ = 0 e λ 6= 0, como esta apresen-
tado nas Figuras 4.14 e 4.16 a seguir, assim como na Tabela comparativa 4.10.
E, pautado do mesmo objetivo, verificar a evolucao ou variacao da convergencia
RMS para o conjunto N de pontos utilizados para teste (N= 10,20,30 e 40),
quanto para o conjunto de pontos (M= 1000) utilizados para validacao da curva
como um todo de modo geral.
Com o objetivo de proporcionar uma maior capacidade de analise quanto
a uma regiao em especial do grafico, apresentou-se o mesmo, porem de forma
ampliada Figura 4.15 (Figura 4.14 em sua forma ampliada) e a Figura 4.17
(Figura 4.16 em sua forma ampliada). E possıvel observar atraves tanto da
analise do grafico em sua forma ampliada, quanto pela Tabela 4.10 que a
convergencia da curva ajustada com a curva original aumenta a medida em
que dispomos de um conjunto maior de configuracoes de teste no conjunto N .
59
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.14: Representacao de Curvas de Energia Potencial da Molecula LiH paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 1 e matriz de correlacao Λ nula.
Tabela 4.10: Representacao da convergencia RMS de Curvas de Energia Potencialpara um conjunto de 10, 20, 30 e 40 configuracoes da molecula LiH, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, assim como a convergencia RMS para o conjunto N de configuracoesde teste, funcional analıtico da Forma 1 e matriz de correlacao Λ nula.
Λ = 0 Λ 6= 0
RMS RMS
No Conf. δ (A) M (eV ) N (eV ) δ (A) M (eV ) N (eV )
10 4.0 0,114444 5.3×10−14 4.0 0,107175 0,02681620 4.0 0,024505 4.3×10−12 5.0 0,013940 0,00114430 6.0 0,004459 1.1×10−7 4.0 0,001390 0,00046540 4.0 0,001441 1.6×10−7 5.0 0,000562 0,000069
As Figuras 4.15 e 4.17 permite visualizar a proximidade que existe entre as
curvas de energia potencial para os casos de 30 e 40 configuracoes (centros de
Gaussianas) e a curva de energia potencial utilizada como parametro base. Em
particular, percebemos que apesar de visualmente o grafico para o caso em
que Λ = 0 aparentar estar melhor ajustado que para o caso em que Λ 6= 0,
fixada as mesmas condicoes, observa-se que segundo o criterio de convergencia
60
-3.5
-2.5
-1.5
-0.5
0.5
1.5
0.5 1.5 2.5 3.5 4.5 5.5 6.5
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.15: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula LiH para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 1 e matriz de correlacao Λ nula.
RMS (Tabela 4.10), a curva de energia potencial para Λ 6= 0 alcanca melho-
res ajustes que para Λ = 0 para o conjunto M de pontos de validacao. A
questao fundamental e o fato de estarmos interessados em um procedimento que
consiga ajustar a curva como um todo, e nao apenas uma regiao em especıfico.
Verifica-se tambem a partir da analise (Tabela 4.10) que o RMS da curva
ajustada referente ao conjunto M de pontos de validacao, no caso em que Λ 6= 0,
comparado ao conjunto de configuracoes da situacao em que Λ = 0, alcancou uma
mudanca sensıvel indicando uma melhora em sua convergencia e consequentemente
um melhor ajuste. No entanto, o RMS da curva referente ao conjunto N de pontos
de testes diminuiu a sua convergencia. o interesse nao e ajustar um conjunto
pequeno de pontos, mas toda uma curva. Portanto buscam-se alterar parametros
que melhorem a convergencia do conjunto M (correspondente aos mil pontos
espalhados pela curva), mesmo que isso venha a ter como consequencia um menor
ajuste para o conjunto N (correspondente as 10, 20, 30 e 40 configuracoes de teste).
E pertinente destacar que a introducao da matriz de regularizacao Λ 6= 0
quanto a convergencia da curva ajustada em relacao a curva de energia potencial
61
-4-3-2-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
-1 0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.16: Representacao de Curvas de Energia Potencial da Molecula LiH paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 1 e matriz de correlacao Λ nao nula.
original propicia uma implementacao fundamental no procedimento de interpolacao
de ajuste. .
4.3.2 Forma 2
Nesta secao, chegamos aos pressupostos finais da analise quanto a metodologia
utilizada nos ajustes que foram aplicados as Curvas de Energia Potencial da
molecula LiH em que se fez uso da segunda forma funcional analıtica, a Forma 2,
no processo de interpolacao e ajuste. A fim de se verificar a eficacia do uso desta
segunda forma funcional do potencial construımos as curvas de energia potencial na
busca por informacoes sobre qual a influencia sobre o parametro de convergencia
RMS tanto para o conjunto de pontos de validacao da curva (M=1000), quanto
para o conjunto de pontos de teste (N=10,20,30 e 40) na situacao em que tenham
sido implementados os casos em que Λ = 0 e Λ 6= 0 objetivando estudar os possıveis
efeitos da matriz de correlacao no contexto da utilizacao da segunda forma funcional.
Levando em consideracao a discussao ate entao construıda, apresentamos em
sequencia a situacao em que temos a representacao de Curvas de Energia Potencial
62
-3.5
-2.5
-1.5
-0.5
0.5
1.5
0.5 1.5 2.5 3.5 4.5 5.5 6.5
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.17: Regiao ampliada da representacao de Curvas de Energia Potencial daMolecula LiH para um conjunto de 10, 20, 30 e 40 configuracoes, para os casos emque δ apresentou a melhor convergencia RMS para o conjunto M de configuracoesde validacao, funcional analıtico da Forma 1 e matriz de correlacao Λ nao nula.
da Molecula LiH utilizando a segunda forma funcional, para quatro conjuntos
distintos de configuracoes nucleares, onde e possıvel comparar o comportamento
entre o uso de 10, 20, 30 e 40 configuracoes nos casos em que δ apresentou a melhor
convergencia RMS para o conjunto M de configuracoes de validacao para Λ = 0
(Figura 4.18) e para Λ 6= 0 (Figura 4.19), como indicado na Tabela 4.11.
Tabela 4.11: Representacao de Curvas de Energia Potencial para um conjunto de10, 20, 30 e 40 configuracoes da molecula LiH, para os casos em que δ apresentou amelhor convergencia RMS para o conjunto M de configuracoes de validacao, assimcomo a convergencia RMS para o conjunto N de configuracoes de teste, funcionalanalıtico da Forma 2 e matriz de correlacao Λ = 0 e Λ 6= 0.
Λ = 0 Λ 6= 0No Configuracoes RMS M (eV ) RMS N (eV ) RMS M (eV ) RMS N (eV )
10 (δ = 4.0) 0,002741 1.2×10−13 0,001210 0,00052320 (δ = 4.0) 0,000133 4.5×10−12 0,000090 3,3×10−12
30 (δ = 5.0) 0,000014 3.8×10−12 0,000012 7,9×10−12
40 (δ = 5.0) 0,000010 1.3×10−10 0,000006 1,1×10−10
Deve-se ainda ressaltar, que mesmo considerando a matriz de regularizacao
Λ = 0, que e responsavel por “forcar”a curva de energia potencial ajustada a passar
63
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
-1 0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.18: Representacao de Curvas de Energia Potencial da Molecula LiH paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 2 e matriz de correlacao Λ nula.
exatamente pela configuracao de teste que pode causar o overfitting, ainda assim,
temos obtidos melhores resultados quanto a convergencia a partir da implementacao
da segunda forma funcional (Forma 2) em contraposicao a primeira forma funcio-
nal analıtica, Forma 1 para Λ 6= 0 como apresentado na primeira secao (Tabela 4.11).
Pela analise da Figura 4.18 e possıvel observar que, em todos os quatro con-
juntos de 10, 20, 30 e 40 configuracoes, referentes as curvas ajustadas, ja
aparentam, mesmo que visualmente, estarem sobrepostas. A proximidade no
ajuste e verificada a partir da analise do parametro de convergencia RMS, em que
se constata que o procedimento utilizado para interpolacao e ajuste das Curvas
de Energia Potencial CEP da molecula LiH obteve exito em seu objetivo, nos
conduzindo a um grau de proximidade realmente consideravel da curva original.
O que nos permite ponderar sobre as escolhas metodologicas realizadas para os
ajustes e construcao da curva terem aproximado o conjunto M das configuracoes
de validacao ao conjunto de configuracoes pertencentes a CEP original.
64
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
-1 0 1 2 3 4 5 6 7 8 9 10
Energia Potencial (eV)
Distancia (Angstron)
10 Config.20 Config.30 Config.40 Config.
PRUDENTE et al.
Figura 4.19: Representacao de Curvas de Energia Potencial da Molecula LiH paraum conjunto de 10, 20, 30 e 40 configuracoes, para os casos em que δ apresentoua melhor convergencia RMS para o conjunto M de configuracoes de validacao,funcional analıtico da Forma 2 e matriz de correlacao Λ nao nula.
65
Capıtulo 5
Conclusao e Perspectivas
Neste trabalho discutimos alguns formalismos teoricos pautando nossa acao
no objetivo de apresentar um estudo sobre o metodo de Redes Neurais
Artificiais com o uso de Funcoes de Base Radial, como ferramenta ma-
tematica, para o ajuste de Curvas de Energia Potencial. Esta metodo-
logia foi avaliada a partir dos resultados da aplicacao na SEP do espa-
lhamento reativo H+LiH para o ajuste das CEP’s dos diatomos H2 e LiH.
O metodo das Redes Neurais e fundamentalmente utilizado na tarefa de re-
conhecimento e classificacao de padroes em um determinado sistema no qual
a sua estrutura interna e desconhecida ou nao e levada em consideracao em
sua analise, que limita-se, assim, as observacoes e medidas das relacoes de
entrada e saıda. Direcionamos nossa atencao em estudar a eficacia das redes
neurais no procedimento de ajuste de curvas de energia potencial, bem como
discutir alguns dos elementos que estao relacionados ao processo de obtencao
destas curvas e as caracterısticas associadas. Dessa forma, introduzimos o conceito
de SEP no contexto do problema molecular e apresentamos uma discussao sobre RN.
No texto apresentamos alguns tipos de tratamento do problema molecular,
bem como a aproximacao de Born-Oppheimer, discutindo, em linhas gerais,
quais as etapas e consideracoes necessarias para a construcao da superfıcie de
energia potencial, assim como o que a mesma representa. Alem disso explici-
tamos conceitos simples que embasam a teoria de redes neurais estabelecendo
certa comparacao e inspiracao entre o neuronio biologico e artificial e, prin-
cipalmente, a apresentacao de elementos que visam tratar a implementacao
desta metodologia. E no contexto de redes neurais que estabelecemos em
que consiste a utilizacao das funcoes de base radial e sobre quais parametros
sao considerados como vetores de entrada e saıda no sistema molecular estudado.
66
Os objetivos de estudar e analisar os resultados de ajustes quanto a
aplicacao do metodo de redes neurais com funcoes de base radial atuaram
como forma de validacao do modelo de rede neural utilizado, permitindo
que fosse possıvel observar qualitativamente e quantitativamente a proxi-
midade existente entre a curva ajustada e a curva de energia potencial de
referencia. Os resultados obtidos foram satisfatorios, pois demonstraram
um grau consideravel de aderencia do modelo a medida que passamos a
dispor de um conjunto maior de configuracoes de teste, onde observou-se
que ocorreu, como esperado, a convergencia em relacao a curva conhecida.
A analise dos resultados das curvas ajustadas permitiram constatar uma mudanca
sensıvel no parametro de convergencia em relacao a curva conhecida, principal-
mente, na situacao em se utilizou a matriz de correlacao. Observa-se que o uso desta
matriz no intuito de ajustar a “regularizacao”da curva obteve exito. Nota-se ainda
que dispor da segunda forma funcional analitica alıada a insercao e uso da matriz de
correlacao Λ propiciou ganho a convergencia e ao procedimento de ajuste da curva.
Como perspectiva, a metodologia utilizada aqui tambem pode ser testada
para o estudo de outros sistemas moleculares com o objetivo de analisar o impacto
causado por mudancas no algoritmo de aprendizagem utilizado. Em particular,
pretendemos realizar, em breve, calculos para o problema quantico associado ao
movimento dos nucleos, seja de estado ligado, seja de espalhamento. Do ponto de
vista metodologico pode-se tambem verificar e testar alteracoes que permitiram uma
maior convergencia e melhor ajuste para um menor numero de configuracoes visando
aumentar o nıvel de confiabilidade no modelo e abrir caminho a outras possibili-
dades. Em nosso procedimento, estabelecemos as configuracoes de testes como os
centros das gaussianas. Nota-se, que nao somente a quantidade de configuracoes es-
colhidas influenciam o processo de interpolacao, convergencia e por consequencia, o
ajuste da curva de energia potencial, mas tambem o metodo de selecao destes pontos.
A contribuicao desta dissertacao consistiu em validar a aplicacao da metolo-
gia de RNA com funcoes de base radial pela primeira vez , pelo nosso conhecimento,
em um sistema molecular atraves da analise dos resultados obtidos no ajuste de
curvas de energia potencial. E, uma vez que, nossos resultados concordam sobre
a viabilidade desta ferramenta para o caso estudado, seria interessante pensar em
propor a aplicacao desta metodologia como alternativa possıvel de testes a outros
sistemas, incluindo sistemas com mais atomos, e assim verificar o seu grau de
comportamento e flexibilidade.
67
Referencias Bibliograficas
[1] Guerra, Fabio Alessandro. Analise de metodos de agrupamento para o
treinamento de redes neurais de base radial aplicadas a identi-
ficacao de sistemas. 2006. Tese de Doutorado. Pontifıcia Universidade
Catolica do Parana.
[2] Bitencourt, Ana Carla Peixoto. Estudo de Processos Envolvendo a In-
teracao da Radiacao com Sistemas Moleculares: Transicoes Ra-
diativas e Fotodissociacao com Acoplamento Nao Adiabatico.
Dissertacao de Mestrado - Instituto de F ısica da Universidade Federal da
Bahia, 2004.
[3] Prudente, Frederico Vasconcellos. Superfıcies de energia potencial e
dinamica molecular. Orientador: Joaquim Jose Soares Neto. 1999. Tese
(Doutorado em Fısica) - Universidade de Brasılia.
[4] Haykin, Simon S., et al. Neural networks and learning machines. Vol. 3.
Upper Saddle River: Pearson Education, 2009.
[5] Castro, Leandro Nunes de. Engenharia imunologica: desenvolvimento e
aplicacao de ferramentas computacionais inspiradas em sistemas
imunologicos artificiais. UNICAMP, Campinas SP (2001).
[6] Ferneda, Edberto. Redes neurais e sua aplicacao em sistemas de recu-
peracao de informacao. Ciencia da Informacao 35.1 (2006): 25-30.
[7] Martins, Marco Antonio dos Santos, Frederike Mette, and Guilherme Ribeiro
de Macedo. A utilizacao de Redes Neurais Artificiais para a es-
timacao dos precos da Petrobras PN na Bovespa. ConTexto. v.8
n.14.
[8] Castro, Leandro Nunes de. Analise e sıntese de estrategias de aprendi-
zado para redes neurais artificiais. Campinas: FEEC, UNICAMP.
Dissertacao de Mestrado-Faculdade de Engenharia Eletrica e de Com-
putacao, Universidade Estadual de Campinas (1998): 250.
68
[9] Todesco, Jose Leomar. Introducao a inteligencia aplicada Redes Neurais.
Florianopolis. Agosto de 2004.
[10] Franco, Neide Bertoldi. Calculo numerico. Pearson, 2006.
[11] Moreno, Roberto Rivelino de Melo, and Leonardo Sena Gomes Teixeira. En-
tendendo estrutura molecular com a molecula de hidrogenio ionizada.
Quımica Nova 22.6 (1999): 883.
[12] Peixoto, Eduardo Motta Alves. Quımica Quantica. Parte II: O atomo de
Hidrogenio. Quımica Nova (1978).
[13] Peixoto, Eduardo Motta Alves. Quımica Quantica. Parte II: O atomo de
Hidrogenio. Quımica Nova (1978).
[14] Griffiths, David Jeffrey, and Edward G. Harris. Introduction to quantum
mechanics. Vol. 2. New Jersey: Prentice Hall, 1995.
[15] Phillips, Anthony C. Introduction to quantum mechanics. John Wiley Sons,
2013.
[16] Courteille, Philippe Wilhelm. Mecanica Quantica Aplicada. Universidade
de Sao Paulo. Instituto de Fısica de Sao Carlos. 18 de Junho de 2014.
[17] Arruda, Manuela Souza. Estudo Teorico-Experimental da Fotofrag-
mentacao do Acido Formico na Regiao da Valencia. Dissertacao
de Mestrado, Instituto de F ısica, Universidade Federal da Bahia, 2009.
[18] Costa, Luıs Silva da. Superfıcies de energia potencial e dinamica mo-
lecular. Orientador: Joaquim Jose Soares Neto. 2000. Tese (Doutorado
em Fısica) - Universidade de Brasılia.
[19] Zare, Richard N. Angular momentum: understanding spatial aspects
in chemistry and physics. Wiley-Interscience, 2013.
[20] Giannozzi, Paolo. Lecture notes Numerical Methods in Quantum Me-
chanics Corso di Laurea Magistrale in Fisica Interateneo Trieste. Udine
Anno accademico 2013/2014.
[21] Behler, Joerg. Representing potential energy surfaces by high-
dimensional neural network potentials. Journal of Physics.: Con-
densed Matter. V. 26. N. 18. 2014.(http://dx.doi.org/10.1088/0953-
8984/26/18/183001).
69
[22] Behler, Joerg. Neural network potential-energy surfaces in chemistry:
a tool for large-scale simulations. Phys. Chem. Sep. 2011, 13, 17930-
17955.
[23] Manzhos, Sergei, Richard Dawes, and Tucker Carrington. Neural network-
based approaches for building high dimensional and quantum
dynamicsfriendly potential energy surfaces. International Journal
of Quantum Chemistry (2014).
[24] Prudente, Frederico V., Jorge MC Marques, and Angelo M. Maniero. Time-
dependent wave packet calculation of the LiH+ H reactive scat-
tering on a new potential energy surface. Chemical Physics Letters
474.1 (2009): 18-22.
[25] Varshni, Yatendra Pal. Comparative Study of Potential Energy Functi-
ons for Diatomic Molecules. Rev. Mod. Phys. 29, 664 (1957) – Pu-
blished 1 October 1957.
[26] Ferreira, Flavio Jamil Souza. Solucoes Analıticas para a Equacao de
Schrodinger Radial com o Termo Centrıfugo Sujeita a um Po-
tencial Arbitrario. Tese de Doutorado em Fısica. Programa de Pos Gra-
duacao em Fısica do Instituto de Fısica/UFBA (2014).
[27] http://images.slideplayer.com.br/2/359165/slides/slide3.jpg.Fev/2015.
[28] http://www.icmc.usp.br/ andre/research/neural/ Fev/2015.
70
Apendice A
Tabelas
71
Tabela A.1: Representacao da convergencia RMS da molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, delta (δ) variandode 2.0a0 a 6.0a0, Funcional Analıtico de Forma 1 e 2; e Matriz de Correlacao Λ = 0 e Λ 6= 0; para o conjunto M de configuracoes devalidacao da curva de energia potencial.
H2 Delta (A) RMS: Forma 1 Λ = 0 (eV ) RMS: Forma 1 Λ 6= 0 (eV ) RMS: Forma 2 Λ = 0 (eV ) RMS: Forma 2 Λ 6= 0 (eV )10 2 0,317806 0,192230 0,015324 0,01463410 3 0,842851 0,681624 0,180282 0,12229910 4 1,250444 1,152796 0,338311 0,26480410 5 0,840715 0,661313 0,199517 0,12257910 6 1,009214 0,702855 0,200510 0,16564220 2 0,046942 0,011183 0,041628 0,00968120 3 0,161062 0,161062 0,021136 0,00480120 4 0,186603 0,084190 0,009892 0,00750520 5 0,214273 0,115320 0,013211 0,01318820 6 0,493660 0,493660 0,040359 0,03517230 2 0,011253 0,007077 0,001617 0,00064230 3 0,055795 0,052145 0,001143 0,00073530 4 0,067874 0,067863 0,000956 0,00095630 5 0,072997 0,067792 0,005260 0,00519630 6 0,135440 0,135440 0,007349 0,00732840 2 0,008903 0,008903 0,000745 0,00023840 3 0,026777 0,026777 0,000285 0,00014340 4 0,019076 0,019076 0,000589 0,00058940 5 0,019747 0,007081 0,000529 0,00019640 6 0,107560 0,107560 0,004145 0,003429
72
Tabela A.2: Representacao da convergencia RMS da molecula H2 para um conjunto de 10, 20, 30 e 40 configuracoes, delta (δ) variandode 3.0a0 a 7.0a0, Funcional Analıtico de Forma 1 e 2; e Matriz de Correlacao Λ = 0 e Λ 6= 0; para o conjunto M de configuracoes devalidacao da curva de energia potencial.
LiH Delta (A) RMS: Forma 1 Λ = 0 (eV ) RMS: Forma 1 Λ 6= 0 (eV ) RMS: Forma 2 Λ = 0 (eV ) RMS: Forma 2 Λ 6= 0 (eV )10 3 0,191479 0,186930 0,006281 0,00625210 4 0,114444 0,107175 0,002741 0,00121010 5 0,632143 0,364134 0,139970 0,08866210 6 0,215756 0,165858 0,077696 0,04228310 7 0,343676 0,315112 0,113955 0,10137820 3 0,076499 0,024457 0,002042 0,00029920 4 0,024505 0,015017 0,000133 0,00009020 5 0,176097 0,013940 0,000203 0,00020320 6 0,041625 0,054430 0,000531 0,00050120 7 0,062430 0,061814 0,007827 0,00223030 3 0,021992 0,008523 0,002532 0,00219030 4 0,004671 0,001390 0,000217 0,00003130 5 0,048936 0,002955 0,000014 0,00001230 6 0,004459 0,024526 0,000051 0,00003430 7 0,017741 0,002690 0,000070 0,00006140 3 0,027246 0,017264 0,002523 0,00189740 4 0,001441 0,000947 0,000332 0,00022640 5 0,030471 0,000562 0,000010 0,00001040 6 0,002830 0,004529 0,000062 0,00006240 7 0,006720 0,003039 0,000029 0,000006
73