joÃo francisco monteiro barragan - pei.ufba.br · joÃo francisco monteiro barragan...
TRANSCRIPT
JOÃO FRANCISCO MONTEIRO BARRAGAN
CONTRIBUIÇÕES DA TRANSFORMADA WAVELET PARA O AGRUPAMENTO E RECONHECIMENTO DE PADRÕES EM
SÉRIES TEMPORAIS
Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Engenharia Industrial, da Universidade Federal da Bahia, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Industrial. Orientadores: Prof. Dr. Cristiano Fontes
Prof. Dr. Marcelo Embiruçu
Salvador
2016
Barragan, João Francisco
Contribuições da transformada wavelet para o agrupamento e
reconhecimento de padrões em séries temporais / João Francisco
Barragan. – Salvador, 2016.
123 f. : il
Orientador(es): Prof. Dr. Cristiano Hora de Oliveira Fontes
Coorientador: Prof. Dr. Marcelo Embiruçu de Souza
Dissertação (Mestrado – Programa de pós-graduação em
engenharia industrial) – Universidade Federal da Bahia, Escola
Politécnica, 2016.
1. Reconhecimento de padrões. 2. Agrupamentos. 3. Wavelets.
4. Séries temporais univariadas. 5. Séries temporais multivariadas. I.
Fontes, Cristiano. II. Embiruçu, Marcelo. III. Título.
A Deus, família, amigos, colegas de trabalho e orientadores pelo apoio, força, incentivo, companheirismo e amizade. Sem eles nada seria possível.
Agradecimentos
A Deus por me dar força interior para superar as dificuldades.
À minha filha Júlia, por mudar minha concepção de mundo e transformar tudo em algo melhor.
Aos meus pais, Roberto Barragan e Neusa Monteiro, pelo amor e carinho incondicional e pelos ensinamentos obtidos, estes estarão comigo por toda vida!
À minha esposa, Larissa Santana, por todos os dias que acordei ao seu lado, pela cumplicidade e afeto, por me escutar e me ajudar sempre que possível.
Aos meus sogros, Vera Maria e Edson Palmeira, pela sua companhia e alegria.
A meus orientadores, professor Cristiano Hora Fontes e Marcelo Embiruçu, por todo empenho, sabedoria e compreensão.
A Otacílio Pereira, pelos ensinamentos e conselhos.
Aos professores, funcionários e colegas do Programa de Pós-graduação em Engenharia Industrial da UFBA.
Aos meus amigos, pela amizade e pelos bons momentos de descontração.
À Capes, pelo apoio financeiro.
"Todo o futuro da nossa espécie, todo o governo das sociedades, toda a prosperidade moral e material das nações dependem da ciência, como a vida do homem depende do ar. Ora, a ciência é toda observação, toda exatidão, toda verificação experimental. Perceber os fenômenos, discernir as relações, comparar as analogias e as dessemelhanças, classificar as realidades, e induzir as leis, eis a ciência; eis, portanto, o alvo que a educação deve ter em mira. Espertar na inteligência nascente as faculdades cujo concurso se requer nesses processos de descobrir e assimilar a verdade." (Rui Barbosa).
Resumo da Dissertação apresentada ao PEI/UFBA como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
CONTRIBUIÇÕES DA TRANSFORMADA WAVELET PARA O AGRUPAMENTO E
RECONHECIMENTO DE PADRÕES EM SÉRIES TEMPORAIS
João Francisco Monteiro Barragan
Julho/2016
Orientadores: Prof. Dr. Cristiano Hora de Oliveira Fontes
Prof. Dr. Marcelo Embiruçu
Análise de agrupamentos aplicada ao reconhecimento de padrões de dados é
uma alternativa potencial para a extração de conhecimentos acerca de determinado
processo e pode ser útil para a previsão de falhas, controle e tomada de decisões,
entre outros. Este trabalho apresenta uma metodologia voltada ao reconhecimento de
padrões em séries temporais uni e multivariadas, através de uma combinação de
coeficientes wavelets, métricas de similaridade baseadas em PCA e agrupamento
nebuloso (fuzzy clustering). A análise de similaridade entre os objetos é baseada na
Transformada Wavelet (TW) e uma nova métrica de distância (SPCA Multiescala,
MSPCA) é proposta a fim de considerar as distâncias entre séries temporais conforme
uma abordagem de multirresolução. Dois estudos de caso foram analisados tomando-
se como base o agrupamento e o reconhecimento de padrões visando a detecção de
falhas em processos de produção. A primeira aplicação compreendeu a análise de
séries temporais univariadas relacionadas à operação de uma turbina a gás de escala
comercial (Unidade Termoelétrica Rômulo Almeida, Petrobras). O segundo estudo de
caso compreendeu o agrupamento e o reconhecimento de padrões em séries
multivariadas tomando-se como campo de testes a planta virtual Tennessee Eastman
Process (TEP), amplamente adotada como referência para estudos de monitoramento,
controle e análise de falhas. O MSPCA melhorou significativamente a qualidade de
agrupamento e demonstrou ser uma abordagem útil em problemas de detecção e
diagnóstico de falhas (FDD, Fault Detection and Diagnosis). Em ambos os casos foi
possível reconhecer padrões de falha e modos de operação seguros, os quais
representam potenciais alternativas para o apoio à tomada de decisão na gestão
operacional e para o projeto e implementação de estratégias de controle ótimo.
Abstract of Dissertation presented to PEI/UFBA as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
CONTRIBUTIONS OF THE WAVELET TRANSFORM FOR THE CLUSTERING AND PATTERN
RECOGNITION IN TIME SERIES
João Francisco Monteiro Barragan
July/2016
Advisors: Prof. Dr. Cristiano Hora de Oliveira Fontes
Prof. Dr. Marcelo Embiruçu
Clustering and pattern recognition from data is a potential alternative for the
knowledge extraction and may be useful for predicting failures, control and support
decision making, among others. This work presents a methodology for recognizing
patterns in uni and multivariate time series based on the combination of wavelet
features, PCA similarity metrics and fuzzy clustering. The analysis of similarity between
objects is based on the Wavelet Transform (WT) and a new distance metric (Multiscale
SPCA, MSPCA) is proposed in order to consider the distance between time series
according to a multi-resolution approach. Two case studies were analyzed, both based
on the clustering and pattern recognition in order to detect failures in production
processes. The first application comprised the analysis of univariate time series related
to a gas turbine operation of commercial scale (a thermoelectric power plant of
Petrobras Brazilian oil company). The second case comprised the clustering and
pattern recognition in multivariate time series considering the Tennessee Eastman (TE)
process, a well-known benchmark industrial system used to compare various
monitoring solutions. The MSPCA significantly improved the clustering quality and
proved to be a useful approach in problems of Fault Detection and Diagnosis (FDD). In
both cases it was possible to identify failure patterns and safe operating modes which
represent potential tools to support the decision making for the operational
management and to design and implementation of optimal control strategies.
Lista de Figuras
Figura 1 - Representação de séries temporais (D'URSO e MAHARAJ, 2012). ............................................. 36
Figura 2 - Séries temporais univariadas – eletrocardiogramas (HE et al., 2006) ....................................... 37
Figura 3 - Treinamento e validação/teste no reconhecimento de padrões (JAIN et al., 2000). .................. 43
Figura 4 - Abordagens estatísticas de reconhecimento de padrões (JAIN et al. 2000). .............................. 46
Figura 5 - Agrupamento de dados (XU e WUNSCH, 2005). ........................................................................ 47
Figura 6 - Agrupamento baseado no método de densidade (ESTER et al., 1996). ..................................... 48
Figura 7 - Etapas de agrupamento (JAIN et al., 2000). ............................................................................... 49
Figura 8 - Grupo de objetos - índice de silhueta. ........................................................................................ 58
Figura 9 - Tipos de wavelets. ...................................................................................................................... 61
Figura 10 - Estiramento e deslocamento de uma wavelet (CHIANG et al., 2001). ..................................... 63
Figura 11 - Wavelet Haar. .......................................................................................................................... 68
Figura 12 - Wavelet Morlet. ....................................................................................................................... 68
Figura 13 - Wavelets Daubechies. .............................................................................................................. 69
Figura 14 - Termelétrica Rômulo Almeida (SÁ BARRETTO, 2009). .............................................................. 71
Figura 15 - Turbina a gás RB211-G62 (ROLLS-ROYCE, 2010). ..................................................................... 72
Figura 16 - Metodologia - caso 1. ............................................................................................................... 75
Figura 17 - Exemplos de partidas normais. ................................................................................................ 76
Figura 18 - Exemplos de partidas com trip por dispersão de temperatura. ............................................... 76
Figura 19 - STU e coeficientes wavelets de séries univariadas - objetos normal e falho. ........................... 77
Figura 20 - Distância inter e intra grupos. Janela de 20 minutos - vazão de gás natural. .......................... 78
Figura 21 - Distância inter e intra grupos. Janela de 20 minutos - pressão de entrada. ............................ 79
Figura 22 - Distância inter e intra grupos. Janela de 20 minutos - temperatura de exaustão ................... 79
Figura 23 - Distância inter e intra grupos. Janela de 11 minutos - vazão de gás natural. .......................... 80
Figura 24 - Distância inter e intra grupos. Caso com dois padrões de partida normal, N1 e N2. ............... 81
Figura 25- Distância entre objetos N1 e N2 versus objetos trip. ................................................................ 82
Figura 26 - Séries temporais dos padrões obtidos. ..................................................................................... 83
Figura 27 - Distância entre protótipos resultantes. .................................................................................... 83
Figura 28 - Índice de silhueta - caso univariado. ........................................................................................ 84
Figura 29 - Diagrama do TEP. ..................................................................................................................... 87
Figura 30 - Sistema de controle aplicado ao TEP (RICKER, 1996). .............................................................. 92
Figura 31 - Obtenção dos objetos multivariados. ....................................................................................... 95
Figura 32 - Método MSPCA. .......................................................................................................................... 98
Figura 33 - Exemplos de duas séries multivariadas. ................................................................................. 101
Figura 34 Distância inter e intragrupos - MSPCA. .................................................................................... 103
Figura 35 - Distância inter e intragrupos - SPCA tradicional. ..................................................................... 103
Figura 36 - Agrupamento e reconhecimento de padrões (procedimento de treinamento). ..................... 104
Figura 37 - Padrões de cada centro - MSPCA. ............................................................................................. 105
Figura 38 - Padrões de cada centro - SPCA tradicional. ............................................................................. 105
Figura 39 - Índice de silhueta em abordagem MSPCA - amostra treinamento. .......................................... 107
Figura 40 - Índice de silhueta em abordagem SPCA tradicional - amostra treinamento. ........................ 108
Figura 41 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados de validação e 2
padrões (grupo 1 e 2). .............................................................................................................................. 110
Figura 42 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados de validação e 3
padrões. .................................................................................................................................................... 111
Figura 43 - Complemento do SPCA entre dois objetos (falha e normal) - em cada escala, média e SPCA
tradicional. ............................................................................................................................................... 112
Figura 44 - Agrupamento de objetos de treinamento - wavelet Haar. ..................................................... 114
Figura 45 - Agrupamento de objetos de treinamento - wavelet Morlet. .................................................. 114
Figura 46 - Agrupamento de objetos de treinamento - wavelet Daubechies20. ...................................... 114
Lista de Tabelas
Tabela 1 - Exemplo de matriz resultante da aplicação da CWT (FUGAL, 2009) ......................................... 64
Tabela 2 - Variáveis manipuladas do TEP ................................................................................................... 88
Tabela 3 - Variáveis medidas no TEP .......................................................................................................... 89
Tabela 4 - Eventos de falha no TEP ............................................................................................................. 91
Tabela 5 - Variáveis significativamente afetadas nas falhas...................................................................... 94
Tabela 6 - Mudanças de setpoint ............................................................................................................... 94
Tabela 7 - Distribuição dos objetos de treinamento - metodologias MSPCA e SPCA tradicional .................. 106
Tabela 8 - Distâncias entre protótipos ...................................................................................................... 107
Tabela 9 - Percentual de classificação correta entre diferentes abordagens ........................................... 113
Lista de Símbolos
L
ia Média de distâncias entre objeto i intragrupo
L
ib Média de distâncias entre objeto i intergrupo mais próximo
L
is Índice de silhueta referente ao objeto i
Ks Índice de silhueta referente ao grupo k
Escala da transformada Wavelet
ij Ângulo entre componentes principais i e j
n Espaço Euclidiano n-dimensional
‖ ‖ Métrica de Frobenius da matriz A
Desvio padrão da série temporal xi
( ) Fator de similaridade da análise de Componentes principais
( ) Métrica de Mikowski
( ) Métrica de Mahalanobis
Variável p do objeto i, observada no instante de tempo t
referente ao objeto X
Esperança da série temporal xi
ãi Autovetor associado ao autovalor λi
IDV Casos de falha – Estudo de caso 2. TEP
N1 Grupo de partida Normal 1 – Estudo de caso 1. Turbina
N2 Grupo de partida Normal 2– Estudo de caso 1. Turbina
S Matriz Covariância
Tr(A) Função traço da matriz A
U(cn) Matriz de partição dos n objetos aos c clusters
uik Pertinência do objeto k ao cluster i
Vi i-ésimo Protótipo resultante de agrupamento não hierárquico
X Matriz genérica representando um conjunto de STM
XMEAS Variáveis observadas – Estudo de caso 2. TEP
XMV Variáveis manipuladas – Estudo de caso 2. TEP
Zi Matriz genérica representando uma única STM
zij Valor da variável j no instante de tempo t do objeto Zi
λi Autovalores
( ) Transformada Wavelet
( ) Coeficiente de Pearson
𝝍(t) Função Wavelet-mãe
Lista de Abreviaturas
AML Automatic Machine Learning
CA Caldeira Auxiliar
CCEE Câmara de Comercialização de Energia Elétrica
CDI Clustering Dispersion Indicator
CWT Continuous Wavelet Transform
DM Data Mining
DTW Dynamic Time Warping
DTW Discrete WaveletTransform
FCM Fuzzy C-Means
FDD Fault Detection and Diagnosis
FT Fourier Transform
HRSG Heat Recovery Steam Generator
IS Índice de Silhueta
KDD Knowledge Discovery on Data
KLT Karhunen-Loève Transform
LCSS Longest Common SubSequence
MSPCA Multiscale Similarity of Principal Component Analysis factor
NMI Normalized Mutual Information
ONS Operador Nacional do Sistema Elétrico
PCA Principal Component Analysis (análise de componentes
principais)
PIMS Process Information Management System
RNA Rede Neural Artificial
SCDA Supervisão e Controle Distribuído e Autônomo
SIN Sistema Interligado Nacional
SPCA Similarity of Principal Component Analysis factor
STM Série Temporal Multivariada
STU Série Temporal Univariada
TEP Tennessee Eastman Process
TG Turbina a Gás
TI Tecnologia da Informação
TW Transformada Wavelet
UDWT Undecimated Discrete Wavelet Transform
UFBA Universidade Federal da Bahia
UTE Usina Termelétrica
Sumário
CAPÍTULO 1. INTRODUÇÃO .................................................................................... 29
1.1 CONSIDERAÇÕES INICIAIS ........................................................................................... 29
1.2 OBJETIVOS ................................................................................................................... 33
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA E REVISÃO
BIBLIOGRÁFICA .......................................................................................................... 35
2.1 SÉRIES TEMPORAIS - CASOS UNI E MULTIVARIADO .................................................... 35
2.2 ANÁLISE DE COMPONENTES PRINCIPAIS .................................................................... 38
2.3 RECONHECIMENTO DE PADRÕES ................................................................................ 40
2.3.1 Visão geral .................................................................................................................. 40
2.3.2 Estatísticas T² e Q ...................................................................................................... 44
2.3.3 Análise de agrupamentos ........................................................................................... 45
Seleção e extração de características ......................................................................... 49
Métricas de similaridade em séries temporais ........................................................... 51
Agrupamentos ............................................................................................................. 54
Validação do agrupamento ......................................................................................... 57
2.4 WAVELETS ................................................................................................................... 60
2.4.1 Visão geral .................................................................................................................. 60
2.4.2 Principais wavelets-mãe ............................................................................................. 67
CAPÍTULO 3. ESTUDOS DE CASO ........................................................................ 71
3.1 ESTUDO DE CASO 1: DETECÇÃO DE FALHAS EM UMA TURBINA A GÁS...................... 71
3.1.1 Descrição .................................................................................................................... 71
3.1.2 Metodologia ............................................................................................................... 74
3.1.3 Resultados e discussão ............................................................................................... 75
3.2 ESTUDO DE CASO 2: DETECÇÃO DE FALHAS EM UM PROCESSO VIRTUAL DE
REFERÊNCIA ............................................................................................................................. 85
3.2.1 Descrição .................................................................................................................... 85
3.2.2 Geração dos objetos ................................................................................................... 93
3.2.3 Métrica MSPCA e a abordagem multirresolução .......................................................... 95
3.2.4 Resultados e discussão ............................................................................................. 100
CAPÍTULO 4. CONCLUSÕES ................................................................................... 117
REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................... 119
Lista de Publicações
Barragan, J. F. M.; Fontes, C. H. O.; Pereira, O. J.; Barreto, S. T. S.; Pacheco, L. A.;
“Análises de métricas de similaridades em séries temporais para o
reconhecimento de padrões”, Cadernos do IME-Série Estatística, vol. 33, p. 35,
(2012);
Barragan, J. F. M.; Fontes, C. H. O.; Pereira, O. J.; “Pattern recognition using
Wavelet analysis for fault detection in a gas turbine”, 8th International
Conference on Industrial Engineering and Industrial Management / XX
International Conference on Industrial Engineering and Operations
Management / International IIE Conference, vol. 1, p. 1-8, Malaga, Espanha, 23-
25 Jul., (2014);
Barragan, J. F. M.; Fontes, C. H. O.; Embiruçu, M.; “A wavelet-based clustering
of multivariate time series using a Multiscale SPCA approach”, Computers &
Industrial Engineering, vol. 95, p. 144–155,
http://dx.doi.org/10.1016/j.cie.2016.03.003, (2016).
29
CAPÍTULO 1
INTRODUÇÃO
1.1 CONSIDERAÇÕES INICIAIS
O avanço da Tecnologia da Informação (TI) viabilizou para empresas de diversos
setores produtivos a coleta e o armazenamento sistemático de dados e diferentes
informações provenientes de seus processos. Entretanto, ainda existem carências e
desafios no sentido de que os dados armazenados sejam transformados em
informação útil, contribuindo para uma melhor gestão do processo e melhoria das
condições operacionais. Métodos associados à geração de conhecimento [Knowledge
Discovery on Data (KDD)] e mineração de dados [Data Mining (DM)] são métodos que
utilizam dados para a geração de conhecimento útil (FAYYAD et al., 1996).
Mais especificamente, a análise dos sinais ou comportamento de variáveis ao
longo do tempo (séries temporais) representa uma alternativa de gerar conhecimento
sobre um processo, além de representar uma ferramenta imprescindível para o estudo
de sistemas mais complexos, os quais envolvem uma grande quantidade de variáveis e
correlações entre seus dados.
A análise de agrupamentos (cluster analysis) e o reconhecimento de padrões
aplicados a séries temporais contemplam um amplo e diversificado espectro de
aplicações. Uma série de desafios e avanços nestas respectivas áreas vêm sendo
desenvolvidos nos últimos anos. Dentro deste contexto, o reconhecimento de padrões
em séries univariadas já tem sido amplamente explorado (LIAO, 2005; KEOGH et al,
2001a; FU, 2011; OUYANG e YIN, 2014; BAYDOGAN et al., 2013; MISHRA et al., 2015),
sendo usualmente tratado como um problema de agrupamento de protótipo pontual
em um espaço multidimensional (BEZDEK et al., 2005). Métricas tradicionais de
similaridade (distância euclidiana) e de agrupamento não hierárquico (baseados em
30
otimização), tais como fuzzy c-means e k-means, são perfeitamente adequadas para
objetos caracterizados como séries temporais univariadas (LIAO, 2005; TREBUŇA e
HALČINOVÁ, 2013; D'URSO e MAHARAJ, 2009; RAO e REDDY, 2015).
Por outro lado, o agrupamento de séries multivariadas não compreende um
problema de protótipo pontual, ou seja, múltiplas séries temporais (associadas a
diferentes variáveis de processo) analisadas conjuntamente não podem ser tratadas
como um único vetor de pontos no n. A utilização de métricas de similaridade
tradicionais, apropriadas ao caso univariado, não podem ser aplicadas nesta situação.
Neste contexto, outros desafios são envolvidos ao considerar o aspecto multivariado
da série temporal como, por exemplo, extração de características, desenvolvimento de
outras métricas de similaridade, presença de correlação entre as séries, seleção das
variáveis apropriadas e redução da dimensionalidade do problema (RANI e SIKKA,
2012; COPPI et al., 2010; KAVITHA e PUNITHAVALLI, 2010; GHASSEMPOUR et al., 2014;
SINGHAL e SEBORG, 2005; D'URSO e MAHARAJ, 2012; ZHUANG et al., 2014; KIM et al.,
2015).
A grande dificuldade na análise de séries multivariadas reside na estrutura do
objeto, que não deve ser tratado como uma única e grande série univariada (XUN e
ZHISHU, 2010). Neste contexto, recentes estudos passaram a propor novas
metodologias para o agrupamento, o reconhecimento de padrões e a extração de
características associadas às séries temporais multivariadas, os quais representam uma
importante ferramenta para a resolução de problemas inerentes a processos
industriais (detecção de falhas, controle ótimo, identificação) (RAD e YAZDANPANAH,
2015; SEERA et al., 2015).
Alguns trabalhos ressaltam a utilização de técnicas baseadas na análise de
componentes principais (PCA, Principal Component Analysis) para a extração de
características em séries multivariadas e apresentam estudos de caso associados a
sistemas dinâmicos não-lineares (YANG e SHAHABI, 2005; SINGHAL e SEBORG, 2005;
DOBOS e ABONYI, 2012; DENG e TIAN, 2013; XUN e ZHISHU, 2010; WENG e SHEN,
2008; ZHANG et al., 2011; PARINET et al., 2004; BANKÓ e ABONYI, 2012). Yang e
Shahabi (2005) discutem sobre as desvantagens associadas a uma métrica de
similaridade baseada em PCA (SPCA) ao reconhecer padrões de falhas em dados não-
31
lineares e a sua incapacidade em fornecer representações de grande dimensionalidade
em dados com comportamento não gaussiano.
Dentre as diversas metodologias sugeridas para a extração de características e
definições de métricas de similaridades em séries temporais (VLACHOS et al., 2003a;
D'URSO e MAHARAJ, 2009), a transformada wavelet é uma ferramenta com grande
potencial dentro do campo de processamento de sinais, por apresentar melhor
desempenho em detrimento a outras técnicas tradicionais (transformada de Fourier e
suas variantes), especialmente no processamento de sinais não estacionários, devido a
sua capacidade em extrair informações ou características dos dados em ambos os
domínios do tempo e da frequência (CHAOVALIT et al., 2011; JINNA e GANESAN,
2010). Diversos estudos envolvem o desenvolvimento de agrupamentos e
reconhecimento de padrões em séries temporais univariadas baseados em
coeficientes wavelets. Dentre eles, encontram-se a classificação baseada em modelos
estruturais, tais como neuro-fuzzy e redes neurais (BAYRAM e SEKER, 2013;
SARAVANAN e RAMACHANDRAN, 2010; PARTAL e KISI, 2007; NOURANI e ANDALIB,
2015). Em geral, a transformada wavelet é utilizada na etapa de extração de
características da série, sendo seus coeficientes posteriormente utilizados na etapa de
treinamento do modelo de classificação (VLACHOS et al., 2003b; D'URSO e MAHARAJ,
2012). Quando se considera o reconhecimento de padrões em séries multivariadas a
partir de coeficientes wavelets, ainda há um número bastante reduzido de artigos
científicos explorando o tema. Dentre estes, percebe-se que tais pesquisas ocorreram
praticamente aos últimos cinco anos (D'URSO et al., 2014; CHAOVALIT et al., 2011;
JUNEAU et al., 2015; BAYDOGAN e RUNGER, 2014; SENAPATI et al., 2013; DI SALVO et
al., 2013;).
Na indústria, o reconhecimento de padrões pode ser aplicado para a detecção e
o diagnóstico de falhas [Fault Detection and Diagnosis (FDD)], os quais podem fornecer
um aumento na eficiência da produção, visto que eles permitem a detecção prévia e o
diagnóstico de uma condição de operação indesejável, permitindo a tomada de ações
corretivas. A adoção de procedimentos de detecção de falhas visa reduzir o número de
paradas indesejáveis (trips), diminuir a frequência de manutenções e manter o sistema
em condições ótimas de operação, elevando a taxa de produção. Diferentes técnicas
envolvendo agrupamentos têm sido bastante utilizadas em problemas de FDD (LI e
32
WEN, 2014; VENKATASUBRAMANIAN et al., 2003; LEE et al., 2004), conjuntamente
com técnicas tradicionais (data driven methods) (MACGREGOR e CINAR, 2012).
Este trabalho visa explorar as potencialidades da transformada wavelet em
conjunto com a utilização de métricas de similaridade baseadas em PCA e
agrupamentos nebulosos (fuzzy clustering) para o reconhecimento de padrões em
séries temporais em ambos os casos uni e multivariado. Um fator de similaridade
multiescala (MSPCA), baseado na transformada wavelet contínua [Continuous Wavelet
Transform (CWT)], é proposto com o intuito de avaliar as distâncias entre os objetos
(séries temporais multivariadas), de acordo com a abordagem multirresolução. A
abordagem proposta é aplicada em dois estudos de caso.
O primeiro estudo de caso compreende um caso real que contempla o
reconhecimento de padrões de operação em uma turbina a gás de escala comercial,
com capacidade de geração de energia de 27 MW (ROLLS-ROYCE, 2010), a qual
representa o principal equipamento da Unidade TermElétrica (UTE) Rômulo Almeida,
integrante do parque da Petrobras. Os dados foram obtidos a partir de um sistema de
gerenciamento de informações de plantas industriais [Process Information
Management System (PIMS)], disponível na UTE. Os padrões identificados viabilizaram
o reconhecimento de distinções entre as ocorrências de partidas da turbina sem e com
trip (falha) devido à ocorrência de elevada dispersão de temperatura na câmara de
combustão. Este estudo de caso representa uma etapa posterior de um trabalho
pioneiro realizado na mesma UTE, resultado de um projeto cooperativo envolvendo a
Petrobras e a UFBA (PEREIRA et al., 2014).
O segundo estudo de caso também foi voltado a um problema de FDD e
compreendeu o reconhecimento de padrões em eventos normais e anormais (falhas) a
partir de séries multivariadas geradas através da unidade virtual Tennessee Eastman
Process (TEP) (DOWNS e VOGEL, 1993; RICKER, 1996). Este processo, disponível na
internet, é amplamente adotado como referência para o estudo de técnicas de
detecção de falhas, estratégias de controle e otimização, entre outros (YIN et al., 2012;
LAU et al., 2013; YU, 2013; BAHRAMPOUR et al., 2011; ZHU et al., 2012; LI et al., 2011;
MAESTRI et al., 2010; DONG et al., 2015; YIN et al., 2014).
Conforme já ressaltado, este trabalho congrega o uso e a modificação de
técnica tradicional de agrupamento não hierárquico (fuzzy c-means), extração de
33
características através de coeficientes wavelets, reconhecimento de padrões e
classificação, culminando com o desenvolvimento de uma nova métrica de
similaridade que contempla o uso de PCA e wavelets, capaz de extrair componentes
principais dos objetos em diferentes escalas de tempo e frequência.
Na seção seguinte são apresentados os objetivos geral e específicos deste
trabalho. O segundo capítulo traz fundamentos acerca das técnicas aplicadas e destaca
os trabalhos relacionados ao tema encontrados na literatura. O terceiro capítulo
apresenta de forma mais detalhada ambos os estudos de caso, a metodologia aplicada
e os resultados obtidos, comparando-os com métodos tradicionais que não envolvem
a análise multirresolução. O quarto e último capítulo apresenta as principais
conclusões e sugere futuros trabalhos.
1.2 OBJETIVOS
O objetivo geral deste trabalho é investigar a potencialidade da transformada
wavelet para o reconhecimento de padrões em séries temporais, tendo os seguintes
objetivos específicos:
Aplicar o agrupamento multiescala univariado baseado na CWT em uma base
de dados industriais reais;
Comparar o agrupamento univariado baseado em coeficientes wavelets com o
agrupamento tradicional multivariado;
Desenvolver uma métrica de similaridade apropriada para a avaliação de
distância entre séries temporais multivariadas;
Investigar o benchmark TEP como possível alternativa para o fornecimento de
dados para problemas de detecção e diagnóstico de falhas;
Aplicar a nova métrica de similaridade proposta em um problema de
agrupamento de séries multivariadas e compará-la a métricas tradicionais;
Comparar a capacidade de detecção e diagnóstico de falhas em séries
multivariadas através da metodologia proposta em relação a técnicas clássicas
baseadas em métodos estatísticos (T² e Q);
34
Comparar a qualidade do agrupamento a partir de diferentes wavelets-mãe
para o reconhecimento de padrões.
35
CAPÍTULO 2
FUNDAMENTAÇÃO TEÓRICA E
REVISÃO BIBLIOGRÁFICA
2.1 SÉRIES TEMPORAIS - CASOS UNI E MULTIVARIADO
Define-se série temporal como uma sequência de valores reais dispostos ao
longo do tempo (RAFIEI e MENDELZON, 1997). Séries temporais são objetos típicos
envolvidos em problemas de reconhecimento de padrões e agrupamentos e
compreendem basicamente dois tipos de situações: Séries Temporais Univariadas
(STU) e Séries Temporais Multivariadas (STM) (D'URSO et al., 2014; YANG e SHAHABI,
2005; LI e WEN, 2014). Ambos os tipos de representação contêm importantes
informações para análise, classificação, indexação, predição ou interpretação (KANTZ e
SCHREIBER, 2004; HAN et al., 2011; LIAO, 2005; FU, 2011).
A busca de similaridade entre séries temporais vem recebendo uma enorme
importância nos últimos anos, em bancos de dados empresariais, médicos e científicos
(WANG et al., 2013; RAKTHANMANON et al., 2012; LHERMITTE et al., 2011; CERVELLÓ-
ROYO et al., 2015). A determinação de uma métrica que estabeleça o grau de
similaridade (ou dissimilaridade) entre duas séries temporais é uma tarefa central para
as aplicações de agrupamento e classificação (SERRA e ARCOS, 2014).
Genericamente uma amostra de objetos caracterizados, cada um deles, por
um conjunto de séries temporais pode ser representada pela seguinte matriz
tridimensional:
{ } (1)
36
onde representa o objeto, a variável e o tempo. Desta forma, representa a
variável do objeto , observada no instante de tempo . O caso univariado é aquele
no qual . Quando cada objeto é uma Série Temporal Multivariada (STM). A
matriz tridimensional pode ilustrada pelo sólido da Figura 1 (D'URSO e MAHARAJ,
2012).
Figura 1 - Representação de séries temporais (D'URSO e MAHARAJ, 2012).
Cada objeto (STM) pode ser representado por uma matriz:
[
( ) ( )
( ) ( )
] (2)
onde é o objeto, ( ) é o valor medido da variável ( ) no instante de
tempo ( ) referente ao objeto ( ). Cada coluna, portanto,
contém a série temporal relacionada à variável j no objeto . Para o caso em que
, o objeto trata-se de uma STU.
Trabalhos relacionados à similaridade entre séries univariadas já são bastante
explorados (D'URSO e MAHARAJ, 2012; LEMKE e GABRYS, 2010; IGLESIAS e KASTNER,
2013). O procedimento mais adotado em séries temporais univariadas consiste em
considerá-las simplesmente como pontos no espaço multidimensional e o cálculo da
similaridade é efetivado através de métricas consolidadas, tais como a distância
euclidiana e a distância DTW (Dynamic Time Warping) (RATH e MANMATHA, 2003).
37
Um exemplo de aplicação de série temporal univariada compreende a análise
de eletrocardiogramas (Figura 2). Neste caso, a avaliação de dissimilaridades entre
diferentes séries temporais (diferentes objetos) pode auxiliar na definição de
diagnóstico ou na classificação de um indivíduo quanto ao seu perfil cardíaco
(SNAEDAL et al., 2012; NAZIMOV et al., 2013).
Figura 2 - Séries temporais univariadas – eletrocardiogramas (HE et al., 2006)
De forma análoga, técnicas de agrupamento e reconhecimento de padrões
podem ser conduzidas em um ambiente industrial com o objetivo de distinguir
diferentes padrões de operação em um equipamento ou até mesmo em uma planta
industrial inteira a partir da avaliação de seus dados de processo. Tal procedimento
agrega novos conhecimentos a respeito do comportamento das variáveis de processo,
suas correlações e implicações, o que pode gerar uma consequente redução no
número de paradas ou elevação da taxa de produção.
STM são utilizadas nas mais diversas áreas do conhecimento, tais como em
engenharia, economia e medicina. Com o aumento da complexidade dos sistemas, a
crescente capacidade de armazenamento de dados e a dificuldade de estabelecer
relações ou identificar comportamentos típicos de processo, a determinação da
similaridade entre séries temporais multivariadas ganhou importância. Séries
multivariadas não devem ser tratadas como uma simples concatenação de várias
séries univariadas (YANG e SHAHABI, 2005). Neste caso novos desafios devem ser
considerados, quais sejam, a definição de métricas de similaridade apropriadas, a
redução de dimensionalidade, a extração de características e novos algoritmos de
agrupamento (COPPI et al., 2010; D'URSO et al., 2014; PEREIRA et al., 2012; KAVITHA e
38
PUNITHAVALLI, 2010; RANI e SIKKA, 2012; SINGHAL e SEBORG, 2005). Alternativas
específicas com base na análise de componentes principais (PCA, Principal Component
Analysis) e transformadas wavelets (WT, Wavelet Transform) são apresentadas na
literatura (D'URSO et al., 2014; CHAOVALIT et al., 2011).
2.2 ANÁLISE DE COMPONENTES PRINCIPAIS
Análise de componentes principais, também chamada de transfomada discreta
de Karhunen-Loève (KLT, Karhunen-Loève Transform) ou ainda transformada Hotelling,
é uma técnica estatística bastante aplicada no desenvolvimento de métodos
multivariados de monitoramento de processos (YANG e SHAHABI, 2005; YOON et al.,
2005) e na análise de séries financeiras (LESCH et al., 1999). A análise de componentes
principais pode ser definida como uma técnica de redução de dimensionalidade, a qual
consiste na transformação de um conjunto de variáveis originais por outro conjunto de
variáveis auxiliares, denominadas componentes principais.
Considere uma matriz de dados X de ordem onde é o número de
variáveis medidas e é o número de pontos ou medições de cada variável (Equação
3).
[
]
(3)
A PCA viabiliza a determinação de vetores ou componentes característicos
associados aos dados originais e posterior transformação da amostra original em
novas variáveis não correlacionadas (VARELLA, 2008). Neste sentido, a PCA também
pode ser entendida como uma técnica que identifica padrões nos dados e é capaz de
ressaltar correlações, similaridades ou diferenças entre as variáveis de processo.
Os componentes principais são, por definição, os autovetores da matriz de
covariância dos dados (SHLENS, 2014). A matriz de covariância (Equação 5) é composta
39
por todas as covariâncias contemporâneas (medições no mesmo instante de tempo)
entre as variáveis que compõem a amostra original (colunas da matriz ). A
covariância entre determinada variável e ela própria é denominada simplesmente
variância (JOHNSON e WICHERN, 1999). A covariância contemporânea entre duas
variáveis e sua respectiva matriz de covariância , são dadas, respectivamente, por:
( ) ∑ ,( ( ) ) ( ( ) )-
(4)
[ ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ]
(5)
Sendo uma matriz de posto completo, ela possuirá componentes principais,
os quais podem ser determinados resolvendo-se a equação característica da matriz S:
(6)
onde é uma matriz diagonal contendo os autovalores resultantes da Equação 6,
organizados de forma decrescente, o sobrescrito T representa a função transposta e V
é uma matriz ortogonal de dimensão , cujas colunas são os autovetores associados ao
respectivo autovalor e representam os componentes principais obtidos. Um
conjunto de componentes principais é capaz de representar ou explicar um percentual
da variância total da amostra original de dados. Este percentual é determinado pelos
autovalores associados aos componentes. A redução de dimensionalidade implica na
seleção dos autovetores, ou componentes principais, capazes de representar um
percentual significativo (geralmente acima de 95%) da variabilidade quantificada
através dos autovalores. Definindo uma quantidade de componentes principais
adequada para a representação dos dados, onde , é possível projetar as variáveis
originais em um conjunto menor de variáveis descorrelacionadas através de:
40
(7)
onde T representa a nova matriz representativa do conjunto de dados X, e A é obtida
através da seleção de colunas da matriz V. A projeção nas variáveis originais do
conjunto de dados e o resíduo observado podem ser obtidos através de:
(8)
(9)
onde E, denominada matriz resíduo, captura variações entre os dados originais X e
aqueles obtidos através da aplicação de a componentes principais, ou seja, a matriz
(CHIANG et al., 2001). Conforme será visto na seção de métricas de similaridade, a
comparação entre as direções dos componentes principais associados a conjuntos de
séries temporais (STM) oferece uma alternativa viável e eficiente de medição de
similaridade entre estes conjuntos.
2.3 RECONHECIMENTO DE PADRÕES
2.3.1 Visão geral
De forma geral, o reconhecimento de padrões compreende a identificação de
objetos similares e a sua associação em grupos cujos centros representam o protótipo
(ou padrão) de cada grupo. A tarefa de reconhecimento de padrões abrange três
etapas: a análise e extração de características, que envolve a definição de atributos
relevantes dos objetos; o agrupamento, que se baseia em uma determinada métrica
de similaridade entre os objetos; e, por último, o projeto de modelos classificadores
capazes de reconhecer a pertinência ou não de um dado objeto a um determinado
grupo ou classe (OLSZEWSKI, 2001; BEZDEK et al., 2005).
Problemas de reconhecimento de padrões contemplam uma diversidade de
tipos de objetos possíveis. Um objeto por sua vez é caracterizado por seus respectivos
atributos, que são considerados no processo de análise de similaridades. Um objeto
pode ser, entre outros, uma palavra grafada, uma digital, um rosto humano ou um
41
sinal de voz. Na análise de eletrocardiogramas, por exemplo, os objetos são
caracterizados pela atividade elétrica registrada durante um exame realizado em um
paciente (PENNY et al., 2000).
Aplicações do reconhecimento de padrões incluem os mais variados campos de
pesquisa, quais sejam, reconhecimento facial e de voz (KIMURA et al., 1987), controle
de processos (RENGASWAMY, 1995), análise de grafotécnica (XU et al., 1992), análise
de eletroencefalogramas (GEVINS et al., 1998), estudos genéticos (GALAS et al., 1985),
análise de tráfego (DE LA ESCALERA et al., 2003), reconhecimento de digitais (JAIN et
al., 2000), reconhecimento de expressões humanas e aplicação em sistemas
inteligentes (PICARD e HEALEY, 1997).
O avanço na área de tecnologia da informação aliado ao aumento na
capacidade de processamento de grandes bases de dados viabilizou a aplicação de
métodos mais elaborados de reconhecimento de padrões. A combinação de diferentes
técnicas, tanto na etapa de extração de características quanto na etapa de
classificação, tem se tornado uma prática comum no reconhecimento de padrões (JAIN
et al., 2000). Neste contexto, diversos trabalhos conjugam diferentes técnicas de
análise de sinais, como as mais diversas transformadas (Fourier, wavelet, etc.), redes
neurais, sistemas de inferência fuzzy, dentre outros (CHEN et al., 2009; LALL et al.,
2007; PARK e PARK, 2005). As quatro abordagens mais estudadas para o
reconhecimento de padrões são:
Casamento de padrões (template matching);
Reconhecimento estrutural ou sintático;
Redes neurais;
Classificação estatística.
Uma das técnicas mais simples para o reconhecimento de padrões consiste no
casamento de padrões. É amplamente utilizada para avaliar a similaridade entre
pontos, curvas ou formas com um determinado objeto, considerando aspectos de
translação, rotação e escala. As correlações entre os objetos, ou métricas de distância,
são usualmente utilizadas e a taxa de erro de classificação é o principal critério de
avaliação da qualidade do reconhecimento do padrão (JAIN et al., 2000). Exemplos de
42
trabalhos compreendem o de Lee et al. (2001) que identificou nódulos pulmonares em
imagens de raios-x e núcleos celulares de imagens obtidas em microscópios. Trabalhos
na área de identificação de pessoas através da biometria também exploram a
abordagem de casamento de padrões (THANKI et al., 2014).
No reconhecimento estrutural de padrões, também conhecido como
reconhecimento sintático, a discriminação dos dados é baseada em inter-relações
morfológicas. Tal abordagem mostrou-se efetiva em aplicações com imagens e séries
temporais (FU, 1982). Um recente trabalho que discute o atual progresso das técnicas
envolvidas no reconhecimento sintático de padrões é apresentado por Kanal e
Rosenfeld (2014).
Redes neurais são estruturas de modelos matemáticos que compreendem
células (neurônios) de processamento, interligadas por diversas intensidades de
conexões, mimetizando o funcionamento de uma rede neural biológica (BISHOP,
1995). As famílias de redes neurais mais utilizadas para o reconhecimento de padrões
são as de perceptron multicamadas e os mapas auto-organizáveis (JAIN et al., 2000). O
sistema de aprendizado consiste na atualização constante da arquitetura da rede e dos
pesos de suas conexões de forma que o sistema consiga realizar a tarefa posterior de
classificação com alto índice de acerto. Sethi e Jain (2014) recentemente publicaram
um livro voltado apenas ao reconhecimento de padrões, explorando e discutindo a
aplicação das redes neurais neste contexto.
A abordagem estatística está sustentada na teoria de decisões, na qual os
objetos são discriminados através de um processo de extração de características. Uma
variedade de técnicas estatísticas pode ser aplicada à etapa de extração de
características e à etapa de classificação [análise discriminante (JUANG e KATAGIRI,
1992), inferência bayesiana (GEORGE e HAWKINS, 2005), análise de agrupamentos
(GARDNER, 1991), dentre outros]. A extração de características pode compreender
estatísticas das mais simples, como média e desvio padrão, até o uso de métodos de
processamento de sinais (transformadas de Fourier, transformadas wavelet e
transformadas Hough).
Na abordagem estatística, cada objeto é representado em termos de n
características e é visualizado como um ponto no espaço n-dimensional. Um objetivo
fundamental é a determinação daquelas características que permitirão que os objetos
43
de diferentes categorias ocupem regiões disjuntas no espaço n-dimensional de
características. A efetividade da representação espacial está diretamente relacionada à
separação das diferentes categorias de objetos e, neste contexto, a seleção de uma
métrica de similaridade adequada ao conjunto de objetos é imprescindível. Tal como
em um problema de identificação de modelos, o reconhecimento de padrões
compreende uma etapa de treinamento e de teste (Figura 3). Neste caso, o
treinamento consiste na obtenção dos padrões propriamente ditos e a etapa de teste
consiste na classificação de objetos não considerados durante a etapa de treinamento,
de acordo com os padrões reconhecidos durante a fase de treinamento. A classificação
de cada objeto consiste na determinação do grupo ou do padrão com o qual o objeto
possui maior similaridade.
Figura 3 - Treinamento e validação/teste no reconhecimento de padrões (JAIN et al.,
2000).
Dado um padrão, seu reconhecimento/classificação pode ser realizado a partir
de dois enfoques. No reconhecimento supervisionado os objetos de treinamento já
possuem uma categoria definida (ou rótulo) dentro do grupo de dados estudado.
Assim, há uma prévia informação da classificação dos objetos. Em muitas aplicações,
entretanto, é inviável o conhecimento ou rotulação prévios dos objetos aos grupos
que serão utilizados na etapa de treinamento (classificação não supervisionada).
Muitas vezes não se possui sequer a informação acerca da quantidade de padrões ou
de grupos existentes na amostra de dados disponível (JAIN et al., 2000).
Em relação ao reconhecimento de padrões em séries multivariadas, o presente
trabalho congrega a comparação da eficiência entre técnicas clássicas da estatística
44
multivariada - estatísticas T² (Hotelling) e Q - discutidas na próxima seção, além da
técnica tradicional de análise de agrupamentos baseada em fuzzy c-means, com uma
nova metodologia proposta de análise de agrupamentos, baseada em uma abordagem
multiescala (obtida pela aplicação da transformada wavelet) em conjunto com uma
nova métrica aplicável ao caso, denominada de SPCA multiescala (MSPCA).
2.3.2 Estatísticas T² e Q
Uma importante aplicação do reconhecimento de padrões empregada em
sistemas industriais é a detecção e o diagnóstico de falhas [Fault Detection and
Diagnosis (FDD)]. Uma falha pode ser definida como um desvio não desejado de pelo
menos uma propriedade ou variável do sistema (ISERMANN e BALLÉ, 1997). Neste tipo
de problema os objetos em estudo são o conjunto de variáveis observadas em um
evento com ou sem falha, representados por séries temporais univariadas (STU) ou,
para eventos mais complexos, séries temporais multivariadas (STM).
As diversas técnicas oriundas da estatística multivariada aplicadas aos dados de
processo representam uma abordagem amplamente utilizada em cenários de FDD, em
especial as estatísticas T² e Q (XIAO, 2004; DETROJA et al., 2006; ZHONG et al., 2016).
Limites inferiores e superiores de detecção de determinada falha podem ser definidos
para a utilização da estatística T², assumindo que os objetos em estudo foram
aleatoriamente amostrados a partir de uma distribuição normal multivariada (CHIANG
et al., 2001). Para o caso específico onde a matriz de covariância (Equação 5) dos
objetos não é conhecida, mas estimada a partir da amostra, os limites de detecção são
calculados para determinado nível de significância α, por:
( )( ) ( )
( ) (10)
Onde se refere à quantidade das componentes principais capazes de representar
um mínimo de 95% da variabilidade presente dos dados. Por sua vez, α é o nível de
significância estatística de cometer erro do tipo I (rejeição da hipótese nula, apesar de
verdadeira). é o número de observações (tamanho da amostra) de cada variável e
45
( ) é o limite superior da distribuição de Fisher com e
graus de liberdade. Esta estatística pode ser considerada como uma forma de medir
continuamente alterações nas variáveis de processo, onde qualquer violação ao limite
estabelecido indica que estas estão fora de controle (trip). Entretanto, a utilização
somente de T² pode ser insuficiente, pois tal estatística realiza apenas o
monitoramento dos eixos principais determinados pela PCA (OUNI et al., 2012). Para a
detecção de desvios em componentes principais de menor variabilidade (que não
deixam de ser falhas), utiliza-se a estatística Q (CHIANG et al., 2001):
* √
( )
+
⁄
(11)
∑
(12)
(13)
onde cα é o valor obtido diretamente da distribuição gaussiana correspondente ao
percentil (1-α), representa o valor singular, que é a raiz quadrada positiva do
autovalor correspondente ( ), e representa o limiar de detecção de falhas
imposto através da estatística Q com base em um nível de significância α.
A partir da utilização de ambas estatísticas é possível verificar a capacidade de
identificação de falhas em um determinado sistema multivariado e,
consequentemente, compará-las a diferentes abordagens.
2.3.3 Análise de agrupamentos
Técnicas de agrupamento consistem basicamente no objetivo de congregar
uma amostra de sinais com o fim de desenvolver um sistema capaz de estabelecer
padrões de comportamento não facilmente identificados (ROSE, 1998). Para ser
possível o estabelecimento de tais grupos, busca-se a separação dos objetos de uma
amostra de treinamento de forma a minimizar uma determinada função pré-
estabelecida. Técnicas de agrupamentos são vastamente exploradas no campo de
46
reconhecimento de padrões e compressão de sinais (WATANABE, 2014; HATAMLOU et
al., 2012; DUDA et al., 2012; CHEN et al., 2016; FERREIRA et al., 2015).
No contexto de reconhecimento de padrões, uma das divisões propostas por
Jain et al. (2000) possibilita localizar a análise de agrupamentos dentro das técnicas de
reconhecimento de padrões estatístico (Figura 4) e será utilizada como base para o
desenvolvimento do sistema de reconhecimento de grupos em séries temporais neste
trabalho. A análise de agrupamentos pertence à categoria de problemas de
aprendizado não supervisionado. Neste tipo de situação não há informação que
permita a distinção ou rotulação prévia dos objetos a serem agrupados.
Figura 4 - Abordagens estatísticas de reconhecimento de padrões (JAIN et al. 2000).
Em problemas mais simples, a própria percepção humana é capaz de realizar o
agrupamento de forma satisfatória, independente da utilização das técnicas de análise
de agrupamentos. Porém, ao se deparar com problemas mais complexos, tem-se a
necessidade de aplicação de técnicas ou algoritmos específicos para o reconhecimento
de grupos e padrões (JAIN et al., 2000).
Como ilustração, a Figura 5 apresenta uma série de objetos representados por
três características, referentes às dimensões de flores. Uma técnica de agrupamento
deve ser capaz de estabelecer os grupos de forma a distribuir os objetos conforme a
similaridade relativa às características consideradas (classificação dos objetos
representada pelas diferentes cores: azul, verde e vermelho).
47
Figura 5 - Agrupamento de dados (XU e WUNSCH, 2005).
Han e Kamber (2011) classificam os métodos de agrupamento em quatro
grandes grupos: métodos hierárquicos, métodos baseados em densidade, métodos de
grade e métodos de partição (não hierárquicos).
Os métodos hierárquicos podem ser aglomerativos ou divisivos. Nos métodos
aglomerativos, cada objeto é inicialmente rotulado como um grupo distinto e
posteriormente os grupos mais semelhantes são agrupados entre si, até que algum
critério de convergência seja alcançado. De forma inversa, o algoritmo divisivo
inicialmente considera todos os dados pertencentes a um único grupo e
posteriormente este é subdividido iterativamente em subgrupos conforme um critério
de convergência (JAIN et al., 1999, ZHAO e KARYPIS, 2002). Ao contrário das técnicas
não-hierárquicas, os métodos hierárquicos não requerem a definição prévia do
número de grupos existente na amostra (MEILA e HECKERMAN, 2013).
Grande parte dos métodos de agrupamento é indicada para a obtenção de
grupos convexos (toda a trajetória entre dois pontos quaisquer deste grupo está
contida dentro do próprio grupo). Quando se trata da obtenção de grupos não
convexos (Figura 6), os métodos baseados em densidade são indicados, pois dois
pontos de diferentes grupos podem estar mais próximos entre si do que pontos do
mesmo grupo (KRIEGEL et al., 2011). Isto é possível devido a este método utilizar o
conceito de densidade local entre os pontos, em detrimento das métricas de distância
(ESTER et al., 1996).
48
Figura 6 - Agrupamento baseado no método de densidade (ESTER et al., 1996).
Os métodos de grade dividem o espaço dimensional de variáveis em um
número finito de células, os quais formam uma estrutura de grade, onde todas as
operações de agrupamento são conduzidas (HAN e KAMBER, 2001). Trabalhos
apontam que, para dados com alta dimensionalidade, as técnicas de grade possuem
resultados superiores (HINNERBURG e KEIM, 1999).
A ideia básica por trás do agrupamento não hierárquico é a obtenção do
mínimo de uma função objetivo baseada na distância total entre os objetos e os
respectivos centros de cada grupo (JAIN et al., 2000). Tal solução consiste basicamente
em um processo iterativo, onde um determinado número de centros (k) é atualizado
até que a função objetivo se encontre em um mínimo (LIAO, 2005). Dentre os métodos
de partição, os agrupamentos podem ser rígidos ou nebulosos, conforme o nível de
certeza atribuído à pertinência de um objeto a um dado grupo (JAIN et al., 2000). O
agrupamento k-means é a técnica mais conhecida e aplicada de agrupamento rígido
(AYRAMO e KARKKAINEN, 2006). Fundamentados na lógica nebulosa, os algoritmos
Fuzzy C-Means (FCM) e fuzzy c-medoids utilizam o conceito de que cada objeto não
pertence exclusivamente a um determinado grupo e, portanto, possui níveis de
pertinência diferentes a grupos diferentes (BEZDEK et al., 1984). O emprego do
agrupamento nebuloso é perfeitamente aplicável e justificável nas situações onde não
há uma clara separação ou estrutura nos dados e a sobreposição de grupos ou perfis
de comportamento conduz a uma incerteza no processo de agrupamento (KANNAN et
al., 2012; VELMURUGAN, 2014).
A Figura 7 representa as etapas elementares presentes em qualquer problema
de agrupamento, quais sejam: seleção e extração de características, seleção de
49
métricas de similaridade aplicáveis ao objeto em questão, aplicação de um algoritmo
de agrupamento e validação de grupos (GAN et al., 2007).
Figura 7 - Etapas de agrupamento (JAIN et al., 2000).
O emprego do termo “objeto” é intencional devido à inerente diversidade de
aplicações e cenários presentes em problemas de reconhecimentos de padrões. De
forma geral os objetos se classificam em dados de objetos, os quais se dividem em
objetos numéricos e não numéricos (dados categóricos), e dados relacionais (BEZDEK
et al., 2005). Dados categóricos possuem atributos qualitativos sem que haja um
ordenamento natural entre os objetos, sugerindo-se como estratégia de agrupamento
para este caso, devido à intrínseca subjetividade (ou incerteza de informação)
presente neste contexto, o emprego da lógica fuzzy (HÖPPNER, 1999). Dados
relacionais, por sua vez, referem-se a índices que quantificam o nível de correlação
entre os objetos ao invés dos objetos propriamente ditos (BEZDEK et al., 2005).
Seleção e extração de características
Na etapa de seleção das características - ou atributos - são identificadas, dentre
as diversas possibilidades - qualitativas, quantitativas, discretas ou contínuas - aquelas
que possibilitam a melhor representação dos objetos em questão. É uma etapa que
precede a técnica do agrupamento (WIDODO e YANG, 2007). Deve-se ter o cuidado de
avaliar a possibilidade de existência de erros experimentais nos dados, bem como a
relevância deles para o estudo. Um importante fator a ser destacado é que nem
sempre uma maior quantidade de características leva a melhores resultados (JAIN et
al., 2000). Dados correlacionados, com presença de outliers ou de dados não
representativos, são apenas alguns dos fatores que podem prejudicar as etapas
50
posteriores do agrupamento e, portanto, devem ser avaliados ou até mesmo
preteridos. Os métodos de extração de características têm por objetivo determinar um
conjunto de características de um determinado objeto dentre de um espaço maior, de
forma que tais valores escolhidos sejam o suficiente para conseguir caracterizar de
forma sistemática e concisa o objeto original (JAIN et al., 2000).
Ainda nesta etapa compreende-se o pré-processamento dos dados, de forma a
torná-los aptos à aplicação das técnicas em etapas posteriores. A amostragem e a
normalização dos dados são técnicas amplamente utilizadas no pré-processamento, de
forma que as variáveis em estudo se apresentem de forma adimensional, o que evita
se chegar a resultados incoerentes devido simplesmente à diferença de escala entre as
diferentes variáveis. A normalização de um conjunto de dados X, organizados de forma
estabelecida pela Equação 3 pode ser realizada através das seguintes alternativas:
Normalização com média zero e variância 1:
( ) (14)
Normalização pelo valor máximo:
( ) (15)
onde e ( ) são, respectivamente, a média e o desvio padrão da variável j e é a
medição da variável normalizada.
Uma abordagem distinta utilizada no processamento dos dados se apóia no uso
de diferentes transformadas para o conjunto de dados original. As transformadas vêm
sendo aplicadas de forma progressiva no reconhecimento de padrões, com o objetivo
de extrair características e reduzir a dimensionalidade dos problemas de classificação.
Dentre estas se incluem transformadas lineares, tais como a análise de componentes
principais, transformada de Fourier e, mais recentemente, transformadas wavelets
(GOTTUMUKKAL e ASARI, 2004; WOOD, 1996; PITTNER e KAMARTHI, 1999). Em
51
contextos de bancos de dados mais complexos, tais como problemas multivariados,
onde a dimensionalidade passa a ser um fator que dificulta a organização,
representação e agrupamento dos objetos, a análise de componentes principais (PCA)
é uma das transformadas mais amplamente utilizadas no meio científico
(MOHAMMED et al., 2011; DENG e TIAN, 2013; METSALU e VILO, 2015).
Métricas de similaridade em séries temporais
A quantificação da similaridade entre objetos é uma das principais etapas em
diversos problemas de análises de séries temporais e mineração de dados (FU, 2011),
além de representar uma fase crítica na análise de agrupamentos, pois ela é que
possibilitará, ou não, a diferenciação entre objetos e, consequentemente, uma solução
adequada na etapa de agrupamento. A etapa de medida de similaridade geralmente é
conduzida a partir de uma norma de proximidade entre os objetos. Baseado no tipo de
objeto em estudo, diferentes métricas são propostas (BERKHIN, 2006).
Especificamente para o caso de séries temporais univariadas a métrica mais
amplamente difundida e trabalhada é a distância Euclidiana, cuja forma generalizada
para duas STU X e Y compreende a distância de Mikowski:
( ) (∑( )
)
⁄
(16)
onde N é um número inteiro positivo, m representa o tamanho das séries temporais e
e são os pontos (medições) de cada série X e Y. A partir da Equação (16) chega-se
a diversas distâncias conhecidas, como Manhattan (N=1) e Euclidiana (N=2) (SERRA e
ARCOS, 2014). Tal grupo de normas apresenta uma série de vantagens, dentre as quais
sua fácil interpretação intuitiva, implementação simples e ausência de parâmetros.
Entretanto, seus resultados são altamente sensíveis a ruídos e a atrasos (lags) nos
dados (WANG et al., 2013).
Outra métrica amplamente utilizada em trabalhos científicos é a distância DTW
(Dynamic Time Warping), discutida por Berndt e Clifford (1994). Tal abordagem
52
apresenta como principal vantagem sobre a distância Euclidiana o fato de possibilitar a
compressão e deslocamento de séries, evitando problemas como diferenças na escala
e de atrasos entre as séries comparadas (WANG et al., 2013).
A distância de Mahalanobis é utilizada para o cálculo de distâncias entre séries
univariadas e também possui a propriedade de ser invariante a diferentes escalas (JAIN
et al., 1999). Tal métrica baseia-se nas correlações entre as séries, que pode ser
calculada da seguinte forma:
( ) √( ) ( ) (17)
onde são as séries temporais e representa a matriz de covariância entre as
séries. O coeficiente de Pearson também é uma métrica baseada na correlação entre
as séries (LIAO, 2005). Sejam duas STU e de comprimento , o coeficiente de
correlação pode ser calculado por:
∑ ( ) ( )
(18)
onde e são, respectivamente, a média e o desvio padrão da série temporal X, de
forma semelhante e representam as médias e desvio padrão da série Y, e e
são as medições das séries X e Y.
Todas as abordagens citadas, incluindo outras como LCSS (Longest Common
SubSequence), são métricas baseadas nas próprias séries temporais (raw data). Uma
abordagem distinta consiste na aplicação das métricas descritas sobre características
extraídas das séries temporais, como as obtidas através de transformadas (JAIN et al.,
1999). Exemplos dela incluem o uso da distância Euclidiana dos coeficientes de Fourier
das séries, coeficientes de autocorrelação, transformadas wavelets, dentre outros
(FUKUNAGA, 2013; QIAO et al., 2012; BARRAGAN et al., 2012).
Há ainda uma série de métricas específicas para o cálculo de similaridade entre
séries temporais aplicáveis ao caso multivariado. A distância de Frobenius é uma
norma matricial que pode ser utilizada como métrica de similaridade entre duas STM.
53
Dada uma matriz A, com dimensão m por l, a sua norma de Frobenius pode ser dada
pela Equação 19.
‖ ‖ √∑∑| |
(19)
onde são os coeficientes da matriz A. Uma forma alternativa de calcular a distância
de Frobenius pode ser realizada através da Equação 20.
‖ ‖ √ ( ) (20)
onde AH representa a matriz transposta de A e Tr a função matricial traço, que
consiste na soma dos elementos da diagonal principal da matriz (HARVILLE, 1997).
O SPCA (PCA Similarity Factor) é uma métrica baseada na análise e
decomposição em componentes principais (PCA). A distância entre duas STM é
quantificada através das diferenças entre as direções dos respectivos componentes
principais que compõem cada STM. Ou seja, se dois objetos são constituídos por séries
temporais que guardam entre si padrões de relação semelhantes, então estes objetos
seriam considerados como similares.
Dado dois objetos A e B de dimensão k, podem ser gerados subespaços
menores apenas com a componentes principais de cada um dos objetos. Geralmente a
quantidade a de componentes principais é determinada a partir da quantidade
necessária para descrever 95% da variabilidade total dos dados originais. O SPCA realiza
a comparação entre estes subespaços a partir da Equação (21):
( )
∑∑
(21)
onde representa os ângulos entre os componentes principais das duas séries.
Algumas modificações são propostas para as métricas discutidas. Para o caso do SPCA,
54
algumas alterações envolvem o uso dos autovalores de forma a atribuir peso ao SPCA
original (SINGHAL e SEBORG, 2002). Para agrupamentos de séries temporais
multivariadas, uma versão modificada do índice SPCA foi proposta neste trabalho,
denominada SPCA multiescala (MSPCA).
Agrupamentos
Dentre os métodos de partição não hierárquica, os métodos baseados nos
modelos c-means são os mais utilizados e validados quanto à eficiência e a
aplicabilidade em problemas de agrupamento de protótipo pontual (BEZDEK et al.,
2005; HÖPPNER, 1999). De forma geral, um método não hierárquico tem como
objetivo a obtenção de uma distribuição de n elementos em ( ) grupos
(FERREIRA et al., 2015), gerando também uma matriz de partição ( n) tal que
refere-se à pertinência do objeto ( ) ao grupo ( =1,...,c). A matriz de
partição essencialmente representa o resultado de um problema de agrupamento na
medida em que, através das pertinências de cada objeto aos diferentes grupos,
estabelece a composição de cada grupo.
Dentre os métodos baseados em modelos c-means, o algoritmo Fuzzy C-Means
(FCM) destaca-se pela sua eficiência e capacidade de resolver problemas de
agrupamento nos quais a estrutura ou definição dos grupos não se apresenta de forma
tão evidente e há sobreposição entre as fronteiras dos grupos (MELIN e CASTILLO,
2014; NAYAK et al., 2015; BEZDEK et al., 2005). O algoritmo FCM compreende o
problema de otimização descrito a seguir. Sejam objetos * | + Deseja-se
obter centros (padrões ou protótipos de cada grupo) * | + e uma matriz de
partição (pertinências com e =1,...,c), de tal forma que:
( ) ∑∑ ‖ ‖
(22)
sujeito a:
55
∑
(23)
∑
(24)
onde ( ≥ 1) é denominado de parâmetro “fuzzificador”. A primeira restrição
(Equação 23) estabelece que nenhum grupo pode ser vazio enquanto que a segunda
(Equação 24) determina que a soma das pertinências de um dado objeto a todos os
grupos deve ser igual à unidade (abordagem probabilística).
Se cada objeto é representado por uma série temporal univariada com m
pontos (problema de protótipo pontual):
(25)
O problema de otimização proposto possui as seguintes soluções através da
aplicação das condições de otimalidade (condições necessárias de primeira ordem):
∑
∑
⁄ (26)
.
‖ ‖ /
∑ (
‖ ‖ )
∑ (‖ ‖
‖ ‖)
⁄
(27)
A Equação 26 estabelece que o centro de um dado cluster seja a média
ponderada de todos os objetos, considerando como peso o grau de pertinência de
cada objeto ao referido cluster. O algoritmo clássico do método FCM baseado nas
Equações 26 e 27 compreende o seguinte processo iterativo:
56
1) Definição do número de clusters c (2 c n), de ( ≥ 1) e de δ
(tolerância). Faça L=0 e estabeleça uma estimativa inicial para a matriz
U (U0);
2) Cálculo dos centros conforme Equação 26;
3) Atualização da matriz U através da Equação 27;
4) Cálculo da norma da diferença matricial (UL+1-UL) e verificação do
critério de tolerância (δ).
Quanto maior o valor de maior será o nível de “fuzzyificação” (ou incerteza)
associado ao problema de agrupamento. Nível elevado de incerteza no agrupamento
implica em dificuldade (ou falta de certeza) na definição dos grupos. Ou seja, se 1
o agrupamento tenderá à participação rígida com graus de pertinência próximos de 0
ou 1 simplesmente (BEZDEK et al., 2005, HÖPPNER, 1999). Valores elevados de são
sugeridos quando não há previamente uma clara distinção entre os grupos. Em geral,
= 2 é o valor adotado nas aplicações (HOPNNER, 1999; FERREIRA et al., 2013).
A solução para os centros dos grupos (Equação 26) e a formulação clássica do
algoritmo FCM baseiam-se na aplicação da distância Euclidiana como métrica de
similaridade entre os objetos. Entretanto, quando a distância Euclidiana não se aplica,
a Equação 26 não é valida. Este é o caso de um problema de protótipo não pontual e o
exemplo típico é o agrupamento de séries temporais multivariadas.
Considerando que cada objeto ( ) é uma série temporal
multivariada, com variáveis e instantes de medição, o problema de otimização
pode ser formulado conforme segue:
( ) ∑∑ ‖ ‖
(28)
.
‖ ‖ /
∑ (
‖ ‖ )
(29)
57
onde Vi são STM que representam os centros - ou protótipos - dos grupos.
Neste caso, o método FCM consiste na resolução do problema de minimização
(Equações 28 e 29) através da aplicação de um método clássico de otimização. A
métrica de distância referente a cada objeto e os centros de cada grupo deve ser
obtida iterativamente através de uma métrica apropriada para séries temporais
multivariadas, tal como o SPCA. Este procedimento representa, portanto, a adaptação
do algoritmo clássico do FCM para um problema de protótipo não pontual envolvendo
STM, e será tratada de maneira mais aprofundada no estudo de caso multivariado.
Validação do agrupamento
Validação de agrupamentos, cujo objetivo precípuo é o de avaliar a qualidade
de um algoritmo de agrupamento, consiste em uma etapa fundamental para o
desenvolvimento de uma aplicação bem sucedida de reconhecimento de padrões (LIU
et al., 2010). Existem duas categorias principais de critérios para investigar a qualidade
do agrupamento obtido, quais sejam, externo ou interno (RENDÓN et al., 2011). A
principal distinção entre tais métodos se baseia na utilização ou não de informação
externa para a validação do agrupamento. Uma profunda discussão acerca dos índices
de validação externa e interna pode ser encontrada em Desgraupes (2013).
No critério externo, a avaliação é baseada em um agrupamento de referência
(ou agrupamento preliminarmente particionado) que compreende uma informação
externa disponível, porém não utilizada no problema de agrupamento. Um critério
quantitativo pode ser calculado no sentido de verificar a proximidade da solução
obtida com relação ao agrupamento de referência. Os índices externos mais
encontrados na literatura são: medida-F (F-measure), informação mútua normalizada,
(Normalized Mutual Information, NMI), puridade (Purity) e entropia (entropy)
(RENDÓN et al., 2011).
No critério interno a avaliação dos agrupamentos é conduzida a partir das
próprias características dos objetos em análise e dos resultados da partição
propriamente dita, sem que haja a utilização de nenhuma informação externa não
considerada na formulação do problema de agrupamento. Neste caso, um índice de
validação pode contemplar a própria função objetivo adotada no algoritmo. Diversos
58
índices de validação internos já foram propostos na literatura, dentre os quais os mais
citados são: índice de Dunn (Dunn index), índice de Davies-Bouldin (Davies-Bouldin
index) e o índice de silhueta (silhouette index) (SAITTA et al., 2007).
Para ambos os estudos de caso deste trabalho foi adotado o índice de silhueta
(ROUSSEEUW, 1987) para avaliar a qualidade do agrupamento conduzido. Tal índice
leva em consideração a proximidade de cada objeto em relação ao seu grupo de
pertinência e a um segundo grupo mais próximo. Como ilustração, considere os grupos
A, B e C (Figura 8). Para um dado objeto i pertencente ao grupo A, pode-se definir:
ai: média das distâncias do objeto i para todos os demais objetos de A;
di,C: média das distâncias do objeto i para todos os objetos pertencentes ao
grupo C;
di,B: média das distâncias do objeto i para todos os objetos pertencentes ao
grupo B.
Figura 8 - Grupo de objetos - índice de silhueta.
O índice de silhueta associado ao objeto i é dado por:
( ) ( ) (30)
O caso ideal de agrupamento seria aquele no qual .
Analogamente, uma situação oposta de má qualidade de agrupamento seria onde
, ou seja, o objeto i estaria mal alocado, já que possui maior
similaridade com outro grupo diferente do seu grupo de pertinência. O intervalo
59
possível para o índice de silhueta é tal que si [-1; 1] e a distribuição dos índices de
silhueta para todos os objetos da amostra fornece uma avaliação detalhada da
qualidade do agrupamento obtido.
De uma maneira genérica, considere um objeto i {1,2,...,N} pertencente ao
grupo p {1,2,...,c}. Em um contexto de agrupamento rígido isto indica que o objeto i
está localizado mais próximo ao grupo p de acordo com uma norma definida. Já em
contextos de agrupamento nebuloso, isto indica que o grau de pertinência do objeto i
é maior em relação ao grupo p em comparação a qualquer outro grupo. Seja a
distância média entre o objeto i e todos os objetos pertencentes ao grupo p e a
distância média entre este objeto i e todos os objetos pertencentes a outro grupo q,
onde . Finalmente, considere como o mínimo observado para
o que representa a similaridade do objeto i em relação a seu grupo
vizinho mais próximo. Desta forma o índice de silhueta rígido do objeto i é calculado
da seguinte forma:
{ } (31)
Um índice de silhueta global para o agrupamento pode ser estabelecido a partir
da média aritimética entre os índices de silhuetas individuais relativos a cada objeto:
∑
(32)
O valor de IS possui interpretação análoga à Si, ou seja, quanto mais próximo
de 1 mais compacto e agrupado está o grupo gerado. É importante destacar que o
índice de silhueta pode ser aplicado tanto a séries temporais univariadas quanto
multivariadas, bastando a utilização de uma métrica coerente para o cálculo das
distâncias entre os objetos resultantes (STARCZEWSKI e KRZYŻAK, 2015). Há ainda
versões modificadas do índice de silhueta, tal qual sua versão fuzzy (CAMPELLO e
HRUSCHKA, 2006):
60
∑ ( )
∑ ( )
(33)
onde se refere ao índice de silhueta do objeto i de acordo com a Equação 31, e
se referem, respectivamente, ao primeiro e segundo elemento da coluna j dentro
da matriz de partição U e é o índice “fuzzificador”. Diferentemente do índice de
silhueta rígido, este índice baseia-se em uma média ponderada e não aritmética, onde
a diferença entre os graus de pertinência relativos aos grupos mais representativos de
determinado objeto são utilizados como peso para o cálculo do índice.
2.4 WAVELETS
2.4.1 Visão geral
Wavelets são funções em forma de onda que possuem valor médio igual a zero
e energia finita (CHUI, 2014). Percival e Walden (2000) definem uma wavelet como
uma “pequena onda” com suporte compacto, geralmente não simétrica e capaz de
extrair características de sinais não estacionários. Diz-se que uma função f possui
suporte compacto se existe um intervalo fechado e limitado fora do qual f(x) = 0 (DE
LIMA, 2002). A ideia oposta a de uma wavelet seriam “grandes ondas”, tais como as
funções seno e cosseno, já que estas funções possuem valores que se repetem
indefinidamente (energia infinita) (FUGAL, 2009). Uma determinada função ( ) deve
possuir certas propriedades para que possa ser considerada uma wavelet (WEISS e
WILSON, 2001):
A integral de ( ) é zero:
∫ ( )
(34)
A integral do quadrado de ( ) (energia do sinal) é um:
61
∫ ( )
(35)
A primeira propriedade garante que a função tenha a forma de onda. Todos os
valores positivos da função devem necessariamente ser compensados com valores
negativos. A segunda propriedade estabelece que a função tenha valor zero a partir de
um dado intervalo de tempo (ou seja, energia finita). Neste sentido, a energia da
função é restringida à unidade (PERCIVAL e WALDEN, 2000). Outra condição,
conhecida como condição de admissibilidade, requer que seja possível reconstruir o
sinal original a partir da função transformada (coeficientes wavelets) (PERCIVAL e
WALDEN, 2000).
Algumas wavelets são definidas por uma expressão matemática. Desta forma,
elas podem ser avaliadas em qualquer ponto (contínuas e infinitas). Estas são
conhecidas como wavelets cruas. Entretanto, para serem utilizadas em códigos de
programas, estas wavelets infinitas devem ser reduzidas a um número finito de
pontos, ou discretizadas (FUGAL, 2009). O grupo de pontos amostrados das wavelets
cruas é denominado de filtro. É plenamente possível criar novas e específicas funções
wavelets, desde que estas funções obedeçam às três condições citadas. Entretanto,
excluídas determinadas aplicações com motivos específicos, não se recomenda nem se
faz necessário utilizar uma nova função wavelet, devido ao fato de já existirem
diversos tipos de wavelets consolidadas na literatura, desde as não simétricas até as
mais simples e pioneiras como a wavelet Haar (Figura 9).
Figura 9 - Tipos de wavelets.
62
Quanto ao seu uso, wavelets são ferramentas matemáticas que podem ser
utilizadas em diversas aplicações, tais como em séries temporais, imagens, sinais de
vibração, reconhecimento de vozes, análises de eletrocardiogramas, compressão de
dados, dentre outros (FOUFOULA-GEORGIOU e KUMAR, 2014; BODYANSKIY e
VYNOKUROVA, 2013; SANG, 2013).
Para o caso específico de análise de séries temporais, a transformada de
Fourier (FT, Fourier Transform) pode ser utilizada para extrair todas as frequências de
um determinado sinal. No entanto, a FT não é capaz de determinar a informação
temporal da localização de cada uma destas frequências e, portanto, é inapropriada
para a análise de sinais nos quais a série temporal possui um caráter não estacionário
[um sinal que permanece com uma frequência constante é dito ser estacionário
(FUGAL, 2009) ou nos quais a informação temporal é relevante (BAKSHI E
STEPHANOPOULOS, 1994). Neste contexto, para séries temporais não estacionárias
recomenda-se a utilização da transformada wavelet, pois ela é capaz de obter as
componentes de frequência de um sinal associando a informação acerca da localização
temporal dos eventos de interesse (CHEN e BUI, 1999). A transformada wavelet de um
sinal (uma função) f(x) é dada por:
( ) ∫ ( ) ( )
(36)
A Figura 10 apresenta uma ilustração de como a wavelet é capaz de detectar
uma anomalia, um pulso, ou qualquer outro evento em um sinal. A wavelet-mãe
(função wavelet antes de sofrer qualquer translação ou dilatação) é transladada e
comprimida diversas vezes e comparada com o sinal original. Consequentemente, a
transformada wavelet é resultante da comparação (convolução) entre o sinal em
estudo e a função wavelet. A convolução entre dois sinais f e g determina o grau de
superposição entre eles a partir da translação de um dos sinais (FISHER e TAŞ, 2005):
( )( ) ( ) ∫ ( ) ( )
(37)
63
onde “*” representa a operação de convolução e u denota os atrasos de tempo (lags).
Figura 10 - Estiramento e deslocamento de uma wavelet (CHIANG et al., 2001).
A partir da análise da transformada wavelet é possível visualizar quais os
momentos e em qual escala (associada à frequência) foi percebida uma alta correlação
entre o sinal e a wavelet. Este resultado pode representar uma característica
importante para o agrupamento e o reconhecimento de padrões em séries temporais
(WENG E SHEN, 2008).
O parâmetro de translação t (Equação 36) está relacionado à localização da
função wavelet enquanto ela é deslocada através do sinal e, portanto, traz a
informação temporal sobre o sinal. O parâmetro de escala é definido como o inverso
da frequência e corresponde à informação da própria frequência do sinal em estudo.
Na transformada wavelet, a wavelet-mãe primeiramente é deslocada (transladada)
através de todo o sinal. Posteriormente, a função wavelet é esticada (dilatada) e
novamente é utilizada para filtrar o sinal completamente. Após a realização de todas
as combinações da wavelet, tanto comprimida ou esticada () quanto transladada no
tempo (t), um quadro completo de correlação entre a Wavelet e o sinal é gerado,
tendo-se tanto a informação temporal quanto a de frequência.
64
Existem dois grandes tipos de transformadas wavelet: a transformada wavelet
contínua (CWT, Continuous Wavelet Transform) e a transformada wavelet discreta
(DWT, Discrete Wavelet Transform) (DAUBECHIES, 1992). Apesar de todas wavelets
serem discretas, há uma clara distinção entre a CWT e a DWT. A transformada wavelet
contínua é assim chamada pois a wavelet-mãe pode ser esticada e deslocada por
qualquer número inteiro. Já no caso da DWT, a wavelet-mãe é apenas esticada e
deslocada por potências de 2, o que é chamada de amostragem diádica (FUGAL, 2009).
Além desta diferença, na DWT o intervalo de amostragem é dobrado a cada
incremento de escala, enquanto que na CWT o intervalo de amostragem é constante.
Apesar da extensa utilização da DWT em reconhecimento de padrões envolvendo
séries temporais, a amostragem diádica pode não oferecer resultados satisfatórios na
análise de sinais com invariância translacional, o que sugere, nestes casos específicos,
o uso da amostragem uniforme (CWT) (BAKSHI e STEPHANOPOULOS, 1994)
O resultado típico obtido a partir da aplicação da transformada wavelet pode
ser entendido como uma série de coeficientes organizados na forma de uma matriz. Os
resultados obtidos ao longo do eixo horizontal deste plano representam os valores da
convolução resultante entre a wavelet e o sinal para cada parâmetro t (instante de
tempo). Cada linha da matriz representa um valor de escala () fixo com as
translações sofridas pela função wavelet. Já os valores dispostos ao longo do eixo
vertical representam, para um tempo fixo, variações na frequência da função wavelet
(alongamentos e compressões na função) (Tabela 1).
Tabela 1 - Exemplo de matriz resultante da aplicação da CWT (FUGAL, 2009)
=10 101,2 50,6 0,0 50,6 101,2 101,2 75,9 50,6
=9 80 26,7 26,7 80 106,7 80 53,3 26,7
=8 113,1 56,6 0,0 56,6 113,1 84,9 56,6 28,3
=7 90,7 30,2 30,2 90,7 90,7 60,5 30,2 0,0
=6 98,0 65,3 0,0 65,3 98,0 65,3 32,7 0,0
=5 71,6 35,8 35,8 71,6 71,6 35,8 0,0 0,0
=4 80,0 40,0 0,0 40,0 80,0 40,0 0,0 0,0
=3 46,2 0,0 0,0 46,2 46,2 0,0 0,0 0,0
65
=2 56,6 0,0 0,0 0,0 0,0 0,0 0,0 0,0
=1 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
Uma importante característica da transformada wavelet se dá pela sua
capacidade de reconstrução do sinal original através de seus coeficientes. A
reconstrução do sinal f(x) é realizada a partir da transformada wavelet contínua
inversa:
( )
∫ *∫ (
)
√ (
) +
(38)
∫| ( )|
(39)
( ) ∫ (
) (40)
onde W(,t) representa os coeficientes wavelets, x a variável independente original,
a escala e 𝝍 a função wavelet-mãe utilizada para obtenção dos coeficientes.
A utilização da transformada wavelet pode representar ainda uma importante
redução da dimensionalidade dos sinais (KEOGH et al., 2001b), uma vez que, ao
decompor o sinal em diferentes frequências, pode-se eliminar aqueles que não sejam
de interesse para análise, tais como ruídos ou medições oriundas de imprecisão nos
sensores (LIANG et al., 2014; MAJI e ROY, 2015; YILDIRIM e WATSON, 2015; BARBOSA
et al., 2015; JOHN et al., 2012).
A primeira menção a uma wavelet se deu pelo surgimento da wavelet Haar,
proposta pelo trabalho de A. Haar em 1910. No entanto, os trabalhos científicos
iniciaram a empregar os conceitos das wavelets apenas a partir dos trabalhos de
Mallat (1989) e Daubechies (1988) na segunda metade da década de 80, onde todo o
desenvolvimento da teoria wavelet recebeu grandes avanços e uma importância até
então nunca apresentada.
Inicialmente aplicada ao campo de análise de sinais sísmicos, a análise wavelet
tem nos últimos 15 anos resultado em uma enorme quantidade de trabalhos nos
campos da matemática, física, geologia, computação, engenharia, dentre outros
66
(MONTEFUSCO e PUCCIO, 2014; MOTARD e JOSEPH, 2013; YOUNG, 2012).
Especificamente para o reconhecimento de padrões utilizando wavelets, Pittner e
Kamarthi (1999) realizaram uma interessante discussão acerca do uso dos coeficientes
wavelets como características a serem utilizadas no reconhecimento de padrões,
concluindo que seu uso é capaz de reduzir a dimensionalidade dos dados, além de
incrementar o desempenho na etapa de classificação. Bayram e Seker (2013)
utilizaram a wavelet Daubechies20 como base na análise multirresolução para
distinguir sinais de baixa e alta frequências em motores elétricos.
Diversos trabalhos exploraram e ainda desenvolvem novas técnicas de utilizar a
transformada wavelet em conjunto com redes neurais artificiais. Exemplos são
encontrados em Lee (1996), que propõe o reconhecimento de números escritos à mão
a partir de uma rede neural multicamada cujas entradas são coeficientes wavelets. A
taxa de erro obtida variou entre 0,75% a 3,20% para diferentes experimentos. Na
mesma linha, Osowski e Nghia (2002) compararam a capacidade de três diferentes
estruturas de redes neurais para o reconhecimento de formas em 2D a partir de
coeficientes da transformada de Fourier e da transformada wavelet. Já Szu (1996)
comparou a utilização das transformadas wavelet contínua e discreta para o
reconhecimento de padrões baseado em redes neurais em imagens.
Além da ampla utilização dos coeficientes wavelets em conjunto com redes
neurais artificiais, uma série de trabalhos - assim como a pesquisa desenvolvida neste
trabalho - resolveu explorar técnicas de agrupamento utilizando os coeficientes
wavelets. Lin et al. (2004) consideraram o uso de agrupamentos a partir de
coeficientes wavelets em séries temporais univariadas baseados no algoritmo de
agrupamento incremental. Após ser aplicada a transformada wavelet à série temporal,
todos os coeficientes resultantes foram utilizados na etapa de agrupamento.
Vlachos et al. (2003b) apresentaram uma metodologia para realizar
agrupamento incremental de séries temporais a partir da transformada wavelet. Nesse
trabalho, utilizou-se Haar como wavelet-mãe e em cada resolução foi aplicado o
algoritmo k-means para obtenção do padrão. Por ser uma área relativamente nova, a
aplicação de agrupamentos a partir de coeficientes wavelets para séries temporais
multivariadas tem ainda um número muito pequeno de pesquisas. Uma importante
referência ao tema é encontrada em D'Urso e Maharaj (2012), que sugeriram e
67
discutiram a utilização de variâncias e correlações entre os coeficientes wavelets de
diferentes séries temporais multivariadas, tanto em sinais estacionários como em
transientes. Os autores comparam ainda métodos de agrupamento fuzzy e crisp para a
metodologia proposta. Os resultados obtidos apontam, a partir da validação realizada
com o índice de silhueta, que a utilização das correlações e variâncias wavelets são
especialmente úteis na discriminação de séries temporais multivariadas,
especialmente aquelas com conjuntos longos de dados.
Há ainda aplicações específicas para o estudo de falhas de turbinas a gás
utilizando wavelets. Para a detecção e diagnóstico de falhas, Lemma e Hashim (2012)
desenvolveram um sistema capaz de detectar e diagnosticar falhas em uma turbina a
gás utilizando análise wavelet e uma rede neural auto-associativa. Dados reais foram
utilizados para o treinamento da rede, com um resultado de detecção superior a 95% e
diagnóstico correto do tipo de falha entre 96% a 100%. Xu et al. (2007) também
conduziram um experimento mesclando as técnicas de transformada wavelet e redes
neurais com propósito de diagnóstico de falhas. Neste trabalho as wavelets Morlet
foram escolhidas como função base para a extração de características utilizadas pela
rede.
Estudos em que se utilizam as transformadas wavelets possibilitam um amplo
leque de possibilidades para o reconhecimento de padrões, seja por sua capacidade de
analisar o sinal em resoluções específicas ou pela possibilidade de utilizar determinada
wavelet-mãe para o problema específico que melhor se adapte à realidade do
experimento.
2.4.2 Principais wavelets-mãe
Wavelets Haar foram as primeiras wavelets a surgirem. Simples, apresentam
descontinuidades e, portanto, não são suaves ou regulares. Quando utilizadas em
filtros de comprimento de apenas dois pontos, apresentam uma excelente resolução
temporal, mas uma resolução de frequência limitada. Podem ser utilizadas em CWT ou
DWT. Possuem ótima detecção de bordas, de sinais binários e são adequadas para
séries curtas (FUGAL, 2009). Suas representações matemáticas e gráficas estão
apresentadas, respectivamente, nas Equação 41 e Figura 11:
68
( )
{
,
)
,
)
(41)
Figura 11 - Wavelet Haar.
A família de wavelets Morlet (em homenagem a Jean Morlet) foi a primeira
família de wavelets desenvolvida após a Haar. Também conhecida algumas vezes como
gaussiana modulada, a wavelet Morlet pode ser descritas pela Equação 42 e é
mostrada visualmente na Figura 12:
( ) (
( )) (42)
Figura 12 - Wavelet Morlet.
69
As wavelets Morlet possuem propriedades simétricas, regulares e possuem
suporte efetivo entre -4 a +4. Por possuir a possibilidade de gerar apenas um filtro a
ser dilatado e ser não-ortogonal, somente é utilizada na CWT. Graças à sua suavidade e
periodicidade, wavelets Morlet são particularmente capazes de serem aplicadas a
sinais periódicos, pulsos senoidais e dados atmosféricos (FUGAL, 2009).
Wavelets Daubechies não possuem uma fórmula matemática explicita. Os
filtros mais longos são obtidos a partir da wavelet-mãe, interpolando pontos a partir
dos filtros menores. Alguns filtros gerados a partir desta wavelet são apresentados na
Figura 13.
Figura 13 - Wavelets Daubechies.
Pode-se perceber que as wavelets Daubechies não são suaves (sua primeira
derivada não é contínua), mas possuem certa regularidade ao se observar filtros com
maior número de pontos. Ao utilizar os filtros mais longos, se ganha resolução na
70
frequência e perde-se na resolução temporal. Por serem não-simétricas, são bastante
aplicadas ao processamento de imagens (FUGAL, 2009).
71
CAPÍTULO 3
ESTUDOS DE CASO
3.1 ESTUDO DE CASO 1: DETECÇÃO DE FALHAS EM UMA
TURBINA A GÁS
3.1.1 Descrição
O primeiro estudo de caso compreendeu a análise e detecção de falhas na
Unidade Termelétrica Rômulo Almeida (UTE-RA), situada no município de Camaçari
(Bahia). A UTE-RA (Figura 14) é uma unidade integrante do parque industrial da
Petrobras e que possui três Turbinas a Gás (TG) com capacidade de geração de 27 MW,
cada uma, e uma caldeira de recuperação [Heat Recovery Steam Generator (HRSG)]. A
unidade ainda possui uma Caldeira Auxiliar (CA) e uma turbina a vapor com capacidade
de geração de até 56 MW. A unidade opera em ciclo combinado, tem como principal
insumo o gás natural, produz 260.3 t/h de vapores de alta e baixa pressão e tem uma
capacidade máxima de geração de 137 MW de energia elétrica.
Figura 14 - Termelétrica Rômulo Almeida (SÁ BARRETTO, 2009).
72
A energia gerada pela UTE é fornecida ao Sistema Interligado Nacional (SIN) no
qual o Operador Nacional do Sistema elétrico (ONS) coordena e controla a operação e
transmissão de energia elétrica. Conforme acordado com o ONS, havendo qualquer
ocorrência que impeça o fornecimento de energia por parte da UTE-RA, a unidade
estará sujeita a penalidades significativas, que terão impacto direto no seu
desempenho financeiro.
Os vapores de alta e baixa pressão produzidos pela UTE são fornecidos a uma
série de indústrias do Complexo Petroquímico de Camaçari (BA). Este fornecimento
também é regido por regras previstas em contratos. Assim, o não cumprimento de
certas cláusulas implicará na aplicação de severas multas contratuais.
Este cenário estabelece que é essencial para o gestor operacional da Unidade o
controle sobre o processo e a predição de possíveis falhas que acarretariam a
interrupção do processo de fornecimento. Além do prejuízo financeiro proveniente de
uma parada operacional da Unidade, outros riscos estariam contemplados neste
contexto, tais como a ocorrência de danos aos equipamentos e acidentes.
As turbinas a gás representam o principal componente do processo e são
responsáveis pela maior quantidade de energia elétrica gerada (81 MW são gerados
pela turbina a gás e 56 MW pela turbina a vapor). O modelo de cada turbina é o
RB211-G62 DF, do fabricante Rolls-Royce.
Uma turbina a gás, cuja configuração típica é mostrada na Figura 15, é uma
turbomáquina que possui como insumos o ar e um combustível. No caso da UTE-RA, o
combustível utilizado é o gás natural. A turbina a gás produz vapor e energia mecânica
e, quando acoplada a um gerador elétrico, possibilita a geração de energia elétrica
(SARAVANAMUTTOO et al., 1996).
Figura 15 - Turbina a gás RB211-G62 (ROLLS-ROYCE, 2010).
73
A composição básica de uma turbina a gás contempla compressor, câmara de
combustão e expansor. O ar necessário à queima é admitido e comprimido pelo
compressor, fluindo em seguida para a câmara de combustão onde se mistura com o
gás natural. Uma chama piloto é utilizada para dar início à combustão. Os gases
formados na reação passam com altas velocidades e temperaturas pelo expansor da
turbina que é acoplado a um gerador de energia, transformando energia mecânica em
energia elétrica. Este conjunto opera em um ciclo aberto, ou seja, o fluido de trabalho
(ar) é admitido na pressão atmosférica e os gases de escape, após passarem pela
turbina, são descarregados de volta na atmosfera sem que retornem à admissão.
As TG de modelo RB211 Rolls-Royce dispõem de nove combustores distribuídos
radialmente em um anel central localizado entre o compressor e o expansor. O sistema
de controle da RB211 foi projetado para desarmar o equipamento caso a temperatura
de algum dos 17 sensores de temperatura dispostos radialmente nas câmaras de
combustão se distancie em 150 ºC da média de temperatura de todas as câmaras,
de forma a proteger o equipamento de danos por dilatação diferencial. Quando este
desarme ocorre, caracteriza-se um trip por dispersão de temperatura.
Vários motivos podem causar uma falha e parada (trip) (GIAMPAOLO, 2006),
por exemplo: dispersão de temperatura, surgência, vibração, além de outras.
Entretanto, não há um conhecimento sobre as causas ou pertubações que levam à
ocorrência de tais falhas. Um agravante na situação de estudo é observado pela
detecção tardia do evento de falha, o qual somente é verificada após a atuação de
controle automático de sistema de proteção para proceder ao desligamento do
equipamento. Não há nenhuma informação prévia acerca da dinâmica do padrão de
falha, ou mesmo uma definição em relação às variáveis úteis com relação à capacidade
de predição da falha (FONTES e PEREIRA, 2016). Desta forma, adotou-se para este
estudo de caso a aplicação de um algoritmo de agrupamento baseado em FCM na
transformada wavelet. Com base em entrevistas e análise dos relatórios de operação
da turbina, selecionou-se investigar o desarme (ou trip) por dispersão de temperatura.
A escolha desta forma específica de causa geradora se deu por ser um desarme com
maior número de ocorrências desde 2008, por seu impacto na interrupção ser
significativo e pelo potencial de predição com base nas variáveis coletadas.
74
3.1.2 Metodologia
O projeto como um todo compreende as seguintes etapas principais,
representadas pela Figura 16:
Etapa 1. Geração das amostras. Através dos relatórios de operação e da base de dados
proveniente do PIMS, todas as ocorrências das três turbinas a gás foram
levantadas e classificadas em 70 eventos (62 normais e 8 com trip por dispersão
de temperatura). O algoritmo de varredura linear (TRAUB et al., 1998)
possibilitou a captura de cada evento de partida da turbina, contemplando a
vazão de gás natural como variável de estudo. Os dados extraídos referem-se
ao período de 2008 a 2010 com período de amostragem de 1 minuto;
Etapa 2. Transformada wavelet e análise de similaridade intra e inter grupos. Esta
etapa envolveu o cálculo do nível de similaridade/dissimilaridade em cada
grupo gerado (objetos normal e com falha). A transformada wavelet contínua
(Equação 36) utilizando Haar como wavelet-mãe ( ) foi aplicada às series de
vazão como forma de extração de características dos objetos. A similaridade
pode ser então calculada entre as matrizes resultantes de tal transformada, a
partir da utilização da norma de Frobenius (Equação 19);
Etapa 3. Agrupamento e reconhecimento de padrões. O método Fuzzy C-Means (FCM,
Equações 26 e 27) foi aplicado ao conjunto de 70 objetos com o objetivo de
obter diferentes protótipos representativos dos objetos, além do cálculo de
grau de pertinência entre os objetos e os padrões. Nesta etapa a validação do
agrupamento foi realizada através do índice de silhueta (Equação 32), o que
permitiu a comparação dos resultados com outros trabalhos de agrupamento
sobre a mesma base de dados.
75
Figura 16 - Metodologia - caso 1.
3.1.3 Resultados e discussão
A primeira etapa do projeto contemplou a obtenção da base de dados
proveniente do PIMS, disponível na unidade UTE-RA. Foram obtidas variáveis medidas
durante todo o período entre 2008 a 2010 referente às três turbinas a gás presentes
na unidade. Tal sistema de gerenciamento continha um total de oito variáveis, a saber:
setpoint, potência ativa bruta, potência ativa, geração de energia total, vazão de gás
natural, pressão de entrada na câmara de combustão, temperatura de entrada e
temperatura de saída dos gases de exaustão. Através do algoritmo de varredura linear
obtiveram-se os objetos (séries temporais) apenas a partir do momento de partida do
equipamento (estado transiente), além de identificá-los em 62 partidas normais e 8
com trip por dispersão de temperatura, através do uso dos relatórios de operação da
turbina. Dois objetos normais e dois com trip obtidos nesta etapa estão apresentados
com três de suas variáveis de processo nas Figuras 17 e 18.
76
Figura 17 - Exemplos de partidas normais.
Figura 18 - Exemplos de partidas com trip por dispersão de temperatura.
Pode-se perceber a partir das figuras anteriores que após a partida da turbina
(em torno de t=60 min) a falha devido à dispersão por temperatura nestes objetos
ocorre em um intervalo de 30 minutos (considerando todos objetos trip o tempo
médio é de 20 minutos até a falha), porém visualmente não é possível estabelecer uma
distinção entre o comportamento dinâmico das variáveis que conduziram a um evento
normal a um de falha, o que reforça a aplicação de um algoritmo de reconhecimento
de padrões para evidenciar as dissimilaridades entre os objetos e possibilitar ao
operador uma tomada de decisão prévia à falha do equipamento.
77
Dentre as oito variáveis obtidas, selecionou-se aquela que apresentou maior
potencial de segregação entre diferentes objetos. Para atingir tal objetivo, os dados
foram pré-processados, passando por um “enjanelamento” de 20 minutos
(amostragem dos pontos referentes aos objetos a partir do momento da partida até o
instante da falha) e normalização (Equação 7), sendo posteriormente aplicada a
transformada CWT para extração de características. Utilizou-se a wavelet-mãe Haar
para a convolução (transformada das séries temporais) e obtenção da matriz de
coeficientes referente a cada objeto, onde o número de escalas foi definido como o
número de pontos da série temporal ( max = n). A similaridade entre os objetos foi
calculada através da aplicação da norma de Frobenius entre os coeficientes wavelets
referentes a cada objeto. Exemplos de dois objetos (um normal e um com trip), além
da matriz de coeficientes wavelets obtidos através da CWT estão mostrados na Figura
19.
Figura 19 - STU e coeficientes wavelets de séries univariadas - objetos normal e falho.
Percebe-se na Figura 19 que em valores de tempo entre t=10 e t=14 e valores
de escala no intervalo = 9 e = 15 (círculo vermelho na Figura 19) os objetos
apresentam valores de coeficientes wavelets diferentes entre si. Este tipo de distinção
apenas é visualizado a partir de uma abordagem multiescala e demonstra o potencial
da aplicação de CWT com o intuito de evidenciar dissimilaridades entre os objetos.
78
Desta forma espera-se que as diferenças visualizadas nos coeficientes wavelets entre
diferentes objetos permitam a obtenção de padrões mais coesos na etapa de
agrupamento.
Comparou-se a distância dos coeficientes wavelets entre os 62 objetos normais,
além da distância entre os 8 objetos de trip e, por último, a distância entre os objetos
normais e os objetos com trip. Os resultados obtidos para diferentes variáveis foram
comparados e estão representados nas Figuras 20, 21 e 22. A variável vazão de gás
apresentou uma mediana de distâncias relativas ao grupo normal menor em relação às
outras variáveis, o que implica que a seleção da vazão de gás indica ser mais adequada
para a etapa de agrupamento, na medida em que permitiu a identificação de um
conjunto de objetos normais que possuíam coesão (alta similaridade). Além disso,
segundo Fontes e Pereira (2016), a variável vazão de gás natural representa a variável
mais apropriada para a identificação da ocorrência de partida da turbina diretamente
deste banco de dados. A explicação desta afirmação se dá devido à própria natureza
do comportamento dinâmico das variáveis, de tal forma que, ao ser realizada a partida
da turbina a gás, imediatamente a vazão de gás natural também aumenta. Esta
resposta rápida não é verificada para outras variáveis, tais como as temperaturas de
entrada e de exaustão dos gases, o que reforça a seleção da vazão de gás como
variável de estudo, pois quanto mais cedo um padrão de falha possa ser reconhecido,
maior o intervalo de manobra para a tomada de ações corretivas.
Figura 20 - Distância inter e intra grupos. Janela de 20 minutos - vazão de gás natural.
79
Figura 21 - Distância inter e intra grupos. Janela de 20 minutos - pressão de entrada.
Figura 22 - Distância inter e intra grupos. Janela de 20 minutos - temperatura de
exaustão
Definida a escolha da variável vazão de gás, uma análise mais detalhada da
Figura 22 demonstra que em janelas de 20 minutos é possível perceber uma
segregação nas características das curvas com trip e normais. Através da aplicação de
janelas menores (Figura 23 - 11 minutos) não foi possível observar uma distinção maior
entre as distâncias normal-trip, ou seja, houve apenas uma perda de informações sem
um ganho de segregação entre os objetos. Por isso estabeleceu-se um intervalo de
janela de 20 minutos para a etapa seguinte de agrupamento.
80
Figura 23 - Distância inter e intra grupos. Janela de 11 minutos - vazão de gás natural.
Também foi possível observar uma grande quantidade de pontos que se
distanciaram muito do valor central dentro do grupo normal (outliers mostrados nas
Figuras 20 a 23). Isto motivou um estudo mais aprofundado para a verificação da
existência de dois grupos (clusters) distintos dentro do grupo de partidas normais, ou
seja, a ocorrência de duas formas de partida da planta gerando um evento normal. A
verificação de que o valor da mediana entre a distância intergrupos resulta em um
valor menor em relação à distância trip-trip (Figura 20) também reforça a hipótese da
presença de um grupo de objetos categorizados como normais, porém com
comportamento similar às séries de falha.
A partir da aplicação do algoritmo FCM (Equações 26 e 27), com um valor pré-
definido de c=3 grupos, foram gerados protótipos (padrões) típicos entre as partidas
normais da turbina (denominados grupos N1 e N2), além do grupo de trip. A partir da
pertinência uik de cada objeto aos três protótipos obtidos - disponível na matriz de
partição U resultante do algoritmo FCM -, foi possível classificar os objetos citados
como pertencentes aos grupos normais do tipo-1 e do tipo-2. A Figura 24 apresenta o
Box-plot considerando as distâncias inter e intragrupos. Um total de 47 objetos foram
classificados no grupo normal tipo-1 e 15 objetos no grupo normal tipo-2.
81
Figura 24 - Distância inter e intra grupos. Caso com dois padrões de partida normal, N1
e N2.
Diante da Figura 24 pode-se perceber que o padrão normal N2 deve ser
considerado um padrão desejável de operação de partida da turbina, estando mais
distante dos eventos de trip. Isto é confirmado pelos maiores valores de distância de
Frobenius entre o grupo de partida normal 2 e partida com trip (representado pelo
Box-plot “Normal2-Trip”). A quantidade de outliers foi significantemente diminuída
com a inclusão de dois grupos, o que reforça a teoria da existência de dois grupos
normais.
Calculou-se também a distância de Frobenius de todos os objetos classificados
como normais (pertencentes aos grupos N1 e N2) a cada um dos oito objetos com trip
(Figura 25). Pode-se perceber que para todos os objetos com falha, a distância de
Frobenius foi maior para os objetos normais N2, o que reforça a premissa de que este
seria um padrão desejável de partida da turbina por se apresentar menos similar ao
evento trip.
82
Figura 25- Distância entre objetos N1 e N2 versus objetos trip.
A aplicação da transformada wavelet inversa aos coeficientes wavelets de cada
protótipo (padrão) proporcionou a obtenção dos padrões de cada um dos grupos
representados através de séries temporais de vazão de gás. Com a informação do
comportamento esperado de cada grupo na forma de séries temporais, é possível ao
operador verificar o andamento de uma partida da planta, tomando os devidos ajustes
para manter o padrão de partida o mais próximo possível do padrão mais seguro N2.
As figuras a seguir apresentam o comportamento das séries temporais obtidas (Figura
26), além da distância de Frobenius calculada entre os protótipos (centros dos clusters)
(Figura 27).
83
Figura 26 - Séries temporais dos padrões obtidos.
Figura 27 - Distância entre protótipos resultantes.
Dentre os 62 objetos normais, 47 foram classificados no grupo N1 e 15
classificados no grupo N2, ou seja, nenhum dos objetos normais foi categorizado como
pertencente ao grupo trip. Porém, entre os 8 objetos de falha, 2 foram classificados
incorretamente como pertencentes ao grupo N1, o que resulta em um percentual de
25% de classificações incorretas em relação ao grupo trip.
A qualidade do agrupamento foi realizada a partir do índice de silhueta
(Equações 31 e 32 e Figura 28). Valores mais próximos de 1 indicam uma melhor
alocação do objeto ao grupo. Percebe-se que a grande maioria dos objetos
pertencentes ao grupo 1 (N1) e grupo 3 (trip) apresentou valores positivos, o que
indica a obtenção de um grupo coeso, com pontos mais próximos entre si do que em
relação a objetos vizinhos. Apesar da presença de alguns índices negativos, o valor
geral do índice de silhueta de 0,22 indica um bom resultado de agrupamento, de forma
84
que os padrões obtidos podem ser considerados representativos de seu conjunto de
objetos.
Figura 28 - Índice de silhueta - caso univariado.
Anteriormente ao presente trabalho, a obtenção de diferentes padrões neste
estudo de caso já havia sido obtida (PEREIRA et al., 2014; FONTES e PEREIRA, 2016).
Porém, em tais pesquisas foi aplicado o algoritmo FCM diretamente aos dados
temporais e não aos coeficientes wavelets. Em Pereira et al. (2014) e Fontes e Pereira
(2016), as dissimilaridades entre os objetos foram evidenciadas através da utilização
de 3 variáveis (temperatura de entrada, temperatura de exaustão e vazão de gás) onde
a qualidade do agrupamento foi quantificada através de um índice de silhueta geral de
0,20. Com a introdução dos coeficientes wavelets no problema, a quantidade de
variáveis requeridas para obter diferentes padrões caiu para um, o que indica uma alta
potencialidade da transformada wavelet em extrair características das séries
temporais e contribuir para a etapa de agrupamento do reconhecimento de padrões.
85
3.2 ESTUDO DE CASO 2: DETECÇÃO DE FALHAS EM UM
PROCESSO VIRTUAL DE REFERÊNCIA
3.2.1 Descrição
Este segundo estudo de caso compreendeu a análise de um processo virtual
cujo modelo em malha aberta e algumas opções de malha fechada com diferentes
estratégias de controle estão disponíveis na internet (ANTELO et al., 2008; BATHELT et
al., 2015; YIN et al., 2014). Apesar de ser uma planta virtual, o Tennessee Eastman
Process (TEP) é amplamente adotado na literatura como processo de referência
(benckmark) para estudos de controle, otimização, monitoramento e análise de falhas
(YIN et al., 2012; LAU et al., 2013; YU, 2013; BAHRAMPOUR et al., 2011; ZHU et al.,
2012; LI et al., 2011; MAESTRI et al., 2010; DONG et al., 2015; YIN et al., 2014),
servindo, inclusive, de campo de testes para o desenvolvimento, aplicação e avaliação
de novas abordagens em FDD (RATO e REIS, 2013; SHAMS et al., 2011; SINGHAL e
SEBORG, 2006).
O TEP foi desenvolvido pela companhia Eastman Chemical, a partir do trabalho
de Downs e Vogel (1993), com o objetivo de fornecer um modelo capaz de representar
o comportamento de uma planta industrial com diversas variáveis de processo,
reciclos, restrições de projeto, operacionais e de controle. Tal modelo é baseado em
uma planta real, onde os componentes do processo, cinética e condições operacionais
foram modificados por motivos de sigilo de informação.
Originalmente desenvolvido em código Fortran, modelo/simulador do processo
proposto consiste basicamente em cinco operações unitárias: um reator, um
condensador de produto, um separador líquido-vapor, um compressor de reciclo e
uma stripper. São produzidos dois produtos a partir de quatro reagentes, além de um
subproduto e da presença de uma substância inerte, totalizando oito componentes,
quais sejam, A, C, D, E (reagentes), F (subproduto), G e H (produtos principais) e B
(inerte). Tem-se as seguintes reações:
86
( ) ( ) ( ) ( ) (43)
( ) ( ) ( ) ( ) (44)
( ) ( ) ( ) (45)
( ) ( ) (46)
Todas as reações são consideradas irreversíveis, exotérmicas e com cinética de
primeira ordem em relação às concentrações dos reagentes. As taxas de reação são
funções da temperatura conforme a equação de Arrhenius, sendo que a reação de
produção de G (Equação 43) possui uma energia de ativação superior à reação de
produção de H (Equação 44), o que resulta em uma maior sensibilidade da primeira a
variações na temperatura. A Figura 29 apresenta um diagrama de todo o processo.
87
Figura 29 - Diagrama do TEP.
Os reagentes gasosos inicialmente são alimentados para o reator, onde formam
os produtos líquidos. O próprio reator possui um sistema interno de resfriamento para
evitar altas temperaturas decorrentes da exotermicidade das reações. O produto passa
88
por um condensador e posteriormente é enviado a um separador líquido-vapor, onde
os componentes não condensados retornam ao reator através de uma bomba
centrífuga de reciclo. Os produtos condensados seguem para uma coluna stripper, para
remover o excesso de reagentes (não convertidos) do produto final. Para evitar
acúmulo de subproduto e do componente B (inerte), existe uma corrente de purga
(corrente 9). Os balanços de massa e energia, além das propriedades físicas dos
componentes em estudo também são fornecidos pelos autores, podendo ser
encontrados em Downs e Vogel (1993).
Todo o processo contém 41 variáveis medidas (armazenadas em um vetor -
XMEAS) e mais 12 variáveis manipuláveis (vetor XMV). As variáveis manipuladas estão
listadas na Tabela 2. Dentre as variáveis medidas (Tabela 3) do processo se incluem
dados de sensores de temperatura, pressão, nível, vazão das correntes e concentração
dos componentes no produto, dentre outras.
Tabela 2 - Variáveis manipuladas do TEP
Variável Descrição
XMV(1) Vazão Corrente D (Corrente 2)
XMV(2) Vazão Corrente E (Corrente 3)
XMV(3) Vazão Corrente A (Corrente 1)
XMV(4) Vazão Corrente D+E+A (Corrente 4)
XMV(5) Válvula de Reciclo do Compressor
XMV(6) Válvula da Purga (Corrente 9)
XMV(7) Corrente Ascendente Separador (Corrente 10)
XMV(8) Corrente de Líquido da Stripper (Corrente 11)
XMV(9) Válvula de Vapor da Stripper
XMV(10) Vazão de Água de Resfriamento no Reator
XMV(11) Vazão de Água de Resfriamento no Condensador
XMV(12) Velocidade Misturador do Reator
89
Tabela 3 - Variáveis medidas no TEP
Variável Descrição Unidade
XMEAS(1) Vazão A (Corrente 1) kscmh
XMEAS(2) Vazão D (Corrente 2) kg/h
XMEAS(3) Vazão E (Corrente 3) kg/h
XMEAS(4) Vazão A+B+C (Corrente 4) kscmh
XMEAS(5) Vazão Reciclo (Corrente 8) kscmh
XMEAS(6) Vazão Alimentação Reator (Corrente 6) kscmh
XMEAS(7) Pressão Reator KPa
XMEAS(8) Nível Reator %
XMEAS(9) Temperatura Reator ºC
XMEAS(10) Vazão de Purga (Corrente 9) kscmh
XMEAS(11) Temperatura Produto do Separador ºC
XMEAS(12) Nível do Separador %
XMEAS(13) Pressão do Separador kPa
XMEAS(14) Vazão produto do Separador (Corrente 10) m³/h
XMEAS(15) Nível Stripper %
XMEAS(16) Pressão Stripper kPa
XMEAS(17) Corrente Saída Stripper (Corrente 11) m³/h
XMEAS(18) Temperatura Stripper ºC
XMEAS(19) Vazão Gás Stripper kg/h
XMEAS(20) Potência do Compressor kW
XMEAS(21) Temp. Saída Água Resfriamento Reator ºC
XMEAS(22) Temp.Saída Água Resfriamento Separador ºC
XMEAS(23) Concentração Componente A (Corrente 6) %
XMEAS(24) Concentração Componente B (Corrente 6) %
XMEAS(25) Concentração Componente C (Corrente 6) %
XMEAS(26) Concentração Componente D (Corrente 6) %
XMEAS(27) Concentração Componente E (Corrente 6) %
XMEAS(28) Concentração Componente F (Corrente 6) %
90
XMEAS(29) Concentração Componente A (Corrente 9) %
XMEAS(30) Concentração Componente B (Corrente 9) %
XMEAS(31) Concentração Componente C (Corrente 9) %
XMEAS(32) Concentração Componente D (Corrente 9) %
XMEAS(33) Concentração Componente E (Corrente 9) %
XMEAS(34) Concentração Componente F (Corrente 9) %
XMEAS(35) Concentração Componente G (Corrente 9) %
XMEAS(36) Concentração Componente H (Corrente 9) %
XMEAS(37) Concentração Componente D (Corrente 11) %
XMEAS(38) Concentração Componente E (Corrente 11) %
XMEAS(39) Concentração Componente F (Corrente 11) %
XMEAS(40) Concentração Componente G (Corrente 11) %
XMEAS(41) Concentração Componente H (Corrente 11) %
O TEP também dispõe de 20 possíveis eventos de falha (Tabela 4) que são
essencialmente distúrbios sobre o processo. Estes distúrbios oferecem um
diversificado manancial de alternativas para o desenvolvimento, análise e avaliação de
abordagens voltadas à detecção e diagnóstico de falhas. Outrossim, no escopo de
estratégias baseadas no agrupamento e reconhecimento de padrões, a simulação do
TEP viabiliza a obtenção de eventos, ou objetos, com e sem falha, em diferentes
condições operacionais (estados estacionários) do processo.
91
Tabela 4 - Eventos de falha no TEP
Variável Descrição Tipo
IDV(1) Razão Vazão A/C, Composição B Constante (Corrente 4) Degrau
IDV(2) Composição B , Razão Vazão A/C Constante (Corrente 4) Degrau
IDV(3) Temperatura Alimentação D (Corrente 2) Degrau
IDV(4) Temperatura Água Resfriamento Reator Degrau
IDV(5) Temperatura Água Resfriamento Condensador Degrau
IDV(6) Perda de Carga de A (Corrente 1) Degrau
IDV(7) Redução na Carga de C (Corrente 4) Degrau
IDV(8) Composição de Reagentes (Corrente 4) Aleatório
IDV(9) Temperatura Vazão D (Corrente 2) Aleatório
IDV(10) Temperatura Vazão C (Corrente 4) Aleatório
IDV(11) Temperatura Água Resfriamento Reator Aleatório
IDV(12) Temperatura Água Resfriamento Condensador Aleatório
IDV(13) Cinética Reação Rampa
IDV(14) Válvula de Água de Resfriamento do Reator Entupimento
IDV(15) Válvula de Água de Resfriamento do Condensador Entupimento
IDV(16) Falha Desconhecida -
IDV(17) Falha Desconhecida -
IDV(18) Falha Desconhecida -
IDV(19) Falha Desconhecida -
IDV(20) Falha Desconhecida -
IDV(21) Válvula de Corrente 4 mantida Fixa Posição Fixa
O TEP originalmente foi desenvolvido não apenas para estudos em detecção e
diagnóstico de falhas, mas também para o desenvolvimento de técnicas de controle e
otimização. Na sua versão original em malha aberta (Figura 29), o TEP é uma planta
instável. Dentre as alternativas de controle para o TEP propostas na literatura, este
trabalho considerou a estratégia apresentada por Ricker (1996) que propõe um
sistema de controle descentralizado e disponibiliza o modelo em malha fechada já
implementado em Matlab/Simulink (Figura 30).
93
Conforme verificado a partir da Figura 30, o sistema de controle proposto
baseia-se na utilização de diversos loops compostos por controladores PID em
diferentes etapas do processo, considerando um grande conjunto de variáveis para o
arranjo da estratégia de controle. Dentre eles percebe-se que a estratégia compreende
a utilização da razão dos componentes D e E (correntes 2 e 3) para o controle da taxa
de produção, que por sua vez controla o nível da stripper (loop 11). A elevação da
pressão no reator a valores acima de 3000 kPa provoca no acionamento de um sistema
preventivo e toda a planta é desligada automaticamente. Desta forma o controle da
pressão do reator representa uma etapa imprescindível ao bom funcionamento
operacional do sistema, o qual é realizado primeiramente através da válvula de purga
(corrente 9) e de forma secundária através da redução nas vazões de todos reagentes,
caso haja saturação do primeiro sistema. A vazão de reciclo (corrente 8) também
compreende uma importante função para a estabilidade da planta, uma vez que a
análise de sua composição é utilizada como forma de controle da entrada dos
reagentes A e C (correntes 1 e 4) dentro do sistema. Para uma discussão completa
acerca do sistema de controle aplicado e consulta aos parâmetros dos controladores
utilizados, recomenda-se a leitura de Ricker (1996).
3.2.2 Geração dos objetos
Ao se considerar a variedade de falhas possíveis de serem acionadas durante
uma simulação do TEP, fez-se necessário analisar os efeitos sobre as variáveis de
processo decorrentes de cada uma destas falhas. Esta análise inicial visou à seleção de
tipos de falhas com potencial para uma análise via abordagem multivariada. A Tabela 5
indica as principais variáveis afetadas (XMEAS) em falhas do TEP (IDV). Diversos
motivos conduziram à não-inclusão de outros tipos de falha tais como: mudanças
irrelevantes nas variáveis, rápida atuação do sistema de controle ou até mesmo falhas
em que a planta não resistiu à perturbação imposta e foi desligada (shutdown).
94
Tabela 5 - Variáveis significativamente afetadas nas falhas
N° DA FALHA
VARIÁVEIS
IDV-1 IDV-7 IDV-8 IDV-11 IDV-13 IDV-18
Vazão A X X
Vazão A+D+E X
Vazão reciclo X X
Vazão alimentação reator X
Pressão reator X X X X X X
Temperatura reator X X X X
Vazão de purga X X X X
Temperatura produto do separador X X X X
Nível do separador X
Nível stripper X X
A primeira etapa para o reconhecimento de padrões em séries multivariadas
consistiu na obtenção do banco de dados. Neste caso, simulou-se a operação da planta
do TEP por 2500 horas, com período amostral de 30 segundos. Mudanças de setpoint
em diferentes instantes de tempo foram impostas à simulação com o objetivo de obter
alterações de estado estacionário (Tabela 6). Estas alterações de setpoint passaram a
representar os eventos normais de processo.
Tabela 6 - Mudanças de setpoint
VARIÁVEL INTERVALO SETPOINT UNIDADE
Produção total 19.5 – 25.0 m³/h
Nível reator 30 – 70 %
Pressão reator 2500 - 2900 KPa
Composição G na corrente de produto (% molar) 20 - 80 %
Eventos de falha foram provocados durante a corrida em momentos distintos.
Após a etapa de simulação, cada evento - normal e com falha - foi “enjanelado” em
intervalos de 25 horas cada e normalizados. Este procedimento de obtenção dos
95
objetos a partir do histórico de operação de 2500 horas está apresentado na Figura 31.
Toda a simulação gerou um total de 100 objetos, metade deles rotulados como
normais e a outra metade como eventos com falha.
Figura 31 - Obtenção dos objetos multivariados.
A metodologia de agrupamento compreendeu uma abordagem não-
hierárquica, baseada no método FCM, no qual o número de grupos foi previamente
fixado. O índice de silhueta e o percentual de classificações incorretas para ambos os
casos (evento normal e evento com falha) foram adotados como critérios para
estabelecer a melhor quantidade de grupos.
3.2.3 Métrica MSPCA e a abordagem multirresolução
A abordagem de agrupamento proposta neste trabalho consiste em um
problema de otimização FCM genérico (Equações 28 e 29). A métrica desenvolvida
para quantificar a distância entre objetos (MSPCA) é uma extensão do SPCA tradicional
(Equação 21), de tal forma que a similaridade entre os componentes principais de
diferentes séries multivariadas é analisada em mais de uma escala, através do uso das
transformadas wavelets.
96
Considere uma matriz genérica (i=1,...,n), novamente demonstrada pela
Equação 47, na qual cada coluna representa a série temporal de comprimento m de
uma dada variável medida.
[
( ) ( )
( ) ( )
] (47)
Inicialmente se aplica a transformada wavelet contínua (CWT, Equação
39),baseada em uma wavelet-mãe, a cada série temporal (cada variável) do objeto.
Esta etapa compreende a convolução entre uma função wavelet-mãe 𝝍 pré-definida
(esticada em diferentes escalas dentro do intervalo de um a , previamente
definido) com cada coluna da matriz Zi. A matriz resultante (Equação 48) contém os
coeficientes wavelets associados a cada série temporal em diferentes instantes de
tempo (t=1,...,m) e diferentes escalas ( max).
[
( )
( )
( )
( ) ]
(48)
onde ( ) representa o coeficiente wavelet relacionado à série temporal j (j =
1,...,k) do objeto Zi (i=1,...,n), no instante de tempo t e escala . Cada linha de
contém todos os coeficientes relacionados à série temporal j em uma escala específica.
A próxima etapa compreende um rearranjo por escala de cada matriz
, de tal forma
que os coeficientes de diferentes variáveis (séries temporais) associados a uma mesma
escala são agrupados em uma mesma matriz (Equação 49).
[ ( )
( )
( )
( )]
(49)
97
Cada matriz contém os coeficientes wavelets obtidos do objeto através
da CWT em uma escala específica . O índice SPCA pode ser obtido considerando os
ângulos entre os componentes principais dos coeficientes wavelets em uma
determinada escala [SPCA(), Equação. 21]. O índice final MSPCA é calculado a partir
de uma média entre todos os SPCA nas diferentes escalas (Equação 50):
∑ ( )
(50)
Esta abordagem descrita permite a extração de características e posterior
reconhecimento de padrões considerando o comportamento das séries temporais
multivariadas em diferentes escalas, potencializando a capacidade de evidenciar
dissimilaridades entre objetos, sobretudo em situações frequentes e típicas
envolvendo sinais não-estacionários. Todo o processo de aplicação da métrica MSPCA
proposto pode ser visualizado na Figura 32, ilustrando-se um exemplo onde os objetos
são definidos por uma STM de 4 variáveis.
98
Figura 32 - Método MSPCA.
A etapa de agrupamento compreendeu a utilização de um algoritmo FCM
modificado, apropriado para o caso de séries temporais multivariadas. A solução do
algoritmo baseia-se em um problema de otimização cujas variáveis de decisão
compreendem os centros ( , padrões ou protótipos) referentes a cada um
dos c grupos ( ) e os graus de pertinência de cada objeto a cada grupo:
( )
( ) ∑∑( )
|| || (51)
onde Xk (k n) representa o objeto multivariado (MTS), Vi (i c) é o
protótipo/padrão (Xk e Vi mxw, w é o número de variáveis ou séries temporais), U é
uma matriz cn (matriz de partição) contendo os valores de pertinência uik ϵ [0,1],
( > 1) é o coeficiente fuzzificador, V contém o grupo de matrizes padrão V1, V2, ...,
Vcm×w, e || || é a norma de distância entre um objeto e o centro de um
99
grupo através do MSPCA. Como valores de SPCA próximos a um implicam em alta
similaridade, uma transformação adicional foi considerada para o cálculo da distância
MSPCA, conforme a seguir:
|| || ( ) ( ) (52)
onde se refere ao complemento do valor original . Considerando a
abordagem probabilística, duas restrições devem ser consideradas para a solução do
problema de otimização (Equações 53 e 54):
∑
(53)
∑
(54)
A aplicação das condições de primeira ordem ao problema descrito pelas
Equações 51 a 54 leva à seguinte solução analítica válida para o cálculo dos graus de
pertinência:
(
[ ( )] )
( )⁄
∑ (
[ ( )] )
( )⁄
(55)
Neste caso, no entanto, não há solução analítica para os centros dos grupos Vi
(não há uma equação semelhante à demonstrada pela Equação 26), pois a norma
Euclidiana não é utilizada como métrica de similaridade. O problema de otimização
(Equações 51 a 54) é resolvido através de um método clássico de otimização de
segunda ordem com os centros dos grupos como variáveis de decisão e a expressão
100
analítica para os graus de pertinência (Equação 55) utilizada como uma restrição
adicional, o que leva ao seguinte problema:
( )
( ) ∑∑
[
(
[ ( )] )
( )⁄
∑ (
[ ( )] )
( )⁄
]
|| ||
(56)
Outras métricas de similaridade aplicáveis a problemas de protótipos não
pontuais (típicos de séries multivariadas) também poderiam ser aplicadas, como por
exemplo o SPCA tradicional, substituindo neste caso por SPCA na Equação 55.
A etapa de agrupamento deve ser avaliada com base em critérios pré-
selecionados. Conforme discutido na seção de fundamentação teórica, esta etapa
compreendeu a utilização tanto de métodos de validação interna, através do índice de
silhueta (Equação 31), e de validação externa, com a utilização da validação cruzada
dos dados.
3.2.4 Resultados e discussão
Como já colocado, a amostra total compreendeu um total de 100 objetos,
sendo 50 normais (sem falha), referentes a alterações de setpoint, e 50 objetos
relacionados à falha do tipo 1 (IDV-1). A adoção deste tipo de falha na condução do
estudo para o reconhecimento de padrões se deu devido à semelhança
comportamental entre as variáveis de processo resultantes de uma simples alteração
de setpoint com a verificada após a verificação da referida falha, com o objetivo de
promover um reconhecimento de padrões entre objetos com semelhanças
consideráveis.
Cada objeto é representado por uma janela de tempo de 25 horas de
simulação e compreende uma série multivariada, composta pelas seguintes variáveis
medidas (Figura 30): vazão do reagente A (corrente 1), vazão de reciclo (corrente 8),
101
pressão no reator e vazão de purga (corrente 9). Dois exemplos de séries multivariadas
estão representados na Figura 33, um objeto normal e outro com falha, após
normalização. É possível perceber que, apesar dos objetos pertencerem a categorias
distintas, o comportamento de suas variáveis de processo apresenta semelhanças, o
que exige uma metodologia de agrupamento mais rigorosa para permitir que
dissimilaridades sejam evidenciadas entre tais objetos.
Figura 33 - Exemplos de duas séries multivariadas.
A falha do tipo 1 compreende uma alteração (distúrbio) do tipo degrau na razão
entre as vazões de A e C na corrente 4 (Figura 33), o que resulta no aumento da
composição do reagente C em relação ao reagente A nesta corrente. Como resultado,
a quantidade do componente A é diminuída na corrente 5, o que leva o sistema de
controle a atuar aumentando a vazão de alimentação do componente A (corrente 1). A
vazão de purga também é elevada de forma a manter a pressão do reator abaixo do
limite de 3000 kPa (limite operacional da Unidade). O nível do separador e da stripper
também são afetados, os quais são controlados, por sua vez, através das vazões de
descarga destes equipamentos (correntes 10 e 11). A falha do tipo 1, juntamente com
as ações de controle produzem efeitos em diversas variáveis do processo, o que
102
determina a necessidade de uma abordagem multivariada para o agrupamento e
reconhecimento de padrões. Conforme verificado a partir da Tabela 5, a vazão de A
(corrente 1) e a vazão de reciclo (corrente 8) são variáveis imprescindíveis dentro do
contexto da falha do tipo 1 (IDV-1), pois a própria perturbação imposta pela falha gera
alteração nas razões dos componentes A e C dentro do sistema (Figura 30). A pressão
do reator é uma variável altamente sensível e de extrema importância ao
funcionamento da planta, sendo uma variável diretamente afetada nos mais distintos
tipos de perturbações dentro da planta. Uma vez que a vazão de purga é utilizada
dentro do sistema de controle de forma a manter a pressão dentro dos limites
aceitáveis, com a aplicação de um sistema de controle secundário onde as vazões de
todos reagentes (correntes 1, 2, 3 e 4) são reduzidas caso o sistema da purga sature,
um conjunto de quatro variáveis (vazão de A, vazão de reciclo, pressão do reator e
vazão de purga) demonstra ser capaz de descrever o sistema submetido à falha IDV-1.
Inicialmente a métrica MSPCA foi aplicada entre os 100 objetos da amostra com
o objetivo de determinar a distribuição de distância entre objetos da mesma classe
(falha ou normais) e entre classes (toda a amostra). O resultado (Figura 34) sugere que
objetos de grupos diferentes apresentaram, em geral, menores valores de métrica
MSPCA em relação às distâncias intragrupos (normal versus normal e falha versus falha).
Espera-se que objetos similares apresentem um índice de MSPCA próximo a 1, enquanto
que valores mais próximos a zero são esperados ao comparar-se objetos distintos.
Desta forma, tal resultado indica que a métrica proposta é capaz de ser aplicada ao
estudo de caso, pois demonstrou dissimilaridades entre objetos de grupos diferentes:
menores valores de MSPCA ao comparar objetos de grupos distintos. Pode-se perceber
uma grande quantidade de outliers. Esta é uma forte indicação de que alguns objetos,
apesar de rotulados em um mesmo grupo, apresentam características heterogênas, o
que sugere a presença de um número maior de grupos na amostra ( ).
Por outro lado, distâncias também foram calculadas com base no SPCA
tradicional (Figura 35). Percebe-se que os resultados neste caso não evidenciaram
diferença tão significativa entre objetos distintos. Conforme citado na seção sobre
agrupamentos, a etapa de métricas de similaridade é um elemento chave para
promover um melhor desempenho na etapa do agrupamento em si, de forma que a
metodologia multiescala demonstra grande potencial como alternativa de escolha de
103
uma métrica de similaridade capaz de promover melhorias no reconhecimento de
padrões em casos multivariados.
Figura 34 Distância inter e intragrupos - MSPCA.
Figura 35 - Distância inter e intragrupos - SPCA tradicional.
O procedimento de validação cruzada também foi adotado, onde 60 objetos (30
normais e 30 com falha) foram aleatoriamente selecionados para compor o grupo de
treinamento do agrupamento FCM (Figura 36). A opção por um conjunto de dados
equilibrado (mesma quantidade de objetos normais e com falha) é desejável, quando
possível, a fim de evitar a geração de padrões com o viés da classe dominante
(GANGANWAR, 2012).
104
Figura 36 - Agrupamento e reconhecimento de padrões (procedimento de
treinamento).
FCM é um método de agrupamento não hierárquico que requer um chute inicial
em relação à quantidade do número de grupos (c). Baseado nos resultados da Figura
34, três grupos foram considerados no problema de otimização. Valores superiores,
onde , geraram padrões adicionais contendo apenas uma pequena quantidade
de objetos, o que não sugere a existência de um número maior do que três padrões no
conjunto de dados. Aplicou-se a transformada wavelet inversa (ICWT) aos protótipos
resultantes do agrupamento para a obtenção temporal dos padrões através de ambas
as métricas, MSPCA e SPCA tradicional (Figuras 37 e 38). A utilização da transformada
inversa representa uma importante etapa do ponto de vista do processo da planta,
uma vez que a determinação dos comportamentos dinâmicos das variáveis em
padrões normais e de falha pode ser diretamente utilizada em etapas de
monitoramento da planta.
A wavelet-mãe Haar foi selecionada para a transformada por ser o tipo mais
simples de wavelet com suporte compacto que tem uma forma analítica (LEE e
YAMAMOTO, 1994), além de já ter sido aplicada em estudos similares envolvendo o
reconhecimento de padrões (DU et al., 2013; CHEN e LIU, 2014; HSU e LI, 2010), onde
os autores destacam sua eficiência e rápida decomposição.
105
Figura 37 - Padrões de cada centro - MSPCA.
Figura 38 - Padrões de cada centro - SPCA tradicional.
A Tabela 7 apresenta a composição de objetos normais e com falha em cada
grupo reconhecido para ambas abordagens (SPCA tradicional e MSPCA). A classificação se
baseou nos graus de pertinência (uik) entre cada objeto e os protótipos, obtidos
através da aplicação das Equações 26 e 27. A abordagem MSPCA foi capaz de
reconhecer os centros 1 e 2, apenas com objetos de falha e normais, respectivamente.
Desta forma, o protótipo 1 pode ser considerado como um evento típico de falha e o 2
de um evento normal (Figura 37 e 38). Por outro lado, a abordagem tradicional não
conseguiu distinguir de forma tão clara os grupos 1 e 2, pois ambos contém tanto
objetos de falha como objetos normais. A concentração de objetos de falhas em um
106
único protótipo no caso do MSPCA destaca a potencialidade desta abordagem para a
detecção e diagnóstico de falhas em aprendizado não supervisionado, no qual as
características utilizadas para diferenciar os grupos entre si não é previamente
conhecida e os objetos de treinamento são objetos sem rótulo. Por outro lado, o
protótipo 3 pode ser considerado como um grupo híbrido, o qual possui um
comportamento intermediário entre aqueles observados nos protótipos 1 e 2.
Tabela 7 - Distribuição dos objetos de treinamento - metodologias MSPCA e SPCA
tradicional
Nº objetos de treinamento
Grupos
OBJETOS NORMAIS OBJETOS DE FALHA
MSPCA SPCA MSPCA SPCA
Grupo 1 (Padrão de falha) 0 5 14 12
Grupo 2 (Padrão normal) 22 20 0 9
Grupo 3 (Padrão híbrido) 8 5 16 9
Total 30 30 30 30
Eventos de operação normal e de falha foram coletados simultaneamente
através de diferentes alterações nos modos de operação (modos estacionários em
diferentes setpoints) do processo, conforme em um caso real. Os padrões obtidos nas
Figuras 37 e 38 não são dados de processo propriamente ditas, mas variáveis de
decisão resultantes da otimização do agrupamento. Estes padrões representam uma
referência para a classificação dos objetos reais (MTS) durante a operação da planta,
reconhecendo-o de maneira antecipada e categorizando-o. A Tabela 8 apresenta as
distâncias entre os protótipos de acordo com a métrica de similaridade adotada em
cada caso (SPCA tradicional e MSPCA, respectivamente), o que representa outra forma
de avaliar os resultados do agrupamento. Mesmo assumindo a existência de um
padrão híbrido no qual se espera uma coincidência com ambos grupos normal e com
falha, a obtenção deste grupo intermediário pode se tornar útil durante o processo de
tomada de decisões operacional. Em ambas as métricas o padrão normal apresenta
uma distância maior em relação aos padrões híbridos e com falha (Tabela 8). Embora
107
esta separação esteja mais evidenciada na métrica SPCA, os padrões híbrido e de falha
estão muito próximos entre si, o que sugere uma dificuldade em estabelecer um
comportamento de falha através do SPCA. Por outro lado, os resultados obtidos
através do MSPCA mostram que o evento de falha pode ser utilizado como referência no
monitoramento das variáveis de vazão de A, vazão de purga, pressão do reator e vazão
de reciclo como forma de detectar uma ocorrência da falha 1 em tempo real.
Tabela 8 - Distâncias entre protótipos
Híbrido-Normal Híbrido-Falha Normal-Falha
MSPCA SPCA MSPCA SPCA MSPCA SPCA
0.9720 0.9003 0.9848 1.0000 0.9737 0.9007
O índice de silhueta também foi utilizado como um índice de desempenho para
validar a qualidade dos resultados do agrupamento. De acordo com a Figura 39, a
maior parte dos objetos apresenta índices próximos a um, o que indica uma boa
qualidade de agrupamento. Todos os objetos no grupo 2, com a exceção de um,
possuem um índice positivo, indicando que os objetos são significativamente similares
aos padrões de seus respectivos grupos.
Figura 39 - Índice de silhueta em abordagem MSPCA - amostra treinamento.
108
Os índices de silhueta obtidos através da abordagem SPCA tradicional estão
representados na Figura 40. Uma comparação entre os resultados demonstra que a
abordagem multiescala (MSPCA) aumentou o nível de homegeneidade em cada grupo e
o nível de heterogeneidade entre grupos diferentes. Os diversos índices negativos na
abordagem tradicional mostram que muitos objetos estão mais próximos a objetos de
grupos vizinhos do que aqueles próprios de seu grupo, o que indica uma desvantagem
associada à abordagem tradicional.
Figura 40 - Índice de silhueta em abordagem SPCA tradicional - amostra treinamento.
Através da validação cruzada, os 40 objetos restantes (dados de validação, 20
normais e 20 de falha) foram classificados em relação aos padrões obtidos no
agrupamento, baseado no critério de menor distância através da métrica utilizada
(SPCA tradicional e MSPCA). A validação cruzada foi conduzida em duas etapas. Ambas
as etapas consideram duas classificações possíveis, normal ou falha, com o objetivo de
obter a taxa de classificações corretas (ou incorretas) na amostra, como uma forma de
índice externo de validação da qualidade do agrupamento. Inicialmente somente os
padrões do grupo 1 (padrão de falha) e grupo 2 (padrão normal) foram considerados
para estabelecer a classificação de cada objeto de validação. A Figura 41 apresenta a
composição e distribuição de objetos normais e de falha em relação a ambos os
protótipos (normal e falha) para cada métrica de similaridade (MSPCA e SPCA
109
tradicional). A avaliação do agrupamento, baseada na quantidade de objetos normais
classificados incorretamente (falso positivo, FP, ou alarme falso) (CHIANG et al., 2001),
objetos de falha classificados incorretamente (falso negativo, FN, ou não-detecção) e
objetos de falha classificados corretamente (verdadeiro positivo, TP), considerando os
objetos de validação resultou em 95% de classificação correta em ambos os grupos
através do MSPCA, enquanto a abordagem SPCA não obteve resultados tão bons. Ao
utilizar a abordagem tradicional, quatro objetos normais do grupo de validação foram
incorretamente classificados como falhas (20%), enquanto seis objetos de falha foram
classificados como normais (30%). Considerando o total de objetos, as classificações
incorretas através das abordagens MSPCA e SPCA tradicional foram de 5% e 25%,
respectivamente.
Uma forma alternativa de avaliar os resultados apresentados na figura 41 é
baseada no cálculo dos índices externos precision (Pr) e recall (Rec), também capazes
de avaliar o desempenho de um agrupamento e os resultados de classificação
(CHAWLA, 2009):
(57)
(58)
Um bom agrupamento resulta em um alto índice de recall sem reduzir o índice
precision. De acordo com a Figura 41, o agrupamento através de SPCA tradicional
obteve 78% e 70% nos índices de precision e recall, respectivamente, enquanto o
agrupamento utilizando MSPCA alcançou 95% em ambos os índices.
110
Figura 41 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados
de validação e 2 padrões (grupo 1 e 2).
A segunda etapa da classificação dos dados de validação considerou os três
padrões. De maneira similar, a Figura 42 apresenta a composição e distribuição dos
objetos normais e de falha nos 3 padrões. O agrupamento utilizando a métrica MSPCA
obteve 100% de classificação correta para todos objetos classificados nos grupos 1
(falha) e 2 (normal), enquanto a métrica SPCA tradicional gerou um total de 82% e 88%
de classificações corretas para os respectivos centros. Em relação ao grupo híbrido
(grupo 3), 45% e 32,5% dos objetos de validação foram classificados nesse grupo
utilizando respectivamente MSPCA e SPCA tradicional, indicando uma sobreposição
esperada do grupo híbrido com os grupos normal e de falha. Tais resultados também
sugerem que os grupos 1 e 2 e seus respectivos padrões podem ser associados como
eventos clássicos de operação normal e de falha, o que pode representar uma futura
referência de comportamentos, respectivamente, desejáveis e indesejáveis durante a
operação.
Considerando o grupo 3 (híbrido) como um grupo de falha para o propósito de
classificação dos objetos de validação (a maior parte dos objetos pertencentes a este
grupo são eventos de falha para ambos MSPCA e SPCA tradicional), o total de
classificações incorretas utilizando SPCA e MSPCA são iguais a 20% e 10%,
respectivamente.
111
Figura 42 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados
de validação e 3 padrões.
A abordagem proposta consiste em um método de agrupamento baseado em
otimização (como outros métodos tradicionais como o FCM), onde um índice de
similaridade (MSPCA) evidencia as diferenças entre as direções dos componentes
principais dos objetos em diferentes escalas. Neste trabalho a média entre as
diferentes escalas foi utilizada de forma a representar as dissimilaridades entre objetos
através de apenas um número. A Figura 43 apresenta o complemento do SPCA
(1SPCA()) para cada escala, sua média (MSPCA) e também o complemento do SPCA
tradicional calculado entre um objeto normal e um objeto de falha dos dados de
treinamento. O amplo espectro e a presença de maiores dissimilaridade em escalas
específicas demonstram que o MSPCA é capaz de capturar e segregar objetos de forma
mais pronunciada em determinadas escalas. Os valores de escala entre 9 e 12
obtiveram distâncias relativamente superiores às demais escalas. Percebe-se também
que até mesmo a média foi capaz de detectar maior distância entre os objetos em
relação ao SPCA tradicional. Este resultado sustenta a hipótese do ganho de qualidade
ao considerar uma análise multiescala, além de promover diferentes possibilidades,
tais como considerar médias ponderadas ou apenas escalas específicas no processo de
agrupamento, dentre outras.
112
Figura 43 - Complemento do SPCA entre dois objetos (falha e normal) - em cada escala,
média e SPCA tradicional.
Este estudo buscou ainda realizar a comparação entre a metodologia proposta
e abordagens clássicas utilizadas pela estatística multivariada para o reconhecimento
de padrões. Foram aplicadas as estatísticas T² e Q (Equações 12 a 15) aos 30 objetos
normais e os 30 objetos com falha do grupo de treinamento. Para um nível de
significância α estipulado em 95%, o total de classificações corretas obtidas a partir de
T² foi de 3 em 30 objetos normais (10%) e de 20 em 30 objetos de falha (66%). Com
relação à estatística Q, foram classificadas corretamente 16 em 30 objetos normais
(53%) e 18 em 30 objetos de falha (60%). Um resumo do percentual de classificação
obtido através das diferentes técnicas é apresentado na Tabela 9.
113
Tabela 9 - Percentual de classificação correta entre diferentes abordagens
Abordagem Classificação objetos normais (%) Classificação objetos falha (%)
MSPCA 95% 95%
T² 10% 66%
Q 53% 60%
O resultado obtido acima demonstra a menor capacidade da utilização destas
técnicas tradicionais ao se comparar com a abordagem MSPCA. Uma possível explicação
para os menores valores percentuais de acerto obtido pelas técnicas T² e Q está na
semelhança de comportamento observada entre os objetos, os quais requereram uma
abordagem multiescala para a obtenção do reconhecimento de padrões de forma
satisfatória.
Uma última etapa deste trabalho contemplou a comparação da qualidade
obtida para o algoritmo de agrupamento MSPCA baseado em diferentes famílias
wavelets. No que se refere ao agrupamento, foi utilizado um valor de dois centros
(c=2), para o grupo de 60 objetos de treinamento (30 normais e 30 de falha), pois não
se desejava obter padrões operacionais, mas somente comparar os resultados de
agrupamento com diferentes famílias wavelets através de índices internos. As séries
temporais compreenderam o mesmo processo de “enjanelamento” utilizado na Figura
33, ou seja, séries de quatro variáveis amostradas em 25 pontos e normalizadas de
acordo com a Equação 7. Esta etapa envolveu o agrupamento utilizando as wavelets
Haar, Morlet e Daubechies20, onde todas as condições (estimativa inicial, grupos de
objetos, tolerância de convergência) foram as mesmas para as diferentes wavelets. O
índice de silhueta (Equação 32) foi utilizado como critério de comparação entre as
diferentes famílias wavelets (Figuras 44 a 46).
114
Figura 44 - Agrupamento de objetos de treinamento - wavelet Haar.
Figura 45 - Agrupamento de objetos de treinamento - wavelet Morlet.
Figura 46 - Agrupamento de objetos de treinamento - wavelet Daubechies20.
115
Em todos os agrupamentos foram obtidos dois grupos com uma quantidade
similar de objetos. Desta forma, todos os casos conseguiram estabelecer padrões
representativos de determinada categoria. Baseado no índice de silhueta, o
agrupamento que melhor conseguiu representar o conjunto de dados foi obtido
através da aplicação da wavelet Morlet, apesar dos índices considerados não se
distanciarem tanto entre si. O comportamento simétrico e suave da wavelet Morlet
(Figura 12) pode ser uma das explicações dos melhores resultados obtidos através de
sua aplicação, já que o conjunto das variáveis dos objetos (Figura 33) apresentam
também um comportamento suave, similares às formas senoidais, devido ao conjunto
de controladores proporcionais-integrais (PI) utilizados no modelo proposto por Ricker
(RICKER, 1996). As wavelets Haar, apesar de serem simétricas, apresentam uma
descontinuidade súbita e conseguem responder de forma satisfatória ao problema em
questão, mas deve-se sobressair em casos que apresentem uma dinâmica muito
rápida, tal como em circuitos elétricos. Já a família Daubechies obteve os piores
resultados no agrupamento realizado, o que muito se deve à sua própria morfologia
não-simétrica. Desta forma, sugere-se seu uso para problemas que envolvam a
utilização de objetos com menor característica simétrica. Destaca-se, contudo, que
todas as famílias obtiveram resultados satisfatórios de agrupamento, tendo sido
demonstrada a capacidade e as vastas alternativas de possibilidade que são obtidas
nos problemas de reconhecimento de padrões através da utilização de uma
abordagem multiescala.
117
CAPÍTULO 4
CONCLUSÕES
A potencialidade da aplicação da transformada wavelet para o reconhecimento
de padrões foi investigada, tanto em séries temporais uni quanto multivariadas,
baseando-se em um novo algoritmo de agrupamento aqui desenvolvido. Para o caso
univariado utilizou-se uma base de dados obtida de um problema real, e os resultados
obtidos demonstraram que o agrupamento a partir dos coeficientes wavelets foi
suficiente para a geração dos padrões de operação segura e não-segura, baseando-se
em apenas uma variável, enquanto outros estudos necessitaram de abordagens
multivariadas para atingir o mesmo objetivo.
Uma segunda etapa do projeto contemplou a aplicação de uma abordagem
voltada às séries multivariadas. Para o estudo de caso foram utilizados de um
benchmark denominado TEP (Tennessee Eastman Process), que é amplamente
utilizado no meio científico para simulação de algoritmos e propostas de novas
abordagens de controle e otimização, entre outros. Esta planta virtual mostrou-se
capaz de produzir dados simulados de operação similares àqueles obtidos de fontes
reais, que demandam tempo, cooperação e sigilo para sua obtenção. O agrupamento
nesta etapa multivariada se baseou na utilização de uma métrica de similaridade
inovadora (MSPCA, Multiscale Similarity of Principal Component Analysis factor), que se
mostrou aplicável ao caso com sucesso. Para o caso de dois grupos, se verificou um
aumento no percentual de acerto de classificação de 38%, 57% e 75%, utilizando,
respectivamente, as abordagens tradicionais T², Q (ambas as técnicas clássicas da
estatística multivariada) e agrupamento FCM (Fuzzy C-Means) + SPCA (Similarity of
Principal Component Analysis factor), para 95% ao considerar a abordagem multiescala
(MSPCA). Ainda dentro do caso multivariado, mas agora no caso onde foi considerado
118
um terceiro grupo, o agrupamento utilizando MSPCA estabeleceu um terceiro padrão
(híbrido) e elevou a taxa de acerto de classificação de 80% (FCM+ SPCA) para 90%.
Abordando um tema de pesquisa bastante recente, onde ainda há um número
reduzido de pesquisas científicas abordando o assunto, os resultados obtidos trazem
importantes contribuições quanto à utilização das wavelets aplicadas ao
reconhecimento de padrões, especialmente em casos multivariados. Neste sentido, a
comparação entre diferentes famílias wavelets apresentou a família Morlet como a
mais adequada para o agrupamento das séries multivariadas aqui investigadas.
Sugestões para futuras pesquisas, suscitadas durante a condução deste
trabalho, incluem a adoção de diferentes métricas de similaridade e a aplicação de
Redes Neurais Artificiais (RNA) baseadas em escalas específicas dos coeficientes
wavelets, além da verificação da capacidade de utilização de coeficientes wavelets em
escalas específicas para o controle de processos via cartas de controle.
119
REFERÊNCIAS
BIBLIOGRÁFICAS
ANTELO, L. T.; BANGA, J. R.; ALONSO, A. A. Hierarchical design of decentralized control structures for the Tennessee Eastman Process. Computers & Chemical Engineering, v. 32, n. 9, p. 1995-2015, 2008.
AYRAMO, S.; KARKKAINEN, T. Introduction to partitioning-based clustering methods with a robust example. Software and Computational Engineering, 2006.
BAHRAMPOUR, S.; MOSHIRI, B.; SALAHSHOOR, K. Weighted and constrained possibilistic C-means clustering for online fault detection and isolation. Applied Intelligence, v. 35, n. 2, p. 269-284, 2011.
BAKSHI, B. R.; STEPHANOPOULOS, G. Representation of process trends—III. Multiscale extraction of trends from process data. Computers & chemical engineering, v. 18, n. 4, p. 267-302, 1994.
BANKÓ, Z.; ABONYI, J. Correlation based dynamic time warping of multivariate time series. Expert Systems with Applications, v. 39, n. 17, p. 12814-12823, 2012.
BARBOSA, S.; GOUVEIA, S.; SCOTTO, M.; ALONSO, A. Bivariate wavelet-based clustering of sea-level and atmospheric pressure time series. EGU General Assembly Conference Abstracts, p. 13877, 2015.
BARRAGAN, J. F. M.; FONTES, C. H. O.; PEREIRA, O. J.; BARRETO, S. T. S.; PACHECO, L. A. Análises de métricas de similaridades em séries temporais para o reconhecimento de padrões. Cadernos do IME-Série Estatística, v. 33, n. 2, p. 35, 2012.
BATHELT, A.; RICKER, N. L.; JELALI, M. Revision of the Tennessee Eastman Process Model. IFAC-PapersOnLine, v. 48, n. 8, p. 309-314, 2015.
BAYDOGAN, M. G.; RUNGER, G. Learning a symbolic representation for multivariate time series classification. Knowlodge Discovery and Data Mining, v. 29, n. 2, p. 400-422, 2014.
BAYDOGAN, M. G.; RUNGER, G.; TUV, E. A bag-of-features framework to classify time series. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 35, n. 11, p. 2796-2802, 2013.
BAYRAM, D.; SEKER, S. Wavelet based Neuro-Detector for low frequencies of vibration signals in electric motors. Applied Soft Computing, v. 13, n. 5, p. 2683–2691, 2013.
120
BERKHIN, P. A survey of clustering data mining techniques. Grouping multidimensional data. Berlin Heidelberg: Springer, p. 25-71, 2006.
BERNDT, D. J.; CLIFFORD, J. Using Dynamic Time Warping to Find Patterns in Time Series. Knowlodge Discovery and Data Mining, p. 359-370, 1994.
BEZDEK, J. C.; EHRLICH, R.; FULL, W. FCM: The fuzzy c-means clustering algorithm. Computers & Geosciences, v. 10, n. 2, p. 191-203, 1984.
BEZDEK, J. C.; KELLER, J.; KRISNAPURAM, R.; PAL, N. R. Fuzzy Models and Algorithms for pattern recognition and image processing. New York: Springer Science+Business Media, 2005.
BISHOP, C. M. Neural networks for pattern recognition. Oxford university press, 1995.
BODYANSKIY, Y; VYNOKUROVA, O. Hybrid adaptive wavelet-neuro-fuzzy system for chaotic time series identification. Information Sciences, v. 220, p. 170-179, 2013.
CAMPELLO, R. J. G. B.; HRUSCHKA, E. R. A fuzzy extension of the silhouette width criterion for cluster analysis. Fuzzy Sets and Systems, v. 157, n. 21, p. 2858-2875, 2006.
CERVELLÓ-ROYO, R.; GUIJARRO, F.; MICHNIUK, K. Stock market trading rule based on pattern recognition and technical analysis: Forecasting the DJIA index with intraday data. Expert Systems with Applications, v. 42, n. 14, p. 5963-5975, 2015.
CHAOVALIT, P.; GANGOPADHYAY, A.; KARABATIS, G.; CHEN, Z. Discrete wavelet transform-based time series analysis and mining. ACM Computing Surveys, v. 43, n. 2, p. 6, 2011.
CHAWLA, N. V. Data mining for imbalanced datasets: An overview. Data mining and knowledge discovery handbook. Springer US, p. 875-886, 2009.
CHEN, G. Y.; BUI, T. D.; KRZYŻAK, A. Invariant pattern recognition using radon, dual-tree complex wavelet and Fourier transforms. Pattern Recognition, v. 42, n. 9, p. 2013-2019, 2009.
CHEN, G.; BUI, T. D. Invariant Fourier-wavelet descriptor for pattern recognition. Pattern recognition, v. 32, n. 7, p. 1083-1088, 1999.
CHEN, L.; WANG, S.; WANG, K.; ZHU, J. Soft subspace clustering of categorical data with probabilistic distance. Pattern Recognition, v. 51, p. 322-332, 2016.
CHEN, S.; LIU, C. Clustering-based discriminant analysis for eye detection. Image Processing, IEEE Transactions, v. 23, n. 4, p. 1629-1638, 2014.
CHIANG, L. H.; BRAATZ, R. D.; RUSSELL, E. L. Fault detection and diagnosis in industrial systems. Springer Science & Business Media, 2001.
CHUI, C. K. An introduction to wavelets. Academic press, 2014.
121
COPPI. R.; D'URSO, P.; GIORDANI, P. A fuzzy clustering model for multivariate spatial time series. Journal of Classification, v. 27, n. 1, p. 54-88, 2010.
DAUBECHIES, I. Orthonormal bases of compactly supported wavelets. Communications on pure and applied mathematics, v. 41, n. 7, p. 909-996, 1988.
DAUBECHIES, I. Ten lectures on wavelets. Philadelphia: Society for industrial and applied mathematics, 1992.
DE LA ESCALERA, A.; ARMINGOL, J. M.; MATA, M. Traffic sign recognition and analysis for intelligent vehicles. Image and vision computing, v. 21, n. 3, p. 247-258, 2003.
DE LIMA, P. Wavelets: uma introdução. Matemática Universitária, v. 33, p. 13-44, 2002.
DENG, X.; TIAN, X. Nonlinear process fault pattern recognition using statistics kernel PCA similarity factor. Neurocomputing, v. 121, p. 298-308, 2013.
DESGRAUPES, B. Clustering indices. University of Paris Ouest-Lab Modal’X, v. 1, p. 34, 2013.
DETROJA, K. P.; GUDI, R. D.; PATWARDHAN, S. C. Fault detection using correspondence analysis: application to Tennessee Eastman challenge problem, 2006.
DI SALVO, R.; MONTALTO, P.; NUNNARI, G.; NERI, M.; PUGLISI, G. Multivariate time series clustering on geophysical data recorded at Mt. Etna from 1996 to 2003. Journal of Volcanology and Geothermal Research, v. 251, p. 65-74, 2013.
DOBOS, L.; ABONYI, J. On-line detection of homogeneous operation ranges by dynamic principal component analysis based time-series segmentation. Chemical Engineering Science, v. 75, p. 96-105, 2012.
DONG, J.; ZHANG, K.; HUANG, Y.; LI, G.; PENG, K. Adaptive total PLS based quality-relevant process monitoring with application to the Tennessee Eastman process. Neurocomputing, v. 154, p. 77-85, 2015.
DOWNS, J. J.; VOGEL, E. F. A plant-wide industrial process control problem. Computers & chemical engineering, v. 17, n. 3, p. 245-255, 1993.
DU, S.; HUANG, D.; LV, J. Recognition of concurrent control chart patterns using wavelet transform decomposition and multiclass support vector machines. Computers & Industrial Engineering, v. 66, n. 4, p. 683-695, 2013.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. John Wiley & Sons, 2012.
D'URSO, P.; DE GIOVANNI, L.; MAHARAJ, E. A.; MASSARI, R. Wavelet based self organizing maps for classifying multivariate time series. Journal of Chemometrics, v. 28, n.1, p. 28-51, 2014.
122
D'URSO, P.; MAHARAJ, E. A. Autocorrelation-based fuzzy clustering of time series. Fuzzy Sets and Systems, v. 160, n. 24, p. 3565-3589, 2009.
D'URSO, P.; MAHARAJ, E. A. Wavelets-based clustering of multivariate time series. Fuzzy Sets and Systems, v. 193, p. 33-61, 2012.
ESTER, M.; KRIEGEL, H. P.; SANDER, J.; XU, X. A density-based algorithm for discovering clusters in large spatial databases with noise. Knowlodge Discovery and Data Mining, v. 96, n. 34, p. 226-231, 1996.
FAYYAD, U. M.; PIATETSKY, G. S.; UTHURUSAMY, R. Advances in Knowledge Discovery and Data Mining. California: American Association for Artificial Intelligence e MIT Press, 1996.
FERREIRA, A. M. S., FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; MARAMBIO, J. E. S. A new method for pattern recognition in load profiles to support decision-making in the management of the electric sector. International Journal of Electrical Power & Energy Systems, v. 53, p. 824-831, 2013.
FERREIRA, A. M. S.; FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; MARAMBIO, J. E. S. Pattern recognition as a tool to support decision making in the management of the electric sector. Part II: A new method based on clustering of multivariate time series. International Journal of Electrical Power & Energy Systems, v. 67, p. 613-626, 2015.
FISHER, B.; TAŞ, K. The convolution of functions and distributions. Journal of mathematical analysis and applications, v. 306, n. 1, p. 364-374, 2005.
FONTES, C. H.; PEREIRA, O. Pattern recognition in multivariate time series–A case study applied to fault detection in a gas turbine. Engineering Applications of Artificial Intelligence, v. 49, p. 10-18, 2016.
FOUFOULA-GEORGIOU, E.; KUMAR, P. Wavelets in geophysics. Academic Press, 2014.
FU K. S. Syntactic Pattern Recognition and Applications. Englewood Cliffs: Prentice-Hall, 1982.
FU, T. A review on time series data mining. Engineering Applications of Artificial Intelligence, v. 24, n. 1, p. 164-181, 2011.
FUGAL, D. L. Conceptual Wavelets in digital signal processing. Space & Signals Technical Publishing, v. 374, 2009.
FUKUNAGA, K. Introduction to statistical pattern recognition. Academic press, 2013.
GALAS, D. J.; EGGERT, M.; WATERMAN, M. S. Rigorous pattern-recognition methods for DNA sequences: Analysis of promoter sequences from Escherichia coli. Journal of molecular biology, v. 186, n. 1, p. 117-128, 1985.
GAN, G.; MA, C.; WU, J. Data clustering: theory, algorithms, and applications. Siam, 2007.
123
GANGANWAR, V. An overview of classification algorithms for imbalanced datasets. International Journal of Emerging Technology and Advanced Engineering, v. 2, n. 4, p. 42-47, 2012.
GARDNER, J. W. Detection of vapours and odours from a multisensor array using pattern recognition Part 1. Principal component and cluster analysis. Sensors and Actuators B: Chemical, v. 4, n. 1, p. 109-115, 1991.
GEORGE, D.; HAWKINS, J. A hierarchical Bayesian model of invariant pattern recognition in the visual cortex. Neural Networks, p. 1812-1817, 2005.
GEVINS, A.; SMITH, M. E.; LEONG, H.; MCEVOY, L.; WHITFIELD, S.; DU, R.; RUSH, G. Monitoring working memory load during computer-based tasks with EEG pattern recognition methods. Human Factors: The Journal of the Human Factors and Ergonomics Society, v. 40, n. 1, p. 79-91, 1998.
GHASSEMPOUR, S.; GIROSI, F.; MAEDER, A. Clustering multivariate time series using hidden markov models. International journal of environmental research and public health, v. 11, n. 3, p. 2741-2763, 2014.
GIAMPAOLO, A. Gas Turbine Handbook, Principles and Practices. Georgia: The Farmount Press, v. 3, 2006.
GOTTUMUKKAL, R.; ASARI, V. K. An improved face recognition technique based on modular PCA approach. Pattern Recognition Letters, v. 25, n. 4, p. 429-436, 2004.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. 2001.
HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Elsevier, 2011.
HARVILLE, D. A. Matrix algebra from a statistician's perspective. New York: Springer, 1997.
HATAMLOU, A.; ABDULLAH, S.; NEZAMABADI-POUR, H. A combined approach for clustering based on K-means and gravitational search algorithms. Swarm and Evolutionary Computation, v. 6, p. 47-52, 2012.
HE, L.; HOU, W.; ZHEN, X.; PENG, C. Recognition of ECG patterns using artificial neural network. Intelligent Systems Design and Applications, v. 2, p. 477-481, 2006.
HINNEBURG, A.; KEIM, D. A. Optimal grid-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. 1999.
HÖPPNER, F. Fuzzy cluster analysis: methods for classification, data analysis and image recognition. John Wiley & Sons, 1999.
HSU, K.; LI, S. Clustering spatial–temporal precipitation data using wavelet transform and self-organizing map neural network. Advances in Water Resources, v. 33, n. 2, p. 190-200, 2010.
124
IGLESIAS, F.; KASTNER, W. Analysis of similarity measures in times series clustering for the discovery of building energy patterns. Energies, v. 6, n. 2, p. 579-597, 2013.
ISERMANN, R.; BALLÉ, P. Trends in the application of model-based fault detection and diagnosis of technical processes. Control engineering practice, v. 5, n. 5, p. 709-719, 1997.
JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical pattern recognition: A review. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 22, n. 1, p. 4-37, 2000.
JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing surveys, v. 31, n. 3, p. 264-323, 1999.
JINNA, S. K.; GANESAN, L. Reversible image data hiding using lifting wavelet transform and histogram shifting. arXiv preprint arXiv:1004.1791, 2010.
JOHN, J.; PRAMOD, K. V.; BALAKRISHNAN, K. Unconstrained handwritten Malayalam character recognition using wavelet transform and support vector machine classifier. Procedia Engineering, v. 30, p. 598-605, 2012.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. Upper Saddle River, New Jersey: Prentice-Hall, v. 4, p. 815, 1999.
JUANG, B.; KATAGIRI, S. Discriminative learning for minimum error classification [pattern recognition]. Signal Processing, IEEE Transactions, v. 40, n. 12, p. 3043-3054, 1992.
JUNEAU, P.; GARNIER, A.; DUCHESNE, C. The undecimated wavelet transform–multivariate image analysis (UWT-MIA) for simultaneous extraction of spectral and spatial information. Chemometrics and Intelligent Laboratory Systems, v. 142, p. 304-318, 2015.
KANAL, L. N.; ROSENFELD, A. Recent Progress in Syntactic Pattern Recognition. Progress in Pattern Recognition, v. 1, p. 1, 2014.
KANNAN, S. R.; RAMATHILAGAM, S.; CHUNG, P. C. Effective fuzzy c-means clustering algorithms for data clustering problems. Expert Systems with Applications, v. 39, n. 7, p. 6292-6300, 2012.
KANTZ, H.; SCHREIBER, T. Nonlinear time series analysis. Cambridge university press, 2004.
KAVITHA, V.; PUNITHAVALLI, M. Clustering Time Series Data Stream - A Literature Survey. Int. J. Comput. Sci. Inf. Secur. v. 8, p. 289–294, 2010.
125
KEOGH, E.; CHU, S.; HART, D.; PAZZANI, M. An online algorithm for segmenting time series. Proceedings IEEE International Conference on Data Mining (IEEE), p. 289-296, 2001a.
KEOGH, E.; CHAKRABARTI, K.; PAZZANI, M.; MEHROTRA, S. Dimensionality reduction for fast similarity search in large time series databases. Knowledge and information Systems, v. 3, n. 3, p. 263-286, 2001b
KIM, J. I.; LONG, J. D.; MILLS, J. A.; MCCUSKER, E.; PAULSEN, J. S. Multivariate Clustering of Progression Profiles Reveals Different Depression Patterns in Prodromal Huntington Disease. 2015.
KIMURA, T.; NIYADA, K.; HIRAOKA, S.; MORII, S.; WATANABE, T. A telephone speech recognition system using word spotting technique based on statistical measure. Acoustics, Speech, and Signal Processing, IEEE, p. 1175-1178, 1987.
KRIEGEL, H. P.; KRÖGER, P.; SANDER, J.; ZIMEK, A. Density based clustering. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, v. 1, n. 3, p. 231-240, 2011.
LALL, P.; CHOUDHARY, P.; GUPTE, S.; SUHLING, J.; HOFMEISTER, J. Statistical pattern recognition and built-in reliability test for feature extraction and health monitoring of electronics under shock loads. Electronic Components and Technology Conference, IEEE, v. 57, p. 1161-1178, 2007.
LAU, C. K.; GHOSH, K.; HUSSAIN, M. A.; HASSAN, C. C. Fault diagnosis of Tennessee Eastman process with multi-scale PCA and ANFIS. Chemometrics and Intelligent Laboratory Systems, v. 120, p. 1-14, 2013.
LEE, D. T. L.; YAMAMOTO, A. Wavelet analysis: theory and applications. Hewlett Packard journal, v. 45, p. 44-44, 1994.
LEE, J. M.; YOO, C.; CHOI, S. W.; VANROLLEGHEM, P. A.; LEE, I. B. Nonlinear process monitoring using kernel principal component analysis. Chemical Engineering Science, v. 59, n. 1, p. 223-234, 2004.
LEE, S. W.; KIM, C. H.; MA, H.; TANG, Y. Y. Multiresolution recognition of unconstrained handwritten numerals with wavelet transform and multilayer cluster neural network. Pattern Recognition, v. 29, n. 12, p. 1953-1961, 1996.
LEE, Y.; HARA, T.; FUJITA, H.; ITOH, S.; ISHIGAKI, T. Automated detection of pulmonary nodules in helical CT images based on an improved template-matching technique. Medical Imaging, IEEE Transactions, v. 20, n. 7, p. 595-604, 2001.
LEMKE, C.; GABRYS, B. Meta-learning for time series forecasting and forecast combination. Neurocomputing, v. 73, n. 10, p. 2006-2016, 2010.
126
LEMMA, T. A.; HASHIM, F. M. Wavelet analysis and auto-associative neural network based fault detection and diagnosis in an industrial gas turbine. Business Engineering and Industrial Applications Colloquium, IEEE, p.103-108, 2012.
LESCH, R. H.; CAILLÉ, Y.; LOWE, D. Component analysis in financial time series. Computational Intelligence for Financial Engineering, IEEE, p. 183-190, 1999.
LHERMITTE, S.; VERBESSELT, J.; VERSTRAETEN, W. W.; COPPIN, P. A comparison of time series similarity measures for classification and change detection of ecosystem dynamics. Remote Sensing of Environment, v. 115, n. 12, p. 3129-3152, 2011.
LI, G.; ALCALA, C. F.; QIN, S. J.; ZHOU, D. Generalized reconstruction-based contributions for output-relevant fault diagnosis with application to the Tennessee Eastman process. Control Systems Technology, IEEE, v. 19, n. 5, p. 1114-1127, 2011.
LI, S.; WEN, J. A model-based fault detection and diagnostic methodology based on PCA method and wavelet transform. Energy and Buildings, v. 68, p. 63-71, 2014.
LIANG, F.; LI, C.; GAO, Y.; ZHANG, C.; CHEN, J. Study on Pattern Recognition of Hand Motion Modes Based on Wavelet Packet and SVM. Computational Intelligence, Networked Systems and Their Applications. Berlin Heidelberg: Springer, p. 180-188, 2014.
LIAO, T.W. Clustering of time series data - a survey. Pattern Recognition. v. 38, p. 1857 – 1874, 2005.
LIN, J.; VLACHOS, M.; KEOGH, E.; GUNOPULOS, D. Iterative incremental clustering of time series. Advances in Database Technology-EDBT. Berlin Heidelberg: Springer, p. 106-122, 2004.
LIU, Y.; LI, Z.; XIONG, H.; GAO, X.; WU, J. Understanding of internal clustering validation measures. 10th International Conference on Data Mining (ICDM), p. 911-916, 2010.
MACGREGOR, J.; CINAR, A. Monitoring, fault diagnosis, fault-tolerant control and optimization: Data driven methods. Computers & Chemical Engineering, v. 47, p. 111-120, 2012.
MAESTRI, M.; FARALL, A.; GROISMAN, P.; CASSANELLO, M.; HOROWITZ, G. A robust clustering method for detection of abnormal situations in a process with multiple steady-state operation modes. Computers & chemical engineering, v. 34, n. 2, p. 223-231, 2010.
MAJI, P.; ROY, S. Rough-Fuzzy Clustering and Unsupervised Feature Selection for Wavelet Based MR Image Segmentation. PloS one, v. 10, n. 4, 2015.
MALLAT, S. G. A theory for multiresolution signal decomposition: the wavelet representation. Pattern Analysis and Machine Intelligence, v. 11, n. 7, p. 674-693, 1989.
127
MEILA, M.; HECKERMAN, D. An experimental comparison of several clustering and initialization methods. arXiv preprint arXiv:1301.7401, 2013.
MELIN, P.; CASTILLO, O. A review on type-2 fuzzy logic applications in clustering, classification and pattern recognition. Applied soft computing, v. 21, p. 568-577, 2014.
METSALU, T.; VILO, J. ClustVis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap. Nucleic acids research, 2015.
MISHRA, S.; SARAVANAN, C.; DWIVEDI, V. K.; PATHAK, K. K. Discovering flood rising pattern in hydrological time series data mining during the pre monsoon period. Indian Journal of Marine Sciences, v. 44, n. 3, p. 3, 2015.
MOHAMMED, A. A.; MINHAS, R.; WU, Q. J.; SID-AHMED, M. A. Human face recognition based on multidimensional PCA and extreme learning machine. Pattern Recognition, v. 44, n. 10, p. 2588-2597, 2011.
MONTEFUSCO, L.; PUCCIO, L. Wavelets: theory, algorithms, and applications. Academic Press, 2014.
MOTARD, R. L.; JOSEPH, B. Wavelet applications in chemical engineering. Springer Science & Business Media, 2013.
NAYAK, J.; NAIK, B.; BEHERA, H. S. Fuzzy C-Means (FCM) Clustering Algorithm: A Decade Review from 2000 to 2014. Computational Intelligence in Data Mining. India: Springer, p. 133-149, 2015.
NAZIMOV, A. I.; PAVLOV, A. N.; NAZIMOVA, A. A.; GRUBOV, V. V.; KORONOVSKII, A. A.; SITNIKOVA, E.; HRAMOV, A. E. Serial identification of EEG patterns using adaptive wavelet-based analysis. The European Physical Journal Special Topics, v. 222, n. 10, p. 2713-2722, 2013.
NOURANI, V.; ANDALIB, G. Wavelet Based Artificial Intelligence Approaches for Prediction of Hydrological Time Series. Artificial Life and Computational Intelligence. Springer International Publishing, p. 422-435, 2015.
OLSZEWSKI, R. T. Generalized feature extraction for structural pattern recognition in time-series data. Carnegie-Mellon University Pittsburgh Pa School of Computer Science, 2001.
OSOWSKI, S.; NGHIA, D. D. Fourier and wavelet descriptors for shape recognition using neural networks—a comparative study. Pattern Recognition, v. 35, n. 9, p. 1949-1957, 2002.
OUNI, K.; DHOUIBI, H.; NABLI, L.; MESSAOUD, H. New monitoring method based principal component analysis and fuzzy clustering. International Journal of Physical Sciences, v. 7, n. 16, p. 2414-2421, 2012.
OUYANG, Y.; YIN, H. A neural gas mixture autoregressive network for modelling and forecasting FX time series. Neurocomputing, v. 135, p. 171-179, 2014.
128
PARINET, B.; LHOTE, A.; LEGUBE, B. Principal component analysis: an appropriate tool for water quality evaluation and management—application to a tropical lake system. Ecological Modelling, v. 178, n. 3, p. 295-311, 2004.
PARK, Cheong Hee; PARK, Haesun. Fingerprint classification using fast Fourier transform and nonlinear discriminant analysis. Pattern Recognition, v. 38, n. 4, p. 495-503, 2005.
PARTAL, T.; KIŞI, Ö. Wavelet and neuro-fuzzy conjunction model for precipitation forecasting. Journal of Hydrology, v. 342, n. 1, p. 199-212, 2007.
PENNY, W. D.; ROBERTS, S. J.; CURRAN, E. A.; STOKES, M. J. EEG-based communication: a pattern recognition approach. IEEE Transactions on Rehabilitation Engineering, v. 8, n. 2, p. 214-215, 2000.
PERCIVAL, D. B.; WALDEN, A. T. Wavelet Methods for Time Series Analysis. Cambridge Series in Statistical and Probabilistic Mathematics, 2000.
PEREIRA, O. J.; FONTES, C. H. O.; PACHECO, L. A; BARRETTO, S. T. S.; CAVALCANTE, C. A. M. T. Pattern recognition using multivariable time series for fault detection in a thermoeletric unit. Computer-Aided Chemical Engineering, v. 31, p. 315-319, 2012.
PEREIRA, O. J.; FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; BARRETTO, S. T. S.; PACHECO, L. A. Fuzzy rule-based classifier for Fault Prediction in a Thermoelectric Unit. Brazilian Journal of Operations & Production Management, v. 10, n. 2, p. 79-90, 2014.
PICARD, R. W.; HEALEY, J. Affective wearables. Personal Technologies, v. 1, n. 4, p. 231-240, 1997.
PITTNER, S.; KAMARTHI, S. V. Feature extraction from Wavelet coefficients for pattern recognition tasks. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 21, n. 1, p. 83-88, 1999.
QIAO, L.; ESMAEILY, A.; MELHEM, H. G. Signal pattern recognition for damage diagnosis in structures. Computer Aided Civil and Infrastructure Engineering, v. 7, n. 9, p. 699-710, 2012.
RAD, M. A. A.; YAZDANPANAH, M. J. Designing supervised local neural network classifiers based on EM clustering for fault diagnosis of Tennessee Eastman process. Chemometrics and Intelligent Laboratory Systems, 2015.
RAFIEI, D.; MENDELZON, A. Similarity-based queries for time series data. ACM SIGMOD Record, p. 13-25, 1997.
RAKTHANMANON, T.; CAMPANA, B.; MUEEN, A.; BATISTA, G.; WESTOVER, B.; ZHU, Q.; KEOGH, E. Searching and mining trillions of time series subsequences under dynamic time warping. Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, p. 262-270, 2012.
129
RANI, S.; SIKKA, G. Recent techniques of clustering of time series data: a survey. Int. J. Comput. Appl, v. 52, n. 15, p. 1-9, 2012.
RAO, B. S.; REDDY, E. S. A Novel Fast FCM Clustering for Segmentation of Salt and Pepper Noise Corrupted Images. Computational Intelligence in Data Mining. India: Springer, p. 381-391, 2015.
RATH, T. M.; MANMATHA, R. Lower-bounding of dynamic time warping distances for multivariate time series. 2003.
RATO, T. J.; REIS, M. S. Fault detection in the Tennessee Eastman benchmark process using dynamic principal components analysis based on decorrelated residuals (DPCA-DR). Chemometrics and Intelligent Laboratory Systems, v. 125, p. 101–108, 2013.
RENDÓN, E.; ABUNDEZ, I.; ARIZMENDI, A.; QUIROZ, E. Internal versus external cluster validation indexes. International Journal of computers and communications, v. 5, n. 1, p. 27-34, 2011.
RENGASAMY, R. A framework for integrating process monitoring, diagnosis and supervisory control. Tese de Doutorado - Purdue University, 1995.
RICKER, N. L. Decentralized control of the Tennessee Eastman challenge process. Journal of Process Control, v. 6, n. 4, p. 205-221, 1996.
ROLLS-ROYCE. Material de Treinamento do Conjunto RB 211-G62 DF, 2010.
ROSE, K. Deterministic annealing for clustering, compression, classification, regression, and related optimization problems. Proceedings of the IEEE, v. 86, n. 11, p. 2210-2239, 1998.
ROUSSEEUW, P. J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of computational and applied mathematics, v. 20, p. 53-65, 1987.
SÁ BARRETO, S. T. Desenvolvimento de Metodologia pata Atualização em Tempo Real de Modelos Matemáticos de Processos Decisórios. Dissertação (Mestrado em Mecatrônica) – PPGM, Universidade Federal da Bahia, Salvador, 2009.
SAITTA, S.; RAPHAEL, B.; SMITH, I. F. C. A bounded index for cluster validity. Machine learning and data mining in pattern recognition. Springer Berlin Heidelberg, p. 174-187, 2007.
SANG, Y. A review on the applications of wavelet transform in hydrology time series analysis. Atmospheric research, v. 122, p. 8-15, 2013.
SARAVANAMUTTOO, H. I. H.; ROGERS, G. F. C.; COHEN, H. Gas Turbine Theory. Dorchester: Prentice Hall, v. 5, 1996.
SARAVANAN, N.; RAMACHANDRAN, K. I. Incipient gear box fault diagnosis using discrete wavelet transform (DWT) for feature extraction and classification using
130
artificial neural network (ANN). Expert Systems with Applications, v. 37, n. 6, p. 4168-4181, 2010.
SEERA, M.; LIM, C. P.; LOO, C. K.; SINGH, H. A modified fuzzy min–max neural network for data clustering and its application to power quality monitoring. Applied Soft Computing, v. 28, p. 19-29, 2015.
SENAPATI, M. R.; MOHANTY, A. K.; DASH, S.; DASH, P. K. Local linear wavelet neural network for breast cancer recognition. Neural Computing and Applications, v. 22, n. 1, p. 125-131, 2013.
SERRÀ, J.; ARCOS, J. L. An empirical evaluation of similarity measures for time series classification. Knowledge-Based Systems, 2014.
SETHI, I. K.; JAIN, A. K. Artificial neural networks and statistical pattern recognition: old and new connections. Elsevier, 2014.
SHAMS, M. A.; BUDMAN, H. M.; DUEVER, T. A. Fault detection, identification and diagnosis using CUSUM based PCA. Chemical Engineering Science, v. 66, n. 20, p. 4488–4498, 2011.
SHLENS, J. A tutorial on principal component analysis. arXiv preprint rXiv:1404.1100, 2014.
SINGHAL, A.; SEBORG, D. E. Pattern matching in historical batch data using PCA. Control Systems, IEEE, v. 22, n. 5, p. 53-63, 2002.
SINGHAL, A.; SEBORG, D. E. Clustering multivariate time series data. Journal of chemometrics, v. 19, n. 8, p. 427-438, 2005.
SINGHAL, A.; SEBORG, D. E. Evaluation of a pattern matching method for the Tennessee Eastman challenge process. Journal of Process Control, v. 16, n. 6, p. 601-613, 2006.
SNAEDAL, J.; JOHANNESSON, G. H.; GUDMUNDSSON, T. E.; BLIN, N. P.; EMILSDOTTIR, A. L.; EINARSSON, B.; JOHNSEN, K.Diagnostic accuracy of statistical pattern recognition of electroencephalogram registration in evaluation of cognitive impairment and dementia. Dementia and geriatric cognitive disorders, v. 34, n. 1, p. 51, 2012.
STARCZEWSKI, A.; KRZYŻAK, A. Performance Evaluation of the Silhouette Index. Artificial Intelligence and Soft Computing. Springer International Publishing, p. 49-58, 2015.
SZU, H. H. Review of wavelet transforms for pattern recognitions. Aerospace/Defense Sensing and Controls. International Society for Optics and Photonics, p. 2-22, 1996.
THANKI, R.; TRIVEDI, D.; KOTHARI, A. Biometric Template Feature Extraction and Matching Using ISEF Edge Detection and Contouring Based Algorithm. 2014.
131
TRAUB, O.; HOLLOWAY, G.; SMITH, M.D. Quality and speed in linear-scan register allocation. Proceedings of the ACM SIGPLAN, 1998.
TREBUŇA, P.; HALČINOVÁ, J. Mathematical tools of cluster analysis. Applied Mathematics, v. 4, n. 05, p. 814, 2013.
VARELLA, C. A. A. Análise de componentes principais.Universidade Federal Rural do Rio de Janeiro, Disponível em: http://www.ufrrj.br/institutos/it/deng/varella/Downloads, 2008.
VELMURUGAN, T. Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data. Applied Soft Computing, v. 19, p. 134-146, 2014.
VENKATASUBRAMANIAN, V.; RENGASWAMY, R.; YIN, K.; KAVURI, S. N.. A review of process fault detection and diagnosis: Part I: Quantitative model-based methods. Computers & chemical engineering, v. 27, n. 3, p. 293-311, 2003.
VLACHOS, M.; HADJIELEFTHERIOU, M.; GUNOPULOS, D.; KEOGH, E. Indexing multi-dimensional time-series with support for multiple distance measures. Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 216-225, 2003a.
VLACHOS, M.; LIN, J.; KEOGH, E.; GUNOPULOS, D. A wavelet-based anytime algorithm for k-means clustering of time series. Clustering High Dimensionality Data and Its Applications, 2003b.
WANG, X.; MUEEN, A.; DING, H.; TRAJCEVSKI, G.; SCHEUERMANN, P.; KEOGH, E. Experimental comparison of representation methods and distance measures for time series data. Data Mining and Knowledge Discovery, v. 26, n. 2, p. 275-309, 2013.
WATANABE, S. Methodologies of pattern recognition. Academic Press, 2014.
WEISS, G.; WILSON, E. N. The mathematical theory of wavelets. Twentieth Century Harmonic Analysis—A Celebration. Netherlands: Springer, p. 329-366, 2001.
WENG, X.; SHEN, J. Classification of multivariate time series using two-dimensional singular value decomposition. Knowledge-Based Systems, v. 21, n. 7, p. 535-539, 2008.
WIDODO, A.; YANG, B. Application of nonlinear feature extraction and support vector machines for fault diagnosis of induction motors. Expert Systems with Applications, v. 33, n. 1, p. 241-250, 2007.
WOOD, J. Invariant pattern recognition: a review. Pattern recognition, v. 29, n. 1, p. 1-17, 1996.
XIAO, F. Sensor fault detection and diagnosis of air handling units. Tese de Doutorado - The Hong Kong Polytechnic University, 2004.
132
XU, L.; KRZYŻAK, A.; SUEN, C. Y. Methods of combining multiple classifiers and their applications to handwriting recognition. Systems, man and cybernetics, IEEE transactions, v. 22, n. 3, p. 418-435, 1992.
XU, Q. Y.; MENG, X. Y.; HAN, X. J.; MENG, S. Gas turbine fault diagnosis based on wavelet neural network. Wavelet Analysis and Pattern Recognition. International Conference, IEEE, p. 738-741, 2007.
XU, R.; WUNSCH, D. Survey of clustering algorithms. Neural Networks, IEEE Transactions, v. 16, n. 3, p. 645-678, 2005.
XUN, L.; ZHISHU, L. The similarity of multivariate time series and its application. Management of e-Commerce and e-Government (ICMeCG), p. 76-81, 2010.
YANG, K; SHAHABI, C. A PCA-based kernel for kernel pca on multivariate time series. Proceedings of ICDM 2005 workshop on temporal data mining: algorithms, theory and applications held in conjunction with the fifth IEEE international conference on data mining, p. 149-156, 2005.
YILDIRIM, A. A.; WATSON, D. A comparative study of the parallel wavelet-based clustering algorithm on three-dimensional dataset. The Journal of Supercomputing, p. 1-16, 2015.
YIN, S.; DING, S. X.; HAGHANI, A.; HAO, H.; ZHANG, P. A comparison study of basic data-driven fault diagnosis and process monitoring methods on the benchmark Tennessee Eastman process. Journal of Process Control, v. 22, n. 9, p. 1567-1581, 2012.
YIN, S.; LUO, H.; DING, S. X. Real-time implementation of fault-tolerant control systems with performance optimization. Industrial Electronics, IEEE Transactions on, v. 61, n. 5, p. 2402-2411, 2014.
YOON, H.; YANG, K.; SHAHABI, C. Feature subset selection and feature ranking for multivariate time series. Knowledge and Data Engineering, IEEE Transactions on, v. 17, n. 9, p. 1186-1198, 2005.
YOUNG, R. K. Wavelet theory and its applications. Springer Science & Business Media, 2012.
YU, J. A support vector clustering based probabilistic method for unsupervised fault detection and classification of complex chemical processes using unlabeled data. AIChE Journal, v. 59, n. 2, p. 407-419, 2013.
ZHANG, Y. G.; WANG, Z. P.; ZHANG, J. F.; MA, J. Fault localization in electrical power systems: A pattern recognition approach. International Journal of Electrical Power & Energy Systems, v. 33, n. 3, p. 791-798, 2011.
133
ZHAO, Y.; KARYPIS, G. Evaluation of hierarchical clustering algorithms for document datasets. Proceedings of the eleventh international conference on Information and knowledge management. ACM, p. 515-524, 2002.
ZHONG, B.; WANG, J.; ZHOU, J.; WU, H.; JIN, Q. A quality-related statistical process monitoring method based on global and local partial least squares projection. Industrial & Engineering Chemistry Research, 2016.
ZHU, Z.; SONG, Z.; PALAZOGLU, A. Process pattern construction and multi-mode monitoring. Journal of Process Control, v. 22, n. 1, p. 247-262, 2012.
ZHUANG, D. E. H.; LI, G. C. L.; WONG, A. K. C. Discovery of temporal associations in multivariate time series. Knowledge and Data Engineering, IEEE Transactions on, v. 26, n. 12, p. 2969-2982, 2014.