joÃo francisco monteiro barragan - pei.ufba.br · joÃo francisco monteiro barragan...

134

Upload: lamcong

Post on 11-Feb-2019

224 views

Category:

Documents


0 download

TRANSCRIPT

JOÃO FRANCISCO MONTEIRO BARRAGAN

CONTRIBUIÇÕES DA TRANSFORMADA WAVELET PARA O AGRUPAMENTO E RECONHECIMENTO DE PADRÕES EM

SÉRIES TEMPORAIS

Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Engenharia Industrial, da Universidade Federal da Bahia, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Industrial. Orientadores: Prof. Dr. Cristiano Fontes

Prof. Dr. Marcelo Embiruçu

Salvador

2016

Barragan, João Francisco

Contribuições da transformada wavelet para o agrupamento e

reconhecimento de padrões em séries temporais / João Francisco

Barragan. – Salvador, 2016.

123 f. : il

Orientador(es): Prof. Dr. Cristiano Hora de Oliveira Fontes

Coorientador: Prof. Dr. Marcelo Embiruçu de Souza

Dissertação (Mestrado – Programa de pós-graduação em

engenharia industrial) – Universidade Federal da Bahia, Escola

Politécnica, 2016.

1. Reconhecimento de padrões. 2. Agrupamentos. 3. Wavelets.

4. Séries temporais univariadas. 5. Séries temporais multivariadas. I.

Fontes, Cristiano. II. Embiruçu, Marcelo. III. Título.

A Deus, família, amigos, colegas de trabalho e orientadores pelo apoio, força, incentivo, companheirismo e amizade. Sem eles nada seria possível.

Agradecimentos

A Deus por me dar força interior para superar as dificuldades.

À minha filha Júlia, por mudar minha concepção de mundo e transformar tudo em algo melhor.

Aos meus pais, Roberto Barragan e Neusa Monteiro, pelo amor e carinho incondicional e pelos ensinamentos obtidos, estes estarão comigo por toda vida!

À minha esposa, Larissa Santana, por todos os dias que acordei ao seu lado, pela cumplicidade e afeto, por me escutar e me ajudar sempre que possível.

Aos meus sogros, Vera Maria e Edson Palmeira, pela sua companhia e alegria.

A meus orientadores, professor Cristiano Hora Fontes e Marcelo Embiruçu, por todo empenho, sabedoria e compreensão.

A Otacílio Pereira, pelos ensinamentos e conselhos.

Aos professores, funcionários e colegas do Programa de Pós-graduação em Engenharia Industrial da UFBA.

Aos meus amigos, pela amizade e pelos bons momentos de descontração.

À Capes, pelo apoio financeiro.

"Todo o futuro da nossa espécie, todo o governo das sociedades, toda a prosperidade moral e material das nações dependem da ciência, como a vida do homem depende do ar. Ora, a ciência é toda observação, toda exatidão, toda verificação experimental. Perceber os fenômenos, discernir as relações, comparar as analogias e as dessemelhanças, classificar as realidades, e induzir as leis, eis a ciência; eis, portanto, o alvo que a educação deve ter em mira. Espertar na inteligência nascente as faculdades cujo concurso se requer nesses processos de descobrir e assimilar a verdade." (Rui Barbosa).

Resumo da Dissertação apresentada ao PEI/UFBA como parte dos requisitos

necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)

CONTRIBUIÇÕES DA TRANSFORMADA WAVELET PARA O AGRUPAMENTO E

RECONHECIMENTO DE PADRÕES EM SÉRIES TEMPORAIS

João Francisco Monteiro Barragan

Julho/2016

Orientadores: Prof. Dr. Cristiano Hora de Oliveira Fontes

Prof. Dr. Marcelo Embiruçu

Análise de agrupamentos aplicada ao reconhecimento de padrões de dados é

uma alternativa potencial para a extração de conhecimentos acerca de determinado

processo e pode ser útil para a previsão de falhas, controle e tomada de decisões,

entre outros. Este trabalho apresenta uma metodologia voltada ao reconhecimento de

padrões em séries temporais uni e multivariadas, através de uma combinação de

coeficientes wavelets, métricas de similaridade baseadas em PCA e agrupamento

nebuloso (fuzzy clustering). A análise de similaridade entre os objetos é baseada na

Transformada Wavelet (TW) e uma nova métrica de distância (SPCA Multiescala,

MSPCA) é proposta a fim de considerar as distâncias entre séries temporais conforme

uma abordagem de multirresolução. Dois estudos de caso foram analisados tomando-

se como base o agrupamento e o reconhecimento de padrões visando a detecção de

falhas em processos de produção. A primeira aplicação compreendeu a análise de

séries temporais univariadas relacionadas à operação de uma turbina a gás de escala

comercial (Unidade Termoelétrica Rômulo Almeida, Petrobras). O segundo estudo de

caso compreendeu o agrupamento e o reconhecimento de padrões em séries

multivariadas tomando-se como campo de testes a planta virtual Tennessee Eastman

Process (TEP), amplamente adotada como referência para estudos de monitoramento,

controle e análise de falhas. O MSPCA melhorou significativamente a qualidade de

agrupamento e demonstrou ser uma abordagem útil em problemas de detecção e

diagnóstico de falhas (FDD, Fault Detection and Diagnosis). Em ambos os casos foi

possível reconhecer padrões de falha e modos de operação seguros, os quais

representam potenciais alternativas para o apoio à tomada de decisão na gestão

operacional e para o projeto e implementação de estratégias de controle ótimo.

Abstract of Dissertation presented to PEI/UFBA as a partial fulfillment of the

requirements for the degree of Master of Science (M.Sc.)

CONTRIBUTIONS OF THE WAVELET TRANSFORM FOR THE CLUSTERING AND PATTERN

RECOGNITION IN TIME SERIES

João Francisco Monteiro Barragan

July/2016

Advisors: Prof. Dr. Cristiano Hora de Oliveira Fontes

Prof. Dr. Marcelo Embiruçu

Clustering and pattern recognition from data is a potential alternative for the

knowledge extraction and may be useful for predicting failures, control and support

decision making, among others. This work presents a methodology for recognizing

patterns in uni and multivariate time series based on the combination of wavelet

features, PCA similarity metrics and fuzzy clustering. The analysis of similarity between

objects is based on the Wavelet Transform (WT) and a new distance metric (Multiscale

SPCA, MSPCA) is proposed in order to consider the distance between time series

according to a multi-resolution approach. Two case studies were analyzed, both based

on the clustering and pattern recognition in order to detect failures in production

processes. The first application comprised the analysis of univariate time series related

to a gas turbine operation of commercial scale (a thermoelectric power plant of

Petrobras Brazilian oil company). The second case comprised the clustering and

pattern recognition in multivariate time series considering the Tennessee Eastman (TE)

process, a well-known benchmark industrial system used to compare various

monitoring solutions. The MSPCA significantly improved the clustering quality and

proved to be a useful approach in problems of Fault Detection and Diagnosis (FDD). In

both cases it was possible to identify failure patterns and safe operating modes which

represent potential tools to support the decision making for the operational

management and to design and implementation of optimal control strategies.

Lista de Figuras

Figura 1 - Representação de séries temporais (D'URSO e MAHARAJ, 2012). ............................................. 36

Figura 2 - Séries temporais univariadas – eletrocardiogramas (HE et al., 2006) ....................................... 37

Figura 3 - Treinamento e validação/teste no reconhecimento de padrões (JAIN et al., 2000). .................. 43

Figura 4 - Abordagens estatísticas de reconhecimento de padrões (JAIN et al. 2000). .............................. 46

Figura 5 - Agrupamento de dados (XU e WUNSCH, 2005). ........................................................................ 47

Figura 6 - Agrupamento baseado no método de densidade (ESTER et al., 1996). ..................................... 48

Figura 7 - Etapas de agrupamento (JAIN et al., 2000). ............................................................................... 49

Figura 8 - Grupo de objetos - índice de silhueta. ........................................................................................ 58

Figura 9 - Tipos de wavelets. ...................................................................................................................... 61

Figura 10 - Estiramento e deslocamento de uma wavelet (CHIANG et al., 2001). ..................................... 63

Figura 11 - Wavelet Haar. .......................................................................................................................... 68

Figura 12 - Wavelet Morlet. ....................................................................................................................... 68

Figura 13 - Wavelets Daubechies. .............................................................................................................. 69

Figura 14 - Termelétrica Rômulo Almeida (SÁ BARRETTO, 2009). .............................................................. 71

Figura 15 - Turbina a gás RB211-G62 (ROLLS-ROYCE, 2010). ..................................................................... 72

Figura 16 - Metodologia - caso 1. ............................................................................................................... 75

Figura 17 - Exemplos de partidas normais. ................................................................................................ 76

Figura 18 - Exemplos de partidas com trip por dispersão de temperatura. ............................................... 76

Figura 19 - STU e coeficientes wavelets de séries univariadas - objetos normal e falho. ........................... 77

Figura 20 - Distância inter e intra grupos. Janela de 20 minutos - vazão de gás natural. .......................... 78

Figura 21 - Distância inter e intra grupos. Janela de 20 minutos - pressão de entrada. ............................ 79

Figura 22 - Distância inter e intra grupos. Janela de 20 minutos - temperatura de exaustão ................... 79

Figura 23 - Distância inter e intra grupos. Janela de 11 minutos - vazão de gás natural. .......................... 80

Figura 24 - Distância inter e intra grupos. Caso com dois padrões de partida normal, N1 e N2. ............... 81

Figura 25- Distância entre objetos N1 e N2 versus objetos trip. ................................................................ 82

Figura 26 - Séries temporais dos padrões obtidos. ..................................................................................... 83

Figura 27 - Distância entre protótipos resultantes. .................................................................................... 83

Figura 28 - Índice de silhueta - caso univariado. ........................................................................................ 84

Figura 29 - Diagrama do TEP. ..................................................................................................................... 87

Figura 30 - Sistema de controle aplicado ao TEP (RICKER, 1996). .............................................................. 92

Figura 31 - Obtenção dos objetos multivariados. ....................................................................................... 95

Figura 32 - Método MSPCA. .......................................................................................................................... 98

Figura 33 - Exemplos de duas séries multivariadas. ................................................................................. 101

Figura 34 Distância inter e intragrupos - MSPCA. .................................................................................... 103

Figura 35 - Distância inter e intragrupos - SPCA tradicional. ..................................................................... 103

Figura 36 - Agrupamento e reconhecimento de padrões (procedimento de treinamento). ..................... 104

Figura 37 - Padrões de cada centro - MSPCA. ............................................................................................. 105

Figura 38 - Padrões de cada centro - SPCA tradicional. ............................................................................. 105

Figura 39 - Índice de silhueta em abordagem MSPCA - amostra treinamento. .......................................... 107

Figura 40 - Índice de silhueta em abordagem SPCA tradicional - amostra treinamento. ........................ 108

Figura 41 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados de validação e 2

padrões (grupo 1 e 2). .............................................................................................................................. 110

Figura 42 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados de validação e 3

padrões. .................................................................................................................................................... 111

Figura 43 - Complemento do SPCA entre dois objetos (falha e normal) - em cada escala, média e SPCA

tradicional. ............................................................................................................................................... 112

Figura 44 - Agrupamento de objetos de treinamento - wavelet Haar. ..................................................... 114

Figura 45 - Agrupamento de objetos de treinamento - wavelet Morlet. .................................................. 114

Figura 46 - Agrupamento de objetos de treinamento - wavelet Daubechies20. ...................................... 114

Lista de Tabelas

Tabela 1 - Exemplo de matriz resultante da aplicação da CWT (FUGAL, 2009) ......................................... 64

Tabela 2 - Variáveis manipuladas do TEP ................................................................................................... 88

Tabela 3 - Variáveis medidas no TEP .......................................................................................................... 89

Tabela 4 - Eventos de falha no TEP ............................................................................................................. 91

Tabela 5 - Variáveis significativamente afetadas nas falhas...................................................................... 94

Tabela 6 - Mudanças de setpoint ............................................................................................................... 94

Tabela 7 - Distribuição dos objetos de treinamento - metodologias MSPCA e SPCA tradicional .................. 106

Tabela 8 - Distâncias entre protótipos ...................................................................................................... 107

Tabela 9 - Percentual de classificação correta entre diferentes abordagens ........................................... 113

Lista de Símbolos

L

ia Média de distâncias entre objeto i intragrupo

L

ib Média de distâncias entre objeto i intergrupo mais próximo

L

is Índice de silhueta referente ao objeto i

Ks Índice de silhueta referente ao grupo k

Escala da transformada Wavelet

ij Ângulo entre componentes principais i e j

n Espaço Euclidiano n-dimensional

‖ ‖ Métrica de Frobenius da matriz A

Desvio padrão da série temporal xi

( ) Fator de similaridade da análise de Componentes principais

( ) Métrica de Mikowski

( ) Métrica de Mahalanobis

Variável p do objeto i, observada no instante de tempo t

referente ao objeto X

Esperança da série temporal xi

ãi Autovetor associado ao autovalor λi

IDV Casos de falha – Estudo de caso 2. TEP

N1 Grupo de partida Normal 1 – Estudo de caso 1. Turbina

N2 Grupo de partida Normal 2– Estudo de caso 1. Turbina

S Matriz Covariância

Tr(A) Função traço da matriz A

U(cn) Matriz de partição dos n objetos aos c clusters

uik Pertinência do objeto k ao cluster i

Vi i-ésimo Protótipo resultante de agrupamento não hierárquico

X Matriz genérica representando um conjunto de STM

XMEAS Variáveis observadas – Estudo de caso 2. TEP

XMV Variáveis manipuladas – Estudo de caso 2. TEP

Zi Matriz genérica representando uma única STM

zij Valor da variável j no instante de tempo t do objeto Zi

λi Autovalores

( ) Transformada Wavelet

( ) Coeficiente de Pearson

𝝍(t) Função Wavelet-mãe

Lista de Abreviaturas

AML Automatic Machine Learning

CA Caldeira Auxiliar

CCEE Câmara de Comercialização de Energia Elétrica

CDI Clustering Dispersion Indicator

CWT Continuous Wavelet Transform

DM Data Mining

DTW Dynamic Time Warping

DTW Discrete WaveletTransform

FCM Fuzzy C-Means

FDD Fault Detection and Diagnosis

FT Fourier Transform

HRSG Heat Recovery Steam Generator

IS Índice de Silhueta

KDD Knowledge Discovery on Data

KLT Karhunen-Loève Transform

LCSS Longest Common SubSequence

MSPCA Multiscale Similarity of Principal Component Analysis factor

NMI Normalized Mutual Information

ONS Operador Nacional do Sistema Elétrico

PCA Principal Component Analysis (análise de componentes

principais)

PIMS Process Information Management System

RNA Rede Neural Artificial

SCDA Supervisão e Controle Distribuído e Autônomo

SIN Sistema Interligado Nacional

SPCA Similarity of Principal Component Analysis factor

STM Série Temporal Multivariada

STU Série Temporal Univariada

TEP Tennessee Eastman Process

TG Turbina a Gás

TI Tecnologia da Informação

TW Transformada Wavelet

UDWT Undecimated Discrete Wavelet Transform

UFBA Universidade Federal da Bahia

UTE Usina Termelétrica

Sumário

CAPÍTULO 1. INTRODUÇÃO .................................................................................... 29

1.1 CONSIDERAÇÕES INICIAIS ........................................................................................... 29

1.2 OBJETIVOS ................................................................................................................... 33

CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA E REVISÃO

BIBLIOGRÁFICA .......................................................................................................... 35

2.1 SÉRIES TEMPORAIS - CASOS UNI E MULTIVARIADO .................................................... 35

2.2 ANÁLISE DE COMPONENTES PRINCIPAIS .................................................................... 38

2.3 RECONHECIMENTO DE PADRÕES ................................................................................ 40

2.3.1 Visão geral .................................................................................................................. 40

2.3.2 Estatísticas T² e Q ...................................................................................................... 44

2.3.3 Análise de agrupamentos ........................................................................................... 45

Seleção e extração de características ......................................................................... 49

Métricas de similaridade em séries temporais ........................................................... 51

Agrupamentos ............................................................................................................. 54

Validação do agrupamento ......................................................................................... 57

2.4 WAVELETS ................................................................................................................... 60

2.4.1 Visão geral .................................................................................................................. 60

2.4.2 Principais wavelets-mãe ............................................................................................. 67

CAPÍTULO 3. ESTUDOS DE CASO ........................................................................ 71

3.1 ESTUDO DE CASO 1: DETECÇÃO DE FALHAS EM UMA TURBINA A GÁS...................... 71

3.1.1 Descrição .................................................................................................................... 71

3.1.2 Metodologia ............................................................................................................... 74

3.1.3 Resultados e discussão ............................................................................................... 75

3.2 ESTUDO DE CASO 2: DETECÇÃO DE FALHAS EM UM PROCESSO VIRTUAL DE

REFERÊNCIA ............................................................................................................................. 85

3.2.1 Descrição .................................................................................................................... 85

3.2.2 Geração dos objetos ................................................................................................... 93

3.2.3 Métrica MSPCA e a abordagem multirresolução .......................................................... 95

3.2.4 Resultados e discussão ............................................................................................. 100

CAPÍTULO 4. CONCLUSÕES ................................................................................... 117

REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................... 119

Lista de Publicações

Barragan, J. F. M.; Fontes, C. H. O.; Pereira, O. J.; Barreto, S. T. S.; Pacheco, L. A.;

“Análises de métricas de similaridades em séries temporais para o

reconhecimento de padrões”, Cadernos do IME-Série Estatística, vol. 33, p. 35,

(2012);

Barragan, J. F. M.; Fontes, C. H. O.; Pereira, O. J.; “Pattern recognition using

Wavelet analysis for fault detection in a gas turbine”, 8th International

Conference on Industrial Engineering and Industrial Management / XX

International Conference on Industrial Engineering and Operations

Management / International IIE Conference, vol. 1, p. 1-8, Malaga, Espanha, 23-

25 Jul., (2014);

Barragan, J. F. M.; Fontes, C. H. O.; Embiruçu, M.; “A wavelet-based clustering

of multivariate time series using a Multiscale SPCA approach”, Computers &

Industrial Engineering, vol. 95, p. 144–155,

http://dx.doi.org/10.1016/j.cie.2016.03.003, (2016).

29

CAPÍTULO 1

INTRODUÇÃO

1.1 CONSIDERAÇÕES INICIAIS

O avanço da Tecnologia da Informação (TI) viabilizou para empresas de diversos

setores produtivos a coleta e o armazenamento sistemático de dados e diferentes

informações provenientes de seus processos. Entretanto, ainda existem carências e

desafios no sentido de que os dados armazenados sejam transformados em

informação útil, contribuindo para uma melhor gestão do processo e melhoria das

condições operacionais. Métodos associados à geração de conhecimento [Knowledge

Discovery on Data (KDD)] e mineração de dados [Data Mining (DM)] são métodos que

utilizam dados para a geração de conhecimento útil (FAYYAD et al., 1996).

Mais especificamente, a análise dos sinais ou comportamento de variáveis ao

longo do tempo (séries temporais) representa uma alternativa de gerar conhecimento

sobre um processo, além de representar uma ferramenta imprescindível para o estudo

de sistemas mais complexos, os quais envolvem uma grande quantidade de variáveis e

correlações entre seus dados.

A análise de agrupamentos (cluster analysis) e o reconhecimento de padrões

aplicados a séries temporais contemplam um amplo e diversificado espectro de

aplicações. Uma série de desafios e avanços nestas respectivas áreas vêm sendo

desenvolvidos nos últimos anos. Dentro deste contexto, o reconhecimento de padrões

em séries univariadas já tem sido amplamente explorado (LIAO, 2005; KEOGH et al,

2001a; FU, 2011; OUYANG e YIN, 2014; BAYDOGAN et al., 2013; MISHRA et al., 2015),

sendo usualmente tratado como um problema de agrupamento de protótipo pontual

em um espaço multidimensional (BEZDEK et al., 2005). Métricas tradicionais de

similaridade (distância euclidiana) e de agrupamento não hierárquico (baseados em

30

otimização), tais como fuzzy c-means e k-means, são perfeitamente adequadas para

objetos caracterizados como séries temporais univariadas (LIAO, 2005; TREBUŇA e

HALČINOVÁ, 2013; D'URSO e MAHARAJ, 2009; RAO e REDDY, 2015).

Por outro lado, o agrupamento de séries multivariadas não compreende um

problema de protótipo pontual, ou seja, múltiplas séries temporais (associadas a

diferentes variáveis de processo) analisadas conjuntamente não podem ser tratadas

como um único vetor de pontos no n. A utilização de métricas de similaridade

tradicionais, apropriadas ao caso univariado, não podem ser aplicadas nesta situação.

Neste contexto, outros desafios são envolvidos ao considerar o aspecto multivariado

da série temporal como, por exemplo, extração de características, desenvolvimento de

outras métricas de similaridade, presença de correlação entre as séries, seleção das

variáveis apropriadas e redução da dimensionalidade do problema (RANI e SIKKA,

2012; COPPI et al., 2010; KAVITHA e PUNITHAVALLI, 2010; GHASSEMPOUR et al., 2014;

SINGHAL e SEBORG, 2005; D'URSO e MAHARAJ, 2012; ZHUANG et al., 2014; KIM et al.,

2015).

A grande dificuldade na análise de séries multivariadas reside na estrutura do

objeto, que não deve ser tratado como uma única e grande série univariada (XUN e

ZHISHU, 2010). Neste contexto, recentes estudos passaram a propor novas

metodologias para o agrupamento, o reconhecimento de padrões e a extração de

características associadas às séries temporais multivariadas, os quais representam uma

importante ferramenta para a resolução de problemas inerentes a processos

industriais (detecção de falhas, controle ótimo, identificação) (RAD e YAZDANPANAH,

2015; SEERA et al., 2015).

Alguns trabalhos ressaltam a utilização de técnicas baseadas na análise de

componentes principais (PCA, Principal Component Analysis) para a extração de

características em séries multivariadas e apresentam estudos de caso associados a

sistemas dinâmicos não-lineares (YANG e SHAHABI, 2005; SINGHAL e SEBORG, 2005;

DOBOS e ABONYI, 2012; DENG e TIAN, 2013; XUN e ZHISHU, 2010; WENG e SHEN,

2008; ZHANG et al., 2011; PARINET et al., 2004; BANKÓ e ABONYI, 2012). Yang e

Shahabi (2005) discutem sobre as desvantagens associadas a uma métrica de

similaridade baseada em PCA (SPCA) ao reconhecer padrões de falhas em dados não-

31

lineares e a sua incapacidade em fornecer representações de grande dimensionalidade

em dados com comportamento não gaussiano.

Dentre as diversas metodologias sugeridas para a extração de características e

definições de métricas de similaridades em séries temporais (VLACHOS et al., 2003a;

D'URSO e MAHARAJ, 2009), a transformada wavelet é uma ferramenta com grande

potencial dentro do campo de processamento de sinais, por apresentar melhor

desempenho em detrimento a outras técnicas tradicionais (transformada de Fourier e

suas variantes), especialmente no processamento de sinais não estacionários, devido a

sua capacidade em extrair informações ou características dos dados em ambos os

domínios do tempo e da frequência (CHAOVALIT et al., 2011; JINNA e GANESAN,

2010). Diversos estudos envolvem o desenvolvimento de agrupamentos e

reconhecimento de padrões em séries temporais univariadas baseados em

coeficientes wavelets. Dentre eles, encontram-se a classificação baseada em modelos

estruturais, tais como neuro-fuzzy e redes neurais (BAYRAM e SEKER, 2013;

SARAVANAN e RAMACHANDRAN, 2010; PARTAL e KISI, 2007; NOURANI e ANDALIB,

2015). Em geral, a transformada wavelet é utilizada na etapa de extração de

características da série, sendo seus coeficientes posteriormente utilizados na etapa de

treinamento do modelo de classificação (VLACHOS et al., 2003b; D'URSO e MAHARAJ,

2012). Quando se considera o reconhecimento de padrões em séries multivariadas a

partir de coeficientes wavelets, ainda há um número bastante reduzido de artigos

científicos explorando o tema. Dentre estes, percebe-se que tais pesquisas ocorreram

praticamente aos últimos cinco anos (D'URSO et al., 2014; CHAOVALIT et al., 2011;

JUNEAU et al., 2015; BAYDOGAN e RUNGER, 2014; SENAPATI et al., 2013; DI SALVO et

al., 2013;).

Na indústria, o reconhecimento de padrões pode ser aplicado para a detecção e

o diagnóstico de falhas [Fault Detection and Diagnosis (FDD)], os quais podem fornecer

um aumento na eficiência da produção, visto que eles permitem a detecção prévia e o

diagnóstico de uma condição de operação indesejável, permitindo a tomada de ações

corretivas. A adoção de procedimentos de detecção de falhas visa reduzir o número de

paradas indesejáveis (trips), diminuir a frequência de manutenções e manter o sistema

em condições ótimas de operação, elevando a taxa de produção. Diferentes técnicas

envolvendo agrupamentos têm sido bastante utilizadas em problemas de FDD (LI e

32

WEN, 2014; VENKATASUBRAMANIAN et al., 2003; LEE et al., 2004), conjuntamente

com técnicas tradicionais (data driven methods) (MACGREGOR e CINAR, 2012).

Este trabalho visa explorar as potencialidades da transformada wavelet em

conjunto com a utilização de métricas de similaridade baseadas em PCA e

agrupamentos nebulosos (fuzzy clustering) para o reconhecimento de padrões em

séries temporais em ambos os casos uni e multivariado. Um fator de similaridade

multiescala (MSPCA), baseado na transformada wavelet contínua [Continuous Wavelet

Transform (CWT)], é proposto com o intuito de avaliar as distâncias entre os objetos

(séries temporais multivariadas), de acordo com a abordagem multirresolução. A

abordagem proposta é aplicada em dois estudos de caso.

O primeiro estudo de caso compreende um caso real que contempla o

reconhecimento de padrões de operação em uma turbina a gás de escala comercial,

com capacidade de geração de energia de 27 MW (ROLLS-ROYCE, 2010), a qual

representa o principal equipamento da Unidade TermElétrica (UTE) Rômulo Almeida,

integrante do parque da Petrobras. Os dados foram obtidos a partir de um sistema de

gerenciamento de informações de plantas industriais [Process Information

Management System (PIMS)], disponível na UTE. Os padrões identificados viabilizaram

o reconhecimento de distinções entre as ocorrências de partidas da turbina sem e com

trip (falha) devido à ocorrência de elevada dispersão de temperatura na câmara de

combustão. Este estudo de caso representa uma etapa posterior de um trabalho

pioneiro realizado na mesma UTE, resultado de um projeto cooperativo envolvendo a

Petrobras e a UFBA (PEREIRA et al., 2014).

O segundo estudo de caso também foi voltado a um problema de FDD e

compreendeu o reconhecimento de padrões em eventos normais e anormais (falhas) a

partir de séries multivariadas geradas através da unidade virtual Tennessee Eastman

Process (TEP) (DOWNS e VOGEL, 1993; RICKER, 1996). Este processo, disponível na

internet, é amplamente adotado como referência para o estudo de técnicas de

detecção de falhas, estratégias de controle e otimização, entre outros (YIN et al., 2012;

LAU et al., 2013; YU, 2013; BAHRAMPOUR et al., 2011; ZHU et al., 2012; LI et al., 2011;

MAESTRI et al., 2010; DONG et al., 2015; YIN et al., 2014).

Conforme já ressaltado, este trabalho congrega o uso e a modificação de

técnica tradicional de agrupamento não hierárquico (fuzzy c-means), extração de

33

características através de coeficientes wavelets, reconhecimento de padrões e

classificação, culminando com o desenvolvimento de uma nova métrica de

similaridade que contempla o uso de PCA e wavelets, capaz de extrair componentes

principais dos objetos em diferentes escalas de tempo e frequência.

Na seção seguinte são apresentados os objetivos geral e específicos deste

trabalho. O segundo capítulo traz fundamentos acerca das técnicas aplicadas e destaca

os trabalhos relacionados ao tema encontrados na literatura. O terceiro capítulo

apresenta de forma mais detalhada ambos os estudos de caso, a metodologia aplicada

e os resultados obtidos, comparando-os com métodos tradicionais que não envolvem

a análise multirresolução. O quarto e último capítulo apresenta as principais

conclusões e sugere futuros trabalhos.

1.2 OBJETIVOS

O objetivo geral deste trabalho é investigar a potencialidade da transformada

wavelet para o reconhecimento de padrões em séries temporais, tendo os seguintes

objetivos específicos:

Aplicar o agrupamento multiescala univariado baseado na CWT em uma base

de dados industriais reais;

Comparar o agrupamento univariado baseado em coeficientes wavelets com o

agrupamento tradicional multivariado;

Desenvolver uma métrica de similaridade apropriada para a avaliação de

distância entre séries temporais multivariadas;

Investigar o benchmark TEP como possível alternativa para o fornecimento de

dados para problemas de detecção e diagnóstico de falhas;

Aplicar a nova métrica de similaridade proposta em um problema de

agrupamento de séries multivariadas e compará-la a métricas tradicionais;

Comparar a capacidade de detecção e diagnóstico de falhas em séries

multivariadas através da metodologia proposta em relação a técnicas clássicas

baseadas em métodos estatísticos (T² e Q);

34

Comparar a qualidade do agrupamento a partir de diferentes wavelets-mãe

para o reconhecimento de padrões.

35

CAPÍTULO 2

FUNDAMENTAÇÃO TEÓRICA E

REVISÃO BIBLIOGRÁFICA

2.1 SÉRIES TEMPORAIS - CASOS UNI E MULTIVARIADO

Define-se série temporal como uma sequência de valores reais dispostos ao

longo do tempo (RAFIEI e MENDELZON, 1997). Séries temporais são objetos típicos

envolvidos em problemas de reconhecimento de padrões e agrupamentos e

compreendem basicamente dois tipos de situações: Séries Temporais Univariadas

(STU) e Séries Temporais Multivariadas (STM) (D'URSO et al., 2014; YANG e SHAHABI,

2005; LI e WEN, 2014). Ambos os tipos de representação contêm importantes

informações para análise, classificação, indexação, predição ou interpretação (KANTZ e

SCHREIBER, 2004; HAN et al., 2011; LIAO, 2005; FU, 2011).

A busca de similaridade entre séries temporais vem recebendo uma enorme

importância nos últimos anos, em bancos de dados empresariais, médicos e científicos

(WANG et al., 2013; RAKTHANMANON et al., 2012; LHERMITTE et al., 2011; CERVELLÓ-

ROYO et al., 2015). A determinação de uma métrica que estabeleça o grau de

similaridade (ou dissimilaridade) entre duas séries temporais é uma tarefa central para

as aplicações de agrupamento e classificação (SERRA e ARCOS, 2014).

Genericamente uma amostra de objetos caracterizados, cada um deles, por

um conjunto de séries temporais pode ser representada pela seguinte matriz

tridimensional:

{ } (1)

36

onde representa o objeto, a variável e o tempo. Desta forma, representa a

variável do objeto , observada no instante de tempo . O caso univariado é aquele

no qual . Quando cada objeto é uma Série Temporal Multivariada (STM). A

matriz tridimensional pode ilustrada pelo sólido da Figura 1 (D'URSO e MAHARAJ,

2012).

Figura 1 - Representação de séries temporais (D'URSO e MAHARAJ, 2012).

Cada objeto (STM) pode ser representado por uma matriz:

[

( ) ( )

( ) ( )

] (2)

onde é o objeto, ( ) é o valor medido da variável ( ) no instante de

tempo ( ) referente ao objeto ( ). Cada coluna, portanto,

contém a série temporal relacionada à variável j no objeto . Para o caso em que

, o objeto trata-se de uma STU.

Trabalhos relacionados à similaridade entre séries univariadas já são bastante

explorados (D'URSO e MAHARAJ, 2012; LEMKE e GABRYS, 2010; IGLESIAS e KASTNER,

2013). O procedimento mais adotado em séries temporais univariadas consiste em

considerá-las simplesmente como pontos no espaço multidimensional e o cálculo da

similaridade é efetivado através de métricas consolidadas, tais como a distância

euclidiana e a distância DTW (Dynamic Time Warping) (RATH e MANMATHA, 2003).

37

Um exemplo de aplicação de série temporal univariada compreende a análise

de eletrocardiogramas (Figura 2). Neste caso, a avaliação de dissimilaridades entre

diferentes séries temporais (diferentes objetos) pode auxiliar na definição de

diagnóstico ou na classificação de um indivíduo quanto ao seu perfil cardíaco

(SNAEDAL et al., 2012; NAZIMOV et al., 2013).

Figura 2 - Séries temporais univariadas – eletrocardiogramas (HE et al., 2006)

De forma análoga, técnicas de agrupamento e reconhecimento de padrões

podem ser conduzidas em um ambiente industrial com o objetivo de distinguir

diferentes padrões de operação em um equipamento ou até mesmo em uma planta

industrial inteira a partir da avaliação de seus dados de processo. Tal procedimento

agrega novos conhecimentos a respeito do comportamento das variáveis de processo,

suas correlações e implicações, o que pode gerar uma consequente redução no

número de paradas ou elevação da taxa de produção.

STM são utilizadas nas mais diversas áreas do conhecimento, tais como em

engenharia, economia e medicina. Com o aumento da complexidade dos sistemas, a

crescente capacidade de armazenamento de dados e a dificuldade de estabelecer

relações ou identificar comportamentos típicos de processo, a determinação da

similaridade entre séries temporais multivariadas ganhou importância. Séries

multivariadas não devem ser tratadas como uma simples concatenação de várias

séries univariadas (YANG e SHAHABI, 2005). Neste caso novos desafios devem ser

considerados, quais sejam, a definição de métricas de similaridade apropriadas, a

redução de dimensionalidade, a extração de características e novos algoritmos de

agrupamento (COPPI et al., 2010; D'URSO et al., 2014; PEREIRA et al., 2012; KAVITHA e

38

PUNITHAVALLI, 2010; RANI e SIKKA, 2012; SINGHAL e SEBORG, 2005). Alternativas

específicas com base na análise de componentes principais (PCA, Principal Component

Analysis) e transformadas wavelets (WT, Wavelet Transform) são apresentadas na

literatura (D'URSO et al., 2014; CHAOVALIT et al., 2011).

2.2 ANÁLISE DE COMPONENTES PRINCIPAIS

Análise de componentes principais, também chamada de transfomada discreta

de Karhunen-Loève (KLT, Karhunen-Loève Transform) ou ainda transformada Hotelling,

é uma técnica estatística bastante aplicada no desenvolvimento de métodos

multivariados de monitoramento de processos (YANG e SHAHABI, 2005; YOON et al.,

2005) e na análise de séries financeiras (LESCH et al., 1999). A análise de componentes

principais pode ser definida como uma técnica de redução de dimensionalidade, a qual

consiste na transformação de um conjunto de variáveis originais por outro conjunto de

variáveis auxiliares, denominadas componentes principais.

Considere uma matriz de dados X de ordem onde é o número de

variáveis medidas e é o número de pontos ou medições de cada variável (Equação

3).

[

]

(3)

A PCA viabiliza a determinação de vetores ou componentes característicos

associados aos dados originais e posterior transformação da amostra original em

novas variáveis não correlacionadas (VARELLA, 2008). Neste sentido, a PCA também

pode ser entendida como uma técnica que identifica padrões nos dados e é capaz de

ressaltar correlações, similaridades ou diferenças entre as variáveis de processo.

Os componentes principais são, por definição, os autovetores da matriz de

covariância dos dados (SHLENS, 2014). A matriz de covariância (Equação 5) é composta

39

por todas as covariâncias contemporâneas (medições no mesmo instante de tempo)

entre as variáveis que compõem a amostra original (colunas da matriz ). A

covariância entre determinada variável e ela própria é denominada simplesmente

variância (JOHNSON e WICHERN, 1999). A covariância contemporânea entre duas

variáveis e sua respectiva matriz de covariância , são dadas, respectivamente, por:

( ) ∑ ,( ( ) ) ( ( ) )-

(4)

[ ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ]

(5)

Sendo uma matriz de posto completo, ela possuirá componentes principais,

os quais podem ser determinados resolvendo-se a equação característica da matriz S:

(6)

onde é uma matriz diagonal contendo os autovalores resultantes da Equação 6,

organizados de forma decrescente, o sobrescrito T representa a função transposta e V

é uma matriz ortogonal de dimensão , cujas colunas são os autovetores associados ao

respectivo autovalor e representam os componentes principais obtidos. Um

conjunto de componentes principais é capaz de representar ou explicar um percentual

da variância total da amostra original de dados. Este percentual é determinado pelos

autovalores associados aos componentes. A redução de dimensionalidade implica na

seleção dos autovetores, ou componentes principais, capazes de representar um

percentual significativo (geralmente acima de 95%) da variabilidade quantificada

através dos autovalores. Definindo uma quantidade de componentes principais

adequada para a representação dos dados, onde , é possível projetar as variáveis

originais em um conjunto menor de variáveis descorrelacionadas através de:

40

(7)

onde T representa a nova matriz representativa do conjunto de dados X, e A é obtida

através da seleção de colunas da matriz V. A projeção nas variáveis originais do

conjunto de dados e o resíduo observado podem ser obtidos através de:

(8)

(9)

onde E, denominada matriz resíduo, captura variações entre os dados originais X e

aqueles obtidos através da aplicação de a componentes principais, ou seja, a matriz

(CHIANG et al., 2001). Conforme será visto na seção de métricas de similaridade, a

comparação entre as direções dos componentes principais associados a conjuntos de

séries temporais (STM) oferece uma alternativa viável e eficiente de medição de

similaridade entre estes conjuntos.

2.3 RECONHECIMENTO DE PADRÕES

2.3.1 Visão geral

De forma geral, o reconhecimento de padrões compreende a identificação de

objetos similares e a sua associação em grupos cujos centros representam o protótipo

(ou padrão) de cada grupo. A tarefa de reconhecimento de padrões abrange três

etapas: a análise e extração de características, que envolve a definição de atributos

relevantes dos objetos; o agrupamento, que se baseia em uma determinada métrica

de similaridade entre os objetos; e, por último, o projeto de modelos classificadores

capazes de reconhecer a pertinência ou não de um dado objeto a um determinado

grupo ou classe (OLSZEWSKI, 2001; BEZDEK et al., 2005).

Problemas de reconhecimento de padrões contemplam uma diversidade de

tipos de objetos possíveis. Um objeto por sua vez é caracterizado por seus respectivos

atributos, que são considerados no processo de análise de similaridades. Um objeto

pode ser, entre outros, uma palavra grafada, uma digital, um rosto humano ou um

41

sinal de voz. Na análise de eletrocardiogramas, por exemplo, os objetos são

caracterizados pela atividade elétrica registrada durante um exame realizado em um

paciente (PENNY et al., 2000).

Aplicações do reconhecimento de padrões incluem os mais variados campos de

pesquisa, quais sejam, reconhecimento facial e de voz (KIMURA et al., 1987), controle

de processos (RENGASWAMY, 1995), análise de grafotécnica (XU et al., 1992), análise

de eletroencefalogramas (GEVINS et al., 1998), estudos genéticos (GALAS et al., 1985),

análise de tráfego (DE LA ESCALERA et al., 2003), reconhecimento de digitais (JAIN et

al., 2000), reconhecimento de expressões humanas e aplicação em sistemas

inteligentes (PICARD e HEALEY, 1997).

O avanço na área de tecnologia da informação aliado ao aumento na

capacidade de processamento de grandes bases de dados viabilizou a aplicação de

métodos mais elaborados de reconhecimento de padrões. A combinação de diferentes

técnicas, tanto na etapa de extração de características quanto na etapa de

classificação, tem se tornado uma prática comum no reconhecimento de padrões (JAIN

et al., 2000). Neste contexto, diversos trabalhos conjugam diferentes técnicas de

análise de sinais, como as mais diversas transformadas (Fourier, wavelet, etc.), redes

neurais, sistemas de inferência fuzzy, dentre outros (CHEN et al., 2009; LALL et al.,

2007; PARK e PARK, 2005). As quatro abordagens mais estudadas para o

reconhecimento de padrões são:

Casamento de padrões (template matching);

Reconhecimento estrutural ou sintático;

Redes neurais;

Classificação estatística.

Uma das técnicas mais simples para o reconhecimento de padrões consiste no

casamento de padrões. É amplamente utilizada para avaliar a similaridade entre

pontos, curvas ou formas com um determinado objeto, considerando aspectos de

translação, rotação e escala. As correlações entre os objetos, ou métricas de distância,

são usualmente utilizadas e a taxa de erro de classificação é o principal critério de

avaliação da qualidade do reconhecimento do padrão (JAIN et al., 2000). Exemplos de

42

trabalhos compreendem o de Lee et al. (2001) que identificou nódulos pulmonares em

imagens de raios-x e núcleos celulares de imagens obtidas em microscópios. Trabalhos

na área de identificação de pessoas através da biometria também exploram a

abordagem de casamento de padrões (THANKI et al., 2014).

No reconhecimento estrutural de padrões, também conhecido como

reconhecimento sintático, a discriminação dos dados é baseada em inter-relações

morfológicas. Tal abordagem mostrou-se efetiva em aplicações com imagens e séries

temporais (FU, 1982). Um recente trabalho que discute o atual progresso das técnicas

envolvidas no reconhecimento sintático de padrões é apresentado por Kanal e

Rosenfeld (2014).

Redes neurais são estruturas de modelos matemáticos que compreendem

células (neurônios) de processamento, interligadas por diversas intensidades de

conexões, mimetizando o funcionamento de uma rede neural biológica (BISHOP,

1995). As famílias de redes neurais mais utilizadas para o reconhecimento de padrões

são as de perceptron multicamadas e os mapas auto-organizáveis (JAIN et al., 2000). O

sistema de aprendizado consiste na atualização constante da arquitetura da rede e dos

pesos de suas conexões de forma que o sistema consiga realizar a tarefa posterior de

classificação com alto índice de acerto. Sethi e Jain (2014) recentemente publicaram

um livro voltado apenas ao reconhecimento de padrões, explorando e discutindo a

aplicação das redes neurais neste contexto.

A abordagem estatística está sustentada na teoria de decisões, na qual os

objetos são discriminados através de um processo de extração de características. Uma

variedade de técnicas estatísticas pode ser aplicada à etapa de extração de

características e à etapa de classificação [análise discriminante (JUANG e KATAGIRI,

1992), inferência bayesiana (GEORGE e HAWKINS, 2005), análise de agrupamentos

(GARDNER, 1991), dentre outros]. A extração de características pode compreender

estatísticas das mais simples, como média e desvio padrão, até o uso de métodos de

processamento de sinais (transformadas de Fourier, transformadas wavelet e

transformadas Hough).

Na abordagem estatística, cada objeto é representado em termos de n

características e é visualizado como um ponto no espaço n-dimensional. Um objetivo

fundamental é a determinação daquelas características que permitirão que os objetos

43

de diferentes categorias ocupem regiões disjuntas no espaço n-dimensional de

características. A efetividade da representação espacial está diretamente relacionada à

separação das diferentes categorias de objetos e, neste contexto, a seleção de uma

métrica de similaridade adequada ao conjunto de objetos é imprescindível. Tal como

em um problema de identificação de modelos, o reconhecimento de padrões

compreende uma etapa de treinamento e de teste (Figura 3). Neste caso, o

treinamento consiste na obtenção dos padrões propriamente ditos e a etapa de teste

consiste na classificação de objetos não considerados durante a etapa de treinamento,

de acordo com os padrões reconhecidos durante a fase de treinamento. A classificação

de cada objeto consiste na determinação do grupo ou do padrão com o qual o objeto

possui maior similaridade.

Figura 3 - Treinamento e validação/teste no reconhecimento de padrões (JAIN et al.,

2000).

Dado um padrão, seu reconhecimento/classificação pode ser realizado a partir

de dois enfoques. No reconhecimento supervisionado os objetos de treinamento já

possuem uma categoria definida (ou rótulo) dentro do grupo de dados estudado.

Assim, há uma prévia informação da classificação dos objetos. Em muitas aplicações,

entretanto, é inviável o conhecimento ou rotulação prévios dos objetos aos grupos

que serão utilizados na etapa de treinamento (classificação não supervisionada).

Muitas vezes não se possui sequer a informação acerca da quantidade de padrões ou

de grupos existentes na amostra de dados disponível (JAIN et al., 2000).

Em relação ao reconhecimento de padrões em séries multivariadas, o presente

trabalho congrega a comparação da eficiência entre técnicas clássicas da estatística

44

multivariada - estatísticas T² (Hotelling) e Q - discutidas na próxima seção, além da

técnica tradicional de análise de agrupamentos baseada em fuzzy c-means, com uma

nova metodologia proposta de análise de agrupamentos, baseada em uma abordagem

multiescala (obtida pela aplicação da transformada wavelet) em conjunto com uma

nova métrica aplicável ao caso, denominada de SPCA multiescala (MSPCA).

2.3.2 Estatísticas T² e Q

Uma importante aplicação do reconhecimento de padrões empregada em

sistemas industriais é a detecção e o diagnóstico de falhas [Fault Detection and

Diagnosis (FDD)]. Uma falha pode ser definida como um desvio não desejado de pelo

menos uma propriedade ou variável do sistema (ISERMANN e BALLÉ, 1997). Neste tipo

de problema os objetos em estudo são o conjunto de variáveis observadas em um

evento com ou sem falha, representados por séries temporais univariadas (STU) ou,

para eventos mais complexos, séries temporais multivariadas (STM).

As diversas técnicas oriundas da estatística multivariada aplicadas aos dados de

processo representam uma abordagem amplamente utilizada em cenários de FDD, em

especial as estatísticas T² e Q (XIAO, 2004; DETROJA et al., 2006; ZHONG et al., 2016).

Limites inferiores e superiores de detecção de determinada falha podem ser definidos

para a utilização da estatística T², assumindo que os objetos em estudo foram

aleatoriamente amostrados a partir de uma distribuição normal multivariada (CHIANG

et al., 2001). Para o caso específico onde a matriz de covariância (Equação 5) dos

objetos não é conhecida, mas estimada a partir da amostra, os limites de detecção são

calculados para determinado nível de significância α, por:

( )( ) ( )

( ) (10)

Onde se refere à quantidade das componentes principais capazes de representar

um mínimo de 95% da variabilidade presente dos dados. Por sua vez, α é o nível de

significância estatística de cometer erro do tipo I (rejeição da hipótese nula, apesar de

verdadeira). é o número de observações (tamanho da amostra) de cada variável e

45

( ) é o limite superior da distribuição de Fisher com e

graus de liberdade. Esta estatística pode ser considerada como uma forma de medir

continuamente alterações nas variáveis de processo, onde qualquer violação ao limite

estabelecido indica que estas estão fora de controle (trip). Entretanto, a utilização

somente de T² pode ser insuficiente, pois tal estatística realiza apenas o

monitoramento dos eixos principais determinados pela PCA (OUNI et al., 2012). Para a

detecção de desvios em componentes principais de menor variabilidade (que não

deixam de ser falhas), utiliza-se a estatística Q (CHIANG et al., 2001):

* √

( )

+

(11)

(12)

(13)

onde cα é o valor obtido diretamente da distribuição gaussiana correspondente ao

percentil (1-α), representa o valor singular, que é a raiz quadrada positiva do

autovalor correspondente ( ), e representa o limiar de detecção de falhas

imposto através da estatística Q com base em um nível de significância α.

A partir da utilização de ambas estatísticas é possível verificar a capacidade de

identificação de falhas em um determinado sistema multivariado e,

consequentemente, compará-las a diferentes abordagens.

2.3.3 Análise de agrupamentos

Técnicas de agrupamento consistem basicamente no objetivo de congregar

uma amostra de sinais com o fim de desenvolver um sistema capaz de estabelecer

padrões de comportamento não facilmente identificados (ROSE, 1998). Para ser

possível o estabelecimento de tais grupos, busca-se a separação dos objetos de uma

amostra de treinamento de forma a minimizar uma determinada função pré-

estabelecida. Técnicas de agrupamentos são vastamente exploradas no campo de

46

reconhecimento de padrões e compressão de sinais (WATANABE, 2014; HATAMLOU et

al., 2012; DUDA et al., 2012; CHEN et al., 2016; FERREIRA et al., 2015).

No contexto de reconhecimento de padrões, uma das divisões propostas por

Jain et al. (2000) possibilita localizar a análise de agrupamentos dentro das técnicas de

reconhecimento de padrões estatístico (Figura 4) e será utilizada como base para o

desenvolvimento do sistema de reconhecimento de grupos em séries temporais neste

trabalho. A análise de agrupamentos pertence à categoria de problemas de

aprendizado não supervisionado. Neste tipo de situação não há informação que

permita a distinção ou rotulação prévia dos objetos a serem agrupados.

Figura 4 - Abordagens estatísticas de reconhecimento de padrões (JAIN et al. 2000).

Em problemas mais simples, a própria percepção humana é capaz de realizar o

agrupamento de forma satisfatória, independente da utilização das técnicas de análise

de agrupamentos. Porém, ao se deparar com problemas mais complexos, tem-se a

necessidade de aplicação de técnicas ou algoritmos específicos para o reconhecimento

de grupos e padrões (JAIN et al., 2000).

Como ilustração, a Figura 5 apresenta uma série de objetos representados por

três características, referentes às dimensões de flores. Uma técnica de agrupamento

deve ser capaz de estabelecer os grupos de forma a distribuir os objetos conforme a

similaridade relativa às características consideradas (classificação dos objetos

representada pelas diferentes cores: azul, verde e vermelho).

47

Figura 5 - Agrupamento de dados (XU e WUNSCH, 2005).

Han e Kamber (2011) classificam os métodos de agrupamento em quatro

grandes grupos: métodos hierárquicos, métodos baseados em densidade, métodos de

grade e métodos de partição (não hierárquicos).

Os métodos hierárquicos podem ser aglomerativos ou divisivos. Nos métodos

aglomerativos, cada objeto é inicialmente rotulado como um grupo distinto e

posteriormente os grupos mais semelhantes são agrupados entre si, até que algum

critério de convergência seja alcançado. De forma inversa, o algoritmo divisivo

inicialmente considera todos os dados pertencentes a um único grupo e

posteriormente este é subdividido iterativamente em subgrupos conforme um critério

de convergência (JAIN et al., 1999, ZHAO e KARYPIS, 2002). Ao contrário das técnicas

não-hierárquicas, os métodos hierárquicos não requerem a definição prévia do

número de grupos existente na amostra (MEILA e HECKERMAN, 2013).

Grande parte dos métodos de agrupamento é indicada para a obtenção de

grupos convexos (toda a trajetória entre dois pontos quaisquer deste grupo está

contida dentro do próprio grupo). Quando se trata da obtenção de grupos não

convexos (Figura 6), os métodos baseados em densidade são indicados, pois dois

pontos de diferentes grupos podem estar mais próximos entre si do que pontos do

mesmo grupo (KRIEGEL et al., 2011). Isto é possível devido a este método utilizar o

conceito de densidade local entre os pontos, em detrimento das métricas de distância

(ESTER et al., 1996).

48

Figura 6 - Agrupamento baseado no método de densidade (ESTER et al., 1996).

Os métodos de grade dividem o espaço dimensional de variáveis em um

número finito de células, os quais formam uma estrutura de grade, onde todas as

operações de agrupamento são conduzidas (HAN e KAMBER, 2001). Trabalhos

apontam que, para dados com alta dimensionalidade, as técnicas de grade possuem

resultados superiores (HINNERBURG e KEIM, 1999).

A ideia básica por trás do agrupamento não hierárquico é a obtenção do

mínimo de uma função objetivo baseada na distância total entre os objetos e os

respectivos centros de cada grupo (JAIN et al., 2000). Tal solução consiste basicamente

em um processo iterativo, onde um determinado número de centros (k) é atualizado

até que a função objetivo se encontre em um mínimo (LIAO, 2005). Dentre os métodos

de partição, os agrupamentos podem ser rígidos ou nebulosos, conforme o nível de

certeza atribuído à pertinência de um objeto a um dado grupo (JAIN et al., 2000). O

agrupamento k-means é a técnica mais conhecida e aplicada de agrupamento rígido

(AYRAMO e KARKKAINEN, 2006). Fundamentados na lógica nebulosa, os algoritmos

Fuzzy C-Means (FCM) e fuzzy c-medoids utilizam o conceito de que cada objeto não

pertence exclusivamente a um determinado grupo e, portanto, possui níveis de

pertinência diferentes a grupos diferentes (BEZDEK et al., 1984). O emprego do

agrupamento nebuloso é perfeitamente aplicável e justificável nas situações onde não

há uma clara separação ou estrutura nos dados e a sobreposição de grupos ou perfis

de comportamento conduz a uma incerteza no processo de agrupamento (KANNAN et

al., 2012; VELMURUGAN, 2014).

A Figura 7 representa as etapas elementares presentes em qualquer problema

de agrupamento, quais sejam: seleção e extração de características, seleção de

49

métricas de similaridade aplicáveis ao objeto em questão, aplicação de um algoritmo

de agrupamento e validação de grupos (GAN et al., 2007).

Figura 7 - Etapas de agrupamento (JAIN et al., 2000).

O emprego do termo “objeto” é intencional devido à inerente diversidade de

aplicações e cenários presentes em problemas de reconhecimentos de padrões. De

forma geral os objetos se classificam em dados de objetos, os quais se dividem em

objetos numéricos e não numéricos (dados categóricos), e dados relacionais (BEZDEK

et al., 2005). Dados categóricos possuem atributos qualitativos sem que haja um

ordenamento natural entre os objetos, sugerindo-se como estratégia de agrupamento

para este caso, devido à intrínseca subjetividade (ou incerteza de informação)

presente neste contexto, o emprego da lógica fuzzy (HÖPPNER, 1999). Dados

relacionais, por sua vez, referem-se a índices que quantificam o nível de correlação

entre os objetos ao invés dos objetos propriamente ditos (BEZDEK et al., 2005).

Seleção e extração de características

Na etapa de seleção das características - ou atributos - são identificadas, dentre

as diversas possibilidades - qualitativas, quantitativas, discretas ou contínuas - aquelas

que possibilitam a melhor representação dos objetos em questão. É uma etapa que

precede a técnica do agrupamento (WIDODO e YANG, 2007). Deve-se ter o cuidado de

avaliar a possibilidade de existência de erros experimentais nos dados, bem como a

relevância deles para o estudo. Um importante fator a ser destacado é que nem

sempre uma maior quantidade de características leva a melhores resultados (JAIN et

al., 2000). Dados correlacionados, com presença de outliers ou de dados não

representativos, são apenas alguns dos fatores que podem prejudicar as etapas

50

posteriores do agrupamento e, portanto, devem ser avaliados ou até mesmo

preteridos. Os métodos de extração de características têm por objetivo determinar um

conjunto de características de um determinado objeto dentre de um espaço maior, de

forma que tais valores escolhidos sejam o suficiente para conseguir caracterizar de

forma sistemática e concisa o objeto original (JAIN et al., 2000).

Ainda nesta etapa compreende-se o pré-processamento dos dados, de forma a

torná-los aptos à aplicação das técnicas em etapas posteriores. A amostragem e a

normalização dos dados são técnicas amplamente utilizadas no pré-processamento, de

forma que as variáveis em estudo se apresentem de forma adimensional, o que evita

se chegar a resultados incoerentes devido simplesmente à diferença de escala entre as

diferentes variáveis. A normalização de um conjunto de dados X, organizados de forma

estabelecida pela Equação 3 pode ser realizada através das seguintes alternativas:

Normalização com média zero e variância 1:

( ) (14)

Normalização pelo valor máximo:

( ) (15)

onde e ( ) são, respectivamente, a média e o desvio padrão da variável j e é a

medição da variável normalizada.

Uma abordagem distinta utilizada no processamento dos dados se apóia no uso

de diferentes transformadas para o conjunto de dados original. As transformadas vêm

sendo aplicadas de forma progressiva no reconhecimento de padrões, com o objetivo

de extrair características e reduzir a dimensionalidade dos problemas de classificação.

Dentre estas se incluem transformadas lineares, tais como a análise de componentes

principais, transformada de Fourier e, mais recentemente, transformadas wavelets

(GOTTUMUKKAL e ASARI, 2004; WOOD, 1996; PITTNER e KAMARTHI, 1999). Em

51

contextos de bancos de dados mais complexos, tais como problemas multivariados,

onde a dimensionalidade passa a ser um fator que dificulta a organização,

representação e agrupamento dos objetos, a análise de componentes principais (PCA)

é uma das transformadas mais amplamente utilizadas no meio científico

(MOHAMMED et al., 2011; DENG e TIAN, 2013; METSALU e VILO, 2015).

Métricas de similaridade em séries temporais

A quantificação da similaridade entre objetos é uma das principais etapas em

diversos problemas de análises de séries temporais e mineração de dados (FU, 2011),

além de representar uma fase crítica na análise de agrupamentos, pois ela é que

possibilitará, ou não, a diferenciação entre objetos e, consequentemente, uma solução

adequada na etapa de agrupamento. A etapa de medida de similaridade geralmente é

conduzida a partir de uma norma de proximidade entre os objetos. Baseado no tipo de

objeto em estudo, diferentes métricas são propostas (BERKHIN, 2006).

Especificamente para o caso de séries temporais univariadas a métrica mais

amplamente difundida e trabalhada é a distância Euclidiana, cuja forma generalizada

para duas STU X e Y compreende a distância de Mikowski:

( ) (∑( )

)

(16)

onde N é um número inteiro positivo, m representa o tamanho das séries temporais e

e são os pontos (medições) de cada série X e Y. A partir da Equação (16) chega-se

a diversas distâncias conhecidas, como Manhattan (N=1) e Euclidiana (N=2) (SERRA e

ARCOS, 2014). Tal grupo de normas apresenta uma série de vantagens, dentre as quais

sua fácil interpretação intuitiva, implementação simples e ausência de parâmetros.

Entretanto, seus resultados são altamente sensíveis a ruídos e a atrasos (lags) nos

dados (WANG et al., 2013).

Outra métrica amplamente utilizada em trabalhos científicos é a distância DTW

(Dynamic Time Warping), discutida por Berndt e Clifford (1994). Tal abordagem

52

apresenta como principal vantagem sobre a distância Euclidiana o fato de possibilitar a

compressão e deslocamento de séries, evitando problemas como diferenças na escala

e de atrasos entre as séries comparadas (WANG et al., 2013).

A distância de Mahalanobis é utilizada para o cálculo de distâncias entre séries

univariadas e também possui a propriedade de ser invariante a diferentes escalas (JAIN

et al., 1999). Tal métrica baseia-se nas correlações entre as séries, que pode ser

calculada da seguinte forma:

( ) √( ) ( ) (17)

onde são as séries temporais e representa a matriz de covariância entre as

séries. O coeficiente de Pearson também é uma métrica baseada na correlação entre

as séries (LIAO, 2005). Sejam duas STU e de comprimento , o coeficiente de

correlação pode ser calculado por:

∑ ( ) ( )

(18)

onde e são, respectivamente, a média e o desvio padrão da série temporal X, de

forma semelhante e representam as médias e desvio padrão da série Y, e e

são as medições das séries X e Y.

Todas as abordagens citadas, incluindo outras como LCSS (Longest Common

SubSequence), são métricas baseadas nas próprias séries temporais (raw data). Uma

abordagem distinta consiste na aplicação das métricas descritas sobre características

extraídas das séries temporais, como as obtidas através de transformadas (JAIN et al.,

1999). Exemplos dela incluem o uso da distância Euclidiana dos coeficientes de Fourier

das séries, coeficientes de autocorrelação, transformadas wavelets, dentre outros

(FUKUNAGA, 2013; QIAO et al., 2012; BARRAGAN et al., 2012).

Há ainda uma série de métricas específicas para o cálculo de similaridade entre

séries temporais aplicáveis ao caso multivariado. A distância de Frobenius é uma

norma matricial que pode ser utilizada como métrica de similaridade entre duas STM.

53

Dada uma matriz A, com dimensão m por l, a sua norma de Frobenius pode ser dada

pela Equação 19.

‖ ‖ √∑∑| |

(19)

onde são os coeficientes da matriz A. Uma forma alternativa de calcular a distância

de Frobenius pode ser realizada através da Equação 20.

‖ ‖ √ ( ) (20)

onde AH representa a matriz transposta de A e Tr a função matricial traço, que

consiste na soma dos elementos da diagonal principal da matriz (HARVILLE, 1997).

O SPCA (PCA Similarity Factor) é uma métrica baseada na análise e

decomposição em componentes principais (PCA). A distância entre duas STM é

quantificada através das diferenças entre as direções dos respectivos componentes

principais que compõem cada STM. Ou seja, se dois objetos são constituídos por séries

temporais que guardam entre si padrões de relação semelhantes, então estes objetos

seriam considerados como similares.

Dado dois objetos A e B de dimensão k, podem ser gerados subespaços

menores apenas com a componentes principais de cada um dos objetos. Geralmente a

quantidade a de componentes principais é determinada a partir da quantidade

necessária para descrever 95% da variabilidade total dos dados originais. O SPCA realiza

a comparação entre estes subespaços a partir da Equação (21):

( )

∑∑

(21)

onde representa os ângulos entre os componentes principais das duas séries.

Algumas modificações são propostas para as métricas discutidas. Para o caso do SPCA,

54

algumas alterações envolvem o uso dos autovalores de forma a atribuir peso ao SPCA

original (SINGHAL e SEBORG, 2002). Para agrupamentos de séries temporais

multivariadas, uma versão modificada do índice SPCA foi proposta neste trabalho,

denominada SPCA multiescala (MSPCA).

Agrupamentos

Dentre os métodos de partição não hierárquica, os métodos baseados nos

modelos c-means são os mais utilizados e validados quanto à eficiência e a

aplicabilidade em problemas de agrupamento de protótipo pontual (BEZDEK et al.,

2005; HÖPPNER, 1999). De forma geral, um método não hierárquico tem como

objetivo a obtenção de uma distribuição de n elementos em ( ) grupos

(FERREIRA et al., 2015), gerando também uma matriz de partição ( n) tal que

refere-se à pertinência do objeto ( ) ao grupo ( =1,...,c). A matriz de

partição essencialmente representa o resultado de um problema de agrupamento na

medida em que, através das pertinências de cada objeto aos diferentes grupos,

estabelece a composição de cada grupo.

Dentre os métodos baseados em modelos c-means, o algoritmo Fuzzy C-Means

(FCM) destaca-se pela sua eficiência e capacidade de resolver problemas de

agrupamento nos quais a estrutura ou definição dos grupos não se apresenta de forma

tão evidente e há sobreposição entre as fronteiras dos grupos (MELIN e CASTILLO,

2014; NAYAK et al., 2015; BEZDEK et al., 2005). O algoritmo FCM compreende o

problema de otimização descrito a seguir. Sejam objetos * | + Deseja-se

obter centros (padrões ou protótipos de cada grupo) * | + e uma matriz de

partição (pertinências com e =1,...,c), de tal forma que:

( ) ∑∑ ‖ ‖

(22)

sujeito a:

55

(23)

(24)

onde ( ≥ 1) é denominado de parâmetro “fuzzificador”. A primeira restrição

(Equação 23) estabelece que nenhum grupo pode ser vazio enquanto que a segunda

(Equação 24) determina que a soma das pertinências de um dado objeto a todos os

grupos deve ser igual à unidade (abordagem probabilística).

Se cada objeto é representado por uma série temporal univariada com m

pontos (problema de protótipo pontual):

(25)

O problema de otimização proposto possui as seguintes soluções através da

aplicação das condições de otimalidade (condições necessárias de primeira ordem):

⁄ (26)

.

‖ ‖ /

∑ (

‖ ‖ )

∑ (‖ ‖

‖ ‖)

(27)

A Equação 26 estabelece que o centro de um dado cluster seja a média

ponderada de todos os objetos, considerando como peso o grau de pertinência de

cada objeto ao referido cluster. O algoritmo clássico do método FCM baseado nas

Equações 26 e 27 compreende o seguinte processo iterativo:

56

1) Definição do número de clusters c (2 c n), de ( ≥ 1) e de δ

(tolerância). Faça L=0 e estabeleça uma estimativa inicial para a matriz

U (U0);

2) Cálculo dos centros conforme Equação 26;

3) Atualização da matriz U através da Equação 27;

4) Cálculo da norma da diferença matricial (UL+1-UL) e verificação do

critério de tolerância (δ).

Quanto maior o valor de maior será o nível de “fuzzyificação” (ou incerteza)

associado ao problema de agrupamento. Nível elevado de incerteza no agrupamento

implica em dificuldade (ou falta de certeza) na definição dos grupos. Ou seja, se 1

o agrupamento tenderá à participação rígida com graus de pertinência próximos de 0

ou 1 simplesmente (BEZDEK et al., 2005, HÖPPNER, 1999). Valores elevados de são

sugeridos quando não há previamente uma clara distinção entre os grupos. Em geral,

= 2 é o valor adotado nas aplicações (HOPNNER, 1999; FERREIRA et al., 2013).

A solução para os centros dos grupos (Equação 26) e a formulação clássica do

algoritmo FCM baseiam-se na aplicação da distância Euclidiana como métrica de

similaridade entre os objetos. Entretanto, quando a distância Euclidiana não se aplica,

a Equação 26 não é valida. Este é o caso de um problema de protótipo não pontual e o

exemplo típico é o agrupamento de séries temporais multivariadas.

Considerando que cada objeto ( ) é uma série temporal

multivariada, com variáveis e instantes de medição, o problema de otimização

pode ser formulado conforme segue:

( ) ∑∑ ‖ ‖

(28)

.

‖ ‖ /

∑ (

‖ ‖ )

(29)

57

onde Vi são STM que representam os centros - ou protótipos - dos grupos.

Neste caso, o método FCM consiste na resolução do problema de minimização

(Equações 28 e 29) através da aplicação de um método clássico de otimização. A

métrica de distância referente a cada objeto e os centros de cada grupo deve ser

obtida iterativamente através de uma métrica apropriada para séries temporais

multivariadas, tal como o SPCA. Este procedimento representa, portanto, a adaptação

do algoritmo clássico do FCM para um problema de protótipo não pontual envolvendo

STM, e será tratada de maneira mais aprofundada no estudo de caso multivariado.

Validação do agrupamento

Validação de agrupamentos, cujo objetivo precípuo é o de avaliar a qualidade

de um algoritmo de agrupamento, consiste em uma etapa fundamental para o

desenvolvimento de uma aplicação bem sucedida de reconhecimento de padrões (LIU

et al., 2010). Existem duas categorias principais de critérios para investigar a qualidade

do agrupamento obtido, quais sejam, externo ou interno (RENDÓN et al., 2011). A

principal distinção entre tais métodos se baseia na utilização ou não de informação

externa para a validação do agrupamento. Uma profunda discussão acerca dos índices

de validação externa e interna pode ser encontrada em Desgraupes (2013).

No critério externo, a avaliação é baseada em um agrupamento de referência

(ou agrupamento preliminarmente particionado) que compreende uma informação

externa disponível, porém não utilizada no problema de agrupamento. Um critério

quantitativo pode ser calculado no sentido de verificar a proximidade da solução

obtida com relação ao agrupamento de referência. Os índices externos mais

encontrados na literatura são: medida-F (F-measure), informação mútua normalizada,

(Normalized Mutual Information, NMI), puridade (Purity) e entropia (entropy)

(RENDÓN et al., 2011).

No critério interno a avaliação dos agrupamentos é conduzida a partir das

próprias características dos objetos em análise e dos resultados da partição

propriamente dita, sem que haja a utilização de nenhuma informação externa não

considerada na formulação do problema de agrupamento. Neste caso, um índice de

validação pode contemplar a própria função objetivo adotada no algoritmo. Diversos

58

índices de validação internos já foram propostos na literatura, dentre os quais os mais

citados são: índice de Dunn (Dunn index), índice de Davies-Bouldin (Davies-Bouldin

index) e o índice de silhueta (silhouette index) (SAITTA et al., 2007).

Para ambos os estudos de caso deste trabalho foi adotado o índice de silhueta

(ROUSSEEUW, 1987) para avaliar a qualidade do agrupamento conduzido. Tal índice

leva em consideração a proximidade de cada objeto em relação ao seu grupo de

pertinência e a um segundo grupo mais próximo. Como ilustração, considere os grupos

A, B e C (Figura 8). Para um dado objeto i pertencente ao grupo A, pode-se definir:

ai: média das distâncias do objeto i para todos os demais objetos de A;

di,C: média das distâncias do objeto i para todos os objetos pertencentes ao

grupo C;

di,B: média das distâncias do objeto i para todos os objetos pertencentes ao

grupo B.

Figura 8 - Grupo de objetos - índice de silhueta.

O índice de silhueta associado ao objeto i é dado por:

( ) ( ) (30)

O caso ideal de agrupamento seria aquele no qual .

Analogamente, uma situação oposta de má qualidade de agrupamento seria onde

, ou seja, o objeto i estaria mal alocado, já que possui maior

similaridade com outro grupo diferente do seu grupo de pertinência. O intervalo

59

possível para o índice de silhueta é tal que si [-1; 1] e a distribuição dos índices de

silhueta para todos os objetos da amostra fornece uma avaliação detalhada da

qualidade do agrupamento obtido.

De uma maneira genérica, considere um objeto i {1,2,...,N} pertencente ao

grupo p {1,2,...,c}. Em um contexto de agrupamento rígido isto indica que o objeto i

está localizado mais próximo ao grupo p de acordo com uma norma definida. Já em

contextos de agrupamento nebuloso, isto indica que o grau de pertinência do objeto i

é maior em relação ao grupo p em comparação a qualquer outro grupo. Seja a

distância média entre o objeto i e todos os objetos pertencentes ao grupo p e a

distância média entre este objeto i e todos os objetos pertencentes a outro grupo q,

onde . Finalmente, considere como o mínimo observado para

o que representa a similaridade do objeto i em relação a seu grupo

vizinho mais próximo. Desta forma o índice de silhueta rígido do objeto i é calculado

da seguinte forma:

{ } (31)

Um índice de silhueta global para o agrupamento pode ser estabelecido a partir

da média aritimética entre os índices de silhuetas individuais relativos a cada objeto:

(32)

O valor de IS possui interpretação análoga à Si, ou seja, quanto mais próximo

de 1 mais compacto e agrupado está o grupo gerado. É importante destacar que o

índice de silhueta pode ser aplicado tanto a séries temporais univariadas quanto

multivariadas, bastando a utilização de uma métrica coerente para o cálculo das

distâncias entre os objetos resultantes (STARCZEWSKI e KRZYŻAK, 2015). Há ainda

versões modificadas do índice de silhueta, tal qual sua versão fuzzy (CAMPELLO e

HRUSCHKA, 2006):

60

∑ ( )

∑ ( )

(33)

onde se refere ao índice de silhueta do objeto i de acordo com a Equação 31, e

se referem, respectivamente, ao primeiro e segundo elemento da coluna j dentro

da matriz de partição U e é o índice “fuzzificador”. Diferentemente do índice de

silhueta rígido, este índice baseia-se em uma média ponderada e não aritmética, onde

a diferença entre os graus de pertinência relativos aos grupos mais representativos de

determinado objeto são utilizados como peso para o cálculo do índice.

2.4 WAVELETS

2.4.1 Visão geral

Wavelets são funções em forma de onda que possuem valor médio igual a zero

e energia finita (CHUI, 2014). Percival e Walden (2000) definem uma wavelet como

uma “pequena onda” com suporte compacto, geralmente não simétrica e capaz de

extrair características de sinais não estacionários. Diz-se que uma função f possui

suporte compacto se existe um intervalo fechado e limitado fora do qual f(x) = 0 (DE

LIMA, 2002). A ideia oposta a de uma wavelet seriam “grandes ondas”, tais como as

funções seno e cosseno, já que estas funções possuem valores que se repetem

indefinidamente (energia infinita) (FUGAL, 2009). Uma determinada função ( ) deve

possuir certas propriedades para que possa ser considerada uma wavelet (WEISS e

WILSON, 2001):

A integral de ( ) é zero:

∫ ( )

(34)

A integral do quadrado de ( ) (energia do sinal) é um:

61

∫ ( )

(35)

A primeira propriedade garante que a função tenha a forma de onda. Todos os

valores positivos da função devem necessariamente ser compensados com valores

negativos. A segunda propriedade estabelece que a função tenha valor zero a partir de

um dado intervalo de tempo (ou seja, energia finita). Neste sentido, a energia da

função é restringida à unidade (PERCIVAL e WALDEN, 2000). Outra condição,

conhecida como condição de admissibilidade, requer que seja possível reconstruir o

sinal original a partir da função transformada (coeficientes wavelets) (PERCIVAL e

WALDEN, 2000).

Algumas wavelets são definidas por uma expressão matemática. Desta forma,

elas podem ser avaliadas em qualquer ponto (contínuas e infinitas). Estas são

conhecidas como wavelets cruas. Entretanto, para serem utilizadas em códigos de

programas, estas wavelets infinitas devem ser reduzidas a um número finito de

pontos, ou discretizadas (FUGAL, 2009). O grupo de pontos amostrados das wavelets

cruas é denominado de filtro. É plenamente possível criar novas e específicas funções

wavelets, desde que estas funções obedeçam às três condições citadas. Entretanto,

excluídas determinadas aplicações com motivos específicos, não se recomenda nem se

faz necessário utilizar uma nova função wavelet, devido ao fato de já existirem

diversos tipos de wavelets consolidadas na literatura, desde as não simétricas até as

mais simples e pioneiras como a wavelet Haar (Figura 9).

Figura 9 - Tipos de wavelets.

62

Quanto ao seu uso, wavelets são ferramentas matemáticas que podem ser

utilizadas em diversas aplicações, tais como em séries temporais, imagens, sinais de

vibração, reconhecimento de vozes, análises de eletrocardiogramas, compressão de

dados, dentre outros (FOUFOULA-GEORGIOU e KUMAR, 2014; BODYANSKIY e

VYNOKUROVA, 2013; SANG, 2013).

Para o caso específico de análise de séries temporais, a transformada de

Fourier (FT, Fourier Transform) pode ser utilizada para extrair todas as frequências de

um determinado sinal. No entanto, a FT não é capaz de determinar a informação

temporal da localização de cada uma destas frequências e, portanto, é inapropriada

para a análise de sinais nos quais a série temporal possui um caráter não estacionário

[um sinal que permanece com uma frequência constante é dito ser estacionário

(FUGAL, 2009) ou nos quais a informação temporal é relevante (BAKSHI E

STEPHANOPOULOS, 1994). Neste contexto, para séries temporais não estacionárias

recomenda-se a utilização da transformada wavelet, pois ela é capaz de obter as

componentes de frequência de um sinal associando a informação acerca da localização

temporal dos eventos de interesse (CHEN e BUI, 1999). A transformada wavelet de um

sinal (uma função) f(x) é dada por:

( ) ∫ ( ) ( )

(36)

A Figura 10 apresenta uma ilustração de como a wavelet é capaz de detectar

uma anomalia, um pulso, ou qualquer outro evento em um sinal. A wavelet-mãe

(função wavelet antes de sofrer qualquer translação ou dilatação) é transladada e

comprimida diversas vezes e comparada com o sinal original. Consequentemente, a

transformada wavelet é resultante da comparação (convolução) entre o sinal em

estudo e a função wavelet. A convolução entre dois sinais f e g determina o grau de

superposição entre eles a partir da translação de um dos sinais (FISHER e TAŞ, 2005):

( )( ) ( ) ∫ ( ) ( )

(37)

63

onde “*” representa a operação de convolução e u denota os atrasos de tempo (lags).

Figura 10 - Estiramento e deslocamento de uma wavelet (CHIANG et al., 2001).

A partir da análise da transformada wavelet é possível visualizar quais os

momentos e em qual escala (associada à frequência) foi percebida uma alta correlação

entre o sinal e a wavelet. Este resultado pode representar uma característica

importante para o agrupamento e o reconhecimento de padrões em séries temporais

(WENG E SHEN, 2008).

O parâmetro de translação t (Equação 36) está relacionado à localização da

função wavelet enquanto ela é deslocada através do sinal e, portanto, traz a

informação temporal sobre o sinal. O parâmetro de escala é definido como o inverso

da frequência e corresponde à informação da própria frequência do sinal em estudo.

Na transformada wavelet, a wavelet-mãe primeiramente é deslocada (transladada)

através de todo o sinal. Posteriormente, a função wavelet é esticada (dilatada) e

novamente é utilizada para filtrar o sinal completamente. Após a realização de todas

as combinações da wavelet, tanto comprimida ou esticada () quanto transladada no

tempo (t), um quadro completo de correlação entre a Wavelet e o sinal é gerado,

tendo-se tanto a informação temporal quanto a de frequência.

64

Existem dois grandes tipos de transformadas wavelet: a transformada wavelet

contínua (CWT, Continuous Wavelet Transform) e a transformada wavelet discreta

(DWT, Discrete Wavelet Transform) (DAUBECHIES, 1992). Apesar de todas wavelets

serem discretas, há uma clara distinção entre a CWT e a DWT. A transformada wavelet

contínua é assim chamada pois a wavelet-mãe pode ser esticada e deslocada por

qualquer número inteiro. Já no caso da DWT, a wavelet-mãe é apenas esticada e

deslocada por potências de 2, o que é chamada de amostragem diádica (FUGAL, 2009).

Além desta diferença, na DWT o intervalo de amostragem é dobrado a cada

incremento de escala, enquanto que na CWT o intervalo de amostragem é constante.

Apesar da extensa utilização da DWT em reconhecimento de padrões envolvendo

séries temporais, a amostragem diádica pode não oferecer resultados satisfatórios na

análise de sinais com invariância translacional, o que sugere, nestes casos específicos,

o uso da amostragem uniforme (CWT) (BAKSHI e STEPHANOPOULOS, 1994)

O resultado típico obtido a partir da aplicação da transformada wavelet pode

ser entendido como uma série de coeficientes organizados na forma de uma matriz. Os

resultados obtidos ao longo do eixo horizontal deste plano representam os valores da

convolução resultante entre a wavelet e o sinal para cada parâmetro t (instante de

tempo). Cada linha da matriz representa um valor de escala () fixo com as

translações sofridas pela função wavelet. Já os valores dispostos ao longo do eixo

vertical representam, para um tempo fixo, variações na frequência da função wavelet

(alongamentos e compressões na função) (Tabela 1).

Tabela 1 - Exemplo de matriz resultante da aplicação da CWT (FUGAL, 2009)

=10 101,2 50,6 0,0 50,6 101,2 101,2 75,9 50,6

=9 80 26,7 26,7 80 106,7 80 53,3 26,7

=8 113,1 56,6 0,0 56,6 113,1 84,9 56,6 28,3

=7 90,7 30,2 30,2 90,7 90,7 60,5 30,2 0,0

=6 98,0 65,3 0,0 65,3 98,0 65,3 32,7 0,0

=5 71,6 35,8 35,8 71,6 71,6 35,8 0,0 0,0

=4 80,0 40,0 0,0 40,0 80,0 40,0 0,0 0,0

=3 46,2 0,0 0,0 46,2 46,2 0,0 0,0 0,0

65

=2 56,6 0,0 0,0 0,0 0,0 0,0 0,0 0,0

=1 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0

Uma importante característica da transformada wavelet se dá pela sua

capacidade de reconstrução do sinal original através de seus coeficientes. A

reconstrução do sinal f(x) é realizada a partir da transformada wavelet contínua

inversa:

( )

∫ *∫ (

)

√ (

) +

(38)

∫| ( )|

(39)

( ) ∫ (

) (40)

onde W(,t) representa os coeficientes wavelets, x a variável independente original,

a escala e 𝝍 a função wavelet-mãe utilizada para obtenção dos coeficientes.

A utilização da transformada wavelet pode representar ainda uma importante

redução da dimensionalidade dos sinais (KEOGH et al., 2001b), uma vez que, ao

decompor o sinal em diferentes frequências, pode-se eliminar aqueles que não sejam

de interesse para análise, tais como ruídos ou medições oriundas de imprecisão nos

sensores (LIANG et al., 2014; MAJI e ROY, 2015; YILDIRIM e WATSON, 2015; BARBOSA

et al., 2015; JOHN et al., 2012).

A primeira menção a uma wavelet se deu pelo surgimento da wavelet Haar,

proposta pelo trabalho de A. Haar em 1910. No entanto, os trabalhos científicos

iniciaram a empregar os conceitos das wavelets apenas a partir dos trabalhos de

Mallat (1989) e Daubechies (1988) na segunda metade da década de 80, onde todo o

desenvolvimento da teoria wavelet recebeu grandes avanços e uma importância até

então nunca apresentada.

Inicialmente aplicada ao campo de análise de sinais sísmicos, a análise wavelet

tem nos últimos 15 anos resultado em uma enorme quantidade de trabalhos nos

campos da matemática, física, geologia, computação, engenharia, dentre outros

66

(MONTEFUSCO e PUCCIO, 2014; MOTARD e JOSEPH, 2013; YOUNG, 2012).

Especificamente para o reconhecimento de padrões utilizando wavelets, Pittner e

Kamarthi (1999) realizaram uma interessante discussão acerca do uso dos coeficientes

wavelets como características a serem utilizadas no reconhecimento de padrões,

concluindo que seu uso é capaz de reduzir a dimensionalidade dos dados, além de

incrementar o desempenho na etapa de classificação. Bayram e Seker (2013)

utilizaram a wavelet Daubechies20 como base na análise multirresolução para

distinguir sinais de baixa e alta frequências em motores elétricos.

Diversos trabalhos exploraram e ainda desenvolvem novas técnicas de utilizar a

transformada wavelet em conjunto com redes neurais artificiais. Exemplos são

encontrados em Lee (1996), que propõe o reconhecimento de números escritos à mão

a partir de uma rede neural multicamada cujas entradas são coeficientes wavelets. A

taxa de erro obtida variou entre 0,75% a 3,20% para diferentes experimentos. Na

mesma linha, Osowski e Nghia (2002) compararam a capacidade de três diferentes

estruturas de redes neurais para o reconhecimento de formas em 2D a partir de

coeficientes da transformada de Fourier e da transformada wavelet. Já Szu (1996)

comparou a utilização das transformadas wavelet contínua e discreta para o

reconhecimento de padrões baseado em redes neurais em imagens.

Além da ampla utilização dos coeficientes wavelets em conjunto com redes

neurais artificiais, uma série de trabalhos - assim como a pesquisa desenvolvida neste

trabalho - resolveu explorar técnicas de agrupamento utilizando os coeficientes

wavelets. Lin et al. (2004) consideraram o uso de agrupamentos a partir de

coeficientes wavelets em séries temporais univariadas baseados no algoritmo de

agrupamento incremental. Após ser aplicada a transformada wavelet à série temporal,

todos os coeficientes resultantes foram utilizados na etapa de agrupamento.

Vlachos et al. (2003b) apresentaram uma metodologia para realizar

agrupamento incremental de séries temporais a partir da transformada wavelet. Nesse

trabalho, utilizou-se Haar como wavelet-mãe e em cada resolução foi aplicado o

algoritmo k-means para obtenção do padrão. Por ser uma área relativamente nova, a

aplicação de agrupamentos a partir de coeficientes wavelets para séries temporais

multivariadas tem ainda um número muito pequeno de pesquisas. Uma importante

referência ao tema é encontrada em D'Urso e Maharaj (2012), que sugeriram e

67

discutiram a utilização de variâncias e correlações entre os coeficientes wavelets de

diferentes séries temporais multivariadas, tanto em sinais estacionários como em

transientes. Os autores comparam ainda métodos de agrupamento fuzzy e crisp para a

metodologia proposta. Os resultados obtidos apontam, a partir da validação realizada

com o índice de silhueta, que a utilização das correlações e variâncias wavelets são

especialmente úteis na discriminação de séries temporais multivariadas,

especialmente aquelas com conjuntos longos de dados.

Há ainda aplicações específicas para o estudo de falhas de turbinas a gás

utilizando wavelets. Para a detecção e diagnóstico de falhas, Lemma e Hashim (2012)

desenvolveram um sistema capaz de detectar e diagnosticar falhas em uma turbina a

gás utilizando análise wavelet e uma rede neural auto-associativa. Dados reais foram

utilizados para o treinamento da rede, com um resultado de detecção superior a 95% e

diagnóstico correto do tipo de falha entre 96% a 100%. Xu et al. (2007) também

conduziram um experimento mesclando as técnicas de transformada wavelet e redes

neurais com propósito de diagnóstico de falhas. Neste trabalho as wavelets Morlet

foram escolhidas como função base para a extração de características utilizadas pela

rede.

Estudos em que se utilizam as transformadas wavelets possibilitam um amplo

leque de possibilidades para o reconhecimento de padrões, seja por sua capacidade de

analisar o sinal em resoluções específicas ou pela possibilidade de utilizar determinada

wavelet-mãe para o problema específico que melhor se adapte à realidade do

experimento.

2.4.2 Principais wavelets-mãe

Wavelets Haar foram as primeiras wavelets a surgirem. Simples, apresentam

descontinuidades e, portanto, não são suaves ou regulares. Quando utilizadas em

filtros de comprimento de apenas dois pontos, apresentam uma excelente resolução

temporal, mas uma resolução de frequência limitada. Podem ser utilizadas em CWT ou

DWT. Possuem ótima detecção de bordas, de sinais binários e são adequadas para

séries curtas (FUGAL, 2009). Suas representações matemáticas e gráficas estão

apresentadas, respectivamente, nas Equação 41 e Figura 11:

68

( )

{

,

)

,

)

(41)

Figura 11 - Wavelet Haar.

A família de wavelets Morlet (em homenagem a Jean Morlet) foi a primeira

família de wavelets desenvolvida após a Haar. Também conhecida algumas vezes como

gaussiana modulada, a wavelet Morlet pode ser descritas pela Equação 42 e é

mostrada visualmente na Figura 12:

( ) (

( )) (42)

Figura 12 - Wavelet Morlet.

69

As wavelets Morlet possuem propriedades simétricas, regulares e possuem

suporte efetivo entre -4 a +4. Por possuir a possibilidade de gerar apenas um filtro a

ser dilatado e ser não-ortogonal, somente é utilizada na CWT. Graças à sua suavidade e

periodicidade, wavelets Morlet são particularmente capazes de serem aplicadas a

sinais periódicos, pulsos senoidais e dados atmosféricos (FUGAL, 2009).

Wavelets Daubechies não possuem uma fórmula matemática explicita. Os

filtros mais longos são obtidos a partir da wavelet-mãe, interpolando pontos a partir

dos filtros menores. Alguns filtros gerados a partir desta wavelet são apresentados na

Figura 13.

Figura 13 - Wavelets Daubechies.

Pode-se perceber que as wavelets Daubechies não são suaves (sua primeira

derivada não é contínua), mas possuem certa regularidade ao se observar filtros com

maior número de pontos. Ao utilizar os filtros mais longos, se ganha resolução na

70

frequência e perde-se na resolução temporal. Por serem não-simétricas, são bastante

aplicadas ao processamento de imagens (FUGAL, 2009).

71

CAPÍTULO 3

ESTUDOS DE CASO

3.1 ESTUDO DE CASO 1: DETECÇÃO DE FALHAS EM UMA

TURBINA A GÁS

3.1.1 Descrição

O primeiro estudo de caso compreendeu a análise e detecção de falhas na

Unidade Termelétrica Rômulo Almeida (UTE-RA), situada no município de Camaçari

(Bahia). A UTE-RA (Figura 14) é uma unidade integrante do parque industrial da

Petrobras e que possui três Turbinas a Gás (TG) com capacidade de geração de 27 MW,

cada uma, e uma caldeira de recuperação [Heat Recovery Steam Generator (HRSG)]. A

unidade ainda possui uma Caldeira Auxiliar (CA) e uma turbina a vapor com capacidade

de geração de até 56 MW. A unidade opera em ciclo combinado, tem como principal

insumo o gás natural, produz 260.3 t/h de vapores de alta e baixa pressão e tem uma

capacidade máxima de geração de 137 MW de energia elétrica.

Figura 14 - Termelétrica Rômulo Almeida (SÁ BARRETTO, 2009).

72

A energia gerada pela UTE é fornecida ao Sistema Interligado Nacional (SIN) no

qual o Operador Nacional do Sistema elétrico (ONS) coordena e controla a operação e

transmissão de energia elétrica. Conforme acordado com o ONS, havendo qualquer

ocorrência que impeça o fornecimento de energia por parte da UTE-RA, a unidade

estará sujeita a penalidades significativas, que terão impacto direto no seu

desempenho financeiro.

Os vapores de alta e baixa pressão produzidos pela UTE são fornecidos a uma

série de indústrias do Complexo Petroquímico de Camaçari (BA). Este fornecimento

também é regido por regras previstas em contratos. Assim, o não cumprimento de

certas cláusulas implicará na aplicação de severas multas contratuais.

Este cenário estabelece que é essencial para o gestor operacional da Unidade o

controle sobre o processo e a predição de possíveis falhas que acarretariam a

interrupção do processo de fornecimento. Além do prejuízo financeiro proveniente de

uma parada operacional da Unidade, outros riscos estariam contemplados neste

contexto, tais como a ocorrência de danos aos equipamentos e acidentes.

As turbinas a gás representam o principal componente do processo e são

responsáveis pela maior quantidade de energia elétrica gerada (81 MW são gerados

pela turbina a gás e 56 MW pela turbina a vapor). O modelo de cada turbina é o

RB211-G62 DF, do fabricante Rolls-Royce.

Uma turbina a gás, cuja configuração típica é mostrada na Figura 15, é uma

turbomáquina que possui como insumos o ar e um combustível. No caso da UTE-RA, o

combustível utilizado é o gás natural. A turbina a gás produz vapor e energia mecânica

e, quando acoplada a um gerador elétrico, possibilita a geração de energia elétrica

(SARAVANAMUTTOO et al., 1996).

Figura 15 - Turbina a gás RB211-G62 (ROLLS-ROYCE, 2010).

73

A composição básica de uma turbina a gás contempla compressor, câmara de

combustão e expansor. O ar necessário à queima é admitido e comprimido pelo

compressor, fluindo em seguida para a câmara de combustão onde se mistura com o

gás natural. Uma chama piloto é utilizada para dar início à combustão. Os gases

formados na reação passam com altas velocidades e temperaturas pelo expansor da

turbina que é acoplado a um gerador de energia, transformando energia mecânica em

energia elétrica. Este conjunto opera em um ciclo aberto, ou seja, o fluido de trabalho

(ar) é admitido na pressão atmosférica e os gases de escape, após passarem pela

turbina, são descarregados de volta na atmosfera sem que retornem à admissão.

As TG de modelo RB211 Rolls-Royce dispõem de nove combustores distribuídos

radialmente em um anel central localizado entre o compressor e o expansor. O sistema

de controle da RB211 foi projetado para desarmar o equipamento caso a temperatura

de algum dos 17 sensores de temperatura dispostos radialmente nas câmaras de

combustão se distancie em 150 ºC da média de temperatura de todas as câmaras,

de forma a proteger o equipamento de danos por dilatação diferencial. Quando este

desarme ocorre, caracteriza-se um trip por dispersão de temperatura.

Vários motivos podem causar uma falha e parada (trip) (GIAMPAOLO, 2006),

por exemplo: dispersão de temperatura, surgência, vibração, além de outras.

Entretanto, não há um conhecimento sobre as causas ou pertubações que levam à

ocorrência de tais falhas. Um agravante na situação de estudo é observado pela

detecção tardia do evento de falha, o qual somente é verificada após a atuação de

controle automático de sistema de proteção para proceder ao desligamento do

equipamento. Não há nenhuma informação prévia acerca da dinâmica do padrão de

falha, ou mesmo uma definição em relação às variáveis úteis com relação à capacidade

de predição da falha (FONTES e PEREIRA, 2016). Desta forma, adotou-se para este

estudo de caso a aplicação de um algoritmo de agrupamento baseado em FCM na

transformada wavelet. Com base em entrevistas e análise dos relatórios de operação

da turbina, selecionou-se investigar o desarme (ou trip) por dispersão de temperatura.

A escolha desta forma específica de causa geradora se deu por ser um desarme com

maior número de ocorrências desde 2008, por seu impacto na interrupção ser

significativo e pelo potencial de predição com base nas variáveis coletadas.

74

3.1.2 Metodologia

O projeto como um todo compreende as seguintes etapas principais,

representadas pela Figura 16:

Etapa 1. Geração das amostras. Através dos relatórios de operação e da base de dados

proveniente do PIMS, todas as ocorrências das três turbinas a gás foram

levantadas e classificadas em 70 eventos (62 normais e 8 com trip por dispersão

de temperatura). O algoritmo de varredura linear (TRAUB et al., 1998)

possibilitou a captura de cada evento de partida da turbina, contemplando a

vazão de gás natural como variável de estudo. Os dados extraídos referem-se

ao período de 2008 a 2010 com período de amostragem de 1 minuto;

Etapa 2. Transformada wavelet e análise de similaridade intra e inter grupos. Esta

etapa envolveu o cálculo do nível de similaridade/dissimilaridade em cada

grupo gerado (objetos normal e com falha). A transformada wavelet contínua

(Equação 36) utilizando Haar como wavelet-mãe ( ) foi aplicada às series de

vazão como forma de extração de características dos objetos. A similaridade

pode ser então calculada entre as matrizes resultantes de tal transformada, a

partir da utilização da norma de Frobenius (Equação 19);

Etapa 3. Agrupamento e reconhecimento de padrões. O método Fuzzy C-Means (FCM,

Equações 26 e 27) foi aplicado ao conjunto de 70 objetos com o objetivo de

obter diferentes protótipos representativos dos objetos, além do cálculo de

grau de pertinência entre os objetos e os padrões. Nesta etapa a validação do

agrupamento foi realizada através do índice de silhueta (Equação 32), o que

permitiu a comparação dos resultados com outros trabalhos de agrupamento

sobre a mesma base de dados.

75

Figura 16 - Metodologia - caso 1.

3.1.3 Resultados e discussão

A primeira etapa do projeto contemplou a obtenção da base de dados

proveniente do PIMS, disponível na unidade UTE-RA. Foram obtidas variáveis medidas

durante todo o período entre 2008 a 2010 referente às três turbinas a gás presentes

na unidade. Tal sistema de gerenciamento continha um total de oito variáveis, a saber:

setpoint, potência ativa bruta, potência ativa, geração de energia total, vazão de gás

natural, pressão de entrada na câmara de combustão, temperatura de entrada e

temperatura de saída dos gases de exaustão. Através do algoritmo de varredura linear

obtiveram-se os objetos (séries temporais) apenas a partir do momento de partida do

equipamento (estado transiente), além de identificá-los em 62 partidas normais e 8

com trip por dispersão de temperatura, através do uso dos relatórios de operação da

turbina. Dois objetos normais e dois com trip obtidos nesta etapa estão apresentados

com três de suas variáveis de processo nas Figuras 17 e 18.

76

Figura 17 - Exemplos de partidas normais.

Figura 18 - Exemplos de partidas com trip por dispersão de temperatura.

Pode-se perceber a partir das figuras anteriores que após a partida da turbina

(em torno de t=60 min) a falha devido à dispersão por temperatura nestes objetos

ocorre em um intervalo de 30 minutos (considerando todos objetos trip o tempo

médio é de 20 minutos até a falha), porém visualmente não é possível estabelecer uma

distinção entre o comportamento dinâmico das variáveis que conduziram a um evento

normal a um de falha, o que reforça a aplicação de um algoritmo de reconhecimento

de padrões para evidenciar as dissimilaridades entre os objetos e possibilitar ao

operador uma tomada de decisão prévia à falha do equipamento.

77

Dentre as oito variáveis obtidas, selecionou-se aquela que apresentou maior

potencial de segregação entre diferentes objetos. Para atingir tal objetivo, os dados

foram pré-processados, passando por um “enjanelamento” de 20 minutos

(amostragem dos pontos referentes aos objetos a partir do momento da partida até o

instante da falha) e normalização (Equação 7), sendo posteriormente aplicada a

transformada CWT para extração de características. Utilizou-se a wavelet-mãe Haar

para a convolução (transformada das séries temporais) e obtenção da matriz de

coeficientes referente a cada objeto, onde o número de escalas foi definido como o

número de pontos da série temporal ( max = n). A similaridade entre os objetos foi

calculada através da aplicação da norma de Frobenius entre os coeficientes wavelets

referentes a cada objeto. Exemplos de dois objetos (um normal e um com trip), além

da matriz de coeficientes wavelets obtidos através da CWT estão mostrados na Figura

19.

Figura 19 - STU e coeficientes wavelets de séries univariadas - objetos normal e falho.

Percebe-se na Figura 19 que em valores de tempo entre t=10 e t=14 e valores

de escala no intervalo = 9 e = 15 (círculo vermelho na Figura 19) os objetos

apresentam valores de coeficientes wavelets diferentes entre si. Este tipo de distinção

apenas é visualizado a partir de uma abordagem multiescala e demonstra o potencial

da aplicação de CWT com o intuito de evidenciar dissimilaridades entre os objetos.

78

Desta forma espera-se que as diferenças visualizadas nos coeficientes wavelets entre

diferentes objetos permitam a obtenção de padrões mais coesos na etapa de

agrupamento.

Comparou-se a distância dos coeficientes wavelets entre os 62 objetos normais,

além da distância entre os 8 objetos de trip e, por último, a distância entre os objetos

normais e os objetos com trip. Os resultados obtidos para diferentes variáveis foram

comparados e estão representados nas Figuras 20, 21 e 22. A variável vazão de gás

apresentou uma mediana de distâncias relativas ao grupo normal menor em relação às

outras variáveis, o que implica que a seleção da vazão de gás indica ser mais adequada

para a etapa de agrupamento, na medida em que permitiu a identificação de um

conjunto de objetos normais que possuíam coesão (alta similaridade). Além disso,

segundo Fontes e Pereira (2016), a variável vazão de gás natural representa a variável

mais apropriada para a identificação da ocorrência de partida da turbina diretamente

deste banco de dados. A explicação desta afirmação se dá devido à própria natureza

do comportamento dinâmico das variáveis, de tal forma que, ao ser realizada a partida

da turbina a gás, imediatamente a vazão de gás natural também aumenta. Esta

resposta rápida não é verificada para outras variáveis, tais como as temperaturas de

entrada e de exaustão dos gases, o que reforça a seleção da vazão de gás como

variável de estudo, pois quanto mais cedo um padrão de falha possa ser reconhecido,

maior o intervalo de manobra para a tomada de ações corretivas.

Figura 20 - Distância inter e intra grupos. Janela de 20 minutos - vazão de gás natural.

79

Figura 21 - Distância inter e intra grupos. Janela de 20 minutos - pressão de entrada.

Figura 22 - Distância inter e intra grupos. Janela de 20 minutos - temperatura de

exaustão

Definida a escolha da variável vazão de gás, uma análise mais detalhada da

Figura 22 demonstra que em janelas de 20 minutos é possível perceber uma

segregação nas características das curvas com trip e normais. Através da aplicação de

janelas menores (Figura 23 - 11 minutos) não foi possível observar uma distinção maior

entre as distâncias normal-trip, ou seja, houve apenas uma perda de informações sem

um ganho de segregação entre os objetos. Por isso estabeleceu-se um intervalo de

janela de 20 minutos para a etapa seguinte de agrupamento.

80

Figura 23 - Distância inter e intra grupos. Janela de 11 minutos - vazão de gás natural.

Também foi possível observar uma grande quantidade de pontos que se

distanciaram muito do valor central dentro do grupo normal (outliers mostrados nas

Figuras 20 a 23). Isto motivou um estudo mais aprofundado para a verificação da

existência de dois grupos (clusters) distintos dentro do grupo de partidas normais, ou

seja, a ocorrência de duas formas de partida da planta gerando um evento normal. A

verificação de que o valor da mediana entre a distância intergrupos resulta em um

valor menor em relação à distância trip-trip (Figura 20) também reforça a hipótese da

presença de um grupo de objetos categorizados como normais, porém com

comportamento similar às séries de falha.

A partir da aplicação do algoritmo FCM (Equações 26 e 27), com um valor pré-

definido de c=3 grupos, foram gerados protótipos (padrões) típicos entre as partidas

normais da turbina (denominados grupos N1 e N2), além do grupo de trip. A partir da

pertinência uik de cada objeto aos três protótipos obtidos - disponível na matriz de

partição U resultante do algoritmo FCM -, foi possível classificar os objetos citados

como pertencentes aos grupos normais do tipo-1 e do tipo-2. A Figura 24 apresenta o

Box-plot considerando as distâncias inter e intragrupos. Um total de 47 objetos foram

classificados no grupo normal tipo-1 e 15 objetos no grupo normal tipo-2.

81

Figura 24 - Distância inter e intra grupos. Caso com dois padrões de partida normal, N1

e N2.

Diante da Figura 24 pode-se perceber que o padrão normal N2 deve ser

considerado um padrão desejável de operação de partida da turbina, estando mais

distante dos eventos de trip. Isto é confirmado pelos maiores valores de distância de

Frobenius entre o grupo de partida normal 2 e partida com trip (representado pelo

Box-plot “Normal2-Trip”). A quantidade de outliers foi significantemente diminuída

com a inclusão de dois grupos, o que reforça a teoria da existência de dois grupos

normais.

Calculou-se também a distância de Frobenius de todos os objetos classificados

como normais (pertencentes aos grupos N1 e N2) a cada um dos oito objetos com trip

(Figura 25). Pode-se perceber que para todos os objetos com falha, a distância de

Frobenius foi maior para os objetos normais N2, o que reforça a premissa de que este

seria um padrão desejável de partida da turbina por se apresentar menos similar ao

evento trip.

82

Figura 25- Distância entre objetos N1 e N2 versus objetos trip.

A aplicação da transformada wavelet inversa aos coeficientes wavelets de cada

protótipo (padrão) proporcionou a obtenção dos padrões de cada um dos grupos

representados através de séries temporais de vazão de gás. Com a informação do

comportamento esperado de cada grupo na forma de séries temporais, é possível ao

operador verificar o andamento de uma partida da planta, tomando os devidos ajustes

para manter o padrão de partida o mais próximo possível do padrão mais seguro N2.

As figuras a seguir apresentam o comportamento das séries temporais obtidas (Figura

26), além da distância de Frobenius calculada entre os protótipos (centros dos clusters)

(Figura 27).

83

Figura 26 - Séries temporais dos padrões obtidos.

Figura 27 - Distância entre protótipos resultantes.

Dentre os 62 objetos normais, 47 foram classificados no grupo N1 e 15

classificados no grupo N2, ou seja, nenhum dos objetos normais foi categorizado como

pertencente ao grupo trip. Porém, entre os 8 objetos de falha, 2 foram classificados

incorretamente como pertencentes ao grupo N1, o que resulta em um percentual de

25% de classificações incorretas em relação ao grupo trip.

A qualidade do agrupamento foi realizada a partir do índice de silhueta

(Equações 31 e 32 e Figura 28). Valores mais próximos de 1 indicam uma melhor

alocação do objeto ao grupo. Percebe-se que a grande maioria dos objetos

pertencentes ao grupo 1 (N1) e grupo 3 (trip) apresentou valores positivos, o que

indica a obtenção de um grupo coeso, com pontos mais próximos entre si do que em

relação a objetos vizinhos. Apesar da presença de alguns índices negativos, o valor

geral do índice de silhueta de 0,22 indica um bom resultado de agrupamento, de forma

84

que os padrões obtidos podem ser considerados representativos de seu conjunto de

objetos.

Figura 28 - Índice de silhueta - caso univariado.

Anteriormente ao presente trabalho, a obtenção de diferentes padrões neste

estudo de caso já havia sido obtida (PEREIRA et al., 2014; FONTES e PEREIRA, 2016).

Porém, em tais pesquisas foi aplicado o algoritmo FCM diretamente aos dados

temporais e não aos coeficientes wavelets. Em Pereira et al. (2014) e Fontes e Pereira

(2016), as dissimilaridades entre os objetos foram evidenciadas através da utilização

de 3 variáveis (temperatura de entrada, temperatura de exaustão e vazão de gás) onde

a qualidade do agrupamento foi quantificada através de um índice de silhueta geral de

0,20. Com a introdução dos coeficientes wavelets no problema, a quantidade de

variáveis requeridas para obter diferentes padrões caiu para um, o que indica uma alta

potencialidade da transformada wavelet em extrair características das séries

temporais e contribuir para a etapa de agrupamento do reconhecimento de padrões.

85

3.2 ESTUDO DE CASO 2: DETECÇÃO DE FALHAS EM UM

PROCESSO VIRTUAL DE REFERÊNCIA

3.2.1 Descrição

Este segundo estudo de caso compreendeu a análise de um processo virtual

cujo modelo em malha aberta e algumas opções de malha fechada com diferentes

estratégias de controle estão disponíveis na internet (ANTELO et al., 2008; BATHELT et

al., 2015; YIN et al., 2014). Apesar de ser uma planta virtual, o Tennessee Eastman

Process (TEP) é amplamente adotado na literatura como processo de referência

(benckmark) para estudos de controle, otimização, monitoramento e análise de falhas

(YIN et al., 2012; LAU et al., 2013; YU, 2013; BAHRAMPOUR et al., 2011; ZHU et al.,

2012; LI et al., 2011; MAESTRI et al., 2010; DONG et al., 2015; YIN et al., 2014),

servindo, inclusive, de campo de testes para o desenvolvimento, aplicação e avaliação

de novas abordagens em FDD (RATO e REIS, 2013; SHAMS et al., 2011; SINGHAL e

SEBORG, 2006).

O TEP foi desenvolvido pela companhia Eastman Chemical, a partir do trabalho

de Downs e Vogel (1993), com o objetivo de fornecer um modelo capaz de representar

o comportamento de uma planta industrial com diversas variáveis de processo,

reciclos, restrições de projeto, operacionais e de controle. Tal modelo é baseado em

uma planta real, onde os componentes do processo, cinética e condições operacionais

foram modificados por motivos de sigilo de informação.

Originalmente desenvolvido em código Fortran, modelo/simulador do processo

proposto consiste basicamente em cinco operações unitárias: um reator, um

condensador de produto, um separador líquido-vapor, um compressor de reciclo e

uma stripper. São produzidos dois produtos a partir de quatro reagentes, além de um

subproduto e da presença de uma substância inerte, totalizando oito componentes,

quais sejam, A, C, D, E (reagentes), F (subproduto), G e H (produtos principais) e B

(inerte). Tem-se as seguintes reações:

86

( ) ( ) ( ) ( ) (43)

( ) ( ) ( ) ( ) (44)

( ) ( ) ( ) (45)

( ) ( ) (46)

Todas as reações são consideradas irreversíveis, exotérmicas e com cinética de

primeira ordem em relação às concentrações dos reagentes. As taxas de reação são

funções da temperatura conforme a equação de Arrhenius, sendo que a reação de

produção de G (Equação 43) possui uma energia de ativação superior à reação de

produção de H (Equação 44), o que resulta em uma maior sensibilidade da primeira a

variações na temperatura. A Figura 29 apresenta um diagrama de todo o processo.

87

Figura 29 - Diagrama do TEP.

Os reagentes gasosos inicialmente são alimentados para o reator, onde formam

os produtos líquidos. O próprio reator possui um sistema interno de resfriamento para

evitar altas temperaturas decorrentes da exotermicidade das reações. O produto passa

88

por um condensador e posteriormente é enviado a um separador líquido-vapor, onde

os componentes não condensados retornam ao reator através de uma bomba

centrífuga de reciclo. Os produtos condensados seguem para uma coluna stripper, para

remover o excesso de reagentes (não convertidos) do produto final. Para evitar

acúmulo de subproduto e do componente B (inerte), existe uma corrente de purga

(corrente 9). Os balanços de massa e energia, além das propriedades físicas dos

componentes em estudo também são fornecidos pelos autores, podendo ser

encontrados em Downs e Vogel (1993).

Todo o processo contém 41 variáveis medidas (armazenadas em um vetor -

XMEAS) e mais 12 variáveis manipuláveis (vetor XMV). As variáveis manipuladas estão

listadas na Tabela 2. Dentre as variáveis medidas (Tabela 3) do processo se incluem

dados de sensores de temperatura, pressão, nível, vazão das correntes e concentração

dos componentes no produto, dentre outras.

Tabela 2 - Variáveis manipuladas do TEP

Variável Descrição

XMV(1) Vazão Corrente D (Corrente 2)

XMV(2) Vazão Corrente E (Corrente 3)

XMV(3) Vazão Corrente A (Corrente 1)

XMV(4) Vazão Corrente D+E+A (Corrente 4)

XMV(5) Válvula de Reciclo do Compressor

XMV(6) Válvula da Purga (Corrente 9)

XMV(7) Corrente Ascendente Separador (Corrente 10)

XMV(8) Corrente de Líquido da Stripper (Corrente 11)

XMV(9) Válvula de Vapor da Stripper

XMV(10) Vazão de Água de Resfriamento no Reator

XMV(11) Vazão de Água de Resfriamento no Condensador

XMV(12) Velocidade Misturador do Reator

89

Tabela 3 - Variáveis medidas no TEP

Variável Descrição Unidade

XMEAS(1) Vazão A (Corrente 1) kscmh

XMEAS(2) Vazão D (Corrente 2) kg/h

XMEAS(3) Vazão E (Corrente 3) kg/h

XMEAS(4) Vazão A+B+C (Corrente 4) kscmh

XMEAS(5) Vazão Reciclo (Corrente 8) kscmh

XMEAS(6) Vazão Alimentação Reator (Corrente 6) kscmh

XMEAS(7) Pressão Reator KPa

XMEAS(8) Nível Reator %

XMEAS(9) Temperatura Reator ºC

XMEAS(10) Vazão de Purga (Corrente 9) kscmh

XMEAS(11) Temperatura Produto do Separador ºC

XMEAS(12) Nível do Separador %

XMEAS(13) Pressão do Separador kPa

XMEAS(14) Vazão produto do Separador (Corrente 10) m³/h

XMEAS(15) Nível Stripper %

XMEAS(16) Pressão Stripper kPa

XMEAS(17) Corrente Saída Stripper (Corrente 11) m³/h

XMEAS(18) Temperatura Stripper ºC

XMEAS(19) Vazão Gás Stripper kg/h

XMEAS(20) Potência do Compressor kW

XMEAS(21) Temp. Saída Água Resfriamento Reator ºC

XMEAS(22) Temp.Saída Água Resfriamento Separador ºC

XMEAS(23) Concentração Componente A (Corrente 6) %

XMEAS(24) Concentração Componente B (Corrente 6) %

XMEAS(25) Concentração Componente C (Corrente 6) %

XMEAS(26) Concentração Componente D (Corrente 6) %

XMEAS(27) Concentração Componente E (Corrente 6) %

XMEAS(28) Concentração Componente F (Corrente 6) %

90

XMEAS(29) Concentração Componente A (Corrente 9) %

XMEAS(30) Concentração Componente B (Corrente 9) %

XMEAS(31) Concentração Componente C (Corrente 9) %

XMEAS(32) Concentração Componente D (Corrente 9) %

XMEAS(33) Concentração Componente E (Corrente 9) %

XMEAS(34) Concentração Componente F (Corrente 9) %

XMEAS(35) Concentração Componente G (Corrente 9) %

XMEAS(36) Concentração Componente H (Corrente 9) %

XMEAS(37) Concentração Componente D (Corrente 11) %

XMEAS(38) Concentração Componente E (Corrente 11) %

XMEAS(39) Concentração Componente F (Corrente 11) %

XMEAS(40) Concentração Componente G (Corrente 11) %

XMEAS(41) Concentração Componente H (Corrente 11) %

O TEP também dispõe de 20 possíveis eventos de falha (Tabela 4) que são

essencialmente distúrbios sobre o processo. Estes distúrbios oferecem um

diversificado manancial de alternativas para o desenvolvimento, análise e avaliação de

abordagens voltadas à detecção e diagnóstico de falhas. Outrossim, no escopo de

estratégias baseadas no agrupamento e reconhecimento de padrões, a simulação do

TEP viabiliza a obtenção de eventos, ou objetos, com e sem falha, em diferentes

condições operacionais (estados estacionários) do processo.

91

Tabela 4 - Eventos de falha no TEP

Variável Descrição Tipo

IDV(1) Razão Vazão A/C, Composição B Constante (Corrente 4) Degrau

IDV(2) Composição B , Razão Vazão A/C Constante (Corrente 4) Degrau

IDV(3) Temperatura Alimentação D (Corrente 2) Degrau

IDV(4) Temperatura Água Resfriamento Reator Degrau

IDV(5) Temperatura Água Resfriamento Condensador Degrau

IDV(6) Perda de Carga de A (Corrente 1) Degrau

IDV(7) Redução na Carga de C (Corrente 4) Degrau

IDV(8) Composição de Reagentes (Corrente 4) Aleatório

IDV(9) Temperatura Vazão D (Corrente 2) Aleatório

IDV(10) Temperatura Vazão C (Corrente 4) Aleatório

IDV(11) Temperatura Água Resfriamento Reator Aleatório

IDV(12) Temperatura Água Resfriamento Condensador Aleatório

IDV(13) Cinética Reação Rampa

IDV(14) Válvula de Água de Resfriamento do Reator Entupimento

IDV(15) Válvula de Água de Resfriamento do Condensador Entupimento

IDV(16) Falha Desconhecida -

IDV(17) Falha Desconhecida -

IDV(18) Falha Desconhecida -

IDV(19) Falha Desconhecida -

IDV(20) Falha Desconhecida -

IDV(21) Válvula de Corrente 4 mantida Fixa Posição Fixa

O TEP originalmente foi desenvolvido não apenas para estudos em detecção e

diagnóstico de falhas, mas também para o desenvolvimento de técnicas de controle e

otimização. Na sua versão original em malha aberta (Figura 29), o TEP é uma planta

instável. Dentre as alternativas de controle para o TEP propostas na literatura, este

trabalho considerou a estratégia apresentada por Ricker (1996) que propõe um

sistema de controle descentralizado e disponibiliza o modelo em malha fechada já

implementado em Matlab/Simulink (Figura 30).

92

Figura 30 - Sistema de controle aplicado ao TEP (RICKER, 1996).

93

Conforme verificado a partir da Figura 30, o sistema de controle proposto

baseia-se na utilização de diversos loops compostos por controladores PID em

diferentes etapas do processo, considerando um grande conjunto de variáveis para o

arranjo da estratégia de controle. Dentre eles percebe-se que a estratégia compreende

a utilização da razão dos componentes D e E (correntes 2 e 3) para o controle da taxa

de produção, que por sua vez controla o nível da stripper (loop 11). A elevação da

pressão no reator a valores acima de 3000 kPa provoca no acionamento de um sistema

preventivo e toda a planta é desligada automaticamente. Desta forma o controle da

pressão do reator representa uma etapa imprescindível ao bom funcionamento

operacional do sistema, o qual é realizado primeiramente através da válvula de purga

(corrente 9) e de forma secundária através da redução nas vazões de todos reagentes,

caso haja saturação do primeiro sistema. A vazão de reciclo (corrente 8) também

compreende uma importante função para a estabilidade da planta, uma vez que a

análise de sua composição é utilizada como forma de controle da entrada dos

reagentes A e C (correntes 1 e 4) dentro do sistema. Para uma discussão completa

acerca do sistema de controle aplicado e consulta aos parâmetros dos controladores

utilizados, recomenda-se a leitura de Ricker (1996).

3.2.2 Geração dos objetos

Ao se considerar a variedade de falhas possíveis de serem acionadas durante

uma simulação do TEP, fez-se necessário analisar os efeitos sobre as variáveis de

processo decorrentes de cada uma destas falhas. Esta análise inicial visou à seleção de

tipos de falhas com potencial para uma análise via abordagem multivariada. A Tabela 5

indica as principais variáveis afetadas (XMEAS) em falhas do TEP (IDV). Diversos

motivos conduziram à não-inclusão de outros tipos de falha tais como: mudanças

irrelevantes nas variáveis, rápida atuação do sistema de controle ou até mesmo falhas

em que a planta não resistiu à perturbação imposta e foi desligada (shutdown).

94

Tabela 5 - Variáveis significativamente afetadas nas falhas

N° DA FALHA

VARIÁVEIS

IDV-1 IDV-7 IDV-8 IDV-11 IDV-13 IDV-18

Vazão A X X

Vazão A+D+E X

Vazão reciclo X X

Vazão alimentação reator X

Pressão reator X X X X X X

Temperatura reator X X X X

Vazão de purga X X X X

Temperatura produto do separador X X X X

Nível do separador X

Nível stripper X X

A primeira etapa para o reconhecimento de padrões em séries multivariadas

consistiu na obtenção do banco de dados. Neste caso, simulou-se a operação da planta

do TEP por 2500 horas, com período amostral de 30 segundos. Mudanças de setpoint

em diferentes instantes de tempo foram impostas à simulação com o objetivo de obter

alterações de estado estacionário (Tabela 6). Estas alterações de setpoint passaram a

representar os eventos normais de processo.

Tabela 6 - Mudanças de setpoint

VARIÁVEL INTERVALO SETPOINT UNIDADE

Produção total 19.5 – 25.0 m³/h

Nível reator 30 – 70 %

Pressão reator 2500 - 2900 KPa

Composição G na corrente de produto (% molar) 20 - 80 %

Eventos de falha foram provocados durante a corrida em momentos distintos.

Após a etapa de simulação, cada evento - normal e com falha - foi “enjanelado” em

intervalos de 25 horas cada e normalizados. Este procedimento de obtenção dos

95

objetos a partir do histórico de operação de 2500 horas está apresentado na Figura 31.

Toda a simulação gerou um total de 100 objetos, metade deles rotulados como

normais e a outra metade como eventos com falha.

Figura 31 - Obtenção dos objetos multivariados.

A metodologia de agrupamento compreendeu uma abordagem não-

hierárquica, baseada no método FCM, no qual o número de grupos foi previamente

fixado. O índice de silhueta e o percentual de classificações incorretas para ambos os

casos (evento normal e evento com falha) foram adotados como critérios para

estabelecer a melhor quantidade de grupos.

3.2.3 Métrica MSPCA e a abordagem multirresolução

A abordagem de agrupamento proposta neste trabalho consiste em um

problema de otimização FCM genérico (Equações 28 e 29). A métrica desenvolvida

para quantificar a distância entre objetos (MSPCA) é uma extensão do SPCA tradicional

(Equação 21), de tal forma que a similaridade entre os componentes principais de

diferentes séries multivariadas é analisada em mais de uma escala, através do uso das

transformadas wavelets.

96

Considere uma matriz genérica (i=1,...,n), novamente demonstrada pela

Equação 47, na qual cada coluna representa a série temporal de comprimento m de

uma dada variável medida.

[

( ) ( )

( ) ( )

] (47)

Inicialmente se aplica a transformada wavelet contínua (CWT, Equação

39),baseada em uma wavelet-mãe, a cada série temporal (cada variável) do objeto.

Esta etapa compreende a convolução entre uma função wavelet-mãe 𝝍 pré-definida

(esticada em diferentes escalas dentro do intervalo de um a , previamente

definido) com cada coluna da matriz Zi. A matriz resultante (Equação 48) contém os

coeficientes wavelets associados a cada série temporal em diferentes instantes de

tempo (t=1,...,m) e diferentes escalas ( max).

[

( )

( )

( )

( ) ]

(48)

onde ( ) representa o coeficiente wavelet relacionado à série temporal j (j =

1,...,k) do objeto Zi (i=1,...,n), no instante de tempo t e escala . Cada linha de

contém todos os coeficientes relacionados à série temporal j em uma escala específica.

A próxima etapa compreende um rearranjo por escala de cada matriz

, de tal forma

que os coeficientes de diferentes variáveis (séries temporais) associados a uma mesma

escala são agrupados em uma mesma matriz (Equação 49).

[ ( )

( )

( )

( )]

(49)

97

Cada matriz contém os coeficientes wavelets obtidos do objeto através

da CWT em uma escala específica . O índice SPCA pode ser obtido considerando os

ângulos entre os componentes principais dos coeficientes wavelets em uma

determinada escala [SPCA(), Equação. 21]. O índice final MSPCA é calculado a partir

de uma média entre todos os SPCA nas diferentes escalas (Equação 50):

∑ ( )

(50)

Esta abordagem descrita permite a extração de características e posterior

reconhecimento de padrões considerando o comportamento das séries temporais

multivariadas em diferentes escalas, potencializando a capacidade de evidenciar

dissimilaridades entre objetos, sobretudo em situações frequentes e típicas

envolvendo sinais não-estacionários. Todo o processo de aplicação da métrica MSPCA

proposto pode ser visualizado na Figura 32, ilustrando-se um exemplo onde os objetos

são definidos por uma STM de 4 variáveis.

98

Figura 32 - Método MSPCA.

A etapa de agrupamento compreendeu a utilização de um algoritmo FCM

modificado, apropriado para o caso de séries temporais multivariadas. A solução do

algoritmo baseia-se em um problema de otimização cujas variáveis de decisão

compreendem os centros ( , padrões ou protótipos) referentes a cada um

dos c grupos ( ) e os graus de pertinência de cada objeto a cada grupo:

( )

( ) ∑∑( )

|| || (51)

onde Xk (k n) representa o objeto multivariado (MTS), Vi (i c) é o

protótipo/padrão (Xk e Vi mxw, w é o número de variáveis ou séries temporais), U é

uma matriz cn (matriz de partição) contendo os valores de pertinência uik ϵ [0,1],

( > 1) é o coeficiente fuzzificador, V contém o grupo de matrizes padrão V1, V2, ...,

Vcm×w, e || || é a norma de distância entre um objeto e o centro de um

99

grupo através do MSPCA. Como valores de SPCA próximos a um implicam em alta

similaridade, uma transformação adicional foi considerada para o cálculo da distância

MSPCA, conforme a seguir:

|| || ( ) ( ) (52)

onde se refere ao complemento do valor original . Considerando a

abordagem probabilística, duas restrições devem ser consideradas para a solução do

problema de otimização (Equações 53 e 54):

(53)

(54)

A aplicação das condições de primeira ordem ao problema descrito pelas

Equações 51 a 54 leva à seguinte solução analítica válida para o cálculo dos graus de

pertinência:

(

[ ( )] )

( )⁄

∑ (

[ ( )] )

( )⁄

(55)

Neste caso, no entanto, não há solução analítica para os centros dos grupos Vi

(não há uma equação semelhante à demonstrada pela Equação 26), pois a norma

Euclidiana não é utilizada como métrica de similaridade. O problema de otimização

(Equações 51 a 54) é resolvido através de um método clássico de otimização de

segunda ordem com os centros dos grupos como variáveis de decisão e a expressão

100

analítica para os graus de pertinência (Equação 55) utilizada como uma restrição

adicional, o que leva ao seguinte problema:

( )

( ) ∑∑

[

(

[ ( )] )

( )⁄

∑ (

[ ( )] )

( )⁄

]

|| ||

(56)

Outras métricas de similaridade aplicáveis a problemas de protótipos não

pontuais (típicos de séries multivariadas) também poderiam ser aplicadas, como por

exemplo o SPCA tradicional, substituindo neste caso por SPCA na Equação 55.

A etapa de agrupamento deve ser avaliada com base em critérios pré-

selecionados. Conforme discutido na seção de fundamentação teórica, esta etapa

compreendeu a utilização tanto de métodos de validação interna, através do índice de

silhueta (Equação 31), e de validação externa, com a utilização da validação cruzada

dos dados.

3.2.4 Resultados e discussão

Como já colocado, a amostra total compreendeu um total de 100 objetos,

sendo 50 normais (sem falha), referentes a alterações de setpoint, e 50 objetos

relacionados à falha do tipo 1 (IDV-1). A adoção deste tipo de falha na condução do

estudo para o reconhecimento de padrões se deu devido à semelhança

comportamental entre as variáveis de processo resultantes de uma simples alteração

de setpoint com a verificada após a verificação da referida falha, com o objetivo de

promover um reconhecimento de padrões entre objetos com semelhanças

consideráveis.

Cada objeto é representado por uma janela de tempo de 25 horas de

simulação e compreende uma série multivariada, composta pelas seguintes variáveis

medidas (Figura 30): vazão do reagente A (corrente 1), vazão de reciclo (corrente 8),

101

pressão no reator e vazão de purga (corrente 9). Dois exemplos de séries multivariadas

estão representados na Figura 33, um objeto normal e outro com falha, após

normalização. É possível perceber que, apesar dos objetos pertencerem a categorias

distintas, o comportamento de suas variáveis de processo apresenta semelhanças, o

que exige uma metodologia de agrupamento mais rigorosa para permitir que

dissimilaridades sejam evidenciadas entre tais objetos.

Figura 33 - Exemplos de duas séries multivariadas.

A falha do tipo 1 compreende uma alteração (distúrbio) do tipo degrau na razão

entre as vazões de A e C na corrente 4 (Figura 33), o que resulta no aumento da

composição do reagente C em relação ao reagente A nesta corrente. Como resultado,

a quantidade do componente A é diminuída na corrente 5, o que leva o sistema de

controle a atuar aumentando a vazão de alimentação do componente A (corrente 1). A

vazão de purga também é elevada de forma a manter a pressão do reator abaixo do

limite de 3000 kPa (limite operacional da Unidade). O nível do separador e da stripper

também são afetados, os quais são controlados, por sua vez, através das vazões de

descarga destes equipamentos (correntes 10 e 11). A falha do tipo 1, juntamente com

as ações de controle produzem efeitos em diversas variáveis do processo, o que

102

determina a necessidade de uma abordagem multivariada para o agrupamento e

reconhecimento de padrões. Conforme verificado a partir da Tabela 5, a vazão de A

(corrente 1) e a vazão de reciclo (corrente 8) são variáveis imprescindíveis dentro do

contexto da falha do tipo 1 (IDV-1), pois a própria perturbação imposta pela falha gera

alteração nas razões dos componentes A e C dentro do sistema (Figura 30). A pressão

do reator é uma variável altamente sensível e de extrema importância ao

funcionamento da planta, sendo uma variável diretamente afetada nos mais distintos

tipos de perturbações dentro da planta. Uma vez que a vazão de purga é utilizada

dentro do sistema de controle de forma a manter a pressão dentro dos limites

aceitáveis, com a aplicação de um sistema de controle secundário onde as vazões de

todos reagentes (correntes 1, 2, 3 e 4) são reduzidas caso o sistema da purga sature,

um conjunto de quatro variáveis (vazão de A, vazão de reciclo, pressão do reator e

vazão de purga) demonstra ser capaz de descrever o sistema submetido à falha IDV-1.

Inicialmente a métrica MSPCA foi aplicada entre os 100 objetos da amostra com

o objetivo de determinar a distribuição de distância entre objetos da mesma classe

(falha ou normais) e entre classes (toda a amostra). O resultado (Figura 34) sugere que

objetos de grupos diferentes apresentaram, em geral, menores valores de métrica

MSPCA em relação às distâncias intragrupos (normal versus normal e falha versus falha).

Espera-se que objetos similares apresentem um índice de MSPCA próximo a 1, enquanto

que valores mais próximos a zero são esperados ao comparar-se objetos distintos.

Desta forma, tal resultado indica que a métrica proposta é capaz de ser aplicada ao

estudo de caso, pois demonstrou dissimilaridades entre objetos de grupos diferentes:

menores valores de MSPCA ao comparar objetos de grupos distintos. Pode-se perceber

uma grande quantidade de outliers. Esta é uma forte indicação de que alguns objetos,

apesar de rotulados em um mesmo grupo, apresentam características heterogênas, o

que sugere a presença de um número maior de grupos na amostra ( ).

Por outro lado, distâncias também foram calculadas com base no SPCA

tradicional (Figura 35). Percebe-se que os resultados neste caso não evidenciaram

diferença tão significativa entre objetos distintos. Conforme citado na seção sobre

agrupamentos, a etapa de métricas de similaridade é um elemento chave para

promover um melhor desempenho na etapa do agrupamento em si, de forma que a

metodologia multiescala demonstra grande potencial como alternativa de escolha de

103

uma métrica de similaridade capaz de promover melhorias no reconhecimento de

padrões em casos multivariados.

Figura 34 Distância inter e intragrupos - MSPCA.

Figura 35 - Distância inter e intragrupos - SPCA tradicional.

O procedimento de validação cruzada também foi adotado, onde 60 objetos (30

normais e 30 com falha) foram aleatoriamente selecionados para compor o grupo de

treinamento do agrupamento FCM (Figura 36). A opção por um conjunto de dados

equilibrado (mesma quantidade de objetos normais e com falha) é desejável, quando

possível, a fim de evitar a geração de padrões com o viés da classe dominante

(GANGANWAR, 2012).

104

Figura 36 - Agrupamento e reconhecimento de padrões (procedimento de

treinamento).

FCM é um método de agrupamento não hierárquico que requer um chute inicial

em relação à quantidade do número de grupos (c). Baseado nos resultados da Figura

34, três grupos foram considerados no problema de otimização. Valores superiores,

onde , geraram padrões adicionais contendo apenas uma pequena quantidade

de objetos, o que não sugere a existência de um número maior do que três padrões no

conjunto de dados. Aplicou-se a transformada wavelet inversa (ICWT) aos protótipos

resultantes do agrupamento para a obtenção temporal dos padrões através de ambas

as métricas, MSPCA e SPCA tradicional (Figuras 37 e 38). A utilização da transformada

inversa representa uma importante etapa do ponto de vista do processo da planta,

uma vez que a determinação dos comportamentos dinâmicos das variáveis em

padrões normais e de falha pode ser diretamente utilizada em etapas de

monitoramento da planta.

A wavelet-mãe Haar foi selecionada para a transformada por ser o tipo mais

simples de wavelet com suporte compacto que tem uma forma analítica (LEE e

YAMAMOTO, 1994), além de já ter sido aplicada em estudos similares envolvendo o

reconhecimento de padrões (DU et al., 2013; CHEN e LIU, 2014; HSU e LI, 2010), onde

os autores destacam sua eficiência e rápida decomposição.

105

Figura 37 - Padrões de cada centro - MSPCA.

Figura 38 - Padrões de cada centro - SPCA tradicional.

A Tabela 7 apresenta a composição de objetos normais e com falha em cada

grupo reconhecido para ambas abordagens (SPCA tradicional e MSPCA). A classificação se

baseou nos graus de pertinência (uik) entre cada objeto e os protótipos, obtidos

através da aplicação das Equações 26 e 27. A abordagem MSPCA foi capaz de

reconhecer os centros 1 e 2, apenas com objetos de falha e normais, respectivamente.

Desta forma, o protótipo 1 pode ser considerado como um evento típico de falha e o 2

de um evento normal (Figura 37 e 38). Por outro lado, a abordagem tradicional não

conseguiu distinguir de forma tão clara os grupos 1 e 2, pois ambos contém tanto

objetos de falha como objetos normais. A concentração de objetos de falhas em um

106

único protótipo no caso do MSPCA destaca a potencialidade desta abordagem para a

detecção e diagnóstico de falhas em aprendizado não supervisionado, no qual as

características utilizadas para diferenciar os grupos entre si não é previamente

conhecida e os objetos de treinamento são objetos sem rótulo. Por outro lado, o

protótipo 3 pode ser considerado como um grupo híbrido, o qual possui um

comportamento intermediário entre aqueles observados nos protótipos 1 e 2.

Tabela 7 - Distribuição dos objetos de treinamento - metodologias MSPCA e SPCA

tradicional

Nº objetos de treinamento

Grupos

OBJETOS NORMAIS OBJETOS DE FALHA

MSPCA SPCA MSPCA SPCA

Grupo 1 (Padrão de falha) 0 5 14 12

Grupo 2 (Padrão normal) 22 20 0 9

Grupo 3 (Padrão híbrido) 8 5 16 9

Total 30 30 30 30

Eventos de operação normal e de falha foram coletados simultaneamente

através de diferentes alterações nos modos de operação (modos estacionários em

diferentes setpoints) do processo, conforme em um caso real. Os padrões obtidos nas

Figuras 37 e 38 não são dados de processo propriamente ditas, mas variáveis de

decisão resultantes da otimização do agrupamento. Estes padrões representam uma

referência para a classificação dos objetos reais (MTS) durante a operação da planta,

reconhecendo-o de maneira antecipada e categorizando-o. A Tabela 8 apresenta as

distâncias entre os protótipos de acordo com a métrica de similaridade adotada em

cada caso (SPCA tradicional e MSPCA, respectivamente), o que representa outra forma

de avaliar os resultados do agrupamento. Mesmo assumindo a existência de um

padrão híbrido no qual se espera uma coincidência com ambos grupos normal e com

falha, a obtenção deste grupo intermediário pode se tornar útil durante o processo de

tomada de decisões operacional. Em ambas as métricas o padrão normal apresenta

uma distância maior em relação aos padrões híbridos e com falha (Tabela 8). Embora

107

esta separação esteja mais evidenciada na métrica SPCA, os padrões híbrido e de falha

estão muito próximos entre si, o que sugere uma dificuldade em estabelecer um

comportamento de falha através do SPCA. Por outro lado, os resultados obtidos

através do MSPCA mostram que o evento de falha pode ser utilizado como referência no

monitoramento das variáveis de vazão de A, vazão de purga, pressão do reator e vazão

de reciclo como forma de detectar uma ocorrência da falha 1 em tempo real.

Tabela 8 - Distâncias entre protótipos

Híbrido-Normal Híbrido-Falha Normal-Falha

MSPCA SPCA MSPCA SPCA MSPCA SPCA

0.9720 0.9003 0.9848 1.0000 0.9737 0.9007

O índice de silhueta também foi utilizado como um índice de desempenho para

validar a qualidade dos resultados do agrupamento. De acordo com a Figura 39, a

maior parte dos objetos apresenta índices próximos a um, o que indica uma boa

qualidade de agrupamento. Todos os objetos no grupo 2, com a exceção de um,

possuem um índice positivo, indicando que os objetos são significativamente similares

aos padrões de seus respectivos grupos.

Figura 39 - Índice de silhueta em abordagem MSPCA - amostra treinamento.

108

Os índices de silhueta obtidos através da abordagem SPCA tradicional estão

representados na Figura 40. Uma comparação entre os resultados demonstra que a

abordagem multiescala (MSPCA) aumentou o nível de homegeneidade em cada grupo e

o nível de heterogeneidade entre grupos diferentes. Os diversos índices negativos na

abordagem tradicional mostram que muitos objetos estão mais próximos a objetos de

grupos vizinhos do que aqueles próprios de seu grupo, o que indica uma desvantagem

associada à abordagem tradicional.

Figura 40 - Índice de silhueta em abordagem SPCA tradicional - amostra treinamento.

Através da validação cruzada, os 40 objetos restantes (dados de validação, 20

normais e 20 de falha) foram classificados em relação aos padrões obtidos no

agrupamento, baseado no critério de menor distância através da métrica utilizada

(SPCA tradicional e MSPCA). A validação cruzada foi conduzida em duas etapas. Ambas

as etapas consideram duas classificações possíveis, normal ou falha, com o objetivo de

obter a taxa de classificações corretas (ou incorretas) na amostra, como uma forma de

índice externo de validação da qualidade do agrupamento. Inicialmente somente os

padrões do grupo 1 (padrão de falha) e grupo 2 (padrão normal) foram considerados

para estabelecer a classificação de cada objeto de validação. A Figura 41 apresenta a

composição e distribuição de objetos normais e de falha em relação a ambos os

protótipos (normal e falha) para cada métrica de similaridade (MSPCA e SPCA

109

tradicional). A avaliação do agrupamento, baseada na quantidade de objetos normais

classificados incorretamente (falso positivo, FP, ou alarme falso) (CHIANG et al., 2001),

objetos de falha classificados incorretamente (falso negativo, FN, ou não-detecção) e

objetos de falha classificados corretamente (verdadeiro positivo, TP), considerando os

objetos de validação resultou em 95% de classificação correta em ambos os grupos

através do MSPCA, enquanto a abordagem SPCA não obteve resultados tão bons. Ao

utilizar a abordagem tradicional, quatro objetos normais do grupo de validação foram

incorretamente classificados como falhas (20%), enquanto seis objetos de falha foram

classificados como normais (30%). Considerando o total de objetos, as classificações

incorretas através das abordagens MSPCA e SPCA tradicional foram de 5% e 25%,

respectivamente.

Uma forma alternativa de avaliar os resultados apresentados na figura 41 é

baseada no cálculo dos índices externos precision (Pr) e recall (Rec), também capazes

de avaliar o desempenho de um agrupamento e os resultados de classificação

(CHAWLA, 2009):

(57)

(58)

Um bom agrupamento resulta em um alto índice de recall sem reduzir o índice

precision. De acordo com a Figura 41, o agrupamento através de SPCA tradicional

obteve 78% e 70% nos índices de precision e recall, respectivamente, enquanto o

agrupamento utilizando MSPCA alcançou 95% em ambos os índices.

110

Figura 41 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados

de validação e 2 padrões (grupo 1 e 2).

A segunda etapa da classificação dos dados de validação considerou os três

padrões. De maneira similar, a Figura 42 apresenta a composição e distribuição dos

objetos normais e de falha nos 3 padrões. O agrupamento utilizando a métrica MSPCA

obteve 100% de classificação correta para todos objetos classificados nos grupos 1

(falha) e 2 (normal), enquanto a métrica SPCA tradicional gerou um total de 82% e 88%

de classificações corretas para os respectivos centros. Em relação ao grupo híbrido

(grupo 3), 45% e 32,5% dos objetos de validação foram classificados nesse grupo

utilizando respectivamente MSPCA e SPCA tradicional, indicando uma sobreposição

esperada do grupo híbrido com os grupos normal e de falha. Tais resultados também

sugerem que os grupos 1 e 2 e seus respectivos padrões podem ser associados como

eventos clássicos de operação normal e de falha, o que pode representar uma futura

referência de comportamentos, respectivamente, desejáveis e indesejáveis durante a

operação.

Considerando o grupo 3 (híbrido) como um grupo de falha para o propósito de

classificação dos objetos de validação (a maior parte dos objetos pertencentes a este

grupo são eventos de falha para ambos MSPCA e SPCA tradicional), o total de

classificações incorretas utilizando SPCA e MSPCA são iguais a 20% e 10%,

respectivamente.

111

Figura 42 - Taxa de classificação correta: abordagens MSPCA e SPCA tradicional - dados

de validação e 3 padrões.

A abordagem proposta consiste em um método de agrupamento baseado em

otimização (como outros métodos tradicionais como o FCM), onde um índice de

similaridade (MSPCA) evidencia as diferenças entre as direções dos componentes

principais dos objetos em diferentes escalas. Neste trabalho a média entre as

diferentes escalas foi utilizada de forma a representar as dissimilaridades entre objetos

através de apenas um número. A Figura 43 apresenta o complemento do SPCA

(1SPCA()) para cada escala, sua média (MSPCA) e também o complemento do SPCA

tradicional calculado entre um objeto normal e um objeto de falha dos dados de

treinamento. O amplo espectro e a presença de maiores dissimilaridade em escalas

específicas demonstram que o MSPCA é capaz de capturar e segregar objetos de forma

mais pronunciada em determinadas escalas. Os valores de escala entre 9 e 12

obtiveram distâncias relativamente superiores às demais escalas. Percebe-se também

que até mesmo a média foi capaz de detectar maior distância entre os objetos em

relação ao SPCA tradicional. Este resultado sustenta a hipótese do ganho de qualidade

ao considerar uma análise multiescala, além de promover diferentes possibilidades,

tais como considerar médias ponderadas ou apenas escalas específicas no processo de

agrupamento, dentre outras.

112

Figura 43 - Complemento do SPCA entre dois objetos (falha e normal) - em cada escala,

média e SPCA tradicional.

Este estudo buscou ainda realizar a comparação entre a metodologia proposta

e abordagens clássicas utilizadas pela estatística multivariada para o reconhecimento

de padrões. Foram aplicadas as estatísticas T² e Q (Equações 12 a 15) aos 30 objetos

normais e os 30 objetos com falha do grupo de treinamento. Para um nível de

significância α estipulado em 95%, o total de classificações corretas obtidas a partir de

T² foi de 3 em 30 objetos normais (10%) e de 20 em 30 objetos de falha (66%). Com

relação à estatística Q, foram classificadas corretamente 16 em 30 objetos normais

(53%) e 18 em 30 objetos de falha (60%). Um resumo do percentual de classificação

obtido através das diferentes técnicas é apresentado na Tabela 9.

113

Tabela 9 - Percentual de classificação correta entre diferentes abordagens

Abordagem Classificação objetos normais (%) Classificação objetos falha (%)

MSPCA 95% 95%

T² 10% 66%

Q 53% 60%

O resultado obtido acima demonstra a menor capacidade da utilização destas

técnicas tradicionais ao se comparar com a abordagem MSPCA. Uma possível explicação

para os menores valores percentuais de acerto obtido pelas técnicas T² e Q está na

semelhança de comportamento observada entre os objetos, os quais requereram uma

abordagem multiescala para a obtenção do reconhecimento de padrões de forma

satisfatória.

Uma última etapa deste trabalho contemplou a comparação da qualidade

obtida para o algoritmo de agrupamento MSPCA baseado em diferentes famílias

wavelets. No que se refere ao agrupamento, foi utilizado um valor de dois centros

(c=2), para o grupo de 60 objetos de treinamento (30 normais e 30 de falha), pois não

se desejava obter padrões operacionais, mas somente comparar os resultados de

agrupamento com diferentes famílias wavelets através de índices internos. As séries

temporais compreenderam o mesmo processo de “enjanelamento” utilizado na Figura

33, ou seja, séries de quatro variáveis amostradas em 25 pontos e normalizadas de

acordo com a Equação 7. Esta etapa envolveu o agrupamento utilizando as wavelets

Haar, Morlet e Daubechies20, onde todas as condições (estimativa inicial, grupos de

objetos, tolerância de convergência) foram as mesmas para as diferentes wavelets. O

índice de silhueta (Equação 32) foi utilizado como critério de comparação entre as

diferentes famílias wavelets (Figuras 44 a 46).

114

Figura 44 - Agrupamento de objetos de treinamento - wavelet Haar.

Figura 45 - Agrupamento de objetos de treinamento - wavelet Morlet.

Figura 46 - Agrupamento de objetos de treinamento - wavelet Daubechies20.

115

Em todos os agrupamentos foram obtidos dois grupos com uma quantidade

similar de objetos. Desta forma, todos os casos conseguiram estabelecer padrões

representativos de determinada categoria. Baseado no índice de silhueta, o

agrupamento que melhor conseguiu representar o conjunto de dados foi obtido

através da aplicação da wavelet Morlet, apesar dos índices considerados não se

distanciarem tanto entre si. O comportamento simétrico e suave da wavelet Morlet

(Figura 12) pode ser uma das explicações dos melhores resultados obtidos através de

sua aplicação, já que o conjunto das variáveis dos objetos (Figura 33) apresentam

também um comportamento suave, similares às formas senoidais, devido ao conjunto

de controladores proporcionais-integrais (PI) utilizados no modelo proposto por Ricker

(RICKER, 1996). As wavelets Haar, apesar de serem simétricas, apresentam uma

descontinuidade súbita e conseguem responder de forma satisfatória ao problema em

questão, mas deve-se sobressair em casos que apresentem uma dinâmica muito

rápida, tal como em circuitos elétricos. Já a família Daubechies obteve os piores

resultados no agrupamento realizado, o que muito se deve à sua própria morfologia

não-simétrica. Desta forma, sugere-se seu uso para problemas que envolvam a

utilização de objetos com menor característica simétrica. Destaca-se, contudo, que

todas as famílias obtiveram resultados satisfatórios de agrupamento, tendo sido

demonstrada a capacidade e as vastas alternativas de possibilidade que são obtidas

nos problemas de reconhecimento de padrões através da utilização de uma

abordagem multiescala.

116

117

CAPÍTULO 4

CONCLUSÕES

A potencialidade da aplicação da transformada wavelet para o reconhecimento

de padrões foi investigada, tanto em séries temporais uni quanto multivariadas,

baseando-se em um novo algoritmo de agrupamento aqui desenvolvido. Para o caso

univariado utilizou-se uma base de dados obtida de um problema real, e os resultados

obtidos demonstraram que o agrupamento a partir dos coeficientes wavelets foi

suficiente para a geração dos padrões de operação segura e não-segura, baseando-se

em apenas uma variável, enquanto outros estudos necessitaram de abordagens

multivariadas para atingir o mesmo objetivo.

Uma segunda etapa do projeto contemplou a aplicação de uma abordagem

voltada às séries multivariadas. Para o estudo de caso foram utilizados de um

benchmark denominado TEP (Tennessee Eastman Process), que é amplamente

utilizado no meio científico para simulação de algoritmos e propostas de novas

abordagens de controle e otimização, entre outros. Esta planta virtual mostrou-se

capaz de produzir dados simulados de operação similares àqueles obtidos de fontes

reais, que demandam tempo, cooperação e sigilo para sua obtenção. O agrupamento

nesta etapa multivariada se baseou na utilização de uma métrica de similaridade

inovadora (MSPCA, Multiscale Similarity of Principal Component Analysis factor), que se

mostrou aplicável ao caso com sucesso. Para o caso de dois grupos, se verificou um

aumento no percentual de acerto de classificação de 38%, 57% e 75%, utilizando,

respectivamente, as abordagens tradicionais T², Q (ambas as técnicas clássicas da

estatística multivariada) e agrupamento FCM (Fuzzy C-Means) + SPCA (Similarity of

Principal Component Analysis factor), para 95% ao considerar a abordagem multiescala

(MSPCA). Ainda dentro do caso multivariado, mas agora no caso onde foi considerado

118

um terceiro grupo, o agrupamento utilizando MSPCA estabeleceu um terceiro padrão

(híbrido) e elevou a taxa de acerto de classificação de 80% (FCM+ SPCA) para 90%.

Abordando um tema de pesquisa bastante recente, onde ainda há um número

reduzido de pesquisas científicas abordando o assunto, os resultados obtidos trazem

importantes contribuições quanto à utilização das wavelets aplicadas ao

reconhecimento de padrões, especialmente em casos multivariados. Neste sentido, a

comparação entre diferentes famílias wavelets apresentou a família Morlet como a

mais adequada para o agrupamento das séries multivariadas aqui investigadas.

Sugestões para futuras pesquisas, suscitadas durante a condução deste

trabalho, incluem a adoção de diferentes métricas de similaridade e a aplicação de

Redes Neurais Artificiais (RNA) baseadas em escalas específicas dos coeficientes

wavelets, além da verificação da capacidade de utilização de coeficientes wavelets em

escalas específicas para o controle de processos via cartas de controle.

119

REFERÊNCIAS

BIBLIOGRÁFICAS

ANTELO, L. T.; BANGA, J. R.; ALONSO, A. A. Hierarchical design of decentralized control structures for the Tennessee Eastman Process. Computers & Chemical Engineering, v. 32, n. 9, p. 1995-2015, 2008.

AYRAMO, S.; KARKKAINEN, T. Introduction to partitioning-based clustering methods with a robust example. Software and Computational Engineering, 2006.

BAHRAMPOUR, S.; MOSHIRI, B.; SALAHSHOOR, K. Weighted and constrained possibilistic C-means clustering for online fault detection and isolation. Applied Intelligence, v. 35, n. 2, p. 269-284, 2011.

BAKSHI, B. R.; STEPHANOPOULOS, G. Representation of process trends—III. Multiscale extraction of trends from process data. Computers & chemical engineering, v. 18, n. 4, p. 267-302, 1994.

BANKÓ, Z.; ABONYI, J. Correlation based dynamic time warping of multivariate time series. Expert Systems with Applications, v. 39, n. 17, p. 12814-12823, 2012.

BARBOSA, S.; GOUVEIA, S.; SCOTTO, M.; ALONSO, A. Bivariate wavelet-based clustering of sea-level and atmospheric pressure time series. EGU General Assembly Conference Abstracts, p. 13877, 2015.

BARRAGAN, J. F. M.; FONTES, C. H. O.; PEREIRA, O. J.; BARRETO, S. T. S.; PACHECO, L. A. Análises de métricas de similaridades em séries temporais para o reconhecimento de padrões. Cadernos do IME-Série Estatística, v. 33, n. 2, p. 35, 2012.

BATHELT, A.; RICKER, N. L.; JELALI, M. Revision of the Tennessee Eastman Process Model. IFAC-PapersOnLine, v. 48, n. 8, p. 309-314, 2015.

BAYDOGAN, M. G.; RUNGER, G. Learning a symbolic representation for multivariate time series classification. Knowlodge Discovery and Data Mining, v. 29, n. 2, p. 400-422, 2014.

BAYDOGAN, M. G.; RUNGER, G.; TUV, E. A bag-of-features framework to classify time series. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 35, n. 11, p. 2796-2802, 2013.

BAYRAM, D.; SEKER, S. Wavelet based Neuro-Detector for low frequencies of vibration signals in electric motors. Applied Soft Computing, v. 13, n. 5, p. 2683–2691, 2013.

120

BERKHIN, P. A survey of clustering data mining techniques. Grouping multidimensional data. Berlin Heidelberg: Springer, p. 25-71, 2006.

BERNDT, D. J.; CLIFFORD, J. Using Dynamic Time Warping to Find Patterns in Time Series. Knowlodge Discovery and Data Mining, p. 359-370, 1994.

BEZDEK, J. C.; EHRLICH, R.; FULL, W. FCM: The fuzzy c-means clustering algorithm. Computers & Geosciences, v. 10, n. 2, p. 191-203, 1984.

BEZDEK, J. C.; KELLER, J.; KRISNAPURAM, R.; PAL, N. R. Fuzzy Models and Algorithms for pattern recognition and image processing. New York: Springer Science+Business Media, 2005.

BISHOP, C. M. Neural networks for pattern recognition. Oxford university press, 1995.

BODYANSKIY, Y; VYNOKUROVA, O. Hybrid adaptive wavelet-neuro-fuzzy system for chaotic time series identification. Information Sciences, v. 220, p. 170-179, 2013.

CAMPELLO, R. J. G. B.; HRUSCHKA, E. R. A fuzzy extension of the silhouette width criterion for cluster analysis. Fuzzy Sets and Systems, v. 157, n. 21, p. 2858-2875, 2006.

CERVELLÓ-ROYO, R.; GUIJARRO, F.; MICHNIUK, K. Stock market trading rule based on pattern recognition and technical analysis: Forecasting the DJIA index with intraday data. Expert Systems with Applications, v. 42, n. 14, p. 5963-5975, 2015.

CHAOVALIT, P.; GANGOPADHYAY, A.; KARABATIS, G.; CHEN, Z. Discrete wavelet transform-based time series analysis and mining. ACM Computing Surveys, v. 43, n. 2, p. 6, 2011.

CHAWLA, N. V. Data mining for imbalanced datasets: An overview. Data mining and knowledge discovery handbook. Springer US, p. 875-886, 2009.

CHEN, G. Y.; BUI, T. D.; KRZYŻAK, A. Invariant pattern recognition using radon, dual-tree complex wavelet and Fourier transforms. Pattern Recognition, v. 42, n. 9, p. 2013-2019, 2009.

CHEN, G.; BUI, T. D. Invariant Fourier-wavelet descriptor for pattern recognition. Pattern recognition, v. 32, n. 7, p. 1083-1088, 1999.

CHEN, L.; WANG, S.; WANG, K.; ZHU, J. Soft subspace clustering of categorical data with probabilistic distance. Pattern Recognition, v. 51, p. 322-332, 2016.

CHEN, S.; LIU, C. Clustering-based discriminant analysis for eye detection. Image Processing, IEEE Transactions, v. 23, n. 4, p. 1629-1638, 2014.

CHIANG, L. H.; BRAATZ, R. D.; RUSSELL, E. L. Fault detection and diagnosis in industrial systems. Springer Science & Business Media, 2001.

CHUI, C. K. An introduction to wavelets. Academic press, 2014.

121

COPPI. R.; D'URSO, P.; GIORDANI, P. A fuzzy clustering model for multivariate spatial time series. Journal of Classification, v. 27, n. 1, p. 54-88, 2010.

DAUBECHIES, I. Orthonormal bases of compactly supported wavelets. Communications on pure and applied mathematics, v. 41, n. 7, p. 909-996, 1988.

DAUBECHIES, I. Ten lectures on wavelets. Philadelphia: Society for industrial and applied mathematics, 1992.

DE LA ESCALERA, A.; ARMINGOL, J. M.; MATA, M. Traffic sign recognition and analysis for intelligent vehicles. Image and vision computing, v. 21, n. 3, p. 247-258, 2003.

DE LIMA, P. Wavelets: uma introdução. Matemática Universitária, v. 33, p. 13-44, 2002.

DENG, X.; TIAN, X. Nonlinear process fault pattern recognition using statistics kernel PCA similarity factor. Neurocomputing, v. 121, p. 298-308, 2013.

DESGRAUPES, B. Clustering indices. University of Paris Ouest-Lab Modal’X, v. 1, p. 34, 2013.

DETROJA, K. P.; GUDI, R. D.; PATWARDHAN, S. C. Fault detection using correspondence analysis: application to Tennessee Eastman challenge problem, 2006.

DI SALVO, R.; MONTALTO, P.; NUNNARI, G.; NERI, M.; PUGLISI, G. Multivariate time series clustering on geophysical data recorded at Mt. Etna from 1996 to 2003. Journal of Volcanology and Geothermal Research, v. 251, p. 65-74, 2013.

DOBOS, L.; ABONYI, J. On-line detection of homogeneous operation ranges by dynamic principal component analysis based time-series segmentation. Chemical Engineering Science, v. 75, p. 96-105, 2012.

DONG, J.; ZHANG, K.; HUANG, Y.; LI, G.; PENG, K. Adaptive total PLS based quality-relevant process monitoring with application to the Tennessee Eastman process. Neurocomputing, v. 154, p. 77-85, 2015.

DOWNS, J. J.; VOGEL, E. F. A plant-wide industrial process control problem. Computers & chemical engineering, v. 17, n. 3, p. 245-255, 1993.

DU, S.; HUANG, D.; LV, J. Recognition of concurrent control chart patterns using wavelet transform decomposition and multiclass support vector machines. Computers & Industrial Engineering, v. 66, n. 4, p. 683-695, 2013.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. John Wiley & Sons, 2012.

D'URSO, P.; DE GIOVANNI, L.; MAHARAJ, E. A.; MASSARI, R. Wavelet based self organizing maps for classifying multivariate time series. Journal of Chemometrics, v. 28, n.1, p. 28-51, 2014.

122

D'URSO, P.; MAHARAJ, E. A. Autocorrelation-based fuzzy clustering of time series. Fuzzy Sets and Systems, v. 160, n. 24, p. 3565-3589, 2009.

D'URSO, P.; MAHARAJ, E. A. Wavelets-based clustering of multivariate time series. Fuzzy Sets and Systems, v. 193, p. 33-61, 2012.

ESTER, M.; KRIEGEL, H. P.; SANDER, J.; XU, X. A density-based algorithm for discovering clusters in large spatial databases with noise. Knowlodge Discovery and Data Mining, v. 96, n. 34, p. 226-231, 1996.

FAYYAD, U. M.; PIATETSKY, G. S.; UTHURUSAMY, R. Advances in Knowledge Discovery and Data Mining. California: American Association for Artificial Intelligence e MIT Press, 1996.

FERREIRA, A. M. S., FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; MARAMBIO, J. E. S. A new method for pattern recognition in load profiles to support decision-making in the management of the electric sector. International Journal of Electrical Power & Energy Systems, v. 53, p. 824-831, 2013.

FERREIRA, A. M. S.; FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; MARAMBIO, J. E. S. Pattern recognition as a tool to support decision making in the management of the electric sector. Part II: A new method based on clustering of multivariate time series. International Journal of Electrical Power & Energy Systems, v. 67, p. 613-626, 2015.

FISHER, B.; TAŞ, K. The convolution of functions and distributions. Journal of mathematical analysis and applications, v. 306, n. 1, p. 364-374, 2005.

FONTES, C. H.; PEREIRA, O. Pattern recognition in multivariate time series–A case study applied to fault detection in a gas turbine. Engineering Applications of Artificial Intelligence, v. 49, p. 10-18, 2016.

FOUFOULA-GEORGIOU, E.; KUMAR, P. Wavelets in geophysics. Academic Press, 2014.

FU K. S. Syntactic Pattern Recognition and Applications. Englewood Cliffs: Prentice-Hall, 1982.

FU, T. A review on time series data mining. Engineering Applications of Artificial Intelligence, v. 24, n. 1, p. 164-181, 2011.

FUGAL, D. L. Conceptual Wavelets in digital signal processing. Space & Signals Technical Publishing, v. 374, 2009.

FUKUNAGA, K. Introduction to statistical pattern recognition. Academic press, 2013.

GALAS, D. J.; EGGERT, M.; WATERMAN, M. S. Rigorous pattern-recognition methods for DNA sequences: Analysis of promoter sequences from Escherichia coli. Journal of molecular biology, v. 186, n. 1, p. 117-128, 1985.

GAN, G.; MA, C.; WU, J. Data clustering: theory, algorithms, and applications. Siam, 2007.

123

GANGANWAR, V. An overview of classification algorithms for imbalanced datasets. International Journal of Emerging Technology and Advanced Engineering, v. 2, n. 4, p. 42-47, 2012.

GARDNER, J. W. Detection of vapours and odours from a multisensor array using pattern recognition Part 1. Principal component and cluster analysis. Sensors and Actuators B: Chemical, v. 4, n. 1, p. 109-115, 1991.

GEORGE, D.; HAWKINS, J. A hierarchical Bayesian model of invariant pattern recognition in the visual cortex. Neural Networks, p. 1812-1817, 2005.

GEVINS, A.; SMITH, M. E.; LEONG, H.; MCEVOY, L.; WHITFIELD, S.; DU, R.; RUSH, G. Monitoring working memory load during computer-based tasks with EEG pattern recognition methods. Human Factors: The Journal of the Human Factors and Ergonomics Society, v. 40, n. 1, p. 79-91, 1998.

GHASSEMPOUR, S.; GIROSI, F.; MAEDER, A. Clustering multivariate time series using hidden markov models. International journal of environmental research and public health, v. 11, n. 3, p. 2741-2763, 2014.

GIAMPAOLO, A. Gas Turbine Handbook, Principles and Practices. Georgia: The Farmount Press, v. 3, 2006.

GOTTUMUKKAL, R.; ASARI, V. K. An improved face recognition technique based on modular PCA approach. Pattern Recognition Letters, v. 25, n. 4, p. 429-436, 2004.

HAN, J.; KAMBER, M. Data mining: concepts and techniques. 2001.

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques. Elsevier, 2011.

HARVILLE, D. A. Matrix algebra from a statistician's perspective. New York: Springer, 1997.

HATAMLOU, A.; ABDULLAH, S.; NEZAMABADI-POUR, H. A combined approach for clustering based on K-means and gravitational search algorithms. Swarm and Evolutionary Computation, v. 6, p. 47-52, 2012.

HE, L.; HOU, W.; ZHEN, X.; PENG, C. Recognition of ECG patterns using artificial neural network. Intelligent Systems Design and Applications, v. 2, p. 477-481, 2006.

HINNEBURG, A.; KEIM, D. A. Optimal grid-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. 1999.

HÖPPNER, F. Fuzzy cluster analysis: methods for classification, data analysis and image recognition. John Wiley & Sons, 1999.

HSU, K.; LI, S. Clustering spatial–temporal precipitation data using wavelet transform and self-organizing map neural network. Advances in Water Resources, v. 33, n. 2, p. 190-200, 2010.

124

IGLESIAS, F.; KASTNER, W. Analysis of similarity measures in times series clustering for the discovery of building energy patterns. Energies, v. 6, n. 2, p. 579-597, 2013.

ISERMANN, R.; BALLÉ, P. Trends in the application of model-based fault detection and diagnosis of technical processes. Control engineering practice, v. 5, n. 5, p. 709-719, 1997.

JAIN, A. K.; DUIN, R. P. W.; MAO, J. Statistical pattern recognition: A review. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 22, n. 1, p. 4-37, 2000.

JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data clustering: a review. ACM computing surveys, v. 31, n. 3, p. 264-323, 1999.

JINNA, S. K.; GANESAN, L. Reversible image data hiding using lifting wavelet transform and histogram shifting. arXiv preprint arXiv:1004.1791, 2010.

JOHN, J.; PRAMOD, K. V.; BALAKRISHNAN, K. Unconstrained handwritten Malayalam character recognition using wavelet transform and support vector machine classifier. Procedia Engineering, v. 30, p. 598-605, 2012.

JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. Upper Saddle River, New Jersey: Prentice-Hall, v. 4, p. 815, 1999.

JUANG, B.; KATAGIRI, S. Discriminative learning for minimum error classification [pattern recognition]. Signal Processing, IEEE Transactions, v. 40, n. 12, p. 3043-3054, 1992.

JUNEAU, P.; GARNIER, A.; DUCHESNE, C. The undecimated wavelet transform–multivariate image analysis (UWT-MIA) for simultaneous extraction of spectral and spatial information. Chemometrics and Intelligent Laboratory Systems, v. 142, p. 304-318, 2015.

KANAL, L. N.; ROSENFELD, A. Recent Progress in Syntactic Pattern Recognition. Progress in Pattern Recognition, v. 1, p. 1, 2014.

KANNAN, S. R.; RAMATHILAGAM, S.; CHUNG, P. C. Effective fuzzy c-means clustering algorithms for data clustering problems. Expert Systems with Applications, v. 39, n. 7, p. 6292-6300, 2012.

KANTZ, H.; SCHREIBER, T. Nonlinear time series analysis. Cambridge university press, 2004.

KAVITHA, V.; PUNITHAVALLI, M. Clustering Time Series Data Stream - A Literature Survey. Int. J. Comput. Sci. Inf. Secur. v. 8, p. 289–294, 2010.

125

KEOGH, E.; CHU, S.; HART, D.; PAZZANI, M. An online algorithm for segmenting time series. Proceedings IEEE International Conference on Data Mining (IEEE), p. 289-296, 2001a.

KEOGH, E.; CHAKRABARTI, K.; PAZZANI, M.; MEHROTRA, S. Dimensionality reduction for fast similarity search in large time series databases. Knowledge and information Systems, v. 3, n. 3, p. 263-286, 2001b

KIM, J. I.; LONG, J. D.; MILLS, J. A.; MCCUSKER, E.; PAULSEN, J. S. Multivariate Clustering of Progression Profiles Reveals Different Depression Patterns in Prodromal Huntington Disease. 2015.

KIMURA, T.; NIYADA, K.; HIRAOKA, S.; MORII, S.; WATANABE, T. A telephone speech recognition system using word spotting technique based on statistical measure. Acoustics, Speech, and Signal Processing, IEEE, p. 1175-1178, 1987.

KRIEGEL, H. P.; KRÖGER, P.; SANDER, J.; ZIMEK, A. Density based clustering. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, v. 1, n. 3, p. 231-240, 2011.

LALL, P.; CHOUDHARY, P.; GUPTE, S.; SUHLING, J.; HOFMEISTER, J. Statistical pattern recognition and built-in reliability test for feature extraction and health monitoring of electronics under shock loads. Electronic Components and Technology Conference, IEEE, v. 57, p. 1161-1178, 2007.

LAU, C. K.; GHOSH, K.; HUSSAIN, M. A.; HASSAN, C. C. Fault diagnosis of Tennessee Eastman process with multi-scale PCA and ANFIS. Chemometrics and Intelligent Laboratory Systems, v. 120, p. 1-14, 2013.

LEE, D. T. L.; YAMAMOTO, A. Wavelet analysis: theory and applications. Hewlett Packard journal, v. 45, p. 44-44, 1994.

LEE, J. M.; YOO, C.; CHOI, S. W.; VANROLLEGHEM, P. A.; LEE, I. B. Nonlinear process monitoring using kernel principal component analysis. Chemical Engineering Science, v. 59, n. 1, p. 223-234, 2004.

LEE, S. W.; KIM, C. H.; MA, H.; TANG, Y. Y. Multiresolution recognition of unconstrained handwritten numerals with wavelet transform and multilayer cluster neural network. Pattern Recognition, v. 29, n. 12, p. 1953-1961, 1996.

LEE, Y.; HARA, T.; FUJITA, H.; ITOH, S.; ISHIGAKI, T. Automated detection of pulmonary nodules in helical CT images based on an improved template-matching technique. Medical Imaging, IEEE Transactions, v. 20, n. 7, p. 595-604, 2001.

LEMKE, C.; GABRYS, B. Meta-learning for time series forecasting and forecast combination. Neurocomputing, v. 73, n. 10, p. 2006-2016, 2010.

126

LEMMA, T. A.; HASHIM, F. M. Wavelet analysis and auto-associative neural network based fault detection and diagnosis in an industrial gas turbine. Business Engineering and Industrial Applications Colloquium, IEEE, p.103-108, 2012.

LESCH, R. H.; CAILLÉ, Y.; LOWE, D. Component analysis in financial time series. Computational Intelligence for Financial Engineering, IEEE, p. 183-190, 1999.

LHERMITTE, S.; VERBESSELT, J.; VERSTRAETEN, W. W.; COPPIN, P. A comparison of time series similarity measures for classification and change detection of ecosystem dynamics. Remote Sensing of Environment, v. 115, n. 12, p. 3129-3152, 2011.

LI, G.; ALCALA, C. F.; QIN, S. J.; ZHOU, D. Generalized reconstruction-based contributions for output-relevant fault diagnosis with application to the Tennessee Eastman process. Control Systems Technology, IEEE, v. 19, n. 5, p. 1114-1127, 2011.

LI, S.; WEN, J. A model-based fault detection and diagnostic methodology based on PCA method and wavelet transform. Energy and Buildings, v. 68, p. 63-71, 2014.

LIANG, F.; LI, C.; GAO, Y.; ZHANG, C.; CHEN, J. Study on Pattern Recognition of Hand Motion Modes Based on Wavelet Packet and SVM. Computational Intelligence, Networked Systems and Their Applications. Berlin Heidelberg: Springer, p. 180-188, 2014.

LIAO, T.W. Clustering of time series data - a survey. Pattern Recognition. v. 38, p. 1857 – 1874, 2005.

LIN, J.; VLACHOS, M.; KEOGH, E.; GUNOPULOS, D. Iterative incremental clustering of time series. Advances in Database Technology-EDBT. Berlin Heidelberg: Springer, p. 106-122, 2004.

LIU, Y.; LI, Z.; XIONG, H.; GAO, X.; WU, J. Understanding of internal clustering validation measures. 10th International Conference on Data Mining (ICDM), p. 911-916, 2010.

MACGREGOR, J.; CINAR, A. Monitoring, fault diagnosis, fault-tolerant control and optimization: Data driven methods. Computers & Chemical Engineering, v. 47, p. 111-120, 2012.

MAESTRI, M.; FARALL, A.; GROISMAN, P.; CASSANELLO, M.; HOROWITZ, G. A robust clustering method for detection of abnormal situations in a process with multiple steady-state operation modes. Computers & chemical engineering, v. 34, n. 2, p. 223-231, 2010.

MAJI, P.; ROY, S. Rough-Fuzzy Clustering and Unsupervised Feature Selection for Wavelet Based MR Image Segmentation. PloS one, v. 10, n. 4, 2015.

MALLAT, S. G. A theory for multiresolution signal decomposition: the wavelet representation. Pattern Analysis and Machine Intelligence, v. 11, n. 7, p. 674-693, 1989.

127

MEILA, M.; HECKERMAN, D. An experimental comparison of several clustering and initialization methods. arXiv preprint arXiv:1301.7401, 2013.

MELIN, P.; CASTILLO, O. A review on type-2 fuzzy logic applications in clustering, classification and pattern recognition. Applied soft computing, v. 21, p. 568-577, 2014.

METSALU, T.; VILO, J. ClustVis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap. Nucleic acids research, 2015.

MISHRA, S.; SARAVANAN, C.; DWIVEDI, V. K.; PATHAK, K. K. Discovering flood rising pattern in hydrological time series data mining during the pre monsoon period. Indian Journal of Marine Sciences, v. 44, n. 3, p. 3, 2015.

MOHAMMED, A. A.; MINHAS, R.; WU, Q. J.; SID-AHMED, M. A. Human face recognition based on multidimensional PCA and extreme learning machine. Pattern Recognition, v. 44, n. 10, p. 2588-2597, 2011.

MONTEFUSCO, L.; PUCCIO, L. Wavelets: theory, algorithms, and applications. Academic Press, 2014.

MOTARD, R. L.; JOSEPH, B. Wavelet applications in chemical engineering. Springer Science & Business Media, 2013.

NAYAK, J.; NAIK, B.; BEHERA, H. S. Fuzzy C-Means (FCM) Clustering Algorithm: A Decade Review from 2000 to 2014. Computational Intelligence in Data Mining. India: Springer, p. 133-149, 2015.

NAZIMOV, A. I.; PAVLOV, A. N.; NAZIMOVA, A. A.; GRUBOV, V. V.; KORONOVSKII, A. A.; SITNIKOVA, E.; HRAMOV, A. E. Serial identification of EEG patterns using adaptive wavelet-based analysis. The European Physical Journal Special Topics, v. 222, n. 10, p. 2713-2722, 2013.

NOURANI, V.; ANDALIB, G. Wavelet Based Artificial Intelligence Approaches for Prediction of Hydrological Time Series. Artificial Life and Computational Intelligence. Springer International Publishing, p. 422-435, 2015.

OLSZEWSKI, R. T. Generalized feature extraction for structural pattern recognition in time-series data. Carnegie-Mellon University Pittsburgh Pa School of Computer Science, 2001.

OSOWSKI, S.; NGHIA, D. D. Fourier and wavelet descriptors for shape recognition using neural networks—a comparative study. Pattern Recognition, v. 35, n. 9, p. 1949-1957, 2002.

OUNI, K.; DHOUIBI, H.; NABLI, L.; MESSAOUD, H. New monitoring method based principal component analysis and fuzzy clustering. International Journal of Physical Sciences, v. 7, n. 16, p. 2414-2421, 2012.

OUYANG, Y.; YIN, H. A neural gas mixture autoregressive network for modelling and forecasting FX time series. Neurocomputing, v. 135, p. 171-179, 2014.

128

PARINET, B.; LHOTE, A.; LEGUBE, B. Principal component analysis: an appropriate tool for water quality evaluation and management—application to a tropical lake system. Ecological Modelling, v. 178, n. 3, p. 295-311, 2004.

PARK, Cheong Hee; PARK, Haesun. Fingerprint classification using fast Fourier transform and nonlinear discriminant analysis. Pattern Recognition, v. 38, n. 4, p. 495-503, 2005.

PARTAL, T.; KIŞI, Ö. Wavelet and neuro-fuzzy conjunction model for precipitation forecasting. Journal of Hydrology, v. 342, n. 1, p. 199-212, 2007.

PENNY, W. D.; ROBERTS, S. J.; CURRAN, E. A.; STOKES, M. J. EEG-based communication: a pattern recognition approach. IEEE Transactions on Rehabilitation Engineering, v. 8, n. 2, p. 214-215, 2000.

PERCIVAL, D. B.; WALDEN, A. T. Wavelet Methods for Time Series Analysis. Cambridge Series in Statistical and Probabilistic Mathematics, 2000.

PEREIRA, O. J.; FONTES, C. H. O.; PACHECO, L. A; BARRETTO, S. T. S.; CAVALCANTE, C. A. M. T. Pattern recognition using multivariable time series for fault detection in a thermoeletric unit. Computer-Aided Chemical Engineering, v. 31, p. 315-319, 2012.

PEREIRA, O. J.; FONTES, C. H. O.; CAVALCANTE, C. A. M. T.; BARRETTO, S. T. S.; PACHECO, L. A. Fuzzy rule-based classifier for Fault Prediction in a Thermoelectric Unit. Brazilian Journal of Operations & Production Management, v. 10, n. 2, p. 79-90, 2014.

PICARD, R. W.; HEALEY, J. Affective wearables. Personal Technologies, v. 1, n. 4, p. 231-240, 1997.

PITTNER, S.; KAMARTHI, S. V. Feature extraction from Wavelet coefficients for pattern recognition tasks. Pattern Analysis and Machine Intelligence, IEEE Transactions, v. 21, n. 1, p. 83-88, 1999.

QIAO, L.; ESMAEILY, A.; MELHEM, H. G. Signal pattern recognition for damage diagnosis in structures. Computer Aided Civil and Infrastructure Engineering, v. 7, n. 9, p. 699-710, 2012.

RAD, M. A. A.; YAZDANPANAH, M. J. Designing supervised local neural network classifiers based on EM clustering for fault diagnosis of Tennessee Eastman process. Chemometrics and Intelligent Laboratory Systems, 2015.

RAFIEI, D.; MENDELZON, A. Similarity-based queries for time series data. ACM SIGMOD Record, p. 13-25, 1997.

RAKTHANMANON, T.; CAMPANA, B.; MUEEN, A.; BATISTA, G.; WESTOVER, B.; ZHU, Q.; KEOGH, E. Searching and mining trillions of time series subsequences under dynamic time warping. Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, p. 262-270, 2012.

129

RANI, S.; SIKKA, G. Recent techniques of clustering of time series data: a survey. Int. J. Comput. Appl, v. 52, n. 15, p. 1-9, 2012.

RAO, B. S.; REDDY, E. S. A Novel Fast FCM Clustering for Segmentation of Salt and Pepper Noise Corrupted Images. Computational Intelligence in Data Mining. India: Springer, p. 381-391, 2015.

RATH, T. M.; MANMATHA, R. Lower-bounding of dynamic time warping distances for multivariate time series. 2003.

RATO, T. J.; REIS, M. S. Fault detection in the Tennessee Eastman benchmark process using dynamic principal components analysis based on decorrelated residuals (DPCA-DR). Chemometrics and Intelligent Laboratory Systems, v. 125, p. 101–108, 2013.

RENDÓN, E.; ABUNDEZ, I.; ARIZMENDI, A.; QUIROZ, E. Internal versus external cluster validation indexes. International Journal of computers and communications, v. 5, n. 1, p. 27-34, 2011.

RENGASAMY, R. A framework for integrating process monitoring, diagnosis and supervisory control. Tese de Doutorado - Purdue University, 1995.

RICKER, N. L. Decentralized control of the Tennessee Eastman challenge process. Journal of Process Control, v. 6, n. 4, p. 205-221, 1996.

ROLLS-ROYCE. Material de Treinamento do Conjunto RB 211-G62 DF, 2010.

ROSE, K. Deterministic annealing for clustering, compression, classification, regression, and related optimization problems. Proceedings of the IEEE, v. 86, n. 11, p. 2210-2239, 1998.

ROUSSEEUW, P. J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of computational and applied mathematics, v. 20, p. 53-65, 1987.

SÁ BARRETO, S. T. Desenvolvimento de Metodologia pata Atualização em Tempo Real de Modelos Matemáticos de Processos Decisórios. Dissertação (Mestrado em Mecatrônica) – PPGM, Universidade Federal da Bahia, Salvador, 2009.

SAITTA, S.; RAPHAEL, B.; SMITH, I. F. C. A bounded index for cluster validity. Machine learning and data mining in pattern recognition. Springer Berlin Heidelberg, p. 174-187, 2007.

SANG, Y. A review on the applications of wavelet transform in hydrology time series analysis. Atmospheric research, v. 122, p. 8-15, 2013.

SARAVANAMUTTOO, H. I. H.; ROGERS, G. F. C.; COHEN, H. Gas Turbine Theory. Dorchester: Prentice Hall, v. 5, 1996.

SARAVANAN, N.; RAMACHANDRAN, K. I. Incipient gear box fault diagnosis using discrete wavelet transform (DWT) for feature extraction and classification using

130

artificial neural network (ANN). Expert Systems with Applications, v. 37, n. 6, p. 4168-4181, 2010.

SEERA, M.; LIM, C. P.; LOO, C. K.; SINGH, H. A modified fuzzy min–max neural network for data clustering and its application to power quality monitoring. Applied Soft Computing, v. 28, p. 19-29, 2015.

SENAPATI, M. R.; MOHANTY, A. K.; DASH, S.; DASH, P. K. Local linear wavelet neural network for breast cancer recognition. Neural Computing and Applications, v. 22, n. 1, p. 125-131, 2013.

SERRÀ, J.; ARCOS, J. L. An empirical evaluation of similarity measures for time series classification. Knowledge-Based Systems, 2014.

SETHI, I. K.; JAIN, A. K. Artificial neural networks and statistical pattern recognition: old and new connections. Elsevier, 2014.

SHAMS, M. A.; BUDMAN, H. M.; DUEVER, T. A. Fault detection, identification and diagnosis using CUSUM based PCA. Chemical Engineering Science, v. 66, n. 20, p. 4488–4498, 2011.

SHLENS, J. A tutorial on principal component analysis. arXiv preprint rXiv:1404.1100, 2014.

SINGHAL, A.; SEBORG, D. E. Pattern matching in historical batch data using PCA. Control Systems, IEEE, v. 22, n. 5, p. 53-63, 2002.

SINGHAL, A.; SEBORG, D. E. Clustering multivariate time series data. Journal of chemometrics, v. 19, n. 8, p. 427-438, 2005.

SINGHAL, A.; SEBORG, D. E. Evaluation of a pattern matching method for the Tennessee Eastman challenge process. Journal of Process Control, v. 16, n. 6, p. 601-613, 2006.

SNAEDAL, J.; JOHANNESSON, G. H.; GUDMUNDSSON, T. E.; BLIN, N. P.; EMILSDOTTIR, A. L.; EINARSSON, B.; JOHNSEN, K.Diagnostic accuracy of statistical pattern recognition of electroencephalogram registration in evaluation of cognitive impairment and dementia. Dementia and geriatric cognitive disorders, v. 34, n. 1, p. 51, 2012.

STARCZEWSKI, A.; KRZYŻAK, A. Performance Evaluation of the Silhouette Index. Artificial Intelligence and Soft Computing. Springer International Publishing, p. 49-58, 2015.

SZU, H. H. Review of wavelet transforms for pattern recognitions. Aerospace/Defense Sensing and Controls. International Society for Optics and Photonics, p. 2-22, 1996.

THANKI, R.; TRIVEDI, D.; KOTHARI, A. Biometric Template Feature Extraction and Matching Using ISEF Edge Detection and Contouring Based Algorithm. 2014.

131

TRAUB, O.; HOLLOWAY, G.; SMITH, M.D. Quality and speed in linear-scan register allocation. Proceedings of the ACM SIGPLAN, 1998.

TREBUŇA, P.; HALČINOVÁ, J. Mathematical tools of cluster analysis. Applied Mathematics, v. 4, n. 05, p. 814, 2013.

VARELLA, C. A. A. Análise de componentes principais.Universidade Federal Rural do Rio de Janeiro, Disponível em: http://www.ufrrj.br/institutos/it/deng/varella/Downloads, 2008.

VELMURUGAN, T. Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data. Applied Soft Computing, v. 19, p. 134-146, 2014.

VENKATASUBRAMANIAN, V.; RENGASWAMY, R.; YIN, K.; KAVURI, S. N.. A review of process fault detection and diagnosis: Part I: Quantitative model-based methods. Computers & chemical engineering, v. 27, n. 3, p. 293-311, 2003.

VLACHOS, M.; HADJIELEFTHERIOU, M.; GUNOPULOS, D.; KEOGH, E. Indexing multi-dimensional time-series with support for multiple distance measures. Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 216-225, 2003a.

VLACHOS, M.; LIN, J.; KEOGH, E.; GUNOPULOS, D. A wavelet-based anytime algorithm for k-means clustering of time series. Clustering High Dimensionality Data and Its Applications, 2003b.

WANG, X.; MUEEN, A.; DING, H.; TRAJCEVSKI, G.; SCHEUERMANN, P.; KEOGH, E. Experimental comparison of representation methods and distance measures for time series data. Data Mining and Knowledge Discovery, v. 26, n. 2, p. 275-309, 2013.

WATANABE, S. Methodologies of pattern recognition. Academic Press, 2014.

WEISS, G.; WILSON, E. N. The mathematical theory of wavelets. Twentieth Century Harmonic Analysis—A Celebration. Netherlands: Springer, p. 329-366, 2001.

WENG, X.; SHEN, J. Classification of multivariate time series using two-dimensional singular value decomposition. Knowledge-Based Systems, v. 21, n. 7, p. 535-539, 2008.

WIDODO, A.; YANG, B. Application of nonlinear feature extraction and support vector machines for fault diagnosis of induction motors. Expert Systems with Applications, v. 33, n. 1, p. 241-250, 2007.

WOOD, J. Invariant pattern recognition: a review. Pattern recognition, v. 29, n. 1, p. 1-17, 1996.

XIAO, F. Sensor fault detection and diagnosis of air handling units. Tese de Doutorado - The Hong Kong Polytechnic University, 2004.

132

XU, L.; KRZYŻAK, A.; SUEN, C. Y. Methods of combining multiple classifiers and their applications to handwriting recognition. Systems, man and cybernetics, IEEE transactions, v. 22, n. 3, p. 418-435, 1992.

XU, Q. Y.; MENG, X. Y.; HAN, X. J.; MENG, S. Gas turbine fault diagnosis based on wavelet neural network. Wavelet Analysis and Pattern Recognition. International Conference, IEEE, p. 738-741, 2007.

XU, R.; WUNSCH, D. Survey of clustering algorithms. Neural Networks, IEEE Transactions, v. 16, n. 3, p. 645-678, 2005.

XUN, L.; ZHISHU, L. The similarity of multivariate time series and its application. Management of e-Commerce and e-Government (ICMeCG), p. 76-81, 2010.

YANG, K; SHAHABI, C. A PCA-based kernel for kernel pca on multivariate time series. Proceedings of ICDM 2005 workshop on temporal data mining: algorithms, theory and applications held in conjunction with the fifth IEEE international conference on data mining, p. 149-156, 2005.

YILDIRIM, A. A.; WATSON, D. A comparative study of the parallel wavelet-based clustering algorithm on three-dimensional dataset. The Journal of Supercomputing, p. 1-16, 2015.

YIN, S.; DING, S. X.; HAGHANI, A.; HAO, H.; ZHANG, P. A comparison study of basic data-driven fault diagnosis and process monitoring methods on the benchmark Tennessee Eastman process. Journal of Process Control, v. 22, n. 9, p. 1567-1581, 2012.

YIN, S.; LUO, H.; DING, S. X. Real-time implementation of fault-tolerant control systems with performance optimization. Industrial Electronics, IEEE Transactions on, v. 61, n. 5, p. 2402-2411, 2014.

YOON, H.; YANG, K.; SHAHABI, C. Feature subset selection and feature ranking for multivariate time series. Knowledge and Data Engineering, IEEE Transactions on, v. 17, n. 9, p. 1186-1198, 2005.

YOUNG, R. K. Wavelet theory and its applications. Springer Science & Business Media, 2012.

YU, J. A support vector clustering based probabilistic method for unsupervised fault detection and classification of complex chemical processes using unlabeled data. AIChE Journal, v. 59, n. 2, p. 407-419, 2013.

ZHANG, Y. G.; WANG, Z. P.; ZHANG, J. F.; MA, J. Fault localization in electrical power systems: A pattern recognition approach. International Journal of Electrical Power & Energy Systems, v. 33, n. 3, p. 791-798, 2011.

133

ZHAO, Y.; KARYPIS, G. Evaluation of hierarchical clustering algorithms for document datasets. Proceedings of the eleventh international conference on Information and knowledge management. ACM, p. 515-524, 2002.

ZHONG, B.; WANG, J.; ZHOU, J.; WU, H.; JIN, Q. A quality-related statistical process monitoring method based on global and local partial least squares projection. Industrial & Engineering Chemistry Research, 2016.

ZHU, Z.; SONG, Z.; PALAZOGLU, A. Process pattern construction and multi-mode monitoring. Journal of Process Control, v. 22, n. 1, p. 247-262, 2012.

ZHUANG, D. E. H.; LI, G. C. L.; WONG, A. K. C. Discovery of temporal associations in multivariate time series. Knowledge and Data Engineering, IEEE Transactions on, v. 26, n. 12, p. 2969-2982, 2014.