agrupamento evolutivo aplicado ao reconhecimento …swge.inf.br/cba2014/anais/pdf/1569932959.pdf ·...

6
AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO DE PADR ˜ OES EM DADOS M ´ EDICOS Louren¸ co Bueno * , Pyramo Costa * , Enderson Cruz , Israel Mendes , Daniel Leite § * Programa de P´os-Gradua¸ ao em Engenharia El´ etrica, Pontif´ ıcia Universidade Cat´olica de Minas Gerais, Brasil Centro Federal de Educa¸ ao Tecnol´ogica de Minas Gerais, Belo Horizonte, Brasil Centro Federal de Educa¸ ao Tecnol´ogica de Minas Gerais, Nepomuceno, Brasil § Programa de P´os-Gradua¸ ao em Engenharia El´ etrica, Universidade Federal de Minas Gerais, Brasil Emails: [email protected], [email protected], [email protected], [email protected], [email protected] Abstract— Recognition of patterns of disease progression from data requires the use of advanced computa- tional methods. These methods should be able to group similar data together and dissimilar data into different clusters. Given the medical context, data are generally obtained under adverse conditions, such as uncertainties and nonstationarities, which can be related to both the environment and the patient. A number of correlated variables are involved; however, it is infeasible to monitor all of them. This paper evaluates and compares the performance of well-known evolving methods for clustering data streams. The methods used in the evaluation are: evolving Fuzzy Clustering (eClustering + ); evolving Clustering Method (eCM); and evolving Granulation Method (eGM). Computational experiments were performed using four benchmark datasets in the context of medical diagnosis, namely, Heart Disease, Cancer, Breast Cancer and Parkinson Telemonitoring. Keywords— Evolving Clustering. Intelligent Systems; Pattern Recognition. Resumo— O reconhecimento de padr˜ oes de progress˜ ao de doen¸cas a partir de dados requer a utiliza¸c˜ao de etodos computacionais sofisticados. Estes m´ etodos devem ser capazes de separar os dados em grupos de acordo com semelhan¸cas observadas. Considerando o contexto m´ edico em geral, os dados s˜ ao adquiridos sob circunstˆancias adversas como incertezas e n˜ao-estacionariedades relativas tanto ao ambiente como ao paciente propriamente dito. Muitas vari´ aveis correlacionadas podem estar envolvidas, mas o monitoramento de todas elas ´ e infact´ ıvel. Este artigo prop˜oe avaliar e comparar o desempenho de trˆ es conhecidos m´ etodos evolutivos de agrupamento de dados sequenciais (fluxos de dados) no contexto de diagn´ ostico m´ edico. Os m´ etodos usados naavalia¸c˜aos˜aoosseguintes: evolving Fuzzy Clustering (eClustering + ); evolving Clustering Method (eCM); e evolving Granulation Method (eGM). Experimentos computacionais foram realizados considerando bases de dados padr˜ oes como Heart Disease, Cancer, Breast Cancer e Parkinson Telemonitoring. Palavras-chave— Agrupamento Evolutivo; Sistemas Inteligentes; Reconhecimento de Padr˜oes. 1 Introdu¸c˜ ao O reconhecimento incipiente de certos tipos de do- en¸casatrav´ es da an´ alise de sintomas t´ ıpicos pode salvar vidas. No contexto de diagn´ ostico m´ edico ´ e comum que um grande volume de dados seja co- letado sob as mais diversas condi¸c˜ oes. Isso causa dificuldades de an´ alise de dados a partir da intui- ¸c˜ ao e do uso de m´ etodos estat´ ısticos convencio- nais. Sistemas inteligentes evolutivos apresentam caracter´ ısticas interessantes para lidar com incer- tezas e informa¸c˜ ao incompleta inerente `a ambi- entes n˜ ao-lineares e n˜ ao-estacion´ arios - como ´ eo caso de diagn´ ostico m´ edico. Dentre estas caracte- ısticas est´ a a capacidade de adapta¸ ao cont´ ınua dos parˆ ametros e da estrutura de modelos sempre que novas informa¸c˜ oes s˜ ao disponibilizadas. O co- nhecimento atual a respeito de um fenˆ omeno (o modelo atual) pode ser revisto quando os dados coletados s˜ ao diferentes daqueles vistos anterior- mente. Modelos baseados em redes neurais ar- tificiais, modelos baseados em regras fuzzy, e h´ ı- bridos s˜ ao representa¸ oes poss´ ıveis no contexto de sistemas inteligentes. Modelos evolutivos tˆ em sido aplicados com sucesso a uma variedade de situa- ¸c˜ oes [7] [3]. Uma vertente da pesquisa em sistemas inte- ligentes evolutivos diz respeito ` a separa¸ ao incre- mental de fluxos de dados em grupos (modelos locais), e ` aassocia¸c˜ ao de r´ otulos de classes aos diferentes grupos. Algoritmos para agrupamento evolutivo monitoram fluxos de dados e adaptam os parˆ ametros de modelos locais quando conveni- ente. Al´ em disso, quando os dados s˜ ao suficiente- mente discrepantes do esperado, novos neurˆ onios (em modelos neurais) ou novas regras (em mode- los fuzzy) podem ser criados. A possibilidade de modificar a estrutura de modelos para incluir no- vas classes oferece flexibilidade ` arepresenta¸c˜ ao de sistemas variantes no tempo. Ao agrupar por espalhamento (the scattering approach for data clustering [10]) diferentemente de “grid”, permite o desenvolvimento de mode- los locais em modo online e em dom´ ınio aberto. Prot´ otipos de modelos locais s˜ ao geralmente de- terminados por um vetor centro e uma matriz de dispers˜ ao(representa¸c˜ ao de grupos atrav´ es de hi- peresferas ou elipsoides), ou por vetores com va- Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014 1240

Upload: others

Post on 24-Feb-2021

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTODE PADROES EM DADOS MEDICOS

Lourenco Bueno∗, Pyramo Costa∗, Enderson Cruz†, Israel Mendes‡, Daniel Leite§

∗Programa de Pos-Graduacao em Engenharia Eletrica, Pontifıcia Universidade Catolica de MinasGerais, Brasil

†Centro Federal de Educacao Tecnologica de Minas Gerais, Belo Horizonte, Brasil

‡Centro Federal de Educacao Tecnologica de Minas Gerais, Nepomuceno, Brasil

§Programa de Pos-Graduacao em Engenharia Eletrica, Universidade Federal de Minas Gerais, Brasil

Emails: [email protected], [email protected], [email protected],

[email protected], [email protected]

Abstract— Recognition of patterns of disease progression from data requires the use of advanced computa-tional methods. These methods should be able to group similar data together and dissimilar data into differentclusters. Given the medical context, data are generally obtained under adverse conditions, such as uncertaintiesand nonstationarities, which can be related to both the environment and the patient. A number of correlatedvariables are involved; however, it is infeasible to monitor all of them. This paper evaluates and compares theperformance of well-known evolving methods for clustering data streams. The methods used in the evaluationare: evolving Fuzzy Clustering (eClustering+); evolving Clustering Method (eCM); and evolving GranulationMethod (eGM). Computational experiments were performed using four benchmark datasets in the context ofmedical diagnosis, namely, Heart Disease, Cancer, Breast Cancer and Parkinson Telemonitoring.

Keywords— Evolving Clustering. Intelligent Systems; Pattern Recognition.

Resumo— O reconhecimento de padroes de progressao de doencas a partir de dados requer a utilizacao demetodos computacionais sofisticados. Estes metodos devem ser capazes de separar os dados em grupos deacordo com semelhancas observadas. Considerando o contexto medico em geral, os dados sao adquiridos sobcircunstancias adversas como incertezas e nao-estacionariedades relativas tanto ao ambiente como ao pacientepropriamente dito. Muitas variaveis correlacionadas podem estar envolvidas, mas o monitoramento de todaselas e infactıvel. Este artigo propoe avaliar e comparar o desempenho de tres conhecidos metodos evolutivosde agrupamento de dados sequenciais (fluxos de dados) no contexto de diagnostico medico. Os metodos usadosna avaliacao sao os seguintes: evolving Fuzzy Clustering (eClustering+); evolving Clustering Method (eCM);e evolving Granulation Method (eGM). Experimentos computacionais foram realizados considerando bases dedados padroes como Heart Disease, Cancer, Breast Cancer e Parkinson Telemonitoring.

Palavras-chave— Agrupamento Evolutivo; Sistemas Inteligentes; Reconhecimento de Padroes.

1 Introducao

O reconhecimento incipiente de certos tipos de do-encas atraves da analise de sintomas tıpicos podesalvar vidas. No contexto de diagnostico medico ecomum que um grande volume de dados seja co-letado sob as mais diversas condicoes. Isso causadificuldades de analise de dados a partir da intui-cao e do uso de metodos estatısticos convencio-nais. Sistemas inteligentes evolutivos apresentamcaracterısticas interessantes para lidar com incer-tezas e informacao incompleta inerente a ambi-entes nao-lineares e nao-estacionarios - como e ocaso de diagnostico medico. Dentre estas caracte-rısticas esta a capacidade de adaptacao contınuados parametros e da estrutura de modelos sempreque novas informacoes sao disponibilizadas. O co-nhecimento atual a respeito de um fenomeno (omodelo atual) pode ser revisto quando os dadoscoletados sao diferentes daqueles vistos anterior-mente. Modelos baseados em redes neurais ar-tificiais, modelos baseados em regras fuzzy, e hı-bridos sao representacoes possıveis no contexto desistemas inteligentes. Modelos evolutivos tem sido

aplicados com sucesso a uma variedade de situa-coes [7] [3].

Uma vertente da pesquisa em sistemas inte-ligentes evolutivos diz respeito a separacao incre-mental de fluxos de dados em grupos (modeloslocais), e a associacao de rotulos de classes aosdiferentes grupos. Algoritmos para agrupamentoevolutivo monitoram fluxos de dados e adaptamos parametros de modelos locais quando conveni-ente. Alem disso, quando os dados sao suficiente-mente discrepantes do esperado, novos neuronios(em modelos neurais) ou novas regras (em mode-los fuzzy) podem ser criados. A possibilidade demodificar a estrutura de modelos para incluir no-vas classes oferece flexibilidade a representacao desistemas variantes no tempo.

Ao agrupar por espalhamento (the scatteringapproach for data clustering [10]) diferentementede “grid”, permite o desenvolvimento de mode-los locais em modo online e em domınio aberto.Prototipos de modelos locais sao geralmente de-terminados por um vetor centro e uma matriz dedispersao (representacao de grupos atraves de hi-peresferas ou elipsoides), ou por vetores com va-

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1240

Page 2: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

lores limites (representacao de grupos atraves dehiper-retangulos). Uma medida de similaridadedetermina a qual prototipo um novo vetor de da-dos deve ser associado. Atraves de camadas deprocessamento, a informacao contida nos dados ecomparada com o modelo atual e agregada paraprover um valor de saıda, i.e., um rotulo de classe.Os algoritmos de agrupamento evolutivo investi-gados neste artigo usam a abordagem de agrupa-mento por espalhamento.

A proposta deste estudo e classificar dadosmedicos em classes a partir do uso de diferentese conhecidos modelos de agrupamento evolutivo.Foram considerados os seguintes: evolving FuzzyClustering (eClustering+) [3]; evolving ClusteringMethod (eCM) [7]; e evolving Granulation Method(eGM) [10]. Atualmente nao existe consenso so-bre qual desses algoritmos e o mais eficiente emproblemas de medio porte, como os problemas declassificacao tratados aqui. Os problemas consi-derados para avaliacao de desempenho dos dife-rentes algoritmos sao problemas de classificacaobinaria (separacao de duas classes apenas) cujosdados estao disponıveis no Repositorio de Dadosda Universidade da California em Irvine. Sao eles:Heart Disease, Cancer, Breast Cancer e ParkinsonTelemonitoring.

O restante deste artigo esta organizado da se-guinte maneira. A Secao II apresenta uma visaogeral sobre sistemas inteligentes evolutivos e revebrevemente os tres metodos de agrupamento evo-lutivo sob investigacao. A Secao III mostra resul-tados comparativos para os problemas de classifi-cacao de dados medicos. A Secao IV contem asconclusoes e sugere possıveis trabalhos futuros.

2 Sistemas Inteligentes Evolutivos

Sistemas inteligentes evolutivos e um paradigmarecente no campo da inteligencia de maquina quevisa suprir a demanda por metodos de modelagemde processos variantes no tempo usando dados se-quenciais. Sistemas evolutivos neurais e fuzzy po-dem ser inspirados no comportamento de redesneurais biologicas e na evolucao de indivıduos du-rante seu ciclo de vida: aprendendo a partir da ex-periencia, heranca, mudanca gradual, e informa-cao incompleta e incerta. Conhecimento e geradoa partir de tarefas repetitivas e de fluxos de dadosreais ou granulares produzidos atraves de percep-coes e enviados ao cerebro. O desenvolvimentode modelos evolutivos e gradual, i.e., regras fuzzye/ou neuronios nao sao fixos nem pre-definidos,mas gerados sempre que novos dados sao sufici-entemente informativos e nao sao comuns ao mo-delo/entendimento atual. A principal diferencaentre modelos evolutivos e demais modelos de in-teligencia computacional e que modelos evolutivospodem ser construıdos e adaptados ao longo dotempo sem a necessidade de usufruir de dados de

instantes passados [6] [13].Segundo [7], redes neurais e modelos de re-

gras fuzzy sao considerados evolutivos quando: (i)ha aprendizado contınuo a partir de fluxos de da-dos; (ii) nao ha necessidade de armazenar amos-tras vistas anteriormente ja que os calculos asso-ciados sao sempre recursivos; e (iii) independemdas propriedades estatısticas de dados historicos.Em geral, pouco (ou nada) se sabe sobre as regrasiniciais que governam a dinamica do processo; enao se tem informacao sobre os prototipos (gra-nulos) iniciais. O processo e conhecido a medidaque os dados sao disponibilizados. Um algoritmoincremental processa os dados e e responsavel porcapturar as informacoes essenciais.

De uma maneira geral, pode-se pensar em mo-delos evolutivos como estruturas de tres camadas.A primeira camada contem modelos locais resul-tantes do agrupamento de dados. A partir de umamedida de similaridade, os dados sao associados aum grupo existente ou formam um novo grupo.A segunda camada consiste de funcoes localmentevalidas associadas aos grupos. Funcoes locais saofundamentais em problemas de regressao e pre-dicao. Nesses casos, um polinomio de ordem 1ou superior pode ser considerado. Em problemasde classificacao, a funcao local e um polinomio deordem 0. Em outras palavras, a funcao e sim-plesmente um valor constante (o rotulo de umaclasse). A terceira camada consiste de um proce-dimento ou mecanismo para fusao de informacao,i.e., as contribuicoes locais sao agregadas para pro-ver uma saıda global.

2.1 Evolving Fuzzy Clustering - eClustering+

O agrupamento incremental por espalhamento euma tecnica para identificacao automatica de es-truturas de sistemas fuzzy [5] [4]. Metodos con-vencionais de agrupamento nao toleram sobrepo-sicao de grupos, o que impossibilita a formulacaode antecedentes de regras fuzzy. A Fig. 1 mos-tra a formacao de dois grupos sobrepostos. Aprojecao dos grupos nos eixos em questao podemser associadas a funcoes de pertinencia de distri-buicao normal parcialmente sobrepostas. O al-

Figura 1: Formacao de dois grupos de dados so-brepostos [1]

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1241

Page 3: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

goritmo eClustering+ descrito nessa secao tem oproposito de agrupar fluxos de dados - essencial-mente da forma como ilustrado na Fig. 1. Osgrupos podem ser usados na constituicao de ter-mos antecedentes de regras fuzzy.

Em seguida, enfatiza-se o metodo de agrupa-mento incremental proposto em [1]. O metodoe baseado em elipsoides e funcoes de pertinenciaGaussianas. Particiona-se o espaco de entrada viaum estimador recursivo de parametros e uma me-dida de densidade. A densidade da distribuicaodos dados e calculada a partir de uma “funcaomontanha” do tipo (ver [14]):

M(v) =k∑i=1

e−||vi−zi||2

2σ2i (1)

onde vi e um elemento do vetor centro de umgrupo; zi e um elemento do vetor de dados deum grupo; ||.||2 e a norma 2; σi e um fator dedispersao; e k e um ındice de amostras.

A densidade Dt das amostras de uma cole-cao zt assemelha-se a distribuicao de probabili-dade chamada de Parzen windows [12]. Isso podeser descrito pela funcao de Cauchy [4]:

Dt(zt) =1

1 + 1t−1

t−1∑i=1

n+m∑j=1

‖ztj − zij‖2

D1(z1) = 1; t = 2, 3, ...n (2)

Dt(zt) e a densidade avaliada em torno da ultimaamostra do fluxo de dados; n e a dimensao do ve-tor de entrada; m e a dimensao do vetor de saıda;e t e um ındice de amostras.

Recursivamente, a densidade Dt(zt) e calcu-lada a partir da seguinte relacao:

Dt(zt) =t− 1

(t− 1)(n+m∑j=1

z2tj + 1) + bt − 2

n+m∑j=1

ztjctj

D1(z1) = 1; t = 2, 3, ...n;

bt = bt−1 +

n+m∑j=1

z(t−1)j2 ;

b1 = 0;

ctj = c(t−1)j + z(t−1)j ;

e c1j = 0; (3)

Conhecida como estimador recursivo de densidade(RDE), a equacao (3) e eficiente para estimacao

online da densidade das amostras de um grupo.RDE garante que as funcoes de pertinencia de con-juntos fuzzy sejam formadas em torno de pontosfocais de grupos. Evitam-se problemas relaciona-dos a especificacao de limites de grupos atravesdo uso de funcoes de Cauchy. Diferentemente defuncoes Gaussianas, funcoes de Cauchy nao se es-palham ao infinito, o que evita a ativacao de todasas regras fuzzy para uma amostra.

Para cada interacao de (3), se o dado atuale selecionado para ser o foco de um grupo, a suadensidade sera determinada neste momento. Adensidade na vizinhanca do ponto focal e atuali-zada a partir de (ver [4]):

Dt(zi∗) =

t− 1

t− 1 + (t− 2)( 1Dt−1(zi∗ )

− 1)G

G =n+m∑j=1

(ztj − z(t−1)j)

Dt(zi∗) = 1, t = 2, 3, ... (4)

onde i∗ representa o foco da i∗-esimo grupo.Um classificador fuzzy, conhecido como eClass

de ordem zero [2], usa o resultado de eClustering+

na descricao de regras do tipo:

Ri : SE (x1 e Xi1) E ... E (xn e Xin)ENTAO (yi e Classec)

Classec e um rotulo de classe e Xij∀j sao funcoesde pertinencia de Cauchy [8].

2.2 Metodo de Clusterizacao Evolutivo - eCM

O metodo eCM foi proposto para desenvolvimentogradual da segunda camada de sistemas de infe-rencia neuro-fuzzy evolutivos (DENFIS), ver [7].Sua funcao e particionar o espaco de entrada emgrupos, de acordo com os dados de um fluxo.

O metodo consiste na criacao e adaptacaocontınua de parametros de grupos de modo quea distancia maxima de uma amostra xi ao centrode qualquer grupo existente nao seja maior queum certo limiar de distancia, Dthr. Distancias saocalculadas a partir da norma 2 (metrica Euclidi-ana). Por exemplo, a distancia entre dois vetores,x = (x1, ..., xq) e y = (y1, ..., yq), e dada por:

‖x− y‖2 =

(q∑i=1

|xi − yi|2)1/2

(5)

Neste caso x pode representar um vetor de dados,e y um vetor contendo as coordenadas do centrode um grupo.

Somente pontos centrais de clusters sao utili-zados como prototipos em eCM; amostras de da-dos sao lidas e descartadas. Mudancas no limiar

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1242

Page 4: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

de distancia Dthr alteram o numero de grupos ge-rados para um mesmo conjunto de dados. O algo-ritmo de aprendizado incremental eCM e sumari-zado a seguir em seis passos.

Passo1: Ler amostra xk, onde k = 1, ... e ındice de

tempo

Passo2: Se k = 1, criar cluster C1, com raio r1 = 0 e

centro c1 = xk →Passo 1

Passo3: Calcular D =∥∥xk − cj

∥∥2, e Sk = D + rj,

onde cj e o centro do cluster mais proximo,

rj e o raio deste cluster.

Passo4: Se D < rj, a amostra xk pertence aquele

cluster. → Passo 1

Passo5: Se Sk > 2×Dthr, entao criar cluster Cnovo

com raio rnovo = 0 e centro cnovo = xk →Passo 1

Passo6: Se Sk < 2×Dthr,entao o cluster Cj e

expandido. O seu novo raio passa a ser:

ratualizado = Sk/2 → Passo 1

Em eCM, um cluster Cj nao e mais atuali-zado quando seu raio ruj atinge um valor igual aolimiar Dthr [7]. Note que, diferentemente do algo-ritmo eClustering+ (onde os grupos sao elipsoidesno espaco de entrada), o algoritmo eCM lida comhiperesferas. Note tambem que o algoritmo eCMdescrito acima claramente enfatiza a essencia deabordagens de aprendizado orientadas a fluxo dedados. Amostras sao lidas e descartadas uma auma. Dados historicos sao dispensaveis, e a evo-lucao dos grupos acontece gradualmente, em umabase incremental.

2.3 Metodo Granular Evolutivo - eGM

Modelos granulares evolutivos levam em conside-racao a imprecisao e incerteza do valor dos dadosmensurados. Alem disso, informacao baseada napercepcao pode ser considerada como granulo deinformacao [11]. Por exemplo, sao dados possıveisde serem processados por algoritmos granulares:“x e pequeno”, “aproximadamente 90” e “tempera-tura alta”. Em geral, dados granulares (interva-los ou intervalos fuzzy) podem ser considerados.Neste artigo processamos dados numericos (valo-res reais) apenas. O algoritmo eGM original [10]nao necessita ser alterado para este proposito.

Seja um fluxo de dados de entrada e saıda(x, y)[h], h = 1, ...; a saıda y[h] e conhecida dadaa entrada x[h] ou sera conhecida no passo se-guinte. Cada atributo xj de x = (x1, ..., xn) eum valor real; y[h] e um rotulo de classe. Funcoesde pertinencia trapezoidais Mi

j = (lij , λij ,Λ

ij , L

ij),

i = 1, ..., c; j = 1, ..., n sao consideradas neste es-tudo. Grupos eGM sao hiper-retangulos fuzzy noespaco de entrada. O numero de grupos c e varia-vel. Inicialmente, nao ha grupos.

O proposito de adaptar simultaneamente osparametros e a estrutura de modelos fuzzy dina-micos do tipo eGM e usar a informacao atual sobreo processo para manter uma representacao atua-lizada. Regioes de expansao Ei, tais como:

Ei = [Li − ρ, li + ρ], (6)

ajudam a decidir se novos dados de entrada per-tencem a um granulo no espaco de entrada. ρ sig-nifica a largura maxima que conjuntos fuzzy Mi

podem expandir para encapsular os dados x. Umgranulo Mi e formado a partir de conjuntos fuzzyMi

ψ, ψ = 1, ...,Ψ.Uma regra eGM (um grupo) e criada sempre

que um ou mais elementos de x nao pertencem asregioes de expansao Ei de Mi, i = 1, ..., c. Umnovo granulo Mc+1 e construıdo a partir de con-juntos fuzzyMc+1

ψ , ψ = 1, ...,Ψ, cujos parametroscoincidem com x.

A adaptacao de um granulo existente Mi con-siste em expandir o suporte [liψ, L

iψ] e atualizar o

nucleo [λiψ,Λiψ] de seus conjuntos fuzzy. Entre os

granulos Mi aptos a se expandirem para incluir x,aquele com maior similaridade e escolhido, ver [9].

S(x,Mi) = 1− 1

Ψ∑ψ=1

(|xψ− liψ|+ 2|xψ − λiψ|

+2|xψ − Λiψ|+ |xψ − Liψ|) (7)

Note que neste artigo, x = (x, x, x, x) (um dadogranular trapezoidal) e degenerado em um valorreal, i.e. x = x = x,= x. A adaptacao procededependendo de onde o dado xψ esta localizado emrelacao ao conjunto fuzzy. As condicoes para ex-pansao do suporte sao:

SE xψ∈ [Liψ − ρ, liψ] ENTAO liψ(new) = x

ψ,

SE xψ ∈ [Liψ, liψ + ρ] ENTAO Liψ(new) = xψ.

Parametros do nucleo sao atualizados recursiva-mente a partir de:

λiψ(new) =(wi − 1)λiψ + xψ

wi(8)

Λiψ(new) =(wi − 1)Λiψ + xψ

wi, (9)

onde wi e o numero de vezes que o granulo Mi

foi escolhido para ser adaptado.Regras eGM governando granulos Mi sao do

tipo:

Ri: SE x1 e Mi1 E ... E xΨ e Mi

Ψ

ENTAO yi = Ci

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1243

Page 5: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

onde Ci e um rotulo de classe. Note que a regra re-sultante do agrupamento eGM e similar as regrasresultantes do agrupamento eCM e eClustering+.A diferenca essencial esta no algoritmo incremen-tal de criacao e atualizacao dos grupos. GruposeCM sao hiperesferas no espaco de entrada. Gru-pos eClustering+ e eGM sao elipsoides e hiper-retangulos, respectivamente.

3 Experimentos Computacionais

Utilizaram-se os metodos evolutivos abordadosanteriormente nos experimentos de classificacaode dados de diagnostico medico. Foram utiliza-dos dados do repositorio de aprendizado de ma-quina da Universidade da California. As basesde dados escolhidas sao: Heart Disease, Cancer,Breast Cancer e Parkinson Telemonitoring. Umsumario das caracterısticas dessas bases de dadose apresentado na Tabela 1. Essa lista o numero deatributos presentes nas amostras para cada umadas bases de dados. Ela tambem indica a quan-tidade de amostras referentes a ausencia (Classe0) ou presenca (Classe 1) dos sintomas da doencaem um determinado paciente.

Note que as caracterısticas das bases de dadosevidenciam um problema de agrupamento. Nestetipo de problema os dados podem nao ser tem-poralmente correlacionados. Neste caso, metodosorientados a fluxos tentam encontrar correlacoesespaciais entre os dados [9]. Note tambem que onumero de amostras das diferentes bases de dadose pequeno e a quantidade de atributos e razoavel.Logo, a proposta do estudo apresentado nesta se-cao e avaliar metodos evolutivos para esta classede problemas. O problema de agrupamento a par-tir do uso de metodos evolutivos foi amplamentediscutido em [9] e [10]. O uso de metodos evo-lutivos para construir modelos que encontram asfronteiras de separacao das classes diferentementedos metodos adaptativos convencionais e justifi-cado por nao se ter informacao sobre qual estru-tura adotar para o modelo. O proprio algoritmode aprendizagem determina a quantidade de mo-delos locais (clusters, granulos) e, portanto, de-termina uma possıvel representacao para um pro-cesso ou fenomeno. Os modelos locais mudam como tempo, sao mesclados e apagados, conforme anecessidade, ate convergir no sentido de minimi-zar uma medida de erro com relacao a uma dadaaproximacao [9].

Tabela 1: Sumario das bases de dadosBase de dados Amostras por classe Atributos

Presente (1) Ausente (0) TotalHeart Disease 120 150 270 13Cancer 212 357 569 30Breast Cancer 458 241 699 10Parkinson 147 48 195 22

Realizou-se 50 simulacoes de fluxos de dados

considerando ordens diversas de disponibilizacaodas amostras. A precisao de cada metodo em clas-sificacoes corretas foi calculada a partir de:

Acc =

(Acerto

Acerto+ Erro

)· 100%

(10)

Os resultados obtidos sao apresentados nas Tabe-las 2 - 5 para os diferentes problemas.

Tabela 2: Resultado para Heart Disease

Acc Desvio N◦ de regraseCM 69.25% ±2.37% 11eClustering+ 70.37% ±1.19% 7eGM 79.96% ±1.52% 5

Tabela 3: Resultado para Cancer

Acc Desvio N◦ de regraseCM 85.94% ±2.32% 7eClustering+ 81.54% ±0.28% 6eGM 82.80% ±1.10% 4

Tabela 4: Resultado para Breast Cancer

Acc Desvio N◦ de regraseCM 95.75% ±0.88% 7eClustering+ 96.48% ±1.46% 6eGM 95.50% ±0.44% 3

Tabela 5: Resultado para Parkinson

Acc Desvio N◦ de regraseCM 83.58% ±1.00% 11eClustering+ 82.56% ±0.71% 5eGM 88.22% ±0.82% 5

Os resultados apresentados nas tabelas mos-tram que existe uma imparcialidade quanto a elei-cao do melhor metodo de agrupamento em proble-mas de classificacoes corretas para as bases de da-dos consideradas. Contudo, pode-se observar queo metodo eGM prove modelos com estruturas maiscompactas, menor quantidade de regras, ao con-trario dos demais metodos avaliados. Isto e umacaracterıstica importante em certos tipos de situ-acoes onde interpretabilidade de modelos e funda-mental. No entanto, o eClustering+ apresentoumelhores resultados na maioria dos experimen-tos com relacao ao desvio padrao. Finalmente,concluiu-se a partir das analises dos experimen-tos que o metodo eGM foi relativamente superioraos demais metodos em termos da relacao preci-sao/compactacao. Esta conclusao e valida apenaspara classificacao dos problemas medicos de “me-dio porte” considerados, i.e., problemas contendo

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1244

Page 6: AGRUPAMENTO EVOLUTIVO APLICADO AO RECONHECIMENTO …swge.inf.br/CBA2014/anais/PDF/1569932959.pdf · 2014. 9. 20. · de \grid", permite o desenvolvimento de mode-los locais em modo

entre 10 e 30 atributos e aproximadamente 450amostras.

4 Conclusao

Investigou-se neste artigo o desempenho de dife-rentes metodos de agrupamento incremental paraclassificacao de dados medicos. Os metodos ana-lisados foram os conhecidos evolving Fuzzy Clus-tering (eClustering+); evolving Clustering Method(eCM); e evolving Granulation Method (eGM). Asbases de dados avaliadas foram Heart Disease,Cancer, Breast Cancer e Parkinson Telemonito-ring. Apesar das restricoes de informacao tem-porais inerentes ao ambiente de processamento dedados online, os metodos evolutivos avaliados ti-veram um desempenho satisfatorio para classifi-cacao. O eGM foi relativamente superior aos de-mais metodos avaliados em termos da relacao clas-sificacoes corretas/compactacao do modelo resul-tante, embora os melhores resultados com relacaoao desvio padrao tenham sidos alcancados peloeClustering+. No futuro, pretende-se aplicar to-dos esses metodos evolutivos em problemas mul-ticlasses para a deteccao e a classificacao de fa-lhas em sistemas de engenharia e na modelagemde sistemas dinamicos com incertezas variantes notempo, para que sejam feitas as comparacoes dodesempenho entre eles.

Referencias

[1] Angelov, P; Filev, D. (2003)“On-line Design ofTakagi-Sugeno Models”. Lecture Notes in Com-puter Science (IFSA 2003) (T. Bilgic, B. De Ba-ets, O. Kaynak Eds.), pp. 576-584.

[2] Angelov, P.; Zhou, X. (2008) “Evolving FuzzyRule-Based Classifiers from Data Streams”.IEEE Transactions on Fuzzy Systems, vol. 16(6), Special Issue on Evolving Fuzzy Systems,pp. 1462-1475.

[3] Angelov, P.; Filev, D.; Kasabov, N. (2010)(Eds.) Evolving Intelligent Systems: Methodo-logy and Applications. Wiley-IEEE Press Serieson Computational Intelligence.

[4] Angelov, P.; Filev, D. (2004) “An Approach toOn-line Identification of Takagi-Sugeno FuzzyModels”. IEEE Transactions on System, Man,and Cybernetics - Part B, vol. 34 (1), pp. 484-498.

[5] Babuska, R. (1998) Fuzzy Modelling for Con-trol. Kluwer Publishers - Dordrecht.

[6] Kasabov, N. (1999) “Evolving ConnectionistSystems: A Theory and a Case Study on Adap-tative Speech Recognition”. IEEE Transactionson Fuzzy Systems, vol. 8, pp. 3002-3007.

[7] Kasabov, N. (2007) Evolving Connectio-nist Systems. Springer - Verlag, London &Hall/CRC.

[8] Kuncheva, L. (2000) Fuzzy Classifiers.Physica-Verlag.

[9] Leite, D. (2012) Evolving Granular Systems.PhD Thesis University of Campinas, pp. 170,Jun.

[10] Leite, D. Ballini, R. Costa, P. Gomide,F. (2013) “Evolving Fuzzy Granular Modelingfrom Nonstationary Fuzzy Data Streams”. Evol-ving Systems, vol. 38, pp. 1-16.

[11] Pedrycz, W. (2005) Knowledge-Based Clus-tering: From Data to Information Granules.John Wiley & Sons.

[12] Specht, D. (1991) “A General RegressionNeural Network”. IEEE Transactions on Neu-ral Networks, vol. 2 (6), pp. 568-576.

[13] Watts, M. (2009) “A Decade of KasabovEvolving Connectionist Systems: A Review”.IEEE Transactions on System, Man and Cy-bernetics - Part C, vol. 39, pp. 253-269.

[14] Yager, R.; Filev D. (1994) “ApproximateClustering via the Mountain Method”. IEEETransactions on Systems and Cybernetics, vol.24 (8), pp. 1279-1284.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

1245