1 de 38 rogerio salvini (inf/ufg) mineração de dados no transtorno afetivo bipolar rogerio salvini...
TRANSCRIPT
1 de 38Rogerio Salvini (INF/UFG)
Mineração de Dados no Transtorno Afetivo Bipolar
Rogerio [email protected]
2 de 38Rogerio Salvini (INF/UFG)
Tópicos
• Mineração de dados/KDD
• Programação Lógica Indutiva (ILP)
• Aplicações
3 de 38Rogerio Salvini (INF/UFG)
KDD• Na realidade, Mineração de Dados é parte de
um processo maior, chamado Descoberta de Conhecimento em Bases de Dados (KDD) - apesar de alguns autores utilizarem o termo intercambiavelmente.
• KDD é o processo não-trivial de identificar em dados padrões que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão.
4 de 38Rogerio Salvini (INF/UFG)
KDD• O processo de KDD é interativo, iterativo,
cognitivo e exploratório, envolvendo vários passos com muitas decisões sendo feitas pelo analista (que é um especialista do domínio dos dados, ou um especialista de análise dos dados):– compreender o domínio;– preparar o conjunto dos dados;– descobrir padrões (mineração de dados);– pós-processar os padrões descobertos, e– implantação do conhecimento descoberto.
5 de 38Rogerio Salvini (INF/UFG)
KDD
6 de 38Rogerio Salvini (INF/UFG)
Mineração de Dados
• Mineração de dados (DM) é a etapa responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.
7 de 38Rogerio Salvini (INF/UFG)
Mineração de Dados• DM utiliza técnicas e algoritmos de diferentes áreas do
conhecimento, principalmente Inteligência Artificial (especialmente Aprendizagem de Máquina), Banco de Dados (recursos para manipular grandes bases de dados) e Estatística.
8 de 38Rogerio Salvini (INF/UFG)
Aprendizado de máquina• Área da Inteligência Artificial que estuda
métodos computacionais para adquirir novos conhecimentos de forma automática
• Um sistema de Aprendizado de Máquina (ML) é um programa de computador que toma decisões baseado em experiências acumuladas contidas em casos resolvidos com sucesso
• Esses casos constituem o conjunto de exemplos de treinamento fornecidos ao algoritmo de aprendizado
9 de 38Rogerio Salvini (INF/UFG)
Aprendizado supervisionado• No aprendizado supervisionado é fornecido ao
algoritmo de aprendizado um conjunto de exemplos de treinamento descritos por um vetor de valores de características, ou atributos, e pelo rótulo da classe associada
• Baseado no conjunto de treinamento o algoritmo de aprendizado induz a classificação de uma hipótese capaz de determinar corretamente a classe de novos exemplos ainda não rotulados
10 de 38Rogerio Salvini (INF/UFG)
Linguagens de descrição• Ao solucionar problemas com o uso do
computador, é importante definir como traduzi-los em termos computacionais
• Linguagens de descrição são necessárias para descrever exemplos, hipóteses e conhecimento do domínio
• Em geral, essas linguagens podem ser divididas em dois tipos:– Baseada em atributo-valor ou proposicional– Relacional
11 de 38Rogerio Salvini (INF/UFG)
Linguagens de descrição• O formato atributo-valor é a linguagem de descrição de
objetos mais frequentemente utilizada em ML
• Objetos, ou exemplos, são descritos em termos de atributos e valores desses atributos, por meio de um vetor, contendo valores para os atributos de um determinado exemplo e um rótulo que atribui uma classe ao exemplo
12 de 38Rogerio Salvini (INF/UFG)
Linguagens de descrição• A descrição relacional é baseada na Linguagem
de Primeira Ordem da Lógica Clássica• Objetos são descritos em termos de seus
componentes e relações entre esses componentes
• Principais características:– Alta expressividade para representar conceitos– Capacidade de representação do conhecimento do
domínio (background knowledge)• Sistemas de aprendizado relacional
– Programação Lógica Indutiva (ILP)
13 de 38Rogerio Salvini (INF/UFG)
Programação Lógica Indutiva• Programação Lógica Indutiva (ILP) é uma
área de interseção de pesquisas entre Aprendizado de Máquina e Programação Lógica
• ILP traz duas grandes vantagens:– produz classificadores que são de fácil
entendimento por especialistas– consegue resolver problemas de aprendizado
multi-relacional
14 de 38Rogerio Salvini (INF/UFG)
Programação Lógica Indutiva• Sistemas ILP têm sido usados com sucesso
na extração de modelos relacionais de dados em áreas como:– Bioinformática– Engenharia– Processamento de Linguagem Natural– Meio Ambiente– Engenharia de Software– Aprendizado de Padrões e Link Discovery– Alias Identification
15 de 38Rogerio Salvini (INF/UFG)
Programação Lógica Indutiva
• Dados:– um conjunto de exemplos positivos,– um conjunto de exemplos negativos,– a descrição destes exemplos (BK), e– um conjunto de restrições que define a forma como
um classificador deve ser construído
• Produzir um classificador representado em Lógica de Primeira Ordem, que prove todos os exemplos positivos e nenhum exemplo negativo
16 de 38Rogerio Salvini (INF/UFG)
Trens de Michalski• A tarefa é encontrar uma regra capaz de
predizer, dada as propriedades dos seus vagões, se o trem está viajando para Leste
17 de 38Rogerio Salvini (INF/UFG)
Trens de MichalskiConhecimento prévio (BK):
has_car(east1,car_11).shape(car_11,rectangle).open_car(car_11).long(car_11).load(car_11,rectangle,3).wheels(car_11,2). has_car(east1,car_12). short(car_12).closed(car_12)....short(car_14).
18 de 38Rogerio Salvini (INF/UFG)
Trens de Michalski
Exemplos positivoseastbound(east1)
eastbound(east2)
eastbound(east3)
eastbound(east4)
eastbound(east5)
Exemplos negativoseastbound(west6)
eastbound(west7)
eastbound(west8)
eastbound(west9)
eastbound(west10)
19 de 38Rogerio Salvini (INF/UFG)
Trens de Michalski
eastbound(A) :- has_car(A,B), short(B), closed(B).
20 de 38Rogerio Salvini (INF/UFG)
Relação filha
• Um exemplo relacional simples é o aprendizado da relação filha(A,B), que estabelece que uma pessoa A é filha da pessoa B, em termos do conhecimento prévio das relações feminino e progenitor.
21 de 38Rogerio Salvini (INF/UFG)
Relação filha
Exemplos positivosfilha(maria,ana)
filha(carol,jose)
Exemplos negativosfilha(jose,ana)
filha(carol,ana)
Conhecimento prévio (BK)progenitor(ana,maria) feminino(ana)
progenitor(ana,jose) feminino(maria)
progenitor(jose,carol) feminino(carol)
progenitor(jose,carlos)
22 de 38Rogerio Salvini (INF/UFG)
Relação filha
• Assim, é possível induzir a seguinte hipótese:filha(A,B) :-
feminino(A), progenitor(B,A).
• que é interpretada como:A é filha de B se A é do sexo feminino e B é
progenitor de A.
23 de 38Rogerio Salvini (INF/UFG)
Protein• Predizer quais genes codificam para proteínas
envolvidas no metabolismo.
• Conhecimento prévio do gene “G235580”:
chromosome('G235580','11')complex('G235580','Respiration chain complexes')essential('G235580','Non-Essential')interaction('G235580','G236280','Physical', '0.342639674')
motif('G235580','PS00504')phenotype('G235580','"Auxotrophies, carbon and"')
25 de 38Rogerio Salvini (INF/UFG)
• Regra gerada:
metabolism(A) :- phenotype(A,'"Auxotrophies, carbon and"'), interaction(A,B,_,_), essential(B,'Non-Essential'), chromosome(B,'4').
que pode ser interpretada como:
O gene A está envolvido no metabolismo seA tem fenótipo "Auxotrophies, carbon and" eA interage com um gene B eB não é essencial eB está no cromossomo 4
Protein
26 de 38Rogerio Salvini (INF/UFG)
• Banco de dados relacional real de mamografias, extraída do "National Mammography Database" (NMD) americano em um trabalho conjunto com a Universidade de Wisconsin-Madison
• 47669 exames de 18270 pacientes• 435 anormalidades malignas e 65365
anormalidades benignas num total de 65800 exemplos
• Tarefa: predizer se uma anormalidade é maligna
Mamografias
27 de 38Rogerio Salvini (INF/UFG)
Breast Imaging Reporting and Data System(BI-RADS)
Categoria Significado
BI-RADS 0 Necessita imagem adicional
BI-RADS 1 Negativo
BI-RADS 2 Benigno
BI-RADS 3 Provavelmente benigno
BI-RADS 4 Suspeito
BI-RADS 5 Altamente sugestivo de malignância
28 de 38Rogerio Salvini (INF/UFG)
Glossário BI-RADS(43 descritores organizados hierarquicamente)
29 de 38Rogerio Salvini (INF/UFG)
Mamografias
• O sistema ILP gerou várias regras, de onde um radiologista especialista identificou duas potencialmente interessantes.
• Estas regras foram:
30 de 38Rogerio Salvini (INF/UFG)
Regra 1is_malignant(A) :-
'BIRADS_category'(A,b5), 'MassPAO'(A,present),
'Age'(A,age6570),
previous_finding(A,B,C), 'MassesShape'(B,none),
'Calc_Punctate'(B,notPresent),
previous_finding(A,C), 'BIRADS_category'(C,b3).
31 de 38Rogerio Salvini (INF/UFG)
Regra 1• Esta regra declara que se um achado (A) era:
– classificado como BI-RADS 5,– tinha uma massa presente
• em um paciente que:– tinha idade entre 65 e 70– tinha duas mamografias anteriores (B, C)
• e a mamografia anterior (B):– não tinha forma de massa descrita– não tinha calcificações pontuadas
• e a mamografia anterior (C):– foi classificada como BI-RADS 3
• então ele é maligno.
32 de 38Rogerio Salvini (INF/UFG)
Regra 1• Esta regra é interessante pois ela acha um
relacionamento entre um achado malígno em um paciente que teve uma anormalidade anterior julgada como provavelmente benigna.
• Isto pode representar um atraso no diagnóstico se a anormalidade interpretada como provavelmente benigna corresponde à achada depois diagnosticada como câncer.
33 de 38Rogerio Salvini (INF/UFG)
Regra 2is_malignant(A) :-
'BIRADS_category'(A,b5),'MassPAO'(A,present),'MassesDensity'(A,high),'HO_BreastCA'(A,hxDCorLC),in_same_mammogram(A,B),'Calc_Pleomorphic'(B,notPresent),'Calc_Punctate'(B,notPresent).
34 de 38Rogerio Salvini (INF/UFG)
Regra 2• Esta regra declara que se o achado (A) era:
– classificado como BI-RADS 5,– tinha uma massa presente– tinha uma massa com alta densidade
• em um paciente que:– tinha um histórico anterior de câncer de mama– tinha um achado extra na mesma mamografia (B)
• e o achado extra (B):– não tinha microcalcificações pleomórficas– não tinha calcificações pontuadas
• então ele é maligno.
35 de 38Rogerio Salvini (INF/UFG)
Regra 2
• Esta regra é interessante pois ela acha um relacionamento entre malignância e alta densidade de massas.
• Em geral, densidade de massa não tinha sido anteriormente pensada como sendo uma característica altamente preditiva.
36 de 38Rogerio Salvini (INF/UFG)
Transtorno Afetivo Bipolar (TAB)
• Projeto PROMAN
• Dados longitudinais de 150 pacientes
Masculino Feminino TOTAL
TAB I 70 (88,6%) 147 (89,1%) 217 (88,9%)
TAB II 9 (11,4%) 18 (10,9%) 27 (11,1%)
Total 79 (100%) 165 (100%) 244 (100%)
37 de 38Rogerio Salvini (INF/UFG)
Transtorno Afetivo Bipolar (TAB)• Dados Iniciais: 284 variáveis
– sócio-demográficas– história clínica geral– história clínica TAB– SCID – comorbidade psiquiátricas (atual e passado)– avaliação de estado do humor (depressão e mania)– qualidade de vida
• Dados de Seguimento– 36 variáveis categóricas de estado de humor – DSMV – depressão,
mania, categoria do episódio, medicamentos – fármaco e dose– Escala de depressão do humor: HAMILTON (17, 21 e 31 itens –
escores de 0-4; 0-2)– Escala de Mania: YOUNG (11 itens – 0-8; 0-4)– Critérios do DSM-IV– Conduta
38 de 38Rogerio Salvini (INF/UFG)
39 de 38Rogerio Salvini (INF/UFG)