descoberta de conhecimento em bancos de dados e mineração de dados
DESCRIPTION
Slides do seminário sobre KDD e Data Mining, para a cadeira de Inteligência Artificial, da UFPB.TRANSCRIPT
![Page 1: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/1.jpg)
Data Mining
Ângelo Vidal de NegreirosEduardo de Lucena Falcão
Eduardo Farias Silva
![Page 2: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/2.jpg)
Introdução Visão Geral
KDD, Data Mining, Data Warehouses Histórico
Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão
Sumário
![Page 3: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/3.jpg)
Custo de armazenamento Poder de armazenamento Bancos de dados
Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados
Informações relevantes através de reconhecimento de padrões
“Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004].
Introdução
![Page 4: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/4.jpg)
Visão Geral
![Page 5: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/5.jpg)
KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de
dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyad et al. 1996].
Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD
que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyad et al. 1996].
Visão Geral
![Page 6: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/6.jpg)
Data Warehouses sistema de computação utilizado para
armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada
Mineração de Dados – uma das formas de se extrair informação
Qualidade da análise é dependente da qualidade dos dados
Visão Geral
![Page 7: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/7.jpg)
Histórico
Visão Geral
![Page 8: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/8.jpg)
Integrado Não volátil Variante no tempo Granularidade Etc.
Características de um DW
![Page 9: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/9.jpg)
Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação
Projeto de um DW
![Page 10: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/10.jpg)
Etapa para extrações das informações
(KDD)
![Page 11: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/11.jpg)
Limpeza dos dados: Dados incompletos ou
inconsistentes Dados completos e consistentes
Corrigir ou atenuar tais problemas.
Integração dos dados: Unificação de todas as
fontes de dados em uma única e consolidada fonte.
Etapa para extrações das informações
![Page 12: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/12.jpg)
Seleção dos dados: selecionar os dados que
tem relevância para o negócio
Transformação dos dados: os dados são
transformados para facilitar a mineração
Etapa para extrações das informações
![Page 13: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/13.jpg)
Etapas 1 – 4: Limpeza + integração + seleção +
transformação Data WareHouse
Os dados estão a ponto de bala Pronto para serem minerados
Etapa para extrações das informações
![Page 14: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/14.jpg)
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário
Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística
Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc.
Etapa para extrações das informações
![Page 15: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/15.jpg)
Etapa para extrações das informações
![Page 16: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/16.jpg)
Tarefas de Mineração
![Page 17: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/17.jpg)
Tarefas de mineração
![Page 18: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/18.jpg)
Análise de Amostragem Análise Descritiva Análise de Prognóstico
Classificação das Tarefas
![Page 19: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/19.jpg)
Utilização de medidas estatísticas como esperança e desvio padrão
Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude
Análise de Amostragem
![Page 20: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/20.jpg)
Classificação – categorizar dados em classes
Supermercado: frio, laticínios, higiene, etc
Consumidores: região, sexo, etc
Associação – identificar fatos que ocorrem em conjunto.
Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto
Análise Descritiva
![Page 21: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/21.jpg)
Descrição textual de um conjunto de características frequentes para um evento
Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito
Detecção de Sequências: estabelecimento de relações temporais entre os fatos
Ex. clássico: Notebook + Mouse
Análise Descritiva
![Page 22: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/22.jpg)
Inferir comportamento futuro ou estimar valores desconhecidos
Baseia-se nas informações colhidas na análise descritiva
Padrão de despesas + idade -> salário + nº de filhos
Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos
Análise de Prognóstico
![Page 23: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/23.jpg)
Técnicas para Mineração
![Page 24: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/24.jpg)
Algoritmo escolher um atributo; estender a árvore adicionando um ramo
para cada valor do atributo; passar os exemplos para as folhas
(tendo em conta o valor do atributo escolhido);
para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c).
C4.5 (árvore de decisão)
![Page 25: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/25.jpg)
![Page 26: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/26.jpg)
C4.5 (árvore de decisão)
Gera um classificador na forma de árvore de decisão
![Page 27: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/27.jpg)
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada
Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente
Classificação Bayesiana
![Page 28: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/28.jpg)
Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de
processamento Hipertensão na Coréia do Sul: índice
de massa corpórea, proteína urinária, taxa de glicose e colesterol.
Apriori
![Page 29: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/29.jpg)
Redes Neurais
Metáfora do funcionamento docérebro humano
Conjunto de dados iniciais para treinar a rede
Predições sobre novos dados inseridos
Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
![Page 30: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/30.jpg)
Ferramentas de Mineração de Dados
![Page 31: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/31.jpg)
Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS
Enterprise Miner, IBM Intelligent Miner, Oracle Darwin Data Mining Software
Ferramentas de Mineração de Dados
![Page 32: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/32.jpg)
Exemplo Clássico
![Page 33: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/33.jpg)
O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos
são separados por vírgula mais um cabeçalho Ex(weather.arff):
@relation weather %Nome do arquivo@attribute outlook {sunny, overcast, rainy}@attribute temperature real %Atributo e tipo@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}@data %Início dos dadossunny,85,85,FALSE,noovercast,83,86,FALSE,yes
Weka
![Page 34: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/34.jpg)
Algoritmo weka.classifier.j48.J48
Weka + Árvores de Decisão
<=75 >75
![Page 35: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/35.jpg)
Algoritmo weka.classifier.j48.J48
Weka + Árvores de Decisão
J48 pruned tree------------------
outlook = sunny| humidity <= 75: yes (2.0)| humidity > 75: no (3.0)outlook = overcast: yes (4.0)outlook = rainy| windy = TRUE: no (2.0)| windy = FALSE: yes (3.0)
Number of Leaves : 5
Size of the tree : 8
![Page 36: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/36.jpg)
Algoritmo para minerar regras de associação.
Weka + Apriori
IF umidade = normal AND vento = não THEN jogar = sim
IF umidade = normal AND jogar = sim THEN vento = não
IF vento = não AND jogar = sim THEN umidade = normal
IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim
IF jogar = sim THEN vento = não AND umidade = normal
IF ? THEN vento = não AND umidade = normal AND jogar = sim
![Page 37: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/37.jpg)
Weka - Apriori
Best rules found:
1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1) 2. temperature=cool windy=FALSE play=yes
==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=FALSE
==> play=yes conf:(1) 4. temperature=cool windy=FALSE
==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=FALSE
==> play=yes conf:(1)
![Page 38: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/38.jpg)
Sequência: ABCXYABCZKABDKCABCTUABEWLABCW
O
Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência.
Exemplo prático 1
![Page 39: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/39.jpg)
Sequência: ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes:
"ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO"
Exemplo prático 1
![Page 40: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/40.jpg)
Sequência: ABCXYABCZKABDKCABCTUABEWLABCW
O
Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades:
"ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra
Exemplo prático 1
![Page 41: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/41.jpg)
Sequência: ABCXYABCZKABDKCABCTUABEWLABCW
O
Por exemplo, a letra 'A' poderia significar "aquisição de pão“
A letra 'B' poderia, por exemplo, significar "aquisição de leite“
A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado
Exemplo prático 1
![Page 42: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/42.jpg)
Sequência: ABCVYABCVKABDKCABCVUABEWLABCV
O
Que padrão se observa? Na prática que exemplos podemos dar?
Exemplo prático 2
![Page 43: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/43.jpg)
Áreas de Aplicação
![Page 44: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/44.jpg)
Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina
Histórico de pacientes Análise de epidemias
Outros
![Page 45: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/45.jpg)
Conclusão
![Page 46: Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados](https://reader035.vdocuments.site/reader035/viewer/2022062616/54915f2fb4795903088b491e/html5/thumbnails/46.jpg)
Obrigado
Perguntas?