mineração de dados e aprendizado de máquinas. aurora ... · o que é mineração de dados...
TRANSCRIPT
Universidade Federal do Paranaacute
Mineraccedilatildeo de Dados e Aprendizado de Maacutequinas
Aurora Trinidad Ramiacuterez Pozo
Roteiro Overview a Descoberta de
Conhecimento em Bases de Dados
Descoberta de Conhecimento em Bancos de Dados
um crescimento explosivo nos bancos de dados
como interpretar e examinar estes dados
necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados
Descoberta de Conhecimento
Dados
InformaccedilatildeoConhec
$
Volume Valor
agreguem valor aos seus negoacutecios
Posicionamento
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Roteiro Overview a Descoberta de
Conhecimento em Bases de Dados
Descoberta de Conhecimento em Bancos de Dados
um crescimento explosivo nos bancos de dados
como interpretar e examinar estes dados
necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados
Descoberta de Conhecimento
Dados
InformaccedilatildeoConhec
$
Volume Valor
agreguem valor aos seus negoacutecios
Posicionamento
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Descoberta de Conhecimento em Bancos de Dados
um crescimento explosivo nos bancos de dados
como interpretar e examinar estes dados
necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados
Descoberta de Conhecimento
Dados
InformaccedilatildeoConhec
$
Volume Valor
agreguem valor aos seus negoacutecios
Posicionamento
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Descoberta de Conhecimento
Dados
InformaccedilatildeoConhec
$
Volume Valor
agreguem valor aos seus negoacutecios
Posicionamento
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Posicionamento
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Transformar dados
em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle
de produccedilatildeo anaacutelise de mercado ao projeto de
engenharia e exploraccedilatildeo cientiacutefica
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
KDD
Descoberta de Conhecimento em Bases de Dados
Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas
para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Etapas do Processo
O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos
muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Conhecimento
1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do
domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal
conhecimento pode contribuir para melhorar
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Seleccedilatildeo
2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou
focar num subconjunto onde a descoberta deve ser realizada
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Limpeza de Dados
3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando
necessaacuterio coleta da informaccedilatildeo necessaacuteria para
modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular
campos de dados ausentes formataccedilatildeo de dados de forma a
adequaacute-los agrave ferramenta de mineraccedilatildeo
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Reduccedilatildeo de dados
4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa
visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Mineraccedilatildeo de dados
5 Datamining selecionar os meacutetodos a serem
utilizados para localizar padrotildees nos dados
seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees
busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Interpretaccedilatildeo
Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Implantaccedilatildeo
Implantaccedilatildeo do conhecimento descoberto (Knowledge)
incorporar este conhecimento agrave performance do sistema
ou documentaacute-lo e reportaacute-lo agraves partes interessadas
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Etapas de KDD [Fayyad et al 1996]
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Teacutecnicas e Algoritmos
Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos
erros e valores estranhos incompletos (valores de atributos
ausentes) e inconsistentes (discrepacircncias
semacircnticas)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados
Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Preacute-processamento de Dados Rotinas de limpeza de dados
tentam suprir valores ausentes reduzir discrepacircncias de valores
ruidosos e corrigir inconsistecircncias
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Teacutecnicas Valores Ausentes
1Ignorar a tupla2Suprir valores ausentes
a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para
todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo
inferecircncia etc)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
As teacutecnicas 2b 2c 2d e 2e podem viciar os dados
A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Ruiacutedos nos dados
Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada
A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional
combinadas4 ndash Regressatildeo
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Inconsistecircncias
corrigidos manualmente atraveacutes de referecircncias externas
Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos
Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
O que eacute mineraccedilatildeo de dados
Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou
modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Mineraccedilatildeo de dados
Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados
O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados
Teacutecnicasferramentas para apresentar e analisar dados
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Mineraccedilatildeo de dados
descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Exemplo de conhecimento extraiacutedo
Banco de dados de lojas de produtos eletrocircnicos
OLAP Quantos videogames do tipo XYZ foram vendidos para o
cliente ABC na data ddmmaa
Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo
(compra= videogame) (90) Utilidade estrateacutegias de marketing
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Aacutereas de pesquisa relacionadas
Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Machine Learning Abordagens
Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais
Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Taxonomia do processo de KDD
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma
classe preacute-definida Cada exemplo consiste de
Um atributo classe Um conjunto de atributos preditores
O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Exemplo Extraiacutedo de Freitas amp Lavington 98
Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha
A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)
Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Exemplo de Classificaccedilatildeo
Natildeo55FranccedilaM
Natildeo34FranccedilaF
Natildeo18AlemanhaF
Natildeo20AlemanhaM
Natildeo21AlemanhaM
Natildeo30FranccedilaF
Sim34InglaterraF
Sim23FranccedilaF
Sim21InglaterraM
Sim25FranccedilaM
CompraIdadePaiacutesSexo
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Aacutervores de Decisatildeo
Alemanha Inglaterra
Franccedila
Paiacutes
Natildeo Sim
Sim Natildeo
Idade
gt 25lt 25
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Regras de associaccedilatildeo 90 das mulheres com carros
esporte vermelhos e catildees pequenos usam Chanel 5
O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Supermercado Itens de compras de clientes
Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga
Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]
Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra
qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio
definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos
Na maioria da literatura o desafio eacute projetar algoritmos eficientes
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Classificaccedilatildeo
problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos
regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)
qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema
eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes
problema eacute natildeoshydeterminiacutestico (induccedilatildeo)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
ldquoClusteringrdquo (Agrupamento)
O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Clusters
Antes Depois
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Cluster Apoacutes clustering podeshyse aplicar
meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Classificaccedilatildeo versus clustering
Classificaccedilatildeo haacute um uacutenico atributo meta e os demais
atributos satildeo previsores parte do problema consiste em
determinar automaticamente a importacircncia dos atributos previsores
haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)
classificaccedilatildeo eacute usada principalmente para previsatildeo
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute
geralmente considerada equivalente agrave dos demais
eacute difiacutecil medir a qualidade de clustering
Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Taxonomia do processo de KDD
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Software Weka
Waikato 2004 Witten amp Frank 2000
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Ferramenta algoritmos de
preparaccedilatildeo de dados aprendizagem de maacutequina
(mineraccedilatildeo) validaccedilatildeo de resultados
publicsoftlinuxweka Java ndashjar wekajar
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Interface e Funcionalidades
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar
sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris
ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Formato arff (corpo)
DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Regras de Associaccedilatildeo
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Descoberta de Regras de Associaccedilatildeo
Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]
Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Exemplo [Freitas amp Lavington 98]
leite cafeacute cerveja patildeo manteiga arroz feijatildeo
1 natildeo sim natildeo sim sim natildeo natildeo
2 sim natildeo sim sim sim natildeo natildeo
3 natildeo sim natildeo sim sim natildeo natildeo
4 sim sim natildeo sim sim natildeo natildeo
5 natildeo natildeo sim natildeo natildeo natildeo natildeo
6 natildeo natildeo natildeo natildeo sim natildeo natildeo
7 natildeo natildeo natildeo sim natildeo natildeo natildeo
8 natildeo natildeo natildeo natildeo natildeo natildeo sim
9 natildeo natildeo natildeo natildeo natildeo sim sim
10 natildeo natildeo natildeo natildeo natildeo sim natildeo
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Descoberta de Regras de Associaccedilatildeo
Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos
de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores
Suporte (Sup) = No de registros com X e Y No Total de registros
Confianccedila (Conf) = No de registros com X e Y No de registros com X
Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Conjunto de Items Frequente cafeacute patildeo Sup = 03
Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga
Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga
Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X
Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente
cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)
Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)
Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)
Conf=1
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens
frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio
Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Calculando o suporte de conjuntos de itens
Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees
Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja
Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02
Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Calcular suporte de conjuntos com 2 itens
Passo 2 Calcular suporte de conjuntos com 2 itens
Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)
cafeacute patildeo cafeacute manteiga manteiga patildeo
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Calcular suporte de conjuntos com 3 itens
Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo
eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados
Conjunto de itens cafeacute patildeo manteiga Sup = 03
Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Fator de confianccedila de regras Calculando fator de confianccedila de regras
candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de
transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X
Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06
Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)
Confianccedila de regras Conjunto de itens cafeacute manteiga
patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06
Confianccedila de regras Finalmente selecionashyse regras
com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)