scc-630 - capítulo 9 indução de Árvores de decisão -...
TRANSCRIPT
![Page 1: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/1.jpg)
Indução de Árvores de Decisão
SCC-630 - Capítulo 9Indução de Árvores de Decisão
João Luís Garcia Rosa1
1Departamento de Ciências de ComputaçãoInstituto de Ciências Matemáticas e de Computação
Universidade de São Paulo - São [email protected]
2011
João Luís G. Rosa c© 2011 - SCC-630: IX. Indução de Árvores de Decisão 1/5
![Page 2: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/2.jpg)
Indução de Árvores de Decisão
Agradecimento
Agradeço à Profa. Maria Carolina Monard, que gentilmentepermitiu que eu usasse seus slides [1] para preparação destecapítulo.
João Luís G. Rosa c© 2011 - SCC-630: IX. Indução de Árvores de Decisão 2/5
![Page 3: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/3.jpg)
Indução de Árvores de Decisão
Sumário
1 Indução de Árvores de Decisão
João Luís G. Rosa c© 2011 - SCC-630: IX. Indução de Árvores de Decisão 3/5
![Page 4: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/4.jpg)
Indução de Árvores de Decisão
Material do Prof. José Augusto Baranauskas
Os próximos 52 slides contêm material do Prof. José AugustoBaranauskas, do Departamento de Física e Matemática -FFCLRP-USP, com atualização da Profa. Maria CarolinaMonard.
João Luís G. Rosa c© 2011 - SCC-630: IX. Indução de Árvores de Decisão 4/5
![Page 5: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/5.jpg)
José Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP-USPSala 226 – Bloco P2 – Fone (16) 3602-4361
E-mail: [email protected]: http://www.fmrp.usp.br/augusto
Indução de Árvores de Indução de Árvores de DecisãoDecisão
O objetivo desta aula é fornecer conceitos básicos sobre indução de árvores de decisão
![Page 6: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/6.jpg)
2
MotivaçãoMotivação
Dados pares (x,f(x)), inferir f(·)
?5164934211f(x)x Dada uma amostra finita de exemplos,
é freqüentemente impossíveldeterminar a verdadeira função f(·)
Abordagem: Encontrar uma hipótese (modelo) h utilizando os exemplos de treinamento tal que essa hipótese seja“boa” para predizer exemplos futuros, i.e.
h(x) ~ f(x)
![Page 7: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/7.jpg)
3
f = funçãodesconhecida
x1x2x3x4
y = f (x1, x2, x3, x4 )
f: (X1 × X2 × X3 × X4) → Y
Exemplo X1 X2 X3 X4 Y
z1 0 1 1 0 0 z2 0 0 0 0 0 z3 0 0 1 1 1 z4 1 0 0 1 1 z5 0 1 1 0 0 z6 1 1 0 0 0 z7 0 1 0 1 0
MotivaçãoMotivação
![Page 8: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/8.jpg)
4
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
H(altura)
+ Comestível ¯ Venenoso
W(comprimento)
31 2 4
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+
![Page 9: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/9.jpg)
5
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
Suponha um novo cogumelo com
W=3, H=1. Ele é comestível ou
venenoso?
?
+
![Page 10: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/10.jpg)
6
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
Suponha um novo cogumelo com W=3,
H=1. Ele é comestível ou
venenoso? A maioria das pessoas diria que é comestível,
mas não há garantias que o cogumelo seja
realmente comestível. Assim
esta classificação é apenas uma hipótese
+
+
![Page 11: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/11.jpg)
7
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
Em geral, a suposição principal
em AM é que os objetos que parecem similares de alguma
forma também pertencem à mesma
classe+
+
![Page 12: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/12.jpg)
8
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
Pelo mesmo motivo de similaridade, um cogumelo com W=5,
H=4 seria classificado como
venenoso. Entretanto, é difícil decidir sobre um
cogumelo com W=2, H=2.
+
?
?
![Page 13: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/13.jpg)
9
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
+
Hipótese 1:if 2<W and W<4 and H<2
then comestívelelse venenoso
![Page 14: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/14.jpg)
10
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
+
Hipótese 1:if 2<W and W<4 and H<2
then comestívelelse venenoso
Hipótese 2:if H>W
then venenosoelse if H>6-W
then venenosoelse comestível
![Page 15: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/15.jpg)
11
Exemplo: Cogumelos Comestíveis x Exemplo: Cogumelos Comestíveis x VenenososVenenosos
W(comprimento)
31 2 4
H(altura)
3
1
2
++
+++++ +
+++
++
¯
¯¯
¯
¯¯
¯¯
¯
¯
¯
+ Comestível ¯ Venenoso
+
Hipótese 1:if 2<W and W<4 and H<2
then comestívelelse venenoso
Hipótese 2:if H>W
then venenosoelse if H>6-W
then venenosoelse comestível
Hipótese 3:if H< 3-(W-3)2
then comestívelelse venenoso
![Page 16: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/16.jpg)
12
Sistemas de Aprendizado Sistemas de Aprendizado de Máquina de Máquina –– Árvore de DecisãoÁrvore de Decisão
Incremental
Não IncrementalNão Incremental
Instâncias ou Instâncias ou ExemplosExemplos
Hipótese Hipótese expressa por uma expressa por uma Árvore de DecisãoÁrvore de Decisão
Teoria de Domínio ou Conhecimento de Fundo
SimbólicoSimbólico
Estatístico
Baseado em Exemplos(Instance-Based)
Conexionista
Genético
SupervisionadoSupervisionado
Não Supervisionado
Semi Supervisionado
Formas de Aprendizado
Linguagens de Descrição
Paradigmas de Aprendizado
Modos de Aprendizado
![Page 17: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/17.jpg)
13
HistóricoHistórico1960’s
1966: Hunt e colegas em psicologia usaram métodos de busca exaustiva em árvores de decisão para modelar o aprendizado de conceitos humanos
1970’s1977: Breiman, Friedman, e colegas em estatística desenvolveram ClassificationAnd Regression Trees (CART) 1979: Primeiro trabalho de Quinlan com proto-ID3 (Induction of Decision Trees)
1980’s1984: primeira publicação em massa do software CART (presente atualmente em vários produtos comerciais)1986: Artigo de Quinlan sobre ID3Variedade de melhorias: tratamento de ruído, atributos contínuos, atributos com valores desconhecidos, árvores oblíquas (não paralelas aos eixos), etc
1990’s1993: Algoritmo atualizado de Quinlan: C4.5 (release 8)Maior poder, heurísticas de controle de overfitting (C5.0, etc.); combinando ADs
![Page 18: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/18.jpg)
14
TDIDTTDIDT
Os algoritmos de classificação cujo conhecimento adquirido é representado como Árvore de Decisão (AD) pertencem a família TDIDT (TopDown Induction of Decision Trees)Árvore de Decisão: estrutura recursiva definida como:
um nó folha que indica uma classe, ouum nó de decisão que contém um teste sobre o valor de um atributo. Cada resultado do teste leva a uma sub-árvore. Cada sub-árvore tem a mesma estrutura da árvore
![Page 19: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/19.jpg)
15
AD AD parapara JogarJogar TênisTênis
Atributos:Aparência: Sol, Nublado, ChuvaUmidade: Alta, NormalVentando: Forte, FracoTemperatura: Quente, Média, FriaClasse (Conceito Alvo) – jogar tênis: Sim, Não
![Page 20: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/20.jpg)
16
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
![Page 21: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/21.jpg)
17
AD para Jogar TênisAD para Jogar Tênis
Sol Nublado Chuva
Alta Normal
Não Sim
Aparência
Umidade Cada nó interno (decisão)testa um atributo
Cada ramo corresponde a um valordo atributo testado
Cada nó folha atribui uma classe
![Page 22: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/22.jpg)
18
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?
![Page 23: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/23.jpg)
19
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?
![Page 24: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/24.jpg)
20
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?
![Page 25: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/25.jpg)
21
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?
![Page 26: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/26.jpg)
22
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?
![Page 27: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/27.jpg)
23
AD AD parapara JogarJogar TênisTênis
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
Aparência Temperatura Umidade Ventando JogarTênisSol Quente Alta Fraco ?Não
![Page 28: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/28.jpg)
24
ADsADs Representam Disjunções de Representam Disjunções de ConjunçõesConjunções
Sol Nublado Chuva
Alta Normal Forte Fraco
Não Sim
Sim
SimNão
Aparência
Umidade Ventando
(Aparência=Sol ∧ Umidade=Normal) ∨(Aparência=Nublado) ∨(Aparência=Chuva ∧ Ventando=Fraco)
(Aparência=Sol ∧ Umidade=Alta) ∨(Aparência=Chuva ∧ Ventando=Forte)
Sim Não
![Page 29: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/29.jpg)
25
ExemploExemplo: : ÁrvoreÁrvore de de DecisãoDecisão
Temperaturado paciente
≤ 37
nãosim
> 37
saudável doente
não sim
saudável
doente
Paciente temdor
Paciente sesente bem
Paciente se sente bem = sim : saudávelPaciente se sente bem = não ::...Paciente tem dor = não :
:...Temperatura do paciente <= 37: saudável: Temperatura do paciente > 37: doentePaciente tem dor = sim : doente
![Page 30: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/30.jpg)
26
Representação da AD como um Representação da AD como um Conjunto de RegrasConjunto de Regras
Uma árvore pode ser representada como um conjunto de regrasCada regra começa na raiz da árvore e caminha para baixo, em direção às folhas
Cada nó de decisão acrescenta um teste às premissas (condições) da regraO nó folha representa a conclusão da regra
![Page 31: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/31.jpg)
27
Representação da AD como um Representação da AD como um Conjunto de RegrasConjunto de Regras
if Paciente se sente bem = sim thenclasse = saudável
elseif Paciente tem dor = nãoif Temperatura do paciente ≤ 37 then
classe = saudávelelse {Temperatura do Paciente > 37}
classe = doenteend if
else {Paciente tem dor = sim}classe = doente
end ifend if
Temperaturado paciente
≤ 37
nãosim
> 37
saudável doente
não sim
saudável
doente
Paciente temdor
Paciente sesente bem
![Page 32: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/32.jpg)
28
Representação da AD como um Representação da AD como um Conjunto de Regras DisjuntasConjunto de Regras Disjuntas
As regras representadas por uma árvore de decisão são disjuntasAssim, elas podem ser escritas como regras separadas, começando pela raiz, e, consequentemente, o else não é necessário
![Page 33: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/33.jpg)
29
Representação da AD como um Representação da AD como um Conjunto de Regras DisjuntasConjunto de Regras Disjuntas
if Paciente se sente bem = sim thenclasse = saudável
end if
if Paciente se sente bem = nãoand Paciente tem dor = não and Temperatura do paciente ≤ 37 thenclasse = saudável
end if
if Paciente se sente bem = nãoand Paciente tem dor = não and Temperatura do paciente > 37 thenclasse = doente
end if
if Paciente se sente bem = não and Paciente tem dor = sim thenclasse = doente
end if
Temperaturado paciente
≤ 37
nãosim
> 37
saudável doente
não sim
saudável
doente
Paciente temdor
Paciente sesente bem
![Page 34: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/34.jpg)
30
Algoritmo TDIDTAlgoritmo TDIDTSeja T um conjunto de exemplos de treinamento com classes {C1, C2, ..., Ck}. Há três possibilidades:
1) T contém um ou mais exemplos, todos pertencendo a uma mesma classe Cj: a árvore de decisão para T é uma folha identificando a classe Cj
2) T não contém exemplos: a árvore de decisão é novamente uma folha, mas a classe associada com a folha deve ser determinada por alguma informação além de T. Por exemplo, a folha pode ser escolhida de acordo com algum conhecimento do domínio, tal como a classe majoritária. C4.5 utiliza a classe mais freqüente do nó pai deste nó (folha)
3) T contém exemplos que pertencem a uma mistura de classes: nesta situação a idéia é refinar T em subconjuntos que são (ou aparentam ser) coleções de exemplos de uma única classe. Um teste é escolhido, baseado em um único atributo, com resultados mutuamente exclusivos. Sejam os possíveis resultados do teste denotados por {O1,O2, ...,Or}. T é então particionado em subconjuntos T1, T2, ..., Tr, nos quais cada Ti contém todos os exemplos em T que possuem como resultado daquele teste o valor Oi. A árvore de decisão para T consiste em um nó (interno) identificado pelo teste escolhido e uma aresta para cada um dos resultados possíveis. Para cada partição, pode-se exigir que cada Ti contenha um número mínimo de exemplos, evitando partições com poucos exemplos. O default de C4.5 é de 2 exemplos
Os passos 1, 2 e 3 são aplicados recursivamente para cada subconjunto de exemplos de treinamento de forma que, em cada nó, as arestas levam para as sub-árvores construídas a partir do subconjunto de exemplos TiApós a construção da árvore de decisão, a poda pode ser realizada para melhorar sua capacidade de generalização
![Page 35: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/35.jpg)
31
Classificando Novos ExemplosClassificando Novos Exemplos
Uma AD pode ser usada para classificar novos exemplos (nunca vistos)A partir da raiz basta descer através dos nós de decisão até encontrar um nó folha: a classe correspondente a esse nó folha é a classe do novo exemploUm exemplo (sem valores desconhecidos) é classificado apenas por uma regra (sub-árvore)
![Page 36: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/36.jpg)
32
Exemplo (adaptado de Exemplo (adaptado de QuinlanQuinlan))
Neste exemplo, vamos considerar um conjunto de 15 exemplos que contém medições diárias sobre condições meteorológicasAtributos
aparência: “sol”, “nublado” ou “chuva”temperatura: temperatura em graus Celsiusumidade: umidade relativa do arventando: “sim” ou “não”
Cada exemplo foi rotulado (classe) com “bom” se nas condições meteorológicas daquele dia é aconselhável fazer uma viagem à fazenda e “ruim”, caso contrário
![Page 37: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/37.jpg)
33
O Conjunto de Dados “Viagem”O Conjunto de Dados “Viagem”
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
Classe
![Page 38: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/38.jpg)
34
Escolhendo “Aparência” para Escolhendo “Aparência” para ParticionarParticionar
nublado chuvasol
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
[9b,6r]
![Page 39: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/39.jpg)
35
Escolhendo “Umidade” para Escolhendo “Umidade” para ParticionarParticionar “Aparência=sol”“Aparência=sol”
Umidade
≤ 78
nublado chuvasol
> 78
bom ruim
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
[9b,6r]
[2b,3r]
![Page 40: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/40.jpg)
36
Escolhendo “Umidade” para Escolhendo “Umidade” para ParticionarParticionar “Aparência=nublado”“Aparência=nublado”
Umidade
≤ 78
nublado chuvasol
> 78
bom ruim
≤ 70 > 70
ruim bom
Umidade
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
[4b,1r]
[9b,6r]
[2b,3r]
![Page 41: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/41.jpg)
37
Escolhendo “Ventando” para Escolhendo “Ventando” para ParticionarParticionar “Aparência=chuva”“Aparência=chuva”
Umidade
≤ 78
nublado chuvasol
> 78
bom ruim
≤ 70 > 70
ruim bom
não sim
bom ruim
VentandoUmidade
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
[9b,6r]
[2b,3r] [4b,1r] [3b,2r]
![Page 42: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/42.jpg)
38
Árvore de Decisão Induzida (sem Árvore de Decisão Induzida (sem poda)poda)
Umidade
≤ 78
nublado chuvasol
> 78
bom ruim
≤ 70 > 70
ruim bom
não sim
bom ruim
VentandoUmidade
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
![Page 43: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/43.jpg)
39
Árvore de Decisão Induzida (sem Árvore de Decisão Induzida (sem poda)poda)
Umidade
≤ 78
nublado chuvasol
> 78bomE1,E3
ruimE2,E4,E5
≤ 70 > 70ruimE8
bomE6,E7,E9,E10
não simbom
E11,E14,E15
ruimE12,E13
VentandoUmidade
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
[9b,6r]
[2b,3r] [4b,1r] [3b,2r]
![Page 44: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/44.jpg)
40
Árvore de Decisão Induzida Árvore de Decisão Induzida (podada)(podada)
Umidade
≤ 78
nublado chuvasol
> 78
bom ruim
bom
não sim
bom ruim
Ventando
Aparência
Exemplo Aparência Temperatura Umidade Ventando ViajarE1 sol 25 72 sim bom E2 sol 28 91 sim ruim E3 sol 22 70 não bom E4 sol 23 95 não ruim E5 sol 30 85 não ruim E6 nublado 23 90 sim bom E7 nublado 29 78 não bom E8 nublado 19 65 sim ruim E9 nublado 26 75 não bom E10 nublado 20 87 sim bom E11 chuva 22 95 não bom E12 chuva 19 70 sim ruim E13 chuva 23 80 sim ruim E14 chuva 25 81 não bom E15 chuva 21 80 não bom
![Page 45: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/45.jpg)
41
((PósPós--))PodaPoda
Uma árvore maior é induzida de forma a super-ajustar os exemplos e então ela é podada até obter uma árvore menor (mais simples)A poda evita overfitting
![Page 46: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/46.jpg)
42
Número de nós (testes)
Taxade
Erro
N1 N2
Relação entre Tamanho da Árvore Relação entre Tamanho da Árvore de Decisão e a Taxa de Errode Decisão e a Taxa de Erro
N3
Exemplosde Teste
Exemplosde Treinamento
![Page 47: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/47.jpg)
43
Escolha do AtributoEscolha do Atributo
A maioria dos algoritmos de construção de árvores de decisão são sem retrocesso (sem backtracking) ou seja, gulosos (greedy)Uma vez que um teste foi selecionado para particionar o conjunto atual de exemplos, a escolha é fixada e escolhas alternativas não são exploradas
![Page 48: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/48.jpg)
44
Escolha do AtributoEscolha do Atributo
A chave para o sucesso de um algoritmo de aprendizado no qual h é expressa como uma árvores de decisão depende do critério utilizado para escolher o atributo que particiona o conjunto de exemplos em cada iteraçãoAlgumas possibilidades para escolher esse atributo são:
aleatória: seleciona qualquer atributo aleatoriamentemenos valores: seleciona o atributo com a menor quantidade de valores possíveismais valores: seleciona o atributo com a maior quantidade de valores possíveisganho máximo: seleciona o atributo que possui o maior ganho de informação esperado, isto é, seleciona o atributo que resultará no menor tamanho esperado das subárvores, assumindo que a raiz é o nó atual;razão de ganho índice Gini
![Page 49: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/49.jpg)
45
ExemploExemplo
• Qual a melhor sequencia de perguntas para confirmar a cor dessabola?
• Qual o número médio de perguntas?
Tira uma bola aleatoriamente –
8 bolas: 4 , 2 , 1 , 1
?
![Page 50: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/50.jpg)
46
ExemploExemplo
Melhor sequencia de perguntas (Codigode Huffman)
Vermelha ?
azul ?
Verde ?
Purpura?
sim
nãosim
nãosim
não
1 pergunta
2 perguntas
3 perguntas
3 perguntas
![Page 51: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/51.jpg)
47
O código de Huffman foidesenvolvido por David A. Huffman quando era aluno de PhD no MITem 1952, e publicado no artigo: A Method for the Construction of Minimum-Redundancy Codes.
Professor David A. Huffman (August 9, 1925 - October 7, 1999)
![Page 52: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/52.jpg)
48
Número médio de perguntas :
P( ) x 1 + P( ) x 2 + P( ) x 3 + P( ) x 3
x 1 + x 2 + x 3 + x 3 = 1.75
Entropia =
= = 1.75 bits
ExemploExemplo
∑−i
ii pp )(log2
81
41
81
21
⎟⎠⎞
⎜⎝⎛×⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛×⎟
⎠⎞
⎜⎝⎛+⎟
⎠⎞
⎜⎝⎛×+⎟
⎠⎞
⎜⎝⎛×
81log
81
81log
81
41log
41
21log
21
2222
![Page 53: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/53.jpg)
49
Teoria da InformaçãoTeoria da Informação
Claude E. Shannon (1916-2001)1948: A Mathematical Theory of Communication
- A entropia mede a falta de informação (medida de desordem) de um sistema
![Page 54: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/54.jpg)
50
A entropia daagua em estadoliquido é maiorque a entropiada agua emestado sólido (0˚ C )
![Page 55: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/55.jpg)
51
gases > gases > liquidos liquidos > > solidossolidos
A entropia deA A entropia entropia dede
![Page 56: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/56.jpg)
52
EntropiaEntropia
Pode também ser considerada como uma medida da quantidade de informação que uma pessoa necessita para organizar seus conhecimentos e descobrir uma regraQuanto mais alternativas um diagnóstico pussui, mais informações são necessárias para aprender ele (maior entropia)Se um diagnóstico não tem alternativas, não é necessária nenhuma informação (entropia = 0)
![Page 57: SCC-630 - Capítulo 9 Indução de Árvores de Decisão - USPwiki.icmc.usp.br/images/3/36/IA9-2011.pdf · 2018. 9. 25. · Os próximos 52 slides contêm material do Prof. José Augusto](https://reader033.vdocuments.site/reader033/viewer/2022060811/608fe15ce219da09a82252be/html5/thumbnails/57.jpg)
Apêndice Bibliografia
Referências I
[1] Monard, M. C.Slides da disciplina SCC630 - Inteligência Artificial. ICMC -USP, 2010.
João Luís G. Rosa c© 2011 - SCC-630: IX. Indução de Árvores de Decisão 5/5