m´etodos para classifica¸c˜ao de texto de etiqueta...

116
etodos para Classifica¸ ao de Texto de Etiqueta ´ Unica (Improving Methods for Single-label Text Categorization) Ana Cardoso Cachopo Instituto Superior T´ ecnico — Universidade T´ ecnica de Lisboa / INESC-ID 8 de Outubro de 2007 (IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 1 / 38

Upload: others

Post on 10-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Metodos para Classificacao de Texto de Etiqueta Unica

(Improving Methods for Single-label Text Categorization)

Ana Cardoso Cachopo

Instituto Superior Tecnico — Universidade Tecnica de Lisboa / INESC-ID

8 de Outubro de 2007

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 1 / 38

Page 2: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Estrutura

Estrutura

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 2 / 38

Page 3: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 3 / 38

Page 4: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao

Introducao e Objectivos

Introducao

Classificacao de Texto

Documentos de Etiqueta Unica

Classificacao Semi-supervisionada

Objectivos

Melhorar a qualidade dos resultados atraves da combinacao declassificadores.

Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38

Page 5: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao

Introducao e Objectivos

Introducao

Classificacao de Texto

Documentos de Etiqueta Unica

Classificacao Semi-supervisionada

Objectivos

Melhorar a qualidade dos resultados atraves da combinacao declassificadores.

Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38

Page 6: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 7: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 8: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 9: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 10: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 11: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 12: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 13: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 14: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 15: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 16: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Page 17: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Page 18: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Page 19: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Page 20: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Page 21: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Page 22: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Page 23: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Page 24: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

k-NN

Considera os k vizinhos mais proximos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38

Page 25: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

k-NN

Considera os k vizinhos mais proximos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38

Page 26: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Page 27: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

x

x

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Page 28: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

x

x

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Page 29: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Page 30: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Page 31: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Page 32: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Page 33: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Page 34: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Page 35: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Page 36: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Page 37: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Page 38: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Page 39: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Page 40: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Page 41: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Page 42: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Page 43: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Page 44: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

minimizar −n∑

i=1

αi +1

2

n∑i ,j=1

αiαjyiyj ∗ K (di , dj)

tal quen∑

i=1

αiyi = 0 e ∀iαi ≥ 0

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 14 / 38

Page 45: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Medidas de Avaliacao

Accuracy

Accuracy =#Documentos correctamente classificados

#Total de documentos

MRR

MRR(n) =

∑#Total queriesi=1 (( 1

ranki) or 0)

#Total queries

onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38

Page 46: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Introducao Classificacao de Texto

Medidas de Avaliacao

Accuracy

Accuracy =#Documentos correctamente classificados

#Total de documentos

MRR

MRR(n) =

∑#Total queriesi=1 (( 1

ranki) or 0)

#Total queries

onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38

Page 47: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 16 / 38

Page 48: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Page 49: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Page 50: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Page 51: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Page 52: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 53: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 54: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 55: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 56: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 57: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 58: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 59: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Page 60: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 19 / 38

Page 61: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 62: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 63: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 64: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 65: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 66: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Page 67: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Page 68: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Page 69: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Page 70: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Page 71: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 22 / 38

Page 72: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Page 73: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Page 74: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Page 75: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Combinacoes com LSI

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

SVD

k-NN-LSI

SVM-LSI

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38

Page 76: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Combinacoes com LSI

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

SVD

k-NN-LSI

SVM-LSI

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38

Page 77: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 78: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 79: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 80: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 81: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 82: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Page 83: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.

SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38

Page 84: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.

SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38

Page 85: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 27 / 38

Page 86: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Page 87: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Page 88: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Page 89: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 90: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 91: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 92: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 93: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 94: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 95: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Page 96: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 97: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 98: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 99: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 100: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 101: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 102: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Page 103: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

0 5 10 15 20 25 30 35 40

Acc

ura

cy

Documentos etiquetados para cada classe

R8

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 31 / 38

Page 104: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

20Ng

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 32 / 38

Page 105: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

Web4

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 33 / 38

Page 106: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

Cade12

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 34 / 38

Page 107: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Page 108: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Page 109: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Page 110: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 36 / 38

Page 111: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Page 112: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Page 113: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Page 114: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Page 115: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Page 116: M´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´web.ist.utl.pt/acardoso/docs/2007-10-discussao-completa.pdfM´etodos para Classifica¸c˜ao de Texto de Etiqueta Unica´

Obrigada.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 38 / 38