tag suggestion using multiple sources of knowledge

47
Tag suggestion using multiple sources of knowledge Ícaro Medeiros Fred Freitas H. Sofia Pinto 19/07/2010

Upload: icaro-medeiros

Post on 24-May-2015

525 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tag Suggestion using Multiple Sources of Knowledge

Tag suggestion using multiple sources of

knowledgeÍcaro Medeiros

Fred FreitasH. Sofia Pinto

19/07/2010

Page 2: Tag Suggestion using Multiple Sources of Knowledge

RoteiroIntrodução

Sistemas de tagging social e folksonomiasMotivação

Trabalho relacionadoSugestão de tags

ANTaReSImplementaçãoResultadosDiscussão

Conclusão

Page 3: Tag Suggestion using Multiple Sources of Knowledge

Introdução

Page 4: Tag Suggestion using Multiple Sources of Knowledge

Sistemas de tagging socialUsuários atribuem tags (palavras-chave) a recursos

Páginas Web, fotos, vídeos

Delicious: 150.000 bookmarks/dia

Page 5: Tag Suggestion using Multiple Sources of Knowledge

Youtube – vídeos + tags

52 milhões de visitantes/mês

Page 6: Tag Suggestion using Multiple Sources of Knowledge

Tagging social: atributosTags são palavras-chave escolhidas livremente

NÃO HÁ vocabulário pré-definido (Mathes, 2004) Encoraja a atribuição de tags

Atribuição é geralmente colaborativaSão também redes sociais e/ou agregadores de

conteúdo publicado por usuários

Organização de conteúdo aumenta a popularidade dos STS

Page 7: Tag Suggestion using Multiple Sources of Knowledge

Navegação por tags

Page 8: Tag Suggestion using Multiple Sources of Knowledge

Folksonomias

Resultado de usuários interagindo com o STS ao atribuir tags a recursos

Tags Colaborativas +Semântica emergindo da comunidade =Classificação baixo-cima conhecida como

folksonomia (Mathes, 2004)

Page 9: Tag Suggestion using Multiple Sources of Knowledge

Desvantagens de STSVocabulário livre leva à ambiguidade

Polissemia: whistle (instrumento) e whistle (som)Homonímia: Java (linguagem) e Java (café)Sinônimos: Buy/purchasePalavras ligadas: webdev, semweb, semantic_web

Tags populares no Delicious 25-10-09

Page 10: Tag Suggestion using Multiple Sources of Knowledge

Atribuição incorreta de tags

Page 11: Tag Suggestion using Multiple Sources of Knowledge

tags?tags!

Processo de sugestão de tags

RecursoSistema

de Sugestão

STS

“pede” TAGS!

gosta de

upload

usa

analiza

pred

iz

são sugeridas

anal

iza

Folksonomia

tag1tag2

tags

Page 12: Tag Suggestion using Multiple Sources of Knowledge

Sugestão no DeliciousTags mais usadas para um recursoIntersecção com folksonomia pessoal

Page 13: Tag Suggestion using Multiple Sources of Knowledge

Vantagens da sugestão(Heymann et al.,2008b)

Convergência de vocabulárioCobertura maior para consultas por tagsConcordância entre usuáriosDesambiguação de tagsBootstrapping

Page 14: Tag Suggestion using Multiple Sources of Knowledge

Trabalho Relacionado

Page 15: Tag Suggestion using Multiple Sources of Knowledge

Filtragem colaborativa

Dados os recursosA com tags {x,y}B com tags {z,w}E um novo documento CSugerir ao recurso C tags do documento mais

similar (A) (Jäschke et al., 2007)

Só sugere termos que já estão na folksonomia

Page 16: Tag Suggestion using Multiple Sources of Knowledge

Aprendizagem de Máquina

Aprender padrões para “saber” quando um termo pode ser usado como tag

Página Web

tag1, tag2

Página Web

tag1, tag2

Recursos

tag1, tag2

ClassificadorNovo

recursotag3, tag4

TreinamentoClassificador

Corpus

Page 17: Tag Suggestion using Multiple Sources of Knowledge

Sugestão de Tag com AM

Termos - conjunto de atributos (features)Um classificador é construído por padrões

desses atributosEx: Um termo no título pode ser uma boa tag

MétodosMáquinas de Vetor Suporte (Wang and Davison,

2008)

Page 18: Tag Suggestion using Multiple Sources of Knowledge

ANTaReSA Novel TAg REcommendation System

Page 19: Tag Suggestion using Multiple Sources of Knowledge

Objetivos

Sugerir tags a páginas WebEspecialmente (novas) palavras-chave não

presentes na folksonomia

O método deve ser capaz de se adaptar à dinâmicas de vocabulárioAprendizagem de Máquina

Page 20: Tag Suggestion using Multiple Sources of Knowledge

Fontes de informação

<description> leading social bookmarking

service </>

The tastiest bookmarks on the

web.

del.icio.us

Atributos de páginas Web

• Atributos HTML (title, keywords)•Recuperação de informação (TF,IDF)• Atributos linguísticos

Page 21: Tag Suggestion using Multiple Sources of Knowledge

Páginas inbound

<description> leading social bookmarking

service </>

The tastiest bookmarks on the web.

del.icio.us

Delicious is a social

bookmarking web service

Delicious (website) - Wikipedia

Inbound link

•Âncora•Contexto do link •Texto da página

Page 22: Tag Suggestion using Multiple Sources of Knowledge

Bases de conhecimento

Wordnetconsultas

TermosRelacionados

<description> leading social bookmarking

service </>

The tastiest bookmarks on the web.

del.icio.us

Ex: Sinônimos de termos relevantes de páginas Web

Page 23: Tag Suggestion using Multiple Sources of Knowledge

Metodologia

Um classificador (SVM) para cada fonteResultados combinados são usados para

predizer se um termo é uma tag ou nãoAnálises

Fonte x TagsComparação com tags do Delicious Comparação com trabalhos relacionadosAvaliação dos por usuários

Page 24: Tag Suggestion using Multiple Sources of Knowledge

Experimentos e Resultados

Page 25: Tag Suggestion using Multiple Sources of Knowledge

Extração do dataset

Tags mais populares no Delicious (199)

Para cada top tag, páginas populares usando-as foram recuperadas (~ 7 págs/tag)

Para cada página, as tags mais usadas para ela foram extraídas (~ 9.8 tags/pág)

Resultado: 1394 páginas13667 tags (2201 únicas)

Page 26: Tag Suggestion using Multiple Sources of Knowledge

Fontes x Tags

Das tags do Delicious, quantas são encontradas

No textoNas páginas InboundNos termos relacionados do Wordnet

Page 27: Tag Suggestion using Multiple Sources of Knowledge

Fontes x Tags : resultados

Tag em Páginas Web

Páginas Inbound

Wordnet Todos

Só 1 fonte 33.24% 7.85% 28.56% --

Ao menos 1 fonte

63.13% 19.27% 52.80% --

Ao menos 2 fontes

-- -- -- 28.55%

Page 28: Tag Suggestion using Multiple Sources of Knowledge

Impacto dos atributos

Conhecer sua naturezaMedidas padrão (%): Precisão, Cobertura

(recall), F-1 Cobertura calculada usando apenas tags

encontradas na fonte testada

Experimentos Cada atributo isoladamente Removendo um atributo do conjunto total Adicionando atributos ao conjunto um por um

Page 29: Tag Suggestion using Multiple Sources of Knowledge

Atributos de páginas Web isolados

Atributo P R F1

Title 94.05

33.82 49.75

Keywords 87.90 24.21 37.96

Idf 51.31 99.78

67.77

First occurrence 74.07 63.61 68.44

...

Page 30: Tag Suggestion using Multiple Sources of Knowledge

Atributos do Wordnet isolados

Atributo P R F1

Frequência de ocorrência

86.44

100 92.72

Intersecção 87.29

7.34 13.53

Tag Count 93.25

73.85

82.41

Page 31: Tag Suggestion using Multiple Sources of Knowledge

Removendo um atributo do conjunto total (atributos de páginas Web)

Atributo excluído P R F1

Nenhum (conjunto total) 83.25 69.06 75.49

- Capital Letter 82.55 69.97

75.74

- Average Sentence Length 85.29

67.34 75.26

- Sentence Co-Occurrence 83.42 69.35 75.74

...

Page 32: Tag Suggestion using Multiple Sources of Knowledge

Removendo atributo de páginas inbound

Atributo excluído P R F1

Nenhum (conjunto total) 90.25 8.56 15.53

- Inbound Link Anchor 95.24 4.38 8.37

- Inbound Link Context 100 3.75 7.23

- Inbound Page Content 45.53 1.90 3.65

Page 33: Tag Suggestion using Multiple Sources of Knowledge

Removendo atributos Wordnet

Atributo excluído P R F1

Nenhum (conjunto total) 86.44 100 92.72

- Frequency of Occurrence 92.63

75.58 82.23

- Overlap Count 86.44 100 92.72

- Tag Count 86.44 100 92.72

Page 34: Tag Suggestion using Multiple Sources of Knowledge

Adicionando atributos de páginas Web um a um

Page 35: Tag Suggestion using Multiple Sources of Knowledge

Melhores resultados para cada fonte

Recall “real”

Classificador P R F1

Páginas Web 83.65 43.28 57.05

Páginas Inbound 90.25

6.54 11.28

Wordnet 86.44 52.82

65.54

Page 36: Tag Suggestion using Multiple Sources of Knowledge

Classificador combinadoUsando os melhores resultados de cada fonte (e regra do

produto) Pouca diferença entre métodos de combinação

Página Web + Inbound 90.13 75.12 81.93

Página Web + Wordnet 83.91 95.41 89.28

Página Inbound + Wordnet

86.08 54.85 66.97

Todas as fontes 79.82 85.17 82.40

Page 37: Tag Suggestion using Multiple Sources of Knowledge

Diferentes métodos de classificaçãoResultado combinado

Classificador P R F1

LibSVM – Kernel RBF 83.91 95.41

89.28

LibSVM – Kernel sigmóide 62.15 90.78 73.07

KNN 78.58 94.00 85.59

SVMLight 87.22

94.27 90.59

Page 38: Tag Suggestion using Multiple Sources of Knowledge

Comparação com outros trabalhos

Trabalho P R F1

ANTaReS 68.58

43.19 52.95

Song et al. (2008a) 43.52 62.31 52.77

Song et al. (2008b) 47.38 66.16

54.23

Page 39: Tag Suggestion using Multiple Sources of Knowledge

Avaliação baseada em usuários

Usuários:Lêem a páginaAtribuem 3 a 5 tags a elaMarcam como boa/ruim tags sugeridas44 docs, 12 usuários, 11 docs/usuário e 3

usuários/docMedidas:

Precisão1+, precisão2+ e precisão3“Cobertura”Novidade

Page 40: Tag Suggestion using Multiple Sources of Knowledge

Resultados (média)

Precisão1+: ~94%Precisão2+: ~77%Precisão3: ~44%

Cobertura: ~20%

Novidade: ~20%

Page 41: Tag Suggestion using Multiple Sources of Knowledge

Discussão

Page 42: Tag Suggestion using Multiple Sources of Knowledge

Resultados

Satisfatórios em relação a

Tags do Delicious

Trabalhos estado da arte em sugestão de tags

Avaliação de usuários reais

Page 43: Tag Suggestion using Multiple Sources of Knowledge

Conclusão

Page 44: Tag Suggestion using Multiple Sources of Knowledge

Conclusão

Sugestão de tags com vários atributos de múltiplas fontes de informaçãoTags novas e interessantes

Objetivos cumpridosA solução pode ser usada em cenários reais

Page 45: Tag Suggestion using Multiple Sources of Knowledge

Trabalhos futuros

Ajustar parâmetros dos métodos de AMMelhorar com o uso

Ranking vs. ClassificaçãoAbordagem híbridaMelhorar resultado pra páginas com pouco

textoAvaliação de usuários maior

Page 46: Tag Suggestion using Multiple Sources of Knowledge

ReferênciasP. Heymann, D. Ramage, and H. Garcia-Molina (2008). Social

tag prediction. International SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pages 531-538. ACM.

R. Jäschke, L. Marinho, A. Hotho, L. Schmidt-Thieme, and G. Stumme (2007). Tag recommendations in folksonomies. European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 506-514. Springer-Verlag.

A. Mathes (2004). Folksonomies cooperative classication and communication through shared metadata. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.pdf.

Page 47: Tag Suggestion using Multiple Sources of Knowledge

Referências IIY. Song, L. Zhuang , H. Li, Q. Zhao, J. Li,W.-C Lee, and C.L. Giles

(2008a). Real-time automatic tag recommendation. In International Conference on Research and Development in Information Retrieval (SIGIR), pages 515–522. ACM.

Y. Song, L. Zhang, and C. L. Giles (2008b). A sparse gaussian processes classification framework for fast tag suggestions. In Proceeding of the ACM conference on Information and Knowledge Management (CIKM), pages 93-102. ACM.

J. Wang and B. D. Davison (2008). Explorations in tag suggestion and query expansion. In SSM '08: Proceeding of the 2008 ACM Workshop on Search in Social Media, pages 43-50. ACM.