tag suggestion using multiple sources of knowledge

Post on 24-May-2015

525 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Tag suggestion using multiple sources of

knowledgeÍcaro Medeiros

Fred FreitasH. Sofia Pinto

19/07/2010

RoteiroIntrodução

Sistemas de tagging social e folksonomiasMotivação

Trabalho relacionadoSugestão de tags

ANTaReSImplementaçãoResultadosDiscussão

Conclusão

Introdução

Sistemas de tagging socialUsuários atribuem tags (palavras-chave) a recursos

Páginas Web, fotos, vídeos

Delicious: 150.000 bookmarks/dia

Youtube – vídeos + tags

52 milhões de visitantes/mês

Tagging social: atributosTags são palavras-chave escolhidas livremente

NÃO HÁ vocabulário pré-definido (Mathes, 2004) Encoraja a atribuição de tags

Atribuição é geralmente colaborativaSão também redes sociais e/ou agregadores de

conteúdo publicado por usuários

Organização de conteúdo aumenta a popularidade dos STS

Navegação por tags

Folksonomias

Resultado de usuários interagindo com o STS ao atribuir tags a recursos

Tags Colaborativas +Semântica emergindo da comunidade =Classificação baixo-cima conhecida como

folksonomia (Mathes, 2004)

Desvantagens de STSVocabulário livre leva à ambiguidade

Polissemia: whistle (instrumento) e whistle (som)Homonímia: Java (linguagem) e Java (café)Sinônimos: Buy/purchasePalavras ligadas: webdev, semweb, semantic_web

Tags populares no Delicious 25-10-09

Atribuição incorreta de tags

tags?tags!

Processo de sugestão de tags

RecursoSistema

de Sugestão

STS

“pede” TAGS!

gosta de

upload

usa

analiza

pred

iz

são sugeridas

anal

iza

Folksonomia

tag1tag2

tags

Sugestão no DeliciousTags mais usadas para um recursoIntersecção com folksonomia pessoal

Vantagens da sugestão(Heymann et al.,2008b)

Convergência de vocabulárioCobertura maior para consultas por tagsConcordância entre usuáriosDesambiguação de tagsBootstrapping

Trabalho Relacionado

Filtragem colaborativa

Dados os recursosA com tags {x,y}B com tags {z,w}E um novo documento CSugerir ao recurso C tags do documento mais

similar (A) (Jäschke et al., 2007)

Só sugere termos que já estão na folksonomia

Aprendizagem de Máquina

Aprender padrões para “saber” quando um termo pode ser usado como tag

Página Web

tag1, tag2

Página Web

tag1, tag2

Recursos

tag1, tag2

ClassificadorNovo

recursotag3, tag4

TreinamentoClassificador

Corpus

Sugestão de Tag com AM

Termos - conjunto de atributos (features)Um classificador é construído por padrões

desses atributosEx: Um termo no título pode ser uma boa tag

MétodosMáquinas de Vetor Suporte (Wang and Davison,

2008)

ANTaReSA Novel TAg REcommendation System

Objetivos

Sugerir tags a páginas WebEspecialmente (novas) palavras-chave não

presentes na folksonomia

O método deve ser capaz de se adaptar à dinâmicas de vocabulárioAprendizagem de Máquina

Fontes de informação

<description> leading social bookmarking

service </>

The tastiest bookmarks on the

web.

del.icio.us

Atributos de páginas Web

• Atributos HTML (title, keywords)•Recuperação de informação (TF,IDF)• Atributos linguísticos

Páginas inbound

<description> leading social bookmarking

service </>

The tastiest bookmarks on the web.

del.icio.us

Delicious is a social

bookmarking web service

Delicious (website) - Wikipedia

Inbound link

•Âncora•Contexto do link •Texto da página

Bases de conhecimento

Wordnetconsultas

TermosRelacionados

<description> leading social bookmarking

service </>

The tastiest bookmarks on the web.

del.icio.us

Ex: Sinônimos de termos relevantes de páginas Web

Metodologia

Um classificador (SVM) para cada fonteResultados combinados são usados para

predizer se um termo é uma tag ou nãoAnálises

Fonte x TagsComparação com tags do Delicious Comparação com trabalhos relacionadosAvaliação dos por usuários

Experimentos e Resultados

Extração do dataset

Tags mais populares no Delicious (199)

Para cada top tag, páginas populares usando-as foram recuperadas (~ 7 págs/tag)

Para cada página, as tags mais usadas para ela foram extraídas (~ 9.8 tags/pág)

Resultado: 1394 páginas13667 tags (2201 únicas)

Fontes x Tags

Das tags do Delicious, quantas são encontradas

No textoNas páginas InboundNos termos relacionados do Wordnet

Fontes x Tags : resultados

Tag em Páginas Web

Páginas Inbound

Wordnet Todos

Só 1 fonte 33.24% 7.85% 28.56% --

Ao menos 1 fonte

63.13% 19.27% 52.80% --

Ao menos 2 fontes

-- -- -- 28.55%

Impacto dos atributos

Conhecer sua naturezaMedidas padrão (%): Precisão, Cobertura

(recall), F-1 Cobertura calculada usando apenas tags

encontradas na fonte testada

Experimentos Cada atributo isoladamente Removendo um atributo do conjunto total Adicionando atributos ao conjunto um por um

Atributos de páginas Web isolados

Atributo P R F1

Title 94.05

33.82 49.75

Keywords 87.90 24.21 37.96

Idf 51.31 99.78

67.77

First occurrence 74.07 63.61 68.44

...

Atributos do Wordnet isolados

Atributo P R F1

Frequência de ocorrência

86.44

100 92.72

Intersecção 87.29

7.34 13.53

Tag Count 93.25

73.85

82.41

Removendo um atributo do conjunto total (atributos de páginas Web)

Atributo excluído P R F1

Nenhum (conjunto total) 83.25 69.06 75.49

- Capital Letter 82.55 69.97

75.74

- Average Sentence Length 85.29

67.34 75.26

- Sentence Co-Occurrence 83.42 69.35 75.74

...

Removendo atributo de páginas inbound

Atributo excluído P R F1

Nenhum (conjunto total) 90.25 8.56 15.53

- Inbound Link Anchor 95.24 4.38 8.37

- Inbound Link Context 100 3.75 7.23

- Inbound Page Content 45.53 1.90 3.65

Removendo atributos Wordnet

Atributo excluído P R F1

Nenhum (conjunto total) 86.44 100 92.72

- Frequency of Occurrence 92.63

75.58 82.23

- Overlap Count 86.44 100 92.72

- Tag Count 86.44 100 92.72

Adicionando atributos de páginas Web um a um

Melhores resultados para cada fonte

Recall “real”

Classificador P R F1

Páginas Web 83.65 43.28 57.05

Páginas Inbound 90.25

6.54 11.28

Wordnet 86.44 52.82

65.54

Classificador combinadoUsando os melhores resultados de cada fonte (e regra do

produto) Pouca diferença entre métodos de combinação

Página Web + Inbound 90.13 75.12 81.93

Página Web + Wordnet 83.91 95.41 89.28

Página Inbound + Wordnet

86.08 54.85 66.97

Todas as fontes 79.82 85.17 82.40

Diferentes métodos de classificaçãoResultado combinado

Classificador P R F1

LibSVM – Kernel RBF 83.91 95.41

89.28

LibSVM – Kernel sigmóide 62.15 90.78 73.07

KNN 78.58 94.00 85.59

SVMLight 87.22

94.27 90.59

Comparação com outros trabalhos

Trabalho P R F1

ANTaReS 68.58

43.19 52.95

Song et al. (2008a) 43.52 62.31 52.77

Song et al. (2008b) 47.38 66.16

54.23

Avaliação baseada em usuários

Usuários:Lêem a páginaAtribuem 3 a 5 tags a elaMarcam como boa/ruim tags sugeridas44 docs, 12 usuários, 11 docs/usuário e 3

usuários/docMedidas:

Precisão1+, precisão2+ e precisão3“Cobertura”Novidade

Resultados (média)

Precisão1+: ~94%Precisão2+: ~77%Precisão3: ~44%

Cobertura: ~20%

Novidade: ~20%

Discussão

Resultados

Satisfatórios em relação a

Tags do Delicious

Trabalhos estado da arte em sugestão de tags

Avaliação de usuários reais

Conclusão

Conclusão

Sugestão de tags com vários atributos de múltiplas fontes de informaçãoTags novas e interessantes

Objetivos cumpridosA solução pode ser usada em cenários reais

Trabalhos futuros

Ajustar parâmetros dos métodos de AMMelhorar com o uso

Ranking vs. ClassificaçãoAbordagem híbridaMelhorar resultado pra páginas com pouco

textoAvaliação de usuários maior

ReferênciasP. Heymann, D. Ramage, and H. Garcia-Molina (2008). Social

tag prediction. International SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pages 531-538. ACM.

R. Jäschke, L. Marinho, A. Hotho, L. Schmidt-Thieme, and G. Stumme (2007). Tag recommendations in folksonomies. European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 506-514. Springer-Verlag.

A. Mathes (2004). Folksonomies cooperative classication and communication through shared metadata. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.pdf.

Referências IIY. Song, L. Zhuang , H. Li, Q. Zhao, J. Li,W.-C Lee, and C.L. Giles

(2008a). Real-time automatic tag recommendation. In International Conference on Research and Development in Information Retrieval (SIGIR), pages 515–522. ACM.

Y. Song, L. Zhang, and C. L. Giles (2008b). A sparse gaussian processes classification framework for fast tag suggestions. In Proceeding of the ACM conference on Information and Knowledge Management (CIKM), pages 93-102. ACM.

J. Wang and B. D. Davison (2008). Explorations in tag suggestion and query expansion. In SSM '08: Proceeding of the 2008 ACM Workshop on Search in Social Media, pages 43-50. ACM.

top related