Tag suggestion using multiple sources of
knowledgeÍcaro Medeiros
Fred FreitasH. Sofia Pinto
19/07/2010
RoteiroIntrodução
Sistemas de tagging social e folksonomiasMotivação
Trabalho relacionadoSugestão de tags
ANTaReSImplementaçãoResultadosDiscussão
Conclusão
Introdução
Sistemas de tagging socialUsuários atribuem tags (palavras-chave) a recursos
Páginas Web, fotos, vídeos
Delicious: 150.000 bookmarks/dia
Youtube – vídeos + tags
52 milhões de visitantes/mês
Tagging social: atributosTags são palavras-chave escolhidas livremente
NÃO HÁ vocabulário pré-definido (Mathes, 2004) Encoraja a atribuição de tags
Atribuição é geralmente colaborativaSão também redes sociais e/ou agregadores de
conteúdo publicado por usuários
Organização de conteúdo aumenta a popularidade dos STS
Navegação por tags
Folksonomias
Resultado de usuários interagindo com o STS ao atribuir tags a recursos
Tags Colaborativas +Semântica emergindo da comunidade =Classificação baixo-cima conhecida como
folksonomia (Mathes, 2004)
Desvantagens de STSVocabulário livre leva à ambiguidade
Polissemia: whistle (instrumento) e whistle (som)Homonímia: Java (linguagem) e Java (café)Sinônimos: Buy/purchasePalavras ligadas: webdev, semweb, semantic_web
Tags populares no Delicious 25-10-09
Atribuição incorreta de tags
tags?tags!
Processo de sugestão de tags
RecursoSistema
de Sugestão
STS
“pede” TAGS!
gosta de
upload
usa
analiza
pred
iz
são sugeridas
anal
iza
Folksonomia
tag1tag2
tags
Sugestão no DeliciousTags mais usadas para um recursoIntersecção com folksonomia pessoal
Vantagens da sugestão(Heymann et al.,2008b)
Convergência de vocabulárioCobertura maior para consultas por tagsConcordância entre usuáriosDesambiguação de tagsBootstrapping
Trabalho Relacionado
Filtragem colaborativa
Dados os recursosA com tags {x,y}B com tags {z,w}E um novo documento CSugerir ao recurso C tags do documento mais
similar (A) (Jäschke et al., 2007)
Só sugere termos que já estão na folksonomia
Aprendizagem de Máquina
Aprender padrões para “saber” quando um termo pode ser usado como tag
Página Web
tag1, tag2
Página Web
tag1, tag2
Recursos
tag1, tag2
ClassificadorNovo
recursotag3, tag4
TreinamentoClassificador
Corpus
Sugestão de Tag com AM
Termos - conjunto de atributos (features)Um classificador é construído por padrões
desses atributosEx: Um termo no título pode ser uma boa tag
MétodosMáquinas de Vetor Suporte (Wang and Davison,
2008)
ANTaReSA Novel TAg REcommendation System
Objetivos
Sugerir tags a páginas WebEspecialmente (novas) palavras-chave não
presentes na folksonomia
O método deve ser capaz de se adaptar à dinâmicas de vocabulárioAprendizagem de Máquina
Fontes de informação
<description> leading social bookmarking
service </>
The tastiest bookmarks on the
web.
del.icio.us
Atributos de páginas Web
• Atributos HTML (title, keywords)•Recuperação de informação (TF,IDF)• Atributos linguísticos
Páginas inbound
<description> leading social bookmarking
service </>
The tastiest bookmarks on the web.
del.icio.us
Delicious is a social
bookmarking web service
Delicious (website) - Wikipedia
Inbound link
•Âncora•Contexto do link •Texto da página
Bases de conhecimento
Wordnetconsultas
TermosRelacionados
<description> leading social bookmarking
service </>
The tastiest bookmarks on the web.
del.icio.us
Ex: Sinônimos de termos relevantes de páginas Web
Metodologia
Um classificador (SVM) para cada fonteResultados combinados são usados para
predizer se um termo é uma tag ou nãoAnálises
Fonte x TagsComparação com tags do Delicious Comparação com trabalhos relacionadosAvaliação dos por usuários
Experimentos e Resultados
Extração do dataset
Tags mais populares no Delicious (199)
Para cada top tag, páginas populares usando-as foram recuperadas (~ 7 págs/tag)
Para cada página, as tags mais usadas para ela foram extraídas (~ 9.8 tags/pág)
Resultado: 1394 páginas13667 tags (2201 únicas)
Fontes x Tags
Das tags do Delicious, quantas são encontradas
No textoNas páginas InboundNos termos relacionados do Wordnet
Fontes x Tags : resultados
Tag em Páginas Web
Páginas Inbound
Wordnet Todos
Só 1 fonte 33.24% 7.85% 28.56% --
Ao menos 1 fonte
63.13% 19.27% 52.80% --
Ao menos 2 fontes
-- -- -- 28.55%
Impacto dos atributos
Conhecer sua naturezaMedidas padrão (%): Precisão, Cobertura
(recall), F-1 Cobertura calculada usando apenas tags
encontradas na fonte testada
Experimentos Cada atributo isoladamente Removendo um atributo do conjunto total Adicionando atributos ao conjunto um por um
Atributos de páginas Web isolados
Atributo P R F1
Title 94.05
33.82 49.75
Keywords 87.90 24.21 37.96
Idf 51.31 99.78
67.77
First occurrence 74.07 63.61 68.44
...
Atributos do Wordnet isolados
Atributo P R F1
Frequência de ocorrência
86.44
100 92.72
Intersecção 87.29
7.34 13.53
Tag Count 93.25
73.85
82.41
Removendo um atributo do conjunto total (atributos de páginas Web)
Atributo excluído P R F1
Nenhum (conjunto total) 83.25 69.06 75.49
- Capital Letter 82.55 69.97
75.74
- Average Sentence Length 85.29
67.34 75.26
- Sentence Co-Occurrence 83.42 69.35 75.74
...
Removendo atributo de páginas inbound
Atributo excluído P R F1
Nenhum (conjunto total) 90.25 8.56 15.53
- Inbound Link Anchor 95.24 4.38 8.37
- Inbound Link Context 100 3.75 7.23
- Inbound Page Content 45.53 1.90 3.65
Removendo atributos Wordnet
Atributo excluído P R F1
Nenhum (conjunto total) 86.44 100 92.72
- Frequency of Occurrence 92.63
75.58 82.23
- Overlap Count 86.44 100 92.72
- Tag Count 86.44 100 92.72
Adicionando atributos de páginas Web um a um
Melhores resultados para cada fonte
Recall “real”
Classificador P R F1
Páginas Web 83.65 43.28 57.05
Páginas Inbound 90.25
6.54 11.28
Wordnet 86.44 52.82
65.54
Classificador combinadoUsando os melhores resultados de cada fonte (e regra do
produto) Pouca diferença entre métodos de combinação
Página Web + Inbound 90.13 75.12 81.93
Página Web + Wordnet 83.91 95.41 89.28
Página Inbound + Wordnet
86.08 54.85 66.97
Todas as fontes 79.82 85.17 82.40
Diferentes métodos de classificaçãoResultado combinado
Classificador P R F1
LibSVM – Kernel RBF 83.91 95.41
89.28
LibSVM – Kernel sigmóide 62.15 90.78 73.07
KNN 78.58 94.00 85.59
SVMLight 87.22
94.27 90.59
Comparação com outros trabalhos
Trabalho P R F1
ANTaReS 68.58
43.19 52.95
Song et al. (2008a) 43.52 62.31 52.77
Song et al. (2008b) 47.38 66.16
54.23
Avaliação baseada em usuários
Usuários:Lêem a páginaAtribuem 3 a 5 tags a elaMarcam como boa/ruim tags sugeridas44 docs, 12 usuários, 11 docs/usuário e 3
usuários/docMedidas:
Precisão1+, precisão2+ e precisão3“Cobertura”Novidade
Resultados (média)
Precisão1+: ~94%Precisão2+: ~77%Precisão3: ~44%
Cobertura: ~20%
Novidade: ~20%
Discussão
Resultados
Satisfatórios em relação a
Tags do Delicious
Trabalhos estado da arte em sugestão de tags
Avaliação de usuários reais
Conclusão
Conclusão
Sugestão de tags com vários atributos de múltiplas fontes de informaçãoTags novas e interessantes
Objetivos cumpridosA solução pode ser usada em cenários reais
Trabalhos futuros
Ajustar parâmetros dos métodos de AMMelhorar com o uso
Ranking vs. ClassificaçãoAbordagem híbridaMelhorar resultado pra páginas com pouco
textoAvaliação de usuários maior
ReferênciasP. Heymann, D. Ramage, and H. Garcia-Molina (2008). Social
tag prediction. International SIGIR Conference on Research and Development in Information Retrieval (SIGIR), pages 531-538. ACM.
R. Jäschke, L. Marinho, A. Hotho, L. Schmidt-Thieme, and G. Stumme (2007). Tag recommendations in folksonomies. European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 506-514. Springer-Verlag.
A. Mathes (2004). Folksonomies cooperative classication and communication through shared metadata. http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.pdf.
Referências IIY. Song, L. Zhuang , H. Li, Q. Zhao, J. Li,W.-C Lee, and C.L. Giles
(2008a). Real-time automatic tag recommendation. In International Conference on Research and Development in Information Retrieval (SIGIR), pages 515–522. ACM.
Y. Song, L. Zhang, and C. L. Giles (2008b). A sparse gaussian processes classification framework for fast tag suggestions. In Proceeding of the ACM conference on Information and Knowledge Management (CIKM), pages 93-102. ACM.
J. Wang and B. D. Davison (2008). Explorations in tag suggestion and query expansion. In SSM '08: Proceeding of the 2008 ACM Workshop on Search in Social Media, pages 43-50. ACM.