tag suggestion

Download Tag Suggestion

Post on 24-May-2015

870 views

Category:

Documents

2 download

Embed Size (px)

DESCRIPTION

A description of tag suggestion and a case study of tag suggestion for Portuguese Wikipedia articles

TRANSCRIPT

  • 1. Sugesto de Tagscaro Medeiros CIn - UFPE 18 de Novembro de 2008 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 1 / 34

2. RoteiroIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 2 / 34 3. SeesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 3 / 34 4. Tags Palavras-chave usadas para organizar e descrever recursos Classicar contedo na Web usando tags uma atividade comum e eciente Usurios cam a cargo de rotular os recursos (Social tagging systems)caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 4 / 34 5. Nuvem de Tagscaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 5 / 34 6. Sugesto de Tags Ajudar os usurios a etiquetar recursos recomendando tags relevantes Principal estratgia: tags j usadas para descrever o mesmo contedo ou recursos similares Nesse projeto: sugesto baseada no contedo textual (artigos da Wikipdia)caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 6 / 34 7. Tags na Wikipdia - Por qu? Classicao usada (multi-rtulo hierarquizada) difcil de ser percorrida (muitos nveis) Distores: Cincia da Computao -> Redes de Computadores -> Internet -> WWW -> Sites -> Wiki -> Wikipdia -> Verses da Wikipdia -> Wikipdia em Georgiano Organizao, recuperao e visualizaocaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 7 / 34 8. SeesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 8 / 34 9. Objetivo Principal Sugerir tags relevantes para artigos da Wikipdia em Portugus usando o texto dos verbetes caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 9 / 34 10. Arquitetura do Sistema caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 10 / 34 11. SubseesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 11 / 34 12. Dados do Corpus Artigos nas categorias Redes de Computadores, Engenharia de Software e Inteligncia Articial da Wikipdia em portugus 201 sub-categorias 6098 artigos 20.5MB (XML) 16MB (texto)caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 12 / 34 13. Passos para Extraocaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 13 / 34 14. SubseesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 14 / 34 15. Preparao dos Documentos Modelo vetorial Base de ndices invertidos usando Lucene Stopwords Sem stemmingcaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 15 / 34 16. Heurstica de Peso de Termos Especca para artigos Wikipdia Termos no comeo dos artigos e hyperlinks para outros verbetes tem peso maior. Ex: A inteligncia articial (IA) uma rea de pesquisa da cincia da computao... Diferente campos tm fatores de importncia associadoscaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 16 / 34 17. Fatores de ImportnciaComeo da pgina (50 primeiros termos): No hyperlink (f1 ); hyperlink e a Wiki para o qual ele aponta existe (f2 ); hyperlink, mas a Wiki para o qual ele aponta no existe (f3 ). Restante do documento: No hyperlink (f4 ); hyperlink e a Wiki para o qual ele aponta existe (f5 ); hyperlink, mas a Wiki para o qual ele aponta no existe (f6 ). Valores usados: {4, 8, 5, 1, 3, 2}caro Medeiros (CIn - UFPE)Sugesto de Tags 18 de Novembro de 2008 17 / 34 18. Termos Separados em Camposcaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 18 / 34 19. Peso de Termos e tf-idfPeso de um termo tk no documento djn wkj = f1 tdfk 1 + ... + fn tdfkn = fm tdfkm(1) m=1 TD-IDF de um termo tk em um determinado campo freq(tk ) tf tdftk =(2)= Nidf 1 + log nkcaro Medeiros (CIn - UFPE)Sugesto de Tags18 de Novembro de 2008 19 / 34 20. SubseesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 20 / 34 21. Sugesto de TagsPara um Documento: Equao 1 - (5) Termos de maior peso so retornados Para o corpus: Equao 3 - (30) Tags sugeridas para vrios documentos so importantes para o corpus como um todojTwkj ) |T |wcorpustk = ( (3)caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 21 / 34 22. SeesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 22 / 34 23. Especicaes Java 6 e Lucene 2.4.0 30 classes, mais de 1200 linhas de cdigo Perl e ParseMediaWikiDump (2 mdulos) (XML->Texto)caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 23 / 34 24. SeesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 24 / 34 25. Dados do Teste Tarefas: Criao do ndice, do dicionrio de termos e exemplos de tags sugeridas a 10 documentos e ao corpus Tempo total: 4min:16scaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 25 / 34 26. Criao do ndice e do dicionrio3:26 minutos para indexar os 6098 arquivos, 29 por segundoCriao do ndice Lucene totalizando 38.0MBDicionrio de termos (68209) com clculo de IDF (27s) caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 26 / 34 27. Exemplos de tags sugeridas C++Programao C Linguagem Software Cdigo Internet Relay Chat Internet IRC Chat protocolo redesRede Neural Computao redes rede brasilfuno Empresas ponto comInternetponto empresas submarino servios BitTorrent Internet BitTorrent rede linux download caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 27 / 34 28. Exemplos de tags sugeridas IIPadres de requisitosEngenharia Requisitos Software Padropadres Sistema de recomendaoComputador Programa Sistema Processo Usurio UMLSoftware Modelagem Engenharia UML DesenvolvimentoModel Driven ArchitectureSoftwareDesenvolvimento Programao ModeloProcessoTransmission Control Protocol Internet Protocolo Dados Rede Redes caro Medeiros (CIn - UFPE)Sugesto de Tags 18 de Novembro de 2008 28 / 34 29. Tags para o corpus Software Internet Programao Linguagem Sistema Linux Cdigo Computador X LivreRede Web Windows Dados Redes Lngua Computadores ProgramaProgramas Linguagens Domnio Site Brasil Topo C GNU SistemasGoogle Microsoft Ingls caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 29 / 34 30. SeesIntroduo 1Descrio do Sistema 2Extrao do CorpusCriao do ndiceExtrao de Tags Prottipo 3Avaliao e Testes 4Concluses 5 caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 30 / 34 31. Melhorias Propostas Automatizao das constantes Uso de agrupamento e outras frmulas para sugesto de tags. Ex: tags de documentos similares Comparao com documentos j classicados em sistemas como Digg, Del.icio.us, etc. Identicao de conceitos e relaes para uma ontologia Explorar mais metadados dos artigos da Wikipdiacaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 31 / 34 32. Concluindo...A idia parece boa, mas... preciso automatizar os testes para analisar o comportamentode diferentes frmulas,Testar tcnicas da literatura como em (Oliveira et al., 2008) eTestar a aplicao com interface e usurios efetivamenteusando-a! caro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 32 / 34 33. Referncias Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison Wesley. Calefato, F., Gendarmi, D., and Lanubile, F. (2007). Towards social semantic suggestive tagging. In Proc. of Semantic Web Applications And Perspectives (Swap 2007). Mika, P. (2007). Ontologies are us: A unied model of social networks and semantics. Journal ofWeb Semantics, 5(1):515. Oliveira, B., Calado, P., and Pinto, H. S. (2008). Automatic tag suggestion based on resourcecontents. In Gangemi, A. and Euzenat, J., editors, EKAW, volume 5268 of Lecture Notes inComputer Science, pages 255264. Springer. Wikipedia (2007). Computer help desk - parsemediawikidump wikipedia, the free encyclopedia. [Online, accessado em 2 de Fevereiro de 2008]. Wikipedia (2008). Tag cloud wikipedia, the free encyclopedia. [Online; accessed 10-September-2008]. Xu, Z., Fu, Y., Mao, J., and Su, D. (2006). Towards the semantic web: Collaborative tag suggestions. In WWW2006: Proceedings of the Collaborative Web Tagging Workshop, Edinburgh, Scotland.caro Medeiros (CIn - UFPE) Sugesto de Tags18 de Novembro de 2008 33 / 34 34. Dvidascaro Medeiros (CIn - UFPE) Sugesto de Tags 18 de Novembro de 2008 34 / 34