bruno cavalcante (bmsc) gabriel monteiro (gam) joão florêncio (jcpf) lucas marinho (lpm)
TRANSCRIPT
Roteamento de Consultas
Bruno Cavalcante (bmsc)Gabriel Monteiro (gam)
João Florêncio (jcpf) Lucas Marinho (lpm)
Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão
Agenda
Introdução
FACTUAL
Introdução
Introdução
??
?
NÃO FACTUAL
Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais
Introdução
Surgimento de sites específicos
Introdução
Introdução
??
?
Introdução
Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede
social◦ Contêm informação dos peers conhecidos◦ Infere a categoria de cada peer◦ Estima precisão e cobertura por topico para os
peers
Peer-to-Peer e RI
Roteamento de Consultas para Engenhos de Busca
Problemas dos engenhos de busca tradicionais:
◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura;
◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web;
Web Search Query Routing
Engenhos de busca especificos:
Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões:◦ Detêm um banco de dados mais confiável;◦ Refletem o esforço de organizações
compremetidas em prover e atualizar com informações de boa qualidade;
◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão;
Web Search Query Routing
Web Search Query RoutingCONSULTA
◦ Existem várias formas de fazer Roteamento de Consultas;
◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca
específicos; Compensa a falta de livre acesso aos engenhos de
busca com: Neighborhood-based topic identification; Expansão de consulta;
Web Search Query Routing
Web Search Query Routing
Web Search Query Routing
Neighborhood-based identification of Search Engine’s Topic:
◦ The front-page method;
◦ The back-link method;
Web Search Query Routing
Expansão de consulta:◦ Pega os termos relevantes diretamente da web;◦ Avalia termos importantes pelo nível de co-
ocorrência;◦ Usa a técnica pseudo-feedback;
Web Search Query Routing
Clustering:
◦ Recebe os documentos e termos obtidos na Expansão de Consultas;
◦ Separa os termos em agrupamentos de tópicos diferentes;
Gerador de frase tópico:
◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas;
◦ Para cada cluster será gerado uma frase explicativa;◦ A frase que contém mais termos tópicos e maior co-
ocorrência será selecionada;
Web Search Query Routing
Search Engine Rank:
◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas;
◦ Calcula adequação dos engenhos de busca com a query da seguinte forma:
◦ Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário;
Web Search Query Routing
O que é?◦ RI que considera relações e opiniões dos usuários.◦ Desafio em encontrar, ao invés do documento
certo, a pessoa certa.◦ Paradigmas:
Biblioteca x Vila
Social Query
Biblioteca -> busca na web tradicional◦ Consulta concisa com palavras chaves, concreta.◦ Confiança na autoridade.◦ Ex: Google, Bing, sistemas de bibliotecas.
Vila -> Social Query (ou search)◦ Consulta com linguagem natural, mais subjetiva.◦ Confiança na intimidade.◦ Considera momento e local da pergunta.◦ Ex: Facebook, Aardvark, Google Social Search.
Social Query
O que tem de bom?◦ Complementa RI tradicional.◦ Consultas específicas (região, tempo real,
confiança por intimidade).◦ Trazem opiniões dos usuários dos serviços e não
apenas dos fornecedores. O que tem de não tão bom?
◦ Falta de privacidade.◦ Usuários tem receio de fazer perguntas triviais ou
que envolvam assuntos polêmicos.◦ Necessita de muitos usuários e acessos
constantes.
Social Query
Algumas estratégias◦ Pythia: A Privacy Aware, Peer-to-
Peer Network for Social Search. Construída a partir de uma rede
social pré-existente. Usuários informam os assuntos
de interesse (fica oculto). Garante privacidade e faz as
perguntas por flooding.
◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para
responder perguntas com base na localização do usuário.
Social Query
Inicialização do usuário Análise da consulta
◦ Verifica se é uma pergunta.◦ Reconhece o assunto (palavra-chave, usa
tesauro). Ranking de usuários
◦ Temas escolhidos para responder.◦ Similaridade dos perfis dos usuários.◦ Proximidade dos nós.◦ Proximidade na localização, etc.
Direcionamento da pergunta
Query Routing
Outra alternativa: Q-Pilot◦ Roteamento de consultas centrado no tópico.◦ Recomenda melhores engenhos de busca para
determinada consulta.◦ Encontrou a categoria adequada da consulta 70%
das vezes.◦ O engenho de busca mais indicado para a
consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes.
Query Routing
Aardvark
Aardvark
+
Aardvark
Aardvark
Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos
documentos
Aardvark - O que é?
Aardvark - Interface Web
Aardvark - Interface IM
Aardvark - Exemplo
Aardvark - Outro Exemplo
Aardvark - Arquitetura
Usa dois fatores principais para escolher o usuário que responde:
Probabilidade dele responder uma pergunta sobre aquele tema
Afinidade entre o usuário que pergunta e o que responde
Aardvark - Ranking
Respostas saem razoavelmente rápido(60% em menos de 10 min)
90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte
subjetivas(“procuro um bom restaurante”)
Aardvark - Dados 2010
Nem todas as respostas estão nos documentos
É possível e viável procurar respostas direto com as pessoas
Os esforços na área ainda são limitados O ranking e consulta a pessoas é um
problema desafiador
Conclusões
Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. - Crowdsourcing Location-based Queries
Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search
Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments
Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine
GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)
Referências