bruno cavalcante (bmsc) gabriel monteiro (gam) joão florêncio (jcpf) lucas marinho (lpm)

41
Roteamento de Consultas Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Upload: internet

Post on 18-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Roteamento de Consultas

Bruno Cavalcante (bmsc)Gabriel Monteiro (gam)

João Florêncio (jcpf) Lucas Marinho (lpm)

Page 2: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução P2P-RI WebSearch Social Query Query Routing Aplicações Desafios Conclusão

Agenda

Page 3: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

Page 4: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

FACTUAL

Introdução

Page 5: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

??

?

NÃO FACTUAL

Page 6: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Responde 78% das consultas Factuais Somente 29% das consultas Não-Factuais

Introdução

Page 7: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Surgimento de sites específicos

Introdução

Page 8: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

??

?

Page 9: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Introdução

Page 10: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Sistema de RI com a arquitetura de P2P Ecalabilidade Tolerância a falhas Simula o comportamento de uma rede

social◦ Contêm informação dos peers conhecidos◦ Infere a categoria de cada peer◦ Estima precisão e cobertura por topico para os

peers

Peer-to-Peer e RI

Page 11: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Roteamento de Consultas para Engenhos de Busca

Page 12: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Problemas dos engenhos de busca tradicionais:

◦ Engenhos de busca de propósito geral estão sujeitos a baixa precisão e/ou baixa cobertura;

◦ Diretorios proveem referências de alta qualidade, mas não acompanham o crescimento explosivo da web;

Web Search Query Routing

Page 13: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Engenhos de busca especificos:

Retornam frequentemente referências de melhor qualidade do que engenhos de próposito geral, por várias razões:◦ Detêm um banco de dados mais confiável;◦ Refletem o esforço de organizações

compremetidas em prover e atualizar com informações de boa qualidade;

◦ Menos ambiguidades e outros obstáculos linguísticos para buscas de alta precisão;

Web Search Query Routing

Page 14: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query RoutingCONSULTA

Page 15: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

◦ Existem várias formas de fazer Roteamento de Consultas;

◦ Explicaremos a Topic-centric Query Routing; Não precisa de acesso total ao engenhos de busca

específicos; Compensa a falta de livre acesso aos engenhos de

busca com: Neighborhood-based topic identification;  Expansão de consulta;

Web Search Query Routing

Page 16: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query Routing

Page 17: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Web Search Query Routing

Page 18: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

 Neighborhood-based identification of Search Engine’s Topic:

◦  The front-page method;

◦  The back-link method;

Web Search Query Routing

Page 19: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Expansão de consulta:◦ Pega os termos relevantes diretamente da web;◦ Avalia termos importantes pelo nível de co-

ocorrência;◦ Usa a técnica pseudo-feedback;

Web Search Query Routing

Page 20: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

 Clustering:

◦ Recebe os documentos e termos obtidos na Expansão de Consultas;

◦ Separa os termos em agrupamentos de tópicos diferentes;

Gerador de frase tópico:

◦ Frase extraída do conjunto de documentos recuperados da Expansão de consultas;

◦ Para cada cluster será gerado uma frase explicativa;◦ A frase que contém mais termos tópicos e maior co-

ocorrência será selecionada;

Web Search Query Routing

Page 21: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Search Engine Rank:

◦ Compara os termos obtidos na expansão de consulta com os termos armazenados na base de índices de engenhos de buscas;

◦  Calcula adequação dos engenhos de busca com a query da seguinte forma:

◦  Para cada cluster, seleciona-se o 3 melhores engenhos para apresentar ao usuário;

Web Search Query Routing

Page 22: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

O que é?◦ RI que considera relações e opiniões dos usuários.◦ Desafio em encontrar, ao invés do documento

certo, a pessoa certa.◦ Paradigmas:

Biblioteca x Vila

Social Query

Page 23: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Biblioteca -> busca na web tradicional◦ Consulta concisa com palavras chaves, concreta.◦ Confiança na autoridade.◦ Ex: Google, Bing, sistemas de bibliotecas.

Vila -> Social Query (ou search)◦ Consulta com linguagem natural, mais subjetiva.◦ Confiança na intimidade.◦ Considera momento e local da pergunta.◦ Ex: Facebook, Aardvark, Google Social Search.

Social Query

Page 24: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

O que tem de bom?◦ Complementa RI tradicional.◦ Consultas específicas (região, tempo real,

confiança por intimidade).◦ Trazem opiniões dos usuários dos serviços e não

apenas dos fornecedores. O que tem de não tão bom?

◦ Falta de privacidade.◦ Usuários tem receio de fazer perguntas triviais ou

que envolvam assuntos polêmicos.◦ Necessita de muitos usuários e acessos

constantes.

Social Query

Page 25: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Algumas estratégias◦ Pythia: A Privacy Aware, Peer-to-

Peer Network for Social Search. Construída a partir de uma rede

social pré-existente. Usuários informam os assuntos

de interesse (fica oculto). Garante privacidade e faz as

perguntas por flooding.

◦ Crowdsourcing Location-based Queries. Integra Twitter e Forsquare, para

responder perguntas com base na localização do usuário.

Social Query

Page 26: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Inicialização do usuário Análise da consulta

◦ Verifica se é uma pergunta.◦ Reconhece o assunto (palavra-chave, usa

tesauro). Ranking de usuários

◦ Temas escolhidos para responder.◦ Similaridade dos perfis dos usuários.◦ Proximidade dos nós.◦ Proximidade na localização, etc.

Direcionamento da pergunta

Query Routing

Page 27: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Outra alternativa: Q-Pilot◦ Roteamento de consultas centrado no tópico.◦ Recomenda melhores engenhos de busca para

determinada consulta.◦ Encontrou a categoria adequada da consulta 70%

das vezes.◦ O engenho de busca mais indicado para a

consulta ficou entre os 3 primeiros, dentre 144, 40% das vezes.

Query Routing

Page 28: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 29: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

+

Page 30: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 31: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark

Page 32: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Engenho de busca social Responde questões subjetivas Perguntas em linguagem natural Informação nas pessoas e não nos

documentos

Aardvark - O que é?

Page 33: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Interface Web

Page 34: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Interface IM

Page 35: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Exemplo

Page 36: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Outro Exemplo

Page 37: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Aardvark - Arquitetura

Page 38: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Usa dois fatores principais para escolher o usuário que responde:

Probabilidade dele responder uma pergunta sobre aquele tema

Afinidade entre o usuário que pergunta e o que responde

Aardvark - Ranking

Page 39: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Respostas saem razoavelmente rápido(60% em menos de 10 min)

90% das perguntas são respondidas Respostas têm em média 24 palavras Perguntas têm em média 19 palavras Perguntas em grande parte

subjetivas(“procuro um bom restaurante”)

Aardvark - Dados 2010

Page 40: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Nem todas as respostas estão nos documentos

É possível e viável procurar respostas direto com as pessoas

Os esforços na área ainda são limitados O ranking e consulta a pessoas é um

problema desafiador

Conclusões

Page 41: Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)

Bulut, M. F., Yilmaz, Y. S. & Demirbas, M. - Crowdsourcing Location-based Queries

Nilizadeh, S., Alam, N., Husted, N. & Kapadia, A. - Pythia: A Privacy Aware, Peer-to-Peer Network for Social Search

Sugiura, A. & Etzioni, O. - Query routing for Web search engines: architecture and experiments

 Horowitz, D. & Kamvar, S. D. - The Anatomy of a Large-Scale Social Search Engine

GoogleTechTalks - 2010 Google Faculty Summit: The Anatomy of a Large Scale Social Search Engine (video link)

Referências