feedback de relevância e expansão de consulta
TRANSCRIPT
![Page 1: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/1.jpg)
Introduc)on to Informa)on Retrieval
1 1 1
Aula 10: Feedback de Relevância e Expansão de
Consulta Alexandre Duarte
1
Ordenação e Recuperação de Dados
![Page 2: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/2.jpg)
2
Resumo da aula de hoje
§ Feedback de relevância interaGvo: melhorar a qualidade dos resultados iniciais informando o sistema sobre a relevância dos resultados retornados
§ Expansão de consulta: melhorar os resultados das consultas adicionando sinônimos e termos relacionados à consulta
2
![Page 3: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/3.jpg)
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
3
![Page 4: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/4.jpg)
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
4
![Page 5: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/5.jpg)
5
Como podemos melhorar o recall em uma busca?
§ Principal assunto de hoje: duas formas de aumentar o recall: feedback de relevância e expansão de consulta
§ Como exemplo cosidere a consulta q: [aeronave] . . . § . . . e o documento d contendo avião, mas não contendo “aeronave”
§ Um sistema simples não retornará d para a consulta q. § Mesmo que d seja o documento mais relevante para q! § Queremos mudar isso: § Retornar documentos relevantes mesmo que não haja nenhum termo em comum com a consulta original
5
![Page 6: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/6.jpg)
6
Opção para melhorar o recall
§ Local: Fazer uma análise “local”, sob demanda da consulta do usuário § Principal método: feedback de relevância § Parte 1
§ Global: Fazer uma análise global para produzir um thesaurus § Usar thesaurus para expansão de consultas § Parte 2
6
![Page 7: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/7.jpg)
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
7
![Page 8: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/8.jpg)
8
Feedback de relevância: Ideia básica
§ O usuário realiza uma consulta simples. § O mecanismo de busca retorna um conjunto de documentos.
§ O usuário marca alguns documentos como relevantes e outros como não relevantes.
§ O mecanismo de busca calcula uma nova representação para a necessidade de informação. Espera-‐se que seja melhor do que a inicial.
§ O mecanismo realiza a mesma busca novamente e retorna novos resultados.
§ Novos resultados têm melhor recall 8
![Page 9: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/9.jpg)
9
Feedback de relevância
§ Isso pode ser feito de forma iteraGva: várias rodadas de feedback.
§ Usaremos o termo recuperação ad hoc para nos referir a recuperação sem feedback de relevância
9
![Page 10: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/10.jpg)
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
10
![Page 11: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/11.jpg)
11
Conceito chave para feedback de relevância: Centroíde
§ O centroíde é o centro de massa de um conjunto de pontos.
§ Lembre-‐se que representamos documentos como em um espaço.
§ Portanto: podemos calcular o centroide de um conjunto de documentos.
§ Definição: onde D é um conjunto de documentos e é o vetor que uGlizamos para representar um documento d.
11
![Page 12: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/12.jpg)
12
Centroíde: Exemplo
12
![Page 13: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/13.jpg)
13
§ O algoritmo de Rocchio’ implementa o feedback de relevância em um modelo de espaço vetorial.
§ Ele escolhe a consulta que maximiza a seguinte equação
Dr : conjunto de documentos relevantes; Dnr : conjunto de documentos não relevantes
§ ObjeGvo: qopt é o vetor que separa documentos relevantes de documentos não relevantes de forma máxima
13
Algoritmo de Rocchio’
![Page 14: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/14.jpg)
14
Algoritmo de Rocchio’
14
§ O vetor de consulta óGmo é:
§ Movemos o centroíde dos documentos relevantes pela diferença dos dois centroídes.
![Page 15: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/15.jpg)
15
Calcular o vetor de Rocchio’
círculos: documentos relevantes, Xs: documentos não relevantes
15
![Page 16: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/16.jpg)
16
Algoritmo de Rocchio’ ilustrado
: centroíde dos documentos relevantes
16
![Page 17: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/17.jpg)
17
Algoritmo de Rocchio’ ilustrado
não separa os documentos relevantes dos não relevantes. 17
![Page 18: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/18.jpg)
18
Algoritmo de Rocchio’ ilustrado
centroíde dos documentos não relevantes.
18
![Page 19: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/19.jpg)
19
Algoritmo de Rocchio’ ilustrado
19
![Page 20: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/20.jpg)
20
Algoritmo de Rocchio’ ilustrado
-‐ Diferença entre os dois vetores
20
![Page 21: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/21.jpg)
21
Algoritmo de Rocchio’ ilustrado
Adicionar a diferença ao vetor …
21
![Page 22: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/22.jpg)
22
Algoritmo de Rocchio’ ilustrado
… para obter
22
![Page 23: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/23.jpg)
23
Algoritmo de Rocchio’ ilustrado
separa os documentos relevantes dos não relevantes perfeitamente. 23
![Page 24: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/24.jpg)
24
Algoritmo de Rocchio’ ilustrado
separa os documentos relevantes dos não relevantes perfeitamente. 24
![Page 25: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/25.jpg)
25
Terminologia
§ Usamos o nome Rocchio’ para a versão teórica e mais bem ilustrada do algoritmo.
§ A implementação que é atualmente uGlizada na maioria dos casos é denominada SMART – usaremos o nome Rocchio, sem o ‘ , para esta versão.
25
![Page 26: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/26.jpg)
26
Algoritmo de Rocchio 1971 (SMART)
qm: vetor de consulta modificado; q0: vetor de consulta original; Dr e Dnr : conjuntos de documentos sabidamente relevantes e não relevantes; α, β, e γ: pesos
§ A nova consulta se move em direção aos documentos relevantes e para longe dos documentos não relevantes.
§ Tradeoff entre α e β/γ: se temos muitos documentos julgados queremos uma relação β/γ maior.
26
Usado na práGca:
![Page 27: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/27.jpg)
27
Feedback de relevância PosiGvo vs. negaGvo
§ Feedback posiGvo é mais valioso que feedback negaGvo § Por exemplo, setar β = 0.75 e γ = 0.25 para dar maior peso ao feedback posiGvo.
§ Vários sistemas só permitem feedback posiGvo.
27
![Page 28: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/28.jpg)
28
Suposição sobre o feedback de relevância
§ Quando o feedback de relevância consegue melhorar o recall?
§ Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.
§ Suposição S2: Documentos documentos contém termos similares (permiGndo que o usuário possa “pular” de um documento relevante para outro dando o feedback sobre sua relevância).
28
![Page 29: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/29.jpg)
29
Violação de S1
§ Suposição S1: O usuário conhece os termos na coleção o suficiente para realizar uma consulta inicial.
§ Violação: Desvio entre o vocabulário do usuário e o vocabulário da coleção
§ Exemplo: cosmonauta / astronauta
29
![Page 30: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/30.jpg)
30
Violação de S2
§ Suposição S2: Documentos relevantes são similares. § Exemplo de violação: [contradições políGcas governamentais]
§ Vários “protóGpos“ não relacionados § Subsídios para plantadores de tabaco vs. campanhas anG-‐fumo
§ Ajuda a países em desenvolvimento vs. altos impostos de importação para países em desenvolvimento
§ Feedback de relevância para documentos sobre tabaco não vai ajudar na localização de documentos relevantes sobre países em desenvolvimento.
30
![Page 31: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/31.jpg)
31
Avaliação do feedback de relevância
§ UGlizar uma das métricas de avaliação que vimos na úlGma aula, ex., precisão nos top 10: P@10
§ Calcular P@10 para a consulta original q0 § Calcular P@10 para uma consulta q1 modificada pelo feedback de relevância
§ Na maioria dos casos: q1 é espetacularmente melhor que q0!
§ Esta avaliação seria justa?
31
![Page 32: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/32.jpg)
32
Avaliação do feedback de relevância
§ Uma avaliação justa deve considerar a coleção residual: os documentos ainda não julgados pelo usuário.
§ Estudos mostraram que o feedback de relevância pode ser avaliado dessa maneira com sucesso.
§ Conclusão empírica, uma rodada de feedback de relevância é geralmente muito úGl. Uma segunda rodada tem efeito marginal nos resultados.
32
![Page 33: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/33.jpg)
Agenda
❶ MoGvação
❷ Feedback de relevância: Básico
❸ Feedback de relevância: Detalhes
❹ Expansão de consultas
33
![Page 34: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/34.jpg)
34
Expansão de consulta § Expansão de consulta é uma outra forma de aumentar o recall.
§ Usamos a expressão “expansão de consulta global” para nos referir a “métodos globais para expansão de consultas”.
§ Na expansão de consulta global, as consultas são modificadas com base em algum recurso global, de forma independente da consulta.
§ Principal informação uGlizada: (quasi-‐)sinônimos § Uma base da de dados que armazena (quasi-‐)sinônimos é chamado thesaurus.
§ Veremos dois Gpos de thesauri: criados manualmente e criados automaGcamente. 34
![Page 35: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/35.jpg)
35
Exemplo de Expansão de Consulta
35
![Page 36: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/36.jpg)
36
Tipos de feedback do usuário
§ O usuário dá feedback sobre os documentos. § Mais comum em feedback de relevância
§ O usuário dá feedback em palavras ou frases. § Mais comum em expansão de consultas
36
![Page 37: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/37.jpg)
37
Tipos de expansão de consulta
§ Thesaurus manual (manGdo pelos editores, ex., PubMed) § Thesaurus derivado automaGcamente (ex., baseado em esta�sGcas de co-‐ocorrência)
§ Baseado em mineração de logs de equivalência de consultas (comum na web, como no exemplo do carro)
37
![Page 38: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/38.jpg)
38
Expansão de consultas baseada em thesaurus
§ Para cada termo t da consulta, expandir a consulta com palavras listadas no thesaurus como semanGcamente relacionadas a t.
§ Geralmente aumenta o recall § Pode diminuir significaGvamente a precisão § Usado largamente em ferramentas de busca especializadas para ciências e engenharia
§ É muito caro criar e manter um thesaurus manualmente.
38
![Page 39: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/39.jpg)
39
Exemplo de thesaurus manual: PubMed
39
![Page 40: Feedback de relevância e expansão de consulta](https://reader033.vdocuments.site/reader033/viewer/2022060119/558ebe911a28ab255d8b4604/html5/thumbnails/40.jpg)
40
Thesaurus gerado automaGcamente § TentaGva de gerar um thesaurus automaGcamente analisando a distribuição das palavras nos documentos
§ Noção fundamental: similaridade entre duas palavras § Definição 1: Duas palavras são similares se co-‐ocorrem com palavras similares. § “carro” ≈ “motocicleta” porque ambas ocorrem com “estrada”, “gasolina” e “placa”, então devem ser similares.
§ Definição 2: Duas palavras são similares se ocorrem em uma dada relação gramaGcal com as mesmas palavras. § Você pode plantar, descascar, comer, etc, maçãs e peras, portanto maçãs e peras devem ser similares.
§ Co-‐ocorrência é mais robusta, relação gramaGcal tem maior precisão. 40