operações sobre as consultas eveline alonso veloso puc-minas
TRANSCRIPT
Operações sobre as Consultas
Eveline Alonso VelosoPUC-MINAS
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 5.
Motivação Usuários comuns de sistemas de
recuperação de informação não possuem conhecimento detalhado; sobre a coleção de documentos que
serão recuperados; nem sobre a estratégia de busca
utilizada pelo sistema. Conseqüência:
a maioria dos usuários encontra dificuldades para formular consultas adequadas;
para fins de recuperação de informação.
Motivação
Em máquinas de busca disponíveis atualmente na Web; em geral, usuários gastam muito
tempo reformulando suas consultas diversas vezes;
até conseguirem recuperar eficazmente documentos relevantes para sua necessidade de informação.
Motivação
Esta dificuldade sugere que: a primeira consulta formulada
pelo usuário deve ser tratada como uma tentativa inicial;
que precisa ser aprimorada.
Abordagens para Expansão da Consulta
Abordagens mais comumente utilizadas para expandir a consulta original do usuário:
realimentação de relevantes;
expansão global;
expansão local.
Realimentação de Relevantes
Estratégia mais popular
de reformulação de
consultas.
Realimentação de Relevantes – Procedimento
A partir da consulta original; formulada pelo usuário do sistema de
recuperação de informação; um conjunto de documentos é recuperado.
O usuário então inspeciona este conjunto de documentos recuperados; a procura de documentos relevantes.
Na prática, apenas os primeiros documentos melhor ranqueados precisam ser inspecionados pelo usuário.
Realimentação de Relevantes – Procedimento Após esta inspeção, o usuário
marca os documentos que ele considerou relevantes.
O sistema então seleciona bons descritores para os documentos marcados pelo usuário. Em geral, são selecionados como
descritores do documento; os termos que possuem alto tf x idf
para o documento.
Realimentação de Relevantes – Procedimento
O sistema reformula a consulta original do usuário; com base nos termos identificados
como bons descritores dos documentos selecionados pelo usuário;
e processa esta nova consulta. A expectativa é que a resposta
desta nova consulta; seja melhor do que a resposta obtida
para a consulta original.
Realimentação de Relevantes – Idéia Fundamental
Os documentos conhecidamente relevantes; ou seja, aqueles que foram
indicados pelo usuário como relevantes;
possuem termos que podem ser utilizados para descrever um conjunto maior de documentos relevantes.
Realimentação de Relevantes – Vantagens
O usuário não precisa explicitamente reformular sua consulta. Ele só precisa indicar os
documentos que ele considerou relevantes.
É uma estratégia interativa de expansão de consulta.
Realimentação de Relevantes – Exemplo
Estratégias de Expansão Global e Local
Expandem a consulta original formulada pelo usuário; tentando obter uma melhor
descrição do conjunto de documentos relevantes;
sem a intervenção do usuário.
Estratégias de Expansão Global e Local
Para esta expansão pode-se utilizar: um tesauros construído
manualmente; estruturas semelhantes a
tesauros; construídas automaticamente.
Tesauros São ferramentas de vocabulário
específicas para um domínio do conhecimento; construídas por especialistas para
representar conceitos de tal domínio; e especificar seus relacionamentos.
Os termos do vocabulário da coleção são tratados como conceitos; e o tesauros é visto como uma estrutura
de relação conceitual.
Tesauros – Relacionamentos
Os relacionamentos entre conceitos mais comumente representados em um tesauros são: equivalência; hierarquia; associatividade.
Tesauros – Exemplo
laranja TG1 fruta TE1 laranja bahia TE1 laranja pêra TR laranjeira
Estruturas Semelhantes a Tesauros Todos os documentos da coleção, e
os termos de seu vocabulário, podem ser utilizados para construir uma estrutura semelhante a um tesauros; que define as relações entre os termos
do vocabulário da coleção. Podem ser considerados termos
relacionados: sinônimos; variações sintáticas; etc.
Expansão Global
Expansão baseada em
informação global; derivada de toda a coleção
de documentos.
Expansão Global – Procedimento Verifica-se;
com a utilização de um tesauros ou de uma estrutura semelhante;
todos os termos semelhantes àqueles empregados na consulta original formulada pelo usuário.
A consulta original é expandida; utilizando-se todos os termos
semelhantes aos termos presentes nesta consulta original.
A consulta expandida é processada; e seu resultado é apresentado ao usuário.
Expansão Local
Expansão baseada em
informações derivadas; do conjunto de documentos
inicialmente recuperados.
Expansão Local – Procedimento Inicialmente, processa-se a consulta
originalmente formulada pelo usuário.
Os documentos recuperados para esta consulta são examinados automaticamente; durante o processamento da consulta; para a determinação dos termos que
serão utilizados para a expansão da consulta original.
Assim, esta estratégia opera apenas sobre os documentos recuperados para a consulta original do usuário.
Expansão Local – Procedimento Verifica-se;
com a utilização de um tesauros ou de uma estrutura semelhante;
todos os termos semelhantes àqueles empregados na consulta original formulada pelo usuário;
que estão presentes em algum documento originalmente recuperado.
A consulta original é expandida; com a utilização destes termos.
Pode-se considerar somente os primeiros documentos recuperados para a consulta original.
Expansão Local – Desvantagem
É necessário acessar o texto dos documentos recuperados para a consulta original do usuário; o que pode afetar muito o
tempo de resposta do sistema de recuperação de informação.
Exercício 1 – Coleção Considere a seguinte coleção de
documentos: d1: Domicílio eleitoral. Zona eleitoral.
d2: Título de eleitor. Eleitor.
Domicílio eleitoral. d3: Voto. Título de eleitor.
d4: Eleição. Voto.
d5: Eleição. Direito de votar.
Exercício 1 – Tesauros
Termo TR TR
Eleitor Direito de votar Domicílio eleitoral
Título de eleitor Eleição
Direito de votar Eleitor
Domicílio eleitoral
Eleitor Zona eleitoral
Título de eleitor Eleitor Voto
Eleição Eleitor Voto
Voto Eleição Título de eleitor
Zona eleitoral Domicílio eleitoral
Considere também o seguinte trecho extraído do Tesauros Jurídico do Conselho de Justiça Federal:
Exercício 1 – Consulta
Mostre como um sistema de recuperação de informação que utiliza o modelo Booleano processa a consulta q1 = eleitor: utilizando a estratégia de
expansão global da consulta; utilizando a estratégia de
expansão local da consulta.
Exercício 2 – Consulta Mostre agora como este
mesmo sistema de recuperação de informação processa a consulta q2 = eleição: utilizando a estratégia de
expansão global da consulta; utilizando a estratégia de
expansão local da consulta.
Exercício 3 – Coleção Considere a seguinte coleção de
documentos: d1: Crime contra o meio ambiente.
Poluição. Dano ecológico. d2: Floresta. Instituto Brasileiro de
Defesa Florestal. d3: Meio ambiente.
d4: Desmatamento: dano ecológico.
d5: Poluição.
Exercício 3 – Tesauros Considere também o seguinte trecho extraído do Tesauros Jurídico do Conselho de Justiça Federal:
Termo TR TRDano ecológico PoluiçãoCrime contra o meio ambiente
Dano ecológico Meio ambiente desmatamentoDesmatamento Dano ecológico FlorestaCrime contra o meio ambiente Poluição Meio ambienteInstituto Brasileiro de Defesa Florestal Floresta
Floresta DesmatamentoInstituto Brasileiro de Defesa Florestal
PoluiçãoCrime contra o meio ambiente Meio ambiente
Meio ambiente
Exercício 3 – Consulta Mostre como um sistema de
recuperação de informação que utiliza o modelo Booleano processa a consulta q3 = desmatamento: utilizando a estratégia de
expansão global da consulta; utilizando a estratégia de
expansão local da consulta.
Exercício 4 – Consulta Mostre agora como este
mesmo sistema de recuperação de informação processa a consulta q4 = poluição: utilizando a estratégia de
expansão global da consulta; utilizando a estratégia de
expansão local da consulta.