modelos de recuperação de informação eveline alonso veloso puc-minas
TRANSCRIPT
Modelos de Recuperação de Informação
Eveline Alonso VelosoPUC-MINAS
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.
Indexação
Sistemas de recuperação de informação tradicionais; utilizam termos de
indexação para; representar; e posteriormente recuperar
documentos.
Indexação termo de indexação:
palavra-chave ou grupo de palavras relacionadas;
que possui(possuem) algum significado.
Seu significado ajuda a identificar;
os principais temas tratados pelos documentos onde o termo aparece.
Recuperação de Informação
Recuperação baseada em termos de indexação é simples; porém apresenta algumas
questões relacionadas com a tarefa de recuperação de informação.
Recuperação de Informação – Dificuldades Recuperação de informação
utilizando termos de indexação adota como base fundamental a idéia de que; a semântica de documentos e da
necessidade de informação do usuário;
pode naturalmente ser expressa através de um conjunto de termos de indexação.
Recuperação de Informação – Dificuldades Claramente essa é uma
simplificação do problema de recuperação de informação; porque muita da semântica do
documento e da necessidade de informação do usuário;
é perdida quando os representamos por um conjunto de termos.
Recuperação de Informação – Dificuldades Encontrar documentos que atendam à
consulta do usuário; é uma tarefa difícil em um espaço
impreciso de termos de indexação. Além disso, a maioria dos usuários não
tem nenhum treinamento em como formular apropriadamente sua consulta.
Em conseqüência, freqüentemente são retornados documentos não relevantes; em resposta a uma consulta expressa por
um conjunto de palavras-chave.
Ordenação de Documentos Problema central relacionado à
recuperação de informação; determinar quais são os
documentos relevantes; e aqueles que não são; para uma determinada consulta.
Esse problema é tratado por um mecanismo de ranking; que estabelece uma ordenação
entre os documentos recuperados.
Ordenação de Documentos Documentos que aparecem no
topo da lista de documentos retornados; são considerados como tendo
maior chance de serem mais relevantes para o usuário.
Mecanismos de ordenação; são o núcleo de um sistema de
recuperação de informação.
O Processo de Recuperação de Informação
* Figura adaptada de BAEZA-YATES & RIBEIRO-NETO
necessidade de informação
documentos recuperados e ranqueados
consulta
Coleta
Operações sobre a consulta
Busca
Ordenação
ColeçãoIndexação
Índice
Operações sobre o texto
documento
Modelos de Recuperação de Informação Um mecanismo de ordenação, ou
ranking; opera de acordo com um conjunto de
premissas; relacionadas com a idéia de relevância do
documento. Conjuntos distintos de premissas;
relacionadas com uma medida da relevância do documento;
estabelecem diferentes modelos de recuperação de informação.
Modelos de Recuperação de Informação
O modelo de recuperação de informação adotado pelo sistema; determina a idéia utilizada no
sistema para considerar um documento relevante ou não para uma consulta.
Taxonomia dos Modelos de Recuperação de InformaçãoTare
fa d
o
Usu
ári
o BuscaFiltragem
Navegação
Modelos Estruturais
Navegação
Modelos Clássicos
Taxonomia dos Modelos de Recuperação de Informação
Modelos ClássicosBooleanoVetorialProbabilístico
Teoria de ConjuntosFuzzyBooleano EstendidoAlgébricosIndexação por Semântica LatenteVetorial Generalizado
Teoria de ProbabilidadesRedes de InferênciaRedes de Crenças
Taxonomia dos Modelos de Recuperação de Informação
Modelos EstruturaisNodos PróximosListas que não se Sobrepõem
Taxonomia dos Modelos de Recuperação de Informação
NavegaçãoFlatGuiado por EstruturaHipertexto
Caracterização Formal de Modelos de Recuperação de Informação
D: conjunto de documentos; coleção.
dj: cada um dos diversos
documentos da coleção.
Q: conjunto composto de
representações das necessidades de informação dos usuários;
conjunto de consultas. qi:
cada uma das consultas desse conjunto.
Caracterização Formal de Modelos de Recuperação de Informação
F: um arcabouço para
representação de: documentos; consultas; e suas relações.
Esse arcabouço está relacionado com a forma como a função de ranking será construída.
Caracterização Formal de Modelos de Recuperação de Informação
R(qi, dj): função de ranking que associa
um número real a cada par qi Q e dj D.
Essa função de ranking define uma ordenação entre os documentos com relação a uma consulta qi.
Caracterização Formal de Modelos de Recuperação de Informação