aluno: jorge machado ri - 2007 automatic thesaurus generation for an electronic community system...
TRANSCRIPT
Aluno: Jorge Machado RI - 2007
Automatic Thesaurus Generation for an Electronic Community System
Jorge Machado
Recuperação de InformaçãoProf. Pável Calado
Aluno: Jorge Machado RI - 2007
Automatic Thesaurus Generation for an Electronic Community System
• Problema• Trabalho relacionado de Chen e Lynch• Comunidades abordadas no estudo • Overview das Técnicas usadas • Equação de pesos de co-ocorrêcia• Resultados• Avaliação do Thesaurus Gerado
Aluno: Jorge Machado RI - 2007
Problema e Motivação
• Comunidade da Genética– Biologia Molecular
• Constante entrada de novos termos– Information overload – Vocabulário muito extenso
• Grande discrepância entre investigadores novos e experientes– Dificuldades a fazer queires aos sistemas
• Termos iguais para descrever o mesmo
Aluno: Jorge Machado RI - 2007
Problema e Motivação
• Estudo completo do genoma dos Vermes
• Ciência nova sem vocabulários controlados– Necessidade de criação de um
vocabulário
Aluno: Jorge Machado RI - 2007
Exemplos de Vocabulários
• Listas de problemas de automóveis• Comportamentos de portadores de
cartões de crédito• Padrões de erros em linhas de
aviação• Padrões de Fraudes Fiscais• Problemas Clínicos
Aluno: Jorge Machado RI - 2007
O que é então um Thesaurus
• Thesaurus é um nome para definir uma linguagem controlada de indexação dividida por categorias de conhecimento
• É usada por cientistas para indexar e posteriormente pesquisar em bases de informação através de termos co-relacionados
Aluno: Jorge Machado RI - 2007
Requisitos para criação de um Thesaurus
• Colecção de documentos completa• Uma boa função de co-ocurrência• Pesquisa com feedback
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch[Memória Humana]
• Como medir proximidade de ideias???
• Carro e Roda??? São Próximas??– De que ponto de vista??
• Caixa e DVD???– Ponto de vista do DVD– Ponto de vista da caixa
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [Algoritmo do Coseno]
• Consegue medir este tipo de relação?
• …? Não
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [ Algoritmo do Coseno]
• Dado um vector de documentos i• E dois termos j e k• Apenas consegue medir a
frequência com que aparecem juntos.
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [Tabela de presenças para o Coseno]
Documentos com Tj
Documentos com Tk
Comuns Coseno
1 1 1 1
2 2 2 1
2 1 1 ~0, 7
1 2 1 ~0, 7
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [Cluster Assimétrico]
• Tendo em conta o principio de relação de memória humana
Documentos com Tj
Documentos com Tk
Comuns Assimétrico
1 1 1 1
2 2 2 1
2 1 1 0,5
1 2 1 1
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [Cluster Assimétrico de Chen e Lynch]
Aluno: Jorge Machado RI - 2007
Trabalho relacionado de Chen e Lynch [Mais Algoritmos de Pesos]
Fórmula de Medelyan e Witten
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores
• Filtragem de Termos• Indexação• Cluster Analisys
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Filtragem de Termos]
• Colecção Researchers – 4714 docs > 2709 nomes
• Colecção Gene > 1520 Genes • Métodos experimentais > 37 métodos• Subject Descriptors 1048 termos
– Foram usadas todas as entradas do indice de assuntos do livro The Worm Book
– Lista criada por outro investigador da area M. Edgley
Total de 5314 termos
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Filtragem de Termos: exemplos]
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Indexação automática]
• Fazem uso dos procedimentos de Salton (1989)– Identificação de Palavras (ignorar
pontuação e Maiúsculas/Minúsculas)– StopWords (1000)– Stemming (30 regras para sufixos)– Formação de Frases
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Indexação automática: frases]
• Utilização de termos adjacentes para criação de novos termos
• Exemplo• “DAUER LARVA FORMATION”
– Criadas:• DAUER, LARVA e FORMATION• DAUER LARVA• LARVA FORMATION• DAUER LARVA FORMATION
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Fase mais complexa• Atribuição de Pesos aos clusters de
co-ocorrência.– Baseada no Modelo de espaço
vectorial • Ideia é estender o conceito de Chen
e Lynch usando TF.IDF em vez da presença booleana
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Função de peso do Cluster
(Antes)Cluster Assimétrico
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Função de peso do Cluster
(Antes)Cluster Assimétrico
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Função de peso para um termo J num documento I
• A diferença é o wj que é a norma do termo– Exemplo de “Information Retrieval”– Wj = 2
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Função de peso do Cluster
(Antes)Cluster Assimétrico
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis]
• Extensão do cálculo do tf.idf já por sua vez estendido para dois termos
Min {tfij e tfik} Numero de documentos em queAparecem juntos
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis: Função de Peso Final]
Aluno: Jorge Machado RI - 2007
Técnicas Utilizadas pelos autores [Cluster Analysis:Factor]
• Termos que apareciam em muitos sítios
Termos muito genéricos obtém um w. factor
mais baixo
Aluno: Jorge Machado RI - 2007
Resultados
1,708,551 termos co-ocurrentes.
Aluno: Jorge Machado RI - 2007
Resultados
1,708,551 termos co-ocurrentes.
Aluno: Jorge Machado RI - 2007
Resultados [Melhoramentos]
• Aplicados cortes aos Pares.– Escolhidos apenas os 100 primeiros
links• Redução para 709,659
– Aplicados os Thresholds de co-ocurrência• Redução para 7829 conceitos
Aluno: Jorge Machado RI - 2007
Resultados [Links]
Aluno: Jorge Machado RI - 2007
Resultados [Multiplas Fontes vs Uma fonte]
• Foi criado novo thesaurus separando as fontes
– Redução do tempo de processamento uma vez que é O(n2)
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Perguntas chave]
• Vai ajudar a encontrar termos relevantes e melhorar a precision e o recall?
• Qual o melhor thesaurus kb1 ou kb2?
• Quais as novas características e quais as melhorias necessárias?
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências]
• Testadores– Pessoa 1 - gestor de laboratório– Pessoa 2 - estudante de
doutoramento– Pessoa 3 e 4 – novatos, estudante de
mestrado e o outro um sénior mas não graduado.
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências]
• 1º Passo dar à pessoa um termo seleccionado.– Escolhidos 16 termos a partir de genes,
investigadores, assuntos, etc.• Por investigadores experientes
– Era pedido aos Sujeitos para escreverem uma lista de termos que se lembrassem e que fossem relevantes
• Incluindo , genes, métodos, investigadores, etc.– Fornecida a lista e pedido de marcação dos
relevantes, muito relevantes e irrelevantes• Misturados os termos relacionados quer do Kb1 e Kb2 e
colocados por ordem de importância.• Lista de 48
– Alteração aos escritos, apagando
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências:resultados]
• Os sujeitos escreveram comentários que foram analisados posteriormente
• Experiência durou de 1,5 h a 2,5 h
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências]
• Quadro exemplo de selecção de termos relacionados com Ward, Samuel, o director do laboratório no Arizona
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Interface]
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Estatística]
• Para assinalar termos mais relevantes– contados os termos gerados
marcados como relevantes e muito relevantes
– Contados os termos gerados pelos sujeitos
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Estatística, resultados]
• Na generalidade– 8479 termos gerados pelo kb1– 8312 termos gerados pelo kb2– 6177 termos gerados pelos sujeitos
• Experts geraram mais que os novatos– Após uso de ferramenta estatística
para medir variâncias chegou-se à conclusão que não houve grandes diferenças entre KB1 e KB2
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Estatística, resultados]
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Estatística, cálculo]
• Calculo de Precisão e Recall
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Precisão e Recall, cálculo]
• Total de conceitos relevantes– Inicialmente gerados – Marcados como relevantes durante
toda a navegação– Escritos pelos sujeitos
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Recall, resultados]
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Precisão: resultados]
• Fraca do lado dos thesaurusPrincipal motivo o ruído dos termos muito genéricos
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Conclusões]
• os thesaurus tem um melhor recall e uma pior precisão.
• Devem ser usados para consulta e nunca para substituição automática de termos.
• A junção dos dois mundos (Humanos + Thesaurus) trás benefícios à investigação.– Curiosidade - Humanos conseguem ter um
recall histórico muito mais apurado devido ao uso de memória.
Aluno: Jorge Machado RI - 2007
Avaliação do Thesaurus[Experiências: Avaliação Subjectiva]
Problemas relacionados com:
• Stemming, StopWording e Criação de frases • A maioria resultante de erros de OCR• Variantes de nome• Autores altamente importantes relativamente
a certos temas foram excluídos pelo threshold• Termos genéricos demais como FACT• Sugeridos sinónimos• Em certos pontos parece que os termos mais
relevantes foram apontados primeiro
Aluno: Jorge Machado RI - 2007
Conclusões e trabalho futuro
• Resultados bons• Retirar o stemming e as frases• Criar nova lista de stopwords aplicada à
area• Padronização dos nomes dos autores• Actualização incremental do thesaurus• Fazer o mesmo noutras comunidades• Incluir a coordenada Tempo• Consultas múltiplas de thesaurus para
novatos e para especialistas
Aluno: Jorge Machado RI - 2007
QUESTÕES
• ???????????