indexação e busca baseada em metadados em um sistema p2p híbrido
TRANSCRIPT
Indexação e busca baseada em metadados em um sistema P2P Híbrido
Centro de InformáticaUniversidade Federal de Pernambuco
Marco André Santos [email protected]
2
Agenda● Indexação e Buscas● Metadados● Trabalhos Relacionados● Proposta● Análise Comparativa
3
Indexação e Buscas
4
Metadados
● ID● Nome● Tamanho (Kb)● Path● Datas de criação, indexação, modificação● Interesses do usuário● Categoria● Conteúdo
5
Trabalhos Relacionados
6
Trabalhos Relacionados● Sixearch
– Composto por muito componentes:– Crawler– Sistema para Indexação – Mecanismo de Recuperação– Sistema de aprendizado baseado em
contexto● Index local, aggregated, em clustering)
7
Trabalhos Relacionados● Minerva
– Cada peer descobre e indexa seus arquivos
– Envia um conjunto de metadados baseado em termos para um index global
– Possui um index local e global (2-steps)
8
Trabalhos Relacionados● eSearch
– Indexação baseado em palavras-chave
– Possui peer divididos por palavras-chave para armazenar o index
– Index local e global
– Local: documento X contêm os termos a, b
– Global: termos a está nos documentos X, Z
9
Proposta● Indexação
– Extrair o conteúdo (Apache Tika)– Extrair metadados– Indexar (Lucene)– Local– SearchServer
● Busca– Local– Global– Distribuída
10
Análise Comparativa
●Cenário 1● Index local, global, distribuído
11
Análise Comparativa
●Cenário 1● Index local, global, distribuído
12
Análise Comparativa
● Cenário 1
– Index local, global, distribuído– Vantagens
● A busca sempre retornará resultados● SearhServer ON => index completo
– Desvantagens● Dupla indexação● Maior quantidade de mensagens● Sobrecarga do SearchServer● Busca distribuída => Flood
13
Análise Comparativa
●Cenário 2● Index global
14
Análise Comparativa● Cenário 2
– Index global
– Vantagens● Única indexação● Menor qnt. de mensagens● SearhServer ON => index completo
– Desvantagens● Sobrecarga do SearchServer● A busca pode NÃO retorna resultados
(SearchServer => OFF)
15
Análise Comparativa
●Cenário 3● Index local / distribuído
16
Análise Comparativa
● Cenário 3– Index local / distribuído
– Vantagens● Única indexação● Menor qnt. de mensagens para indexar
– Desvantagens● A busca só retorna resultados do peers
online● Não possui um index completo
17
Obrigado!