texto e linguagens multimédia e propriedades bibliotecas digitais engenharia biomédica...
TRANSCRIPT
Texto e Linguagens Multimédia e Propriedades
Bibliotecas Digitais Engenharia BiomédicaUniversidade do Minho
Instructor: Joaquim Macedo
Baseada em apresentações de Berthier Ribeiro-Neto
Modern Information Retrieval
Cap. 06: Text and Multimedia Languages and Properties (Introduction, Metadata
and Text) 6.1, 6.2, 6.3
Introdução
• Texto – Forma principal de transmissão de conhecimento.
• Documento– Definido de forma vaga, referencia uma única
unidade de informação– Pode ser qualquer unidade física
• um ficheiro• um email• Uma página Web
Introdução
• Documento– Sintaxe e Estrutura– Semântica– Informação acerca de si próprio
Introdução
• Sintaxe do Documento– Implícita, ou expressa numa linguagem (i.e., TeX)– Linguagens potentes: fácil de reconhecer (parsing), difícil de
converter para outros formatos.– As Linguagens normalizadas são melhores (intercâmbio)– A semântica dos textos em linguagem natural não são
facilmente compreensíveis para computadores– Tendência: linguagens que disponibilizem informação sobre
a estrutura, formato e semântica legível para computadores e humanos.
Introdução
• As novas aplicações estão a a conduzir para formatos em que a informação seja representada independentemente do estilo
• Estilo: definido pelo autor, mas o leitor pode pode decidir uma parte
• O estilo pode incluir tratamento doutros média
Metadata• “Dados acerca dos dados”
– i.e: num SGBD, o esquema especifica o nome das relações, atributos, domínios, etc...
• Metadata descritiva– Autor, fonte, comprimento– Conjuntos de elementos da Metadata do Dublin Core
• Metada semântica– Caracteriza o assunto tratado pelo conteúdo do documento– MEDLINE
Metadata• MARC
100 0020 1 $aHagler, Ronald.245 0074 14$aThe bibliographic...250 0012 $a3rd. Ed.260 0052 $aChicago :$bALA, $c1997
Metadata• Informação de Metadata nos documentos Web
– Catalogação, Avaliação do conteúdo(content rating), Direitos de autor, assinaturas digitais
• Nova norma: Resource Description Framework– Descripção dos recursos Web para facilitar o processamento
automático da informação– Nós e pares atributo/valor associados
• Meta descripção dos objectos não textuais– Palavra chave pode ser usada para busca de objectos
Metadata• Exemplo RDF
<RDF:RDF>
<RDF:Description RDF:HREF = “page.html”> <DC:Creator> John Smith </DC:Creator> <DC:Title> John’s Home Page </DC:Title> </RDF:Description>
</RDF:RDF>
Metadata• Exemplo de Esquema RDF
Texto• Codificação de Texto em bits
– EBCDIC, ASCII• Inicialmente, 7 bits. Mais tarde , 8 bits
– Unicode• 16 bits, para suporte das línguas orientais
Texto• Formatos
– Não existe um formato único– Um sistema de RI deve recolher informação em
diferentes formatos– No passado: Sistemas de RI convertem documentos– Actualmente: Sistemas de RI usam filtros
Texto• Formatos
– Formatos para intercâmbio de documentos (RTF)– Formatos para visualização (PDF, PostScript)– Formatos para codificação de email (MIME)– Ficheiros compactados
• uuencode/uudecode, binhex, zip, gzip
Texto• Teoria da informação
– A quantidade de informação está relacionada com a distribuição de símbolos no documento.
– Entropia:
– A definição da entropia depende da probabilidade de cada símbolo.
– Os modelos de texto são usados para obter essas probabilidades
ii
i ppE 21
log
Texto• Exemplo de entropia
– 001001011011
121log
21
21log
21
22
E
Texto• Exemplo de entropia
– 111111111111
01log10log0 22 E
Texto• Modelos da Linguagem Natural
– Símbolos: separam palavras ou pertencem a palavras
– Os símbolos não estão uniformemente distribuídos• Modelo binomial • Dependência de símbolos prévios
– Modelo de Markov de ordem k
– Podemos considerar palavras como símbolos
Texto• Modelos para Linguagem Natural
– Distribuição das palavras no interior dos documentos– Lei de Zipf: A iésima palavra mais frequente aparece 1/i vezes do
que a palavra mais frequente.
– Dados experimentais conduzem a um valor de entre 1.5 e 2.0
V
jV
V
jH
Hin
1
1)(
))(/(
Texto• Modelos para Linguagem Natural
– Exemplo – distribuição das palavras (Lei de Zipf)• V=1000, = 2• Palavra mais frequente: n=300 • 2ª palavra mais frequente: n=76• 3ª palavra mais frequente : n=33• 4ª palavra mais frequente : n=19
Texto• Modelos para Linguagem Natural
– Stopwords: poucas palavras cobrem 50% texto– Distribuição de palavras nos documentos
• Distribuição binomial
• Distribuição de Poisson
kk ppkkkF
)1(1)(
Texto• Modelos para Linguagem Natural
– Número de palavras distintas– Lei de Heaps:– Conjunto de palavras diferentes é fixada por uma
constante, mas o limite é bastante elevado.
KnV
Texto• Modelos para Linguagem Natural
– Exemplo da Lei de Heaps• k entre 10 e 100, é menor que 1• exemplo: n=400000, = 0.5
– K=25, V=15811– K=35, V=22135
Texto• Modelos para Linguagem Natural
– Tamanho das palavras• Define o espaço total necessário para o vocabulário
– Lei de Heaps: comprimento aumenta logaritmicamente com o tamanho do texto
– Na prática é usado um modelo de estados finito• O espaço tem p=0.2• O espaço não pode aparecer duas vezes subsequentes• Há 26 letras
Texto• Modelos de Similaridade
– Função Distância• Deve ser simétrica e satisfazer a desigualdade do
triângulo– Distância de Hamming
• Número de posições com caracteres diferentes reverse receive
Texto• Modelos de Similaridade
– Distância de Edição (Levenshtein) • Mínimo número de operações necessárias para tornar iguais as strings
survey surgery
• Modelação superior de erros sintácticos• Extensões: pesos, transposições, etc..
Texto• Modelos de Similaridade
– Maior subsequência comum (LCS) survey - surgery LCS: surey
– Documentos: linhas como símbolos (diff no Unix)• Demora tempo• Linhas similares
– Fingerprints– Ferramentas visuais
Conclusões• O Texto é a forma principal de comunicação de
conhecimento• Os documentos têm sintaxe, estrutura e semântica• Metadados: informação sobre os dados• Formatos de texto• Modelos de Linguagem Natural
– Entropia– Distribuição de símbolos
• Similaridade