texto e linguagens multimédia e propriedades bibliotecas digitais engenharia biomédica...

Texto e Linguagens Multimédia e Propriedades

Bibliotecas Digitais Engenharia BiomédicaUniversidade do Minho

Instructor: Joaquim Macedo

Baseada em apresentações de Berthier Ribeiro-Neto

Modern Information Retrieval

Cap. 06: Text and Multimedia Languages and Properties (Introduction, Metadata

and Text) 6.1, 6.2, 6.3

Introdução

• Texto – Forma principal de transmissão de conhecimento.

• Documento– Definido de forma vaga, referencia uma única

unidade de informação– Pode ser qualquer unidade física

• um ficheiro• um email• Uma página Web

Introdução

• Documento– Sintaxe e Estrutura– Semântica– Informação acerca de si próprio

Introdução

• Sintaxe do Documento– Implícita, ou expressa numa linguagem (i.e., TeX)– Linguagens potentes: fácil de reconhecer (parsing), difícil de

converter para outros formatos.– As Linguagens normalizadas são melhores (intercâmbio)– A semântica dos textos em linguagem natural não são

facilmente compreensíveis para computadores– Tendência: linguagens que disponibilizem informação sobre

a estrutura, formato e semântica legível para computadores e humanos.

Introdução

• As novas aplicações estão a a conduzir para formatos em que a informação seja representada independentemente do estilo

• Estilo: definido pelo autor, mas o leitor pode pode decidir uma parte

• O estilo pode incluir tratamento doutros média

Metadata• “Dados acerca dos dados”

– i.e: num SGBD, o esquema especifica o nome das relações, atributos, domínios, etc...

• Metadata descritiva– Autor, fonte, comprimento– Conjuntos de elementos da Metadata do Dublin Core

• Metada semântica– Caracteriza o assunto tratado pelo conteúdo do documento– MEDLINE

Metadata• MARC

100 0020 1 $aHagler, Ronald.245 0074 14$aThe bibliographic...250 0012 $a3rd. Ed.260 0052 $aChicago :$bALA, $c1997

Metadata• Informação de Metadata nos documentos Web

– Catalogação, Avaliação do conteúdo(content rating), Direitos de autor, assinaturas digitais

• Nova norma: Resource Description Framework– Descripção dos recursos Web para facilitar o processamento

automático da informação– Nós e pares atributo/valor associados

• Meta descripção dos objectos não textuais– Palavra chave pode ser usada para busca de objectos

Metadata• Exemplo RDF

<RDF:RDF>

<RDF:Description RDF:HREF = “page.html”> <DC:Creator> John Smith </DC:Creator> <DC:Title> John’s Home Page </DC:Title> </RDF:Description>

</RDF:RDF>

Metadata• Exemplo de Esquema RDF

Texto• Codificação de Texto em bits

– EBCDIC, ASCII• Inicialmente, 7 bits. Mais tarde , 8 bits

– Unicode• 16 bits, para suporte das línguas orientais

Texto• Formatos

– Não existe um formato único– Um sistema de RI deve recolher informação em

diferentes formatos– No passado: Sistemas de RI convertem documentos– Actualmente: Sistemas de RI usam filtros

Texto• Formatos

– Formatos para intercâmbio de documentos (RTF)– Formatos para visualização (PDF, PostScript)– Formatos para codificação de email (MIME)– Ficheiros compactados

• uuencode/uudecode, binhex, zip, gzip

Texto• Teoria da informação

– A quantidade de informação está relacionada com a distribuição de símbolos no documento.

– Entropia:

– A definição da entropia depende da probabilidade de cada símbolo.

– Os modelos de texto são usados para obter essas probabilidades

ii

i ppE 21

log

Texto• Exemplo de entropia

– 001001011011

121log

21

21log

21

22

E

Texto• Exemplo de entropia

– 111111111111

01log10log0 22 E

Texto• Modelos da Linguagem Natural

– Símbolos: separam palavras ou pertencem a palavras

– Os símbolos não estão uniformemente distribuídos• Modelo binomial • Dependência de símbolos prévios

– Modelo de Markov de ordem k

– Podemos considerar palavras como símbolos

Texto• Modelos para Linguagem Natural

– Distribuição das palavras no interior dos documentos– Lei de Zipf: A iésima palavra mais frequente aparece 1/i vezes do

que a palavra mais frequente.

– Dados experimentais conduzem a um valor de entre 1.5 e 2.0

V

jV

V

jH

Hin

1

1)(

))(/(


– Exemplo – distribuição das palavras (Lei de Zipf)• V=1000, = 2• Palavra mais frequente: n=300 • 2ª palavra mais frequente: n=76• 3ª palavra mais frequente : n=33• 4ª palavra mais frequente : n=19


– Stopwords: poucas palavras cobrem 50% texto– Distribuição de palavras nos documentos

• Distribuição binomial

• Distribuição de Poisson

kk ppkkkF

)1(1)(


– Número de palavras distintas– Lei de Heaps:– Conjunto de palavras diferentes é fixada por uma

constante, mas o limite é bastante elevado.

KnV


– Exemplo da Lei de Heaps• k entre 10 e 100, é menor que 1• exemplo: n=400000, = 0.5

– K=25, V=15811– K=35, V=22135


– Tamanho das palavras• Define o espaço total necessário para o vocabulário

– Lei de Heaps: comprimento aumenta logaritmicamente com o tamanho do texto

– Na prática é usado um modelo de estados finito• O espaço tem p=0.2• O espaço não pode aparecer duas vezes subsequentes• Há 26 letras

Texto• Modelos de Similaridade

– Função Distância• Deve ser simétrica e satisfazer a desigualdade do

triângulo– Distância de Hamming

• Número de posições com caracteres diferentes reverse receive


– Distância de Edição (Levenshtein) • Mínimo número de operações necessárias para tornar iguais as strings

survey surgery

• Modelação superior de erros sintácticos• Extensões: pesos, transposições, etc..


– Maior subsequência comum (LCS) survey - surgery LCS: surey

– Documentos: linhas como símbolos (diff no Unix)• Demora tempo• Linhas similares

– Fingerprints– Ferramentas visuais

Conclusões• O Texto é a forma principal de comunicação de

conhecimento• Os documentos têm sintaxe, estrutura e semântica• Metadados: informação sobre os dados• Formatos de texto• Modelos de Linguagem Natural

– Entropia– Distribuição de símbolos

• Similaridade

texto e linguagens multimédia e propriedades bibliotecas digitais engenharia biomédica...

Documents