informaÇÃo - recuperao-da-informao-audiovisual

Exposição sobre os métodos e processos que envolvem a questão da indexação e recuperação textual da informação em imagens ou vídeos tendo como base seu conteúdo visual e sonoro.

O reconhecimento de imagens e sons é um caso particular da área de manipulação e recuperação de informação, em que se colocam grandes desafios relativos ao armazenamento, indexação, formulação de consultas e recuperação de conteúdo semântico.

Recuperação da Informação Audiovisual

Juliano Serra CID-UnB 2004


http://en.wikipedia.org/wiki/Memex



➔ Como alguém encontra uma foto específica em um arquivo que contém milhões de fotografias digitais?➔ Como um jornalista pode encontrar um trecho particular de entrevista diante de uma infinidade de videotapes, que variam de histórico a contemporâneo, de esporte a humorístico?➔ Como identificar o número de vezes que um determinado comercial de televisão passou por dia?

Tradicionalmente, a informação visual tem sido armazenada de forma analógica e indexada manualmente, mas muitos sistemas de base de dados digitais já são utilizados para armazenar imagens, juntamente com seus metadados e taxonomias associados.

Metadados incluem informação bibliográfica, condições de captura ou geração de imagens, parâmetros de compressão, etc.Taxonomia é uma hierarquia de classes subjetivas (povo, natureza, notícias) usada para organizar assuntos de imagens em vários níveis, incluindo classes semânticas (humor, política) e classes visuais (povo, paisagens).



[ http://www.cemnet.ntu.edu.sg/multimediaIndexingGroup/indexingGroup.shtml ]



Existem sérias limitações no uso de indexadores manuais, uma vez que requerem anotação individual (dificultando seu uso em grandes arquivos) e que sofrem influência

tanto do domínio de aplicação, quanto do conhecimento da pessoa que realiza a tarefa.

Sistemas híbridos, com indexação automática e análise de conteúdo supervisionada podem ser a solução mais viável.

Por outro lado, já há grande progresso no desenvolvimento de ferramentas que permitem aos usuários especificarem

consultas de imagens/vídeos através do uso de esboços, seleção de características visuais (cor, textura, forma e

movimento), comparações de exemplos, e determinação de características espaciais e temporais.



http://dmis.cs.fiu.edu/media.html



Quando consideramos seqüências de imagens, o problema de indexação tornase mais difícil, pois envolve a identificação e o entendimento de cenas longas e

complexas para que seja possível obter uma recuperação precisa e eficiente.

Uma aplicação para os indexadores é a navegação dentro do vídeo, caso em que é vantajoso desenvolver sistemas capazes de dividir as seqüencias de imagens em

unidades menores, porém significativas. Também é importante considerar a detecção de determinados eventos marcantes, como o instante que um predador ataca uma presa, a ação eletroquímica em áreas do cérebro, a colisão de veículos

e outros registros de curtíssima duração.

[ Http://www.eng.tau.ac.il/~shiri/mip_lab/video_indexing.htm ]



Os índices devem ser significativos, discriminantes e (re)utilizáveis, uma vez que eles devem estar relacionados com a maneira na qual o usuário faz sua consulta no ambiente real. Neste caso, os índices podem ser classificados com respeito à relação que eles têm com a imagem ou vídeo da seguinte maneira: ∙ metadados independentes do conteúdo são dados que não concernem diretamente ao conteúdo da imagem ou vídeo, mas estão, de alguma maneira, relacionados com este, como o formato da imagem, autoria, data, local, condições de iluminação, etc.; ∙ metadados dependentes do conteúdo são dados que se referem a características consideradas de nível baixo e médio, como cor, textura, forma, esboço, relação espacial, movimento e combinações destes. Para alguns tipos de imagens, como as provenientes de satélites, da biomedicina, tomografia computadorizada, etc., é possível descrever o conteúdo destas em termos da geometria intrínseca e de configurações topológicas; ∙ metadados descritivos do conteúdo são dados que se referem ao conteúdo semântico e que concernem as relações das entidades da imagem com entidades do mundo real ou eventos temporais, emoções e significados associados a sinais visuais e cenas.


Recuperação da Informação AudiovisualMetadados



O conteúdo visual de imagens pode ainda ser classificado em dois tipos principais: ∙ conteúdo primitivo de imagens que se refere aos elementos básicos que compõem a imagem, assim como às características das imagens que podem ser reconhecidas e extraídas automaticamente pelo computador (análise de imagens, reconhecimento de padrões, visão computacional). Conteúdos primitivos são, em geral, de natureza quantitativa; ∙ conteúdo complexo de imagens que se refere aos padrões de uma imagem que são percebidos com significado por humanos. Em geral, eles não podem ser identificados automaticamente por computador e são de natureza qualitativa.

A maior vantagem associada com a indexação de conteúdo primitivo é que sua extração pode ser automática. Entretanto, este conteúdo pode não ser suficientemente rico para uma grande variedade de aplicações, uma vez que tipos de objetos e características significativas que podem ser reconhecidos pela máquina, são ainda limitados. Por outro lado, o conteúdo complexo da imagem é semanticamente rico, mas sua extração e indexação são custosos, uma vez que um envolvimento manual considerável é geralmente necessário.


Recuperação da Informação AudiovisualRecuperação da Informação Audiovisual




[ http://wang.ist.psu.edu/IMAGE/alip.html ]

aLip Automatic Linguistic Indexing of Pictures


Recuperação da Informação Audiovisual Um desafio crucial para a indexação e recuperação de imagens pelo conteúdo está no desenvolvimento de mecanismos automáticos e precisos, mas abrangentes. Uma possibilidade é começar com a extração de conteúdo primitivo e subseqüentemente fazer uso de regras de conhecimento e aprendizado sobre a informação contextual relevante, permitindo uma identificação, ou inferência automática, do conteúdo complexo.


Uma estrutura poderosa de indexação automática pode ser construída, e possibilitar a recuperação baseada em referências semânticas complexas, com o desenvolvimento de uma tecnologia que simula o sistema visual humano.

[ Veggie http://archive.dstc.edu.au/RDU/staff/janehunter/INFOG99/paper.html ]



Para recuperar imagens estáticas usando metadados dependentes do conteúdo (cor, textura, forma e esboço), o paradigma básico da recuperação requer que, para cada imagem, seja préalculado um conjunto de características distintas. As consultas são então expressas como comparações com exemplos visuais. Para começar a consulta, o usuário seleciona as características (e suas faixas de validade) que são relevantes e define uma medida de similaridade. Os exemplos tanto podem ser preparados pelo usuário (com ajuda de uma interface homemmáquina) ou extraídos de imagens em um banco de dados (amostras).

[ http://www.irishscientist.ie/DCUAS125.htm ]


Recuperação da Informação Audiovisual O problema da indexação e a formulação da consulta.




O sistema verifica a similaridade entre o conteúdo da imagem usada na consulta e das imagens da base de dados. Como nem sempre os resultados obtidos em resposta à uma consulta são plenamente satisfatórios, em geral, procurase melhorar este resultado através de uma metodologia onde se mantém o número de perdas o mais baixo possível, às custas de um número mais alto de falsas respostas, permitindose uma forma de interação chamada realimentação por relevância.

A recuperação por similaridade

[ Http://archive.nlm.nih.gov/pubs/long/spiesd2003/spiesd2003.php ]

Podemos ter como base de pesquisa a similaridade de cores, formas e texturas.




Indexação Baseada em Cor [ http://www.elec.qmul.ac.uk/mmv/cbvir.html ]

A cor é uma das características mais utilizadas pelos seres humanos para reconhecimento e discriminação visual. A extração de cores automatizada pelo computador ainda não é capaz de fazer referências ao contexto, o que pode dificultar a identificação entre uma informação de uma cor ou de uma distorção de cor. A aparência de uma cor em objetos do mundo real geralmente é alterada pela textura da superfície, pela iluminação e sombra de outros objetos, e pelas condições de observação e captura.

Em operações de recuperação de informação, este método permite encontrar imagens: ∙ contendo uma cor especificada por meio de proporções aditivas; ∙ cujas cores são similares àquelas de uma imagem exemplo; ∙ contendo regiões coloridas como especificado na consulta; ∙ contendo um objeto conhecido com base nas propriedades de composição espectral.


Juliano Serra CID-UnB 2004[ http://vega.icu.ac.kr/~ivy/ivy_research/nara/image_video_contents_indexing_retrieval.htm ]

A textura é um elemento importante na visão humana, evidenciando em uma cena a profundidade e orientação das superfícies.

A extração de características a partir da textura é considerada como um descritor importante para imagens naturais e por causa de seu uso em pesquisas de imagens em grandes bancos de dados. A textura referese a um padrão visual que tem algumas propriedades de homogeneidade que não resultam simplesmente de uma cor ou intensidade. Uma boa definição para textura é associála a um efeito visual produzido pela distribuição espacial de variações de níveis de cinza sobre pequenas áreas.

Indexação Baseada em Textura

Recuperação da Informação AudiovisualRecuperação da Informação AudiovisualRecuperação da Informação AudiovisualRecuperação da Informação Audiovisual


Indexação Baseada em Forma

Forma é um critério que nos permite identificar projeção bidimensional e a estrutura física dos objetos, . Para aplicações de recuperação, as características da forma podem ser consideradas como sendo globais ou locais. Características globais são propriedades derivadas da forma inteira como simetria, circularidade, localização de eixos, etc. Características locais são aquelas derivadas através do processamento parcial da forma, incluindo tamanho e orientação de segmentos consecutivos de bordas, pontos de curvaturas e ângulos de curvas. As características de forma podem também ser classificadas em parâmetros internos, que descrevem a região envolvida pelo contorno do objeto, e parâmetros externos, que descrevem as bordas externas do objeto.

[ http://www.nhk.or.jp/strl/publica/labnote/lab485.html ]



O vídeo digital é uma apresentação de eventos dinâmicos, que possuem imagens, sons, textos e gráficos. Ferramentas capazes de abstrair o conteúdo dinâmico do vídeo e armazenálo em estruturas de fácil manuseio tornamse cada vez mais necessárias.

Segmentação e Indexação em Vídeo Digital


O problema de segmentacão em vídeo começa na identificação dos limites entre as tomadas em um video. A abordagem clássica para resolver este problema é baseada no cálculo de medidas de dissimilaridade, ou diferenças entre os quadros. Em novas abordagens, a segmentação em vídeo é transformado em um problema de detecção de padrões, onde cada evento de vídeo é visto como padrões em um imagem espaçotemporal 2D, e que constituem um ritmo visual. Nesse caso são utilizadas basicamente ferramentas morfológicas e topológicas com o objetivo de identificar os padrões específicos que são relacionados a eventos do vídeo, como cortes, fades, dissolves, flashing e outros.

http://www.ece.uic.edu/~ds/


Recuperação da Informação AudiovisualRecuperação da Informação AudiovisualRecuperação da Informação Audiovisual

Uma CENA é usualmente composta de um número pequeno de tomadas interrelacionadas que são unificadas pela posição temporal ou características dramáticas similares. Enquanto a tomada representa uma unidade física do vídeo, a cena representa uma unidade semântica do mesmo, possuindo algum significado. O processo de identificação destas unidades é chamado de segmentação do vídeo, sendo obtidos os limites (início e fim) das tomadas e cenas.

A unidade fundamental de um vídeo é a TOMADA, pois captura uma ação contínua a partir de uma única operação da câmera. A tomada representa uma seqüência ininterrupta de quadros gerados pela câmera, podendo haver tanto o movimento da própria câmera, como por exemplo, zoom ou panorâmica, quanto o de objetos da cena.

[ http://www.hhi.fraunhofer.de/german/im/products/Cebit/mpeg7retrieval/mpeg7retrieval.html ]

Fatores de segmentação




Uma cena é um agrupamento de tomadas, que por sua vez são constituídas por seqüências de quadros. Devido à grande quantidade de tomadas e cenas contidas no vídeo, e para facilitar a representação, as tomadas devem ser avaliadas de forma resumida, através de quadros que representam de forma saliente o seu conteúdo, chamados de QUADROSCHAVES.

Detecção de Tomadas


Uma tomada é o que acontece desde o início da gravação até o momento em que ela é interrompida. Técnicas para a detecção dos limites das tomadas podem ser baseadas em agrupamentos dos elementos visuais, em probalidades estatísticas, em histogramas de luminosidade, e em quantização de pixels.

http://www.compapp.dcu.ie/~asmeaton/VideoProjsummary.html




[ http://www.inria.fr/actualites/inedit/inedit18_rega.fr.html ]

QuadrosChaves

Quadroschaves são um ou mais quadros que representam todo o conteúdo de uma tomada da maneira mais precisa possível. Técnicas para a extração de quadroschaves podem ser baseadas em: Limites da tomada – isolamento dos quadros inicial e final. Conteúdo visual – ocorrência de um determinado elemento ouem agrupamentos de elementos distintos.



Recuperação da Informação AudiovisualDetecção de Cenas

Cenas representam unidades semânticas obtidas a partir do agrupamento de tomadas subseqüentes. Esta identificação pode ocorrer, por exemplo, através da similaridade visual e/ou proximidade temporal. A similaridade visual pode ser avaliada através da análise de histograma, de pixel, de estatísticas, de movimento, e de elementos visuais recorrentes. Diferentes abordagens para a análise de uma cena podem ser utilizadas:

∙ baseada em modelos um modelo de uma aplicação (domínio)

particular é primeiro construído. Tais modelos especificam, por

exemplo, as características dos limites da cena. Como esta

abordagem é baseada em modelos de aplicações

específicas,normalmente possui alta precisão.

∙ de propósito geral nenhum modelo de domínio é requerido, o

que torna a identificação menos precisa, porém mais inclusiva e

abrangente. Dessa forma podese analisar com o mesmo

algoritmo, vídeos de características muito diferentes. http://www.davidgmbh.de/Deutsch/content/produkt/dingester.htm



Recuperação da Informação AudiovisualRepresentação do conteúdo visual do vídeo

Métodos estruturados de representação compacta do conteúdo do vídeo têm sido desenvolvidos com objetivo de facilitar o acesso ao vídeo tanto para navegação quanto para a recuperação textual. Existem algumas formas de representação do vídeo, dentre elas, podemos destacar: 1. grafo de transição de cena (STG) é um gráfico extraído automaticamente a partir do conteúdo visual e da informação temporal do vídeo representado, sem conhecimento específico do conteúdo e estrutura do vídeo. Os nodos do grafo representam grupos de tomadas similares enquanto que suas arestas indicam o fluxo temporal da estória. 2. tabela de conteúdo (TOC) tem o papel desempenhado pela tabela de conteúdo em livros, onde a navegação e a busca são extremamente facilitadas. Em um primeiro instante, devese determinar qual é a unidade básica para ser indexada pela tabela de conteúdo. Uma vez identificadas as ocorrências dessa unidade, criase então um índice temporal.



O reconhecimento da fala consiste em identificar fonemas, sílabas e palavras para recuperar uma mensagem de voz e geralmente acontece em três etapas:1 – aquisição do sinal de voz – transformação do sinal mecânico em sinal elétrico feita por microfones conectados a uma placa de captura de som.2 – extração paramétrica – filtragem,quantização e preparação do sinal digital, através de softwares de tratamento de sons.3 – reconhecimento de padrões – técnicas de processamento digital de sinais são usados para realizar a representação matemática discreta de sinais contínuos que variam com o tempo e com a frequëncia. Codificação Preditiva Linear – baseados na diferença entre os tipos de sons.Modelo de Mistura Gaussiano – baseiase em classes vocais individualizadas.Transformada Rápida de Fourier(FFT) – modelagem do sinal de palavras isoladas.

Reconhecimento e representação do conteúdo sonoro




http://www.audiblemagic.com

Detecção de fala e ruídos




[ http://www.nue.tuberlin.de/forschung/projekte/mpeg7/RHV.html ]

Recuperação de conteúdo com MPEG7

Resultado da busca por “wasser”

Banco de filmes




Lógica Nebulosa

Também chamada fuzzy, é um algoritmo que permite simular um aspecto do raciocínio humano, que é a

habilidade de tomar decisões racionais em condições de incerteza e imprecisão. Os conceitos básicos são:● Conjuntos nebulosos um conjunto A pertencente a um universo X é denominado conjunto nebuloso, se x

pertence a A, e x é membro do conjunto A com um determinado grau de pertinência u(x);● Grau de pertinência o grau de pertinência de um elemento x, denotado por u(x), em um conjunto nebuloso

A, compreende um valor numérico que estabelece o quanto esse elemento pertence ou não a esse conjunto;● Função de pertinência é a função que estabelece o grau de pertinência de um elemento x em um conjunto

nebuloso A, e possui sua imagem no intervalo [0,1];● Relação de similaridade compreende o cálculo da similaridade entre elementos de um mesmo domínio.● Tabela de similaridade é uma tabela cujos valores apresentam a relação de similaridade entre todos os

elementos de um mesmo domínio.

Após a análise discreta, a recuperação textual da informação sonora e visual finalmente pode ser realizado por meio de várias técnicas de inteligência artificial. Citaremos as redes neurais, os modelos Hidden Markov e os da lógica difusa.




Modelos de Markov são representações utilizadas para se modelar um sinal através de uma seqüência de

observações. Em uma Cadeia de Markov supõese uma fonte gerando tais saídas observáveis, denominada de

Fonte de Markov. Os símbolos gerados a partir dessa fonte são dependentes apenas de observações anteriores,

as quais foram geradas da mesma forma e assim sucessivamente. O número de seqüências anteriores

consideradas para gerar uma saída é conhecido como ordem da Cadeia de Markov. Cada estado de uma Cadeia

de Markov representa uma observação/símbolo de um evento físico correspondente, o que proporciona computar a

partir de uma dada seqüência de símbolos quais foram os estados que geraram tal seqüência.

Em um Modelo Escondido de Markov (MEM) cada estado representa uma probabilidade sobre todos os símbolos,

por isso a denominação “escondido” pois é o conjunto dos símbolos que está representado. A estrutura restante

do modelo é a mesma de uma Cadeia de Markov. Um MEM, portanto, possibilita computar a seqüência de estados

com maior probabilidade de ter gerado o conjunto observada de símbolos.

Modelos escondidos de Markov

São uma classe de modelagem de prognóstico realizado por repetidos ajustes de parâmetros. A rede neural

consiste em um número de elementos interconectados e organizados em camadas, que “aprendem” pela

modificação da conexão, (re)criando os vínculos dinâmicos entre as diversas camadas.

Redes Neurais




[ www.cs.uvm.edu/~xqzhu/ videodatamining.htm ]Department of Computer Science University of Vermont

Videodataminig



Recuperação da Informação AudiovisualRecuperação da Informação AudiovisualRecuperação da Informação AudiovisualProjeto Informedia




[ http://www.informedia.cs.cmu.edu/dli2/ ]

Projeto Informedia




http://www.infotech.oulu.fi/Annual/2002/pics/




Http://www.research.ibm.com/journal/sj/353/sectiona/picard.html

FourEyes: learning from user interaction




Bibliografia:Recuperação de Informação com Base no Conteúdo Visual Silvio Jamil Ferzoli Guimarães Arnaldo de Albuquerque Araújo Núcleo de Processamento Digital de Imagens NPDI Universidade Federal de Minas Gerais UFMGEstratégia para Recuperação de Mídias em um Banco de Dados Multimídia utilizando Lógica Nebulosa MARCOS RODRIGUES VIEIRA e MAURO BIAJIZ Departamento de Computação UFSCar Universidade Federal de São Carlos Identificação de transições em vídeo baseada na análise de imagens 2D Silvio Jamil Ferzoli Guimarães Departamento de Ciência da Computação DCC Universidade Federal de Minas GeraisVideo Mining Edited by AZRIEL ROSENFELD University of Maryland, College Park

Autor:Professor Juliano Serra [email protected]


informaÇÃo - recuperao-da-informao-audiovisual

Documents