clase magistral marcos zúñiga

SinopsisAspectos GeneralesEstructura General

Trabajo FuturoReferencias

Analisis Automatico de Video

Marcos Zuniga Barraza

Departamento de Telematica

26 de Marzo 2009

1/40



Sinopsis

1 Aspectos Generales del Analisis de VideoMotivacionAplicaciones

2 Estructura General de una Aplicacion de Analisis de VideoSegmentacion de MovimientoModelamiento y Clasificacion de ObjetosSeguimiento de ObjetosReconocimiento y Aprendizaje de Eventos

3 Trabajo Futuro

2/40



MotivacionAplicaciones

Aspectos Generales del Analisis de Video

Vision por Computador (Computer Vision)

Area de la Inteligencia Artificial centrada en el procesamiento yanalisis de la informacion obtenida a traves medios visuales.

Medios visuales: imagenes, secuencias de video, scanners.

Analisis Automatico de Video

Area de la Vision por Computador que se centra en el analisisautomatizado de secuencias de video, con el fin de extraer yprocesar informacion acerca del comportamiento de los objetosfısicos en un escenario del mundo real.

3/40




Aspectos Generales del Analisis de VideoAnalisis Automatizado de Video

Conocido como video understanding o video analysis.

Analizar el comportamiento de los objetos fısicos implicaconsiderar el aspecto temporal.

Gran parte de las aplicaciones en esta area imponen larestriccion de tiempo real.

Restriccion de tiempo real

Restriccion operacional para el tiempo de respuesta de un sistema,dada la ocurrencia de un evento.

4/40




Aspectos Generales del Analisis de VideoDisciplinas involucradas en Analisis de Video

El Analisis de Video es un area multidisciplinaria:

Procesamiento de Imagenes (Image Processing):capturar movimiento, reconocimiento y clasificacion deobjetos, reconstruccion de escena 3D, captura decaracterısticas de los objetos (feature extraction). Elementosde base para analisis mas complejo.

Reconocimiento de Patrones (Pattern Recognition):Modelamiento y reconocimiento de elementos (e.g. objetosfısicos, eventos).

Aprendizaje Automatico (Machine Learning): Aprenderlos modelos de estos elementos.

5/40




Disciplinas involucradas en Analisis de VideoProcesamiento de Imagenes (Image Processing)

Resultado de unproceso desegmentacion demovimiento (imagenbinaria).

6/40




Disciplinas involucradas en Analisis de VideoReconocimiento de Patrones (Pattern Recognition)

Reconocimiento de posturas: Applying 3D Human Model in a PostureRecognition System [Boulay et al., 2006].

7/40




Disciplinas involucradas en Analisis de VideoAprendizaje Automatico (Machine Learning)

Aprendizaje de Eventos: Abnormal Event Detection from SurveillanceVideo by Dynamic Hierarchical Clustering [Jiang et al., 2007].

8/40




Aspectos Generales del Analisis de VideoMotivacion

El sistema de vision humano es el sentido mas complejo y masrico en obtencion de informacion del ser humano.

La vision parece una tarea facil, pero en realidad es muycompleja:

El cerebro procesa cerca de 60 imagenes por segundo, con unmillon de puntos por imagen.Casi la mitad del cerebro dedicado a procesar informacionvisual.

La gran motivacion del area es llegar a emular la visionhumana, pero estamos aun muy lejos de lograrlo.

La investigacion en el area aun presenta innumerables vacıos.

9/40




Aplicaciones

Identificacion y biometrıa:

Identificacion mediante indicadores biometricos (e.g. cara,postura, manera de caminar(gait) ).Reconocimiento de caracteres en movimiento (e.g. placapatente de un auto).

Analisis de comportamiento:

individual.de masas (crowd).

Cuidado de personas a distancia:

Deteccion de inactividad o comportamiento anormal.Aprendizaje de comportamiento normal.

10/40




Aplicaciones

Video-vigilancia asistida:

Deteccion de comportamientos anormales o pre-definidos.Conteo de personas.Deteccion de objetos extranos (e.g. maletas dejadas enaeropuerto).

11/40




AplicacionesVideo-vigilancia asistida

Proyecto AVITRACK:

Video-vigilancia asistida en aeropuertos [AVITRACK, 2002].

Reporta a los operadores las actividades que ocurren en la pista deaterrizaje (e.g. operacion de recarga de gasolina).

Genera alarmas en presencia de situaciones no deseadas (e.g.colision entre vehıculo de carga y un avion).

12/40




AplicacionesVideo-vigilancia asistida

Proyecto CASSIOPEE:

Video-vigilancia asistida en agencias bancarias [Georis et al., 2004].

Multiples camaras.

Genera alarmas en presencia de situaciones pre-definidas de robo(80% Verdaderos-Positivos, 0% Falsos-Negativos).

13/40




AplicacionesCuidado de personas a distancia

Proyecto GERHOME:

Proyecto para cuidado de adultos mayores a distancia [GERHOME,2005], [Zouba et al., 2007].

Genera alarmas si la salud del adulto mayor esta en riesgo.

Alerta a la familia o a personal medico en caso de accidente (e.g. eladulto mayor se cae o se encuentra inmovil por mucho tiempo).

Combina camaras con sensores de calor y de apertura de puertas.

14/40



Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos

Estructura General de una Aplicacion de Analisis de Video

Tareas tıpicas del proceso de Analisis de Video:

1 Segmentacion de movimento: Detectar grupos de pıxelesen movimiento (blobs), a partir de las imagenes de lasecuencia.

2 Clasificacion e identificacion: Inferir informacion sobreobjetos del mundo real, a partir de los blobs detectados.

3 Seguimiento de objetos: Asociar los objetos encontrados enetapas previas del proceso, a los objetos detectados en laimagen actual.

4 Reconocimiento de Eventos: Reconocer el comportamientoy las actividades realizadas por lo objetos.

15/40




Estructura General de una Aplicacion de Analisis de VideoFlujo de Datos

16/40




Estructura General de una Aplicacion de Analisis de VideoEjemplo

Aprendizaje Incremental de Eventos en Video [Zuniga, 2008]:

17/40




Estructura GeneralSegmentacion de Movimiento

Segmentar

Particionar una imagen en multiples segmentos (conjuntos depıxeles) [Shapiro and Stockman, 2001].

La segmentacion de movimiento consiste en segmentar lasregiones que corresponden a los objetos moviles, del resto dela imagen (fondo).

Las siguientes etapas del proceso, dependen fuertemente de lacalidad de los resultados de esta tarea.

Involucra la necesidad de modelar el entorno y la imagen defondo.

18/40




Estructura GeneralSegmentacion en Video

Problemas tıpicos:

Variacion de la iluminacion.

Sombras.

Fantasmas.

Ramas en movimiento.

Bajo contraste.

Ocultacion estatica.

19/40





Solucion tıpica es la sustraccion de fondo [McIvor, 2000]:

Los problemas mencionados aparecen por un modelo deactualizacion de imagen de fondo deficiente o inexistente.

20/40





Actualizacion de imagen de fondo:

Modelar la intensidad de cada pixel mediante combinacion deGaussianas [Friedman and Russell, 1997].

Modelar la intensidad cada pixel con un Filtro de Kalman[Ridder et al., 1995].

21/40





Ejemplo de Segmentacion de Movimiento:

22/40




Estructura GeneralModelamiento y Clasificacion de Objetos

La riqueza de la descripcion de los objetos fısicos a detectaren la escena depende de la representacion escogida para estosobjetos.

Modelos complejos favorecen la precision en la informacionobtenida, pero son lentos de calcular.

En general, los modelos complejos permiten clasificar a unsolo tipo de objeto, pero favorecen la identificacion del objeto.

Los modelos mas simples carecen de precision, pero sonrapidos de calcular y pueden representar mas de un tipo deobjeto.

23/40




Modelamiento y Clasificacion de ObjetosRepresentaciones de objetos

Modelo de punto:

Solo para objetos muypequenos.

Muy rapido de obtener.

Aplicacion de radar [Arambelet al., 2004]:

Modelos de forma 2D: e.g.elipses, rectangulos.

Baja precision y calidaddescriptiva.

Rapido de obtener y puederepresentar mas de un tipo.

Forma rectangular [Cucchiaraet al., 2005]:

24/40





Modelos de forma 3D: e.g.elipsoides, cilindros,paralelepıpedos.

Precision y calidad media.

Velocidad media y puederepresentar mas de un tipo.

Paralelepıpedo [Zuniga et al.,2006]:

Modelos Articulados: Partescon articulaciones.

Velocidad baja y especıficopara un tipo.

Precision y calidad alta.

Modelo humano con 23parametros [Boulay et al., 2006]:

25/40





Representacion de Contorno:

Velocidad muy baja yespecıfico para un tipo.

Precision y calidad alta

Contorno de personas [Yilmazet al., 2004]:

Clasificadores: Entrenar un clasificadorcon un conjunto de caracterısticas deimagen, utilizando un conjunto deentrenamiento.

Requiere el conjunto deentrenamiento, especıfico parapostura y angulo de vision de unsolo tipo de objeto.

Velocidad alta.

26/40




Estructura GeneralSeguimiento de Objetos (Tracking)

Consiste en asociar los objetos fısicos encontrados previamente en laescena, con los objetos detectados en la imagen actual.

Problemas:

Ocultacion dinamica.Multiples objetos simultaneos.Tiempo de respuesta.

Soluciones:

En general, ligadas al manejo de muchas hipotesis respecto delvalor de los atributos de los objetos en la imagen actual.Conjunto de hipotesis basadas en la historia del objeto.Actualizacion de modelos dinamicos para los atributos, con lanueva informacion.

Tecnicas Populares: Multi-Hypothesis Tracking [Kurien, 1990],Particle Filtering [Hue et al., 2002].

27/40




Estructura GeneralSeguimiento de Objetos (Tracking)

Ejemplo: Seguimiento de multiples objetos [Zuniga, 2008]:

28/40




Estructura GeneralReconocimiento y Aprendizaje de Eventos

Estado

Conjunto de atributos valido en un instante dado o estable en unintervalo de tiempo.

Un estado puede caracterizar a mas de un objeto fısico.

Evento

Transicion de estado ocurrida en dos instantes de tiempo sucesivoso en un intervalo de tiempo.

Evento Compuesto

Combinacion de estados y eventos. Tambien conocido comoevento complejo, comportamiento y escenario, entre otros.

29/40





Reconocer los eventos realizados por lo objetos (simples ycompuestos).

Problemas:

Brecha entre informacion numerica y conceptos masabstractos.Representacion para eventos de interaccion entre objetos.Concepcion de metodos generales.

Soluciones:

Modelos de evento pre-definidos: para reconocer situaciones deinteres [Bremond and Thonnat, 1998].Modelos de aprendizaje de eventos: para reconocer situacionesinesperadas. Los mas populares:

Redes Bayesianas Dinamicas (DBN) [Ghahramani, 1998].Cadenas de Markov Escondidas (HMM) [Hongeng et al.,2000].

30/40





Ejemplo de aprendizaje de eventos: Eventos de Trayectoria, medianteCadenas de Markov Escondidas (HMM) [Jiang et al., 2007].

31/40



Trabajo Futuro

Nivel global:Utilizacion y formalizacion de medidas de fiabilidad de losdatos.Retroalimentacion entre las distintas tareas.Eliminar la brecha entre el mundo numerico y conceptual.Mejoramiento del rendimiento en tiempo de ejecucion (paratiempo-real).

Segmentacion:Aun no se logra un modelo capaz de lidiar con todos losproblemas de segmentacion y en forma general.

Clasificacion:La utilizacion de multiples modelos de objeto segun elcontexto.

32/40



Trabajo Futuro

Seguimiento:La resolucion en forma general del problema de ocultaciondinamica es aun un topico abierto.Resolver el problema de re-identificacion.Mejoramiento de metodos para la generacion y control dehipotesis.

Eventos:Continuar el estudio de metodos adaptivos de aprendizaje deeventos.Como combinar los modelos pre-definidos con los deaprendizaje.

33/40



Conclusion

El Analisis de Video posee aplicaciones de relevancia mundial(e.g. vigilancia, asistencia, vision robotica).

Existen aun numerosos topicos a ser investigados y resueltos.

Actualmente, es un area muy fertil para nuevos estudios yproyectos.

34/40



¿Preguntas?

35/40



Referencias I

P. O. Arambel, J. Silver, J. Krant, M. Antone, and T. Strat. Multiple-hypothesistracking of multiple ground targets from aerial video with dynamic sensor control.In I. Kadar, editor, Signal Processing, Sensor Fusion, and Target Recognition XIII.Proceedings of the SPIE., volume 5429 of Society of Photo-OpticalInstrumentation Engineers (SPIE) Conference, pages 23–32, August 2004.

AVITRACK, 2002. European Research Project,http://www.aero-scratch.net/avitrack.html .

B. Boulay, F. Bremond, and M. Thonnat. Applying 3d human model in a posturerecognition system. Pattern Recognition Letter, Special Issue on vision for CrimeDetection and Prevention, 27(15):1788–1796, November 2006.

F. Bremond and M. Thonnat. Issues of representing context illustrated byvideo-surveillance applications. International Journal of Human-Computer StudiesSpecial Issue on Context, 48:375–391, 1998.

R. Cucchiara, A. Prati, and R. Vezzani. Posture classification in a multi-camera indoorenvironment. In Proceedings of IEEE International Conference on Image Processing(ICIP), volume 1, pages 725–728, Genova, Italy, 11-14 September 2005.

36/40



Referencias II

N. Friedman and S. Russell. Image segmentation in video sequences: a probabilisticapproach. In Proceedings of the 13th Conference on Uncertainty in ArtificialIntelligence, pages 1–3, 1997.

B. Georis, M. Maziere, F. Bremond, and M. Thonnat. A video interpretation platformapplied to bank agency monitoring. In Proceedings of the International Conferenceon Intelligent Distributed Surveillance Systems (IDSS04), London, Great Britain,pages 46–50, February 2004.

GERHOME, 2005. Research Project, http://gerhome.cstb.fr .

Z. Ghahramani. Learning dynamic bayesian networks. In Adaptive Processing ofSequences and Data Structures, International Summer School on Neural Networks,pages 168–197, London, UK, 1998. Springer-Verlag.

S. Hongeng, F. Bremond, and R. Nevatia. Bayesian framework for video surveillanceapplication. In Proceedings of the 15th International Conference on PatternRecognition (ICPR2000), pages Vol I: 164–170, Barcelona, Spain, 2000.

C. Hue, J.-P. L. Cadre, and P. Perez. Sequential monte carlo methods for multipletarget tracking and data fusion. IEEE Transactions on Signal Processing, 50(2):309–325, February 2002.

37/40



Referencias III

F. Jiang, Y. Wu, and A. Katsaggelos. Abnormal event detection from surveillancevideo by dynamic hierarchical clustering. In Proceedings of the InternationalConference on Image Processing (ICIP07), volume 5, pages 145–148, San Antonio,TX, September 2007.

T. Kurien. Issues in the design of practical multitarget tracking algorithms. InY. Bar-Shalom, editor, Multitarget-Multisensor Tracking: Advanced Applications,chapter 3, volume 1, pages 43–83, Norwood, MA, 1990. Artech House.

A. McIvor. Background subtraction techniques. In Proceedings of the Conference onImage and Vision Computing (IVCNZ 2000), Hamilton, New Zealand, November27-29 2000.

C. Ridder, O. Munkelt, and H. Kirchner. Adaptive background estimation andforeground detection using kalman-filtering. In Proceedings of the InternationalConference on Recent Advances in Mechatronics, pages 193–199, 1995.

L. G. S. Shapiro and G. C. Stockman. Computer Vision. Prentice-Hall, New Jersey,USA, 2001.

A. Yilmaz, X. Li, and M. Shah. Contour based object tracking with occlusion handlingin video acquired using mobile cameras. IEEE Transactions on Pattern Analysis andMachine Intelligence, 26(11):1531–1536, 2004.

38/40



Referencias IV

N. Zouba, F. Bremond, M. Thonnat, and V. T. Vu. Multi-sensors analysis foreveryday elderly activity monitoring. In Proceedings of the 4th InternationalConference SETIT’07: Sciences of Electronic, Technologies of Information andTelecommunications, Tunis, Tunisia, March 2007.

M. Zuniga. Incremental Learning of Events in Video. PhD thesis, Universite de NiceSophia Antipolis, UFR Science Ecole Doctorale STIC, Departement d’Informatique,November 2008.

M. Zuniga, F. Bremond, and M. Thonnat. Fast and reliable object classification invideo based on a 3d generic model. In Proceedings of the International Conferenceon Visual Information Engineering (VIE2006), pages 433–440, Bangalore, India,26-28 September 2006.

39/40



Kalman Filter

xk = Fkxk + Bkuk + wk

x: estadoF: transicion de estado.B: modelo de control de entrada.u: vector de control.w: ruido gaussiano.

zk = Hkxk + vk

z: observacion.

H: mapeo del espacio del estado al espacio de observacion.

40/40



Particle Filter

Approximan la secuencia de distribuciones de probabilidad deinteres usando un conjunto grande de muestras aleatorias(particles).

Las partıculas son entonces propagadas en el tiempo.

Asintoticamente, la convergencia de la aproximacion a lasdistribuciones se encuentra asegurada bajo supuestos muydebiles.

Desventaja: El numero necesario de muestras, creceexponencialmente con el tamano del espacio de estado(impractico para tiempo real).

41/40

clase magistral marcos zúñiga

Technology