clase magistral marcos zúñiga
TRANSCRIPT
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Analisis Automatico de Video
Marcos Zuniga Barraza
Departamento de Telematica
26 de Marzo 2009
1/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Sinopsis
1 Aspectos Generales del Analisis de VideoMotivacionAplicaciones
2 Estructura General de una Aplicacion de Analisis de VideoSegmentacion de MovimientoModelamiento y Clasificacion de ObjetosSeguimiento de ObjetosReconocimiento y Aprendizaje de Eventos
3 Trabajo Futuro
2/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aspectos Generales del Analisis de Video
Vision por Computador (Computer Vision)
Area de la Inteligencia Artificial centrada en el procesamiento yanalisis de la informacion obtenida a traves medios visuales.
Medios visuales: imagenes, secuencias de video, scanners.
Analisis Automatico de Video
Area de la Vision por Computador que se centra en el analisisautomatizado de secuencias de video, con el fin de extraer yprocesar informacion acerca del comportamiento de los objetosfısicos en un escenario del mundo real.
3/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aspectos Generales del Analisis de VideoAnalisis Automatizado de Video
Conocido como video understanding o video analysis.
Analizar el comportamiento de los objetos fısicos implicaconsiderar el aspecto temporal.
Gran parte de las aplicaciones en esta area imponen larestriccion de tiempo real.
Restriccion de tiempo real
Restriccion operacional para el tiempo de respuesta de un sistema,dada la ocurrencia de un evento.
4/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aspectos Generales del Analisis de VideoDisciplinas involucradas en Analisis de Video
El Analisis de Video es un area multidisciplinaria:
Procesamiento de Imagenes (Image Processing):capturar movimiento, reconocimiento y clasificacion deobjetos, reconstruccion de escena 3D, captura decaracterısticas de los objetos (feature extraction). Elementosde base para analisis mas complejo.
Reconocimiento de Patrones (Pattern Recognition):Modelamiento y reconocimiento de elementos (e.g. objetosfısicos, eventos).
Aprendizaje Automatico (Machine Learning): Aprenderlos modelos de estos elementos.
5/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Disciplinas involucradas en Analisis de VideoProcesamiento de Imagenes (Image Processing)
Resultado de unproceso desegmentacion demovimiento (imagenbinaria).
6/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Disciplinas involucradas en Analisis de VideoReconocimiento de Patrones (Pattern Recognition)
Reconocimiento de posturas: Applying 3D Human Model in a PostureRecognition System [Boulay et al., 2006].
7/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Disciplinas involucradas en Analisis de VideoAprendizaje Automatico (Machine Learning)
Aprendizaje de Eventos: Abnormal Event Detection from SurveillanceVideo by Dynamic Hierarchical Clustering [Jiang et al., 2007].
8/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aspectos Generales del Analisis de VideoMotivacion
El sistema de vision humano es el sentido mas complejo y masrico en obtencion de informacion del ser humano.
La vision parece una tarea facil, pero en realidad es muycompleja:
El cerebro procesa cerca de 60 imagenes por segundo, con unmillon de puntos por imagen.Casi la mitad del cerebro dedicado a procesar informacionvisual.
La gran motivacion del area es llegar a emular la visionhumana, pero estamos aun muy lejos de lograrlo.
La investigacion en el area aun presenta innumerables vacıos.
9/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aplicaciones
Identificacion y biometrıa:
Identificacion mediante indicadores biometricos (e.g. cara,postura, manera de caminar(gait) ).Reconocimiento de caracteres en movimiento (e.g. placapatente de un auto).
Analisis de comportamiento:
individual.de masas (crowd).
Cuidado de personas a distancia:
Deteccion de inactividad o comportamiento anormal.Aprendizaje de comportamiento normal.
10/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
Aplicaciones
Video-vigilancia asistida:
Deteccion de comportamientos anormales o pre-definidos.Conteo de personas.Deteccion de objetos extranos (e.g. maletas dejadas enaeropuerto).
11/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
AplicacionesVideo-vigilancia asistida
Proyecto AVITRACK:
Video-vigilancia asistida en aeropuertos [AVITRACK, 2002].
Reporta a los operadores las actividades que ocurren en la pista deaterrizaje (e.g. operacion de recarga de gasolina).
Genera alarmas en presencia de situaciones no deseadas (e.g.colision entre vehıculo de carga y un avion).
12/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
AplicacionesVideo-vigilancia asistida
Proyecto CASSIOPEE:
Video-vigilancia asistida en agencias bancarias [Georis et al., 2004].
Multiples camaras.
Genera alarmas en presencia de situaciones pre-definidas de robo(80% Verdaderos-Positivos, 0% Falsos-Negativos).
13/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
MotivacionAplicaciones
AplicacionesCuidado de personas a distancia
Proyecto GERHOME:
Proyecto para cuidado de adultos mayores a distancia [GERHOME,2005], [Zouba et al., 2007].
Genera alarmas si la salud del adulto mayor esta en riesgo.
Alerta a la familia o a personal medico en caso de accidente (e.g. eladulto mayor se cae o se encuentra inmovil por mucho tiempo).
Combina camaras con sensores de calor y de apertura de puertas.
14/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura General de una Aplicacion de Analisis de Video
Tareas tıpicas del proceso de Analisis de Video:
1 Segmentacion de movimento: Detectar grupos de pıxelesen movimiento (blobs), a partir de las imagenes de lasecuencia.
2 Clasificacion e identificacion: Inferir informacion sobreobjetos del mundo real, a partir de los blobs detectados.
3 Seguimiento de objetos: Asociar los objetos encontrados enetapas previas del proceso, a los objetos detectados en laimagen actual.
4 Reconocimiento de Eventos: Reconocer el comportamientoy las actividades realizadas por lo objetos.
15/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura General de una Aplicacion de Analisis de VideoFlujo de Datos
16/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura General de una Aplicacion de Analisis de VideoEjemplo
Aprendizaje Incremental de Eventos en Video [Zuniga, 2008]:
17/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSegmentacion de Movimiento
Segmentar
Particionar una imagen en multiples segmentos (conjuntos depıxeles) [Shapiro and Stockman, 2001].
La segmentacion de movimiento consiste en segmentar lasregiones que corresponden a los objetos moviles, del resto dela imagen (fondo).
Las siguientes etapas del proceso, dependen fuertemente de lacalidad de los resultados de esta tarea.
Involucra la necesidad de modelar el entorno y la imagen defondo.
18/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSegmentacion en Video
Problemas tıpicos:
Variacion de la iluminacion.
Sombras.
Fantasmas.
Ramas en movimiento.
Bajo contraste.
Ocultacion estatica.
19/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSegmentacion en Video
Solucion tıpica es la sustraccion de fondo [McIvor, 2000]:
Los problemas mencionados aparecen por un modelo deactualizacion de imagen de fondo deficiente o inexistente.
20/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSegmentacion en Video
Actualizacion de imagen de fondo:
Modelar la intensidad de cada pixel mediante combinacion deGaussianas [Friedman and Russell, 1997].
Modelar la intensidad cada pixel con un Filtro de Kalman[Ridder et al., 1995].
21/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSegmentacion en Video
Ejemplo de Segmentacion de Movimiento:
22/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralModelamiento y Clasificacion de Objetos
La riqueza de la descripcion de los objetos fısicos a detectaren la escena depende de la representacion escogida para estosobjetos.
Modelos complejos favorecen la precision en la informacionobtenida, pero son lentos de calcular.
En general, los modelos complejos permiten clasificar a unsolo tipo de objeto, pero favorecen la identificacion del objeto.
Los modelos mas simples carecen de precision, pero sonrapidos de calcular y pueden representar mas de un tipo deobjeto.
23/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Modelamiento y Clasificacion de ObjetosRepresentaciones de objetos
Modelo de punto:
Solo para objetos muypequenos.
Muy rapido de obtener.
Aplicacion de radar [Arambelet al., 2004]:
Modelos de forma 2D: e.g.elipses, rectangulos.
Baja precision y calidaddescriptiva.
Rapido de obtener y puederepresentar mas de un tipo.
Forma rectangular [Cucchiaraet al., 2005]:
24/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Modelamiento y Clasificacion de ObjetosRepresentaciones de objetos
Modelos de forma 3D: e.g.elipsoides, cilindros,paralelepıpedos.
Precision y calidad media.
Velocidad media y puederepresentar mas de un tipo.
Paralelepıpedo [Zuniga et al.,2006]:
Modelos Articulados: Partescon articulaciones.
Velocidad baja y especıficopara un tipo.
Precision y calidad alta.
Modelo humano con 23parametros [Boulay et al., 2006]:
25/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Modelamiento y Clasificacion de ObjetosRepresentaciones de objetos
Representacion de Contorno:
Velocidad muy baja yespecıfico para un tipo.
Precision y calidad alta
Contorno de personas [Yilmazet al., 2004]:
Clasificadores: Entrenar un clasificadorcon un conjunto de caracterısticas deimagen, utilizando un conjunto deentrenamiento.
Requiere el conjunto deentrenamiento, especıfico parapostura y angulo de vision de unsolo tipo de objeto.
Velocidad alta.
26/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSeguimiento de Objetos (Tracking)
Consiste en asociar los objetos fısicos encontrados previamente en laescena, con los objetos detectados en la imagen actual.
Problemas:
Ocultacion dinamica.Multiples objetos simultaneos.Tiempo de respuesta.
Soluciones:
En general, ligadas al manejo de muchas hipotesis respecto delvalor de los atributos de los objetos en la imagen actual.Conjunto de hipotesis basadas en la historia del objeto.Actualizacion de modelos dinamicos para los atributos, con lanueva informacion.
Tecnicas Populares: Multi-Hypothesis Tracking [Kurien, 1990],Particle Filtering [Hue et al., 2002].
27/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralSeguimiento de Objetos (Tracking)
Ejemplo: Seguimiento de multiples objetos [Zuniga, 2008]:
28/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralReconocimiento y Aprendizaje de Eventos
Estado
Conjunto de atributos valido en un instante dado o estable en unintervalo de tiempo.
Un estado puede caracterizar a mas de un objeto fısico.
Evento
Transicion de estado ocurrida en dos instantes de tiempo sucesivoso en un intervalo de tiempo.
Evento Compuesto
Combinacion de estados y eventos. Tambien conocido comoevento complejo, comportamiento y escenario, entre otros.
29/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralReconocimiento y Aprendizaje de Eventos
Reconocer los eventos realizados por lo objetos (simples ycompuestos).
Problemas:
Brecha entre informacion numerica y conceptos masabstractos.Representacion para eventos de interaccion entre objetos.Concepcion de metodos generales.
Soluciones:
Modelos de evento pre-definidos: para reconocer situaciones deinteres [Bremond and Thonnat, 1998].Modelos de aprendizaje de eventos: para reconocer situacionesinesperadas. Los mas populares:
Redes Bayesianas Dinamicas (DBN) [Ghahramani, 1998].Cadenas de Markov Escondidas (HMM) [Hongeng et al.,2000].
30/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Segmentacion de MovimientoModelamiento y ClasificacionSeguimientoReconocimiento y Aprendizaje de Eventos
Estructura GeneralReconocimiento y Aprendizaje de Eventos
Ejemplo de aprendizaje de eventos: Eventos de Trayectoria, medianteCadenas de Markov Escondidas (HMM) [Jiang et al., 2007].
31/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Trabajo Futuro
Nivel global:Utilizacion y formalizacion de medidas de fiabilidad de losdatos.Retroalimentacion entre las distintas tareas.Eliminar la brecha entre el mundo numerico y conceptual.Mejoramiento del rendimiento en tiempo de ejecucion (paratiempo-real).
Segmentacion:Aun no se logra un modelo capaz de lidiar con todos losproblemas de segmentacion y en forma general.
Clasificacion:La utilizacion de multiples modelos de objeto segun elcontexto.
32/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Trabajo Futuro
Seguimiento:La resolucion en forma general del problema de ocultaciondinamica es aun un topico abierto.Resolver el problema de re-identificacion.Mejoramiento de metodos para la generacion y control dehipotesis.
Eventos:Continuar el estudio de metodos adaptivos de aprendizaje deeventos.Como combinar los modelos pre-definidos con los deaprendizaje.
33/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Conclusion
El Analisis de Video posee aplicaciones de relevancia mundial(e.g. vigilancia, asistencia, vision robotica).
Existen aun numerosos topicos a ser investigados y resueltos.
Actualmente, es un area muy fertil para nuevos estudios yproyectos.
34/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
¿Preguntas?
35/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Referencias I
P. O. Arambel, J. Silver, J. Krant, M. Antone, and T. Strat. Multiple-hypothesistracking of multiple ground targets from aerial video with dynamic sensor control.In I. Kadar, editor, Signal Processing, Sensor Fusion, and Target Recognition XIII.Proceedings of the SPIE., volume 5429 of Society of Photo-OpticalInstrumentation Engineers (SPIE) Conference, pages 23–32, August 2004.
AVITRACK, 2002. European Research Project,http://www.aero-scratch.net/avitrack.html .
B. Boulay, F. Bremond, and M. Thonnat. Applying 3d human model in a posturerecognition system. Pattern Recognition Letter, Special Issue on vision for CrimeDetection and Prevention, 27(15):1788–1796, November 2006.
F. Bremond and M. Thonnat. Issues of representing context illustrated byvideo-surveillance applications. International Journal of Human-Computer StudiesSpecial Issue on Context, 48:375–391, 1998.
R. Cucchiara, A. Prati, and R. Vezzani. Posture classification in a multi-camera indoorenvironment. In Proceedings of IEEE International Conference on Image Processing(ICIP), volume 1, pages 725–728, Genova, Italy, 11-14 September 2005.
36/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Referencias II
N. Friedman and S. Russell. Image segmentation in video sequences: a probabilisticapproach. In Proceedings of the 13th Conference on Uncertainty in ArtificialIntelligence, pages 1–3, 1997.
B. Georis, M. Maziere, F. Bremond, and M. Thonnat. A video interpretation platformapplied to bank agency monitoring. In Proceedings of the International Conferenceon Intelligent Distributed Surveillance Systems (IDSS04), London, Great Britain,pages 46–50, February 2004.
GERHOME, 2005. Research Project, http://gerhome.cstb.fr .
Z. Ghahramani. Learning dynamic bayesian networks. In Adaptive Processing ofSequences and Data Structures, International Summer School on Neural Networks,pages 168–197, London, UK, 1998. Springer-Verlag.
S. Hongeng, F. Bremond, and R. Nevatia. Bayesian framework for video surveillanceapplication. In Proceedings of the 15th International Conference on PatternRecognition (ICPR2000), pages Vol I: 164–170, Barcelona, Spain, 2000.
C. Hue, J.-P. L. Cadre, and P. Perez. Sequential monte carlo methods for multipletarget tracking and data fusion. IEEE Transactions on Signal Processing, 50(2):309–325, February 2002.
37/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Referencias III
F. Jiang, Y. Wu, and A. Katsaggelos. Abnormal event detection from surveillancevideo by dynamic hierarchical clustering. In Proceedings of the InternationalConference on Image Processing (ICIP07), volume 5, pages 145–148, San Antonio,TX, September 2007.
T. Kurien. Issues in the design of practical multitarget tracking algorithms. InY. Bar-Shalom, editor, Multitarget-Multisensor Tracking: Advanced Applications,chapter 3, volume 1, pages 43–83, Norwood, MA, 1990. Artech House.
A. McIvor. Background subtraction techniques. In Proceedings of the Conference onImage and Vision Computing (IVCNZ 2000), Hamilton, New Zealand, November27-29 2000.
C. Ridder, O. Munkelt, and H. Kirchner. Adaptive background estimation andforeground detection using kalman-filtering. In Proceedings of the InternationalConference on Recent Advances in Mechatronics, pages 193–199, 1995.
L. G. S. Shapiro and G. C. Stockman. Computer Vision. Prentice-Hall, New Jersey,USA, 2001.
A. Yilmaz, X. Li, and M. Shah. Contour based object tracking with occlusion handlingin video acquired using mobile cameras. IEEE Transactions on Pattern Analysis andMachine Intelligence, 26(11):1531–1536, 2004.
38/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Referencias IV
N. Zouba, F. Bremond, M. Thonnat, and V. T. Vu. Multi-sensors analysis foreveryday elderly activity monitoring. In Proceedings of the 4th InternationalConference SETIT’07: Sciences of Electronic, Technologies of Information andTelecommunications, Tunis, Tunisia, March 2007.
M. Zuniga. Incremental Learning of Events in Video. PhD thesis, Universite de NiceSophia Antipolis, UFR Science Ecole Doctorale STIC, Departement d’Informatique,November 2008.
M. Zuniga, F. Bremond, and M. Thonnat. Fast and reliable object classification invideo based on a 3d generic model. In Proceedings of the International Conferenceon Visual Information Engineering (VIE2006), pages 433–440, Bangalore, India,26-28 September 2006.
39/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Kalman Filter
xk = Fkxk + Bkuk + wk
x: estadoF: transicion de estado.B: modelo de control de entrada.u: vector de control.w: ruido gaussiano.
zk = Hkxk + vk
z: observacion.
H: mapeo del espacio del estado al espacio de observacion.
40/40
SinopsisAspectos GeneralesEstructura General
Trabajo FuturoReferencias
Particle Filter
Approximan la secuencia de distribuciones de probabilidad deinteres usando un conjunto grande de muestras aleatorias(particles).
Las partıculas son entonces propagadas en el tiempo.
Asintoticamente, la convergencia de la aproximacion a lasdistribuciones se encuentra asegurada bajo supuestos muydebiles.
Desventaja: El numero necesario de muestras, creceexponencialmente con el tamano del espacio de estado(impractico para tiempo real).
41/40