incorporating commonsense knowledge to vqa
TRANSCRIPT
Incorporating commonsense knowledge to VQAMIGUEL FADIĆPROFESOR SUPERVISOR: ÁLVARO SOTO
02-05-2023 2
Agenda◦ Marco teórico
◦ Pregunta de investigación
◦ Solución propuesta
◦ Limitaciones
◦ Estado de la investigación
02-05-2023 3
Visual Question Answering (VQA)
02-05-2023 4
Marco teórico The Summer Vision Project (MIT, 1966)
◦ Figure-Ground
◦ Region Description
◦ Object Identification
02-05-2023 5
Visión por computador, un problema difícil
(Efstratios Gavves, 2014)
02-05-2023 6
Perceptrón
(Frank Rosenblatt, 1958)
02-05-2023 7
Clasificador lineal
02-05-2023 8
Imagenet (2010)◦ 1.2 millones de imágenes◦ 1000 categorías distintas
02-05-2023 9
Alexenet Evolución del perceptrón
(Krizhevsky et al., 2012)
02-05-2023 10
Word to vec (W2V) Transformando palabras en vectores
(Mikolov et al., 2013)
02-05-2023 11
Concepnet
(Robert Speer, Catherine Havasi, 2013)
Base de datos de conocimiento de sentido común
02-05-2023 12
TransE Llevando bases de datos de conocimiento a un espacio vectorial
02-05-2023 13
Volviendo a VQA
02-05-2023 14
Algunos ejemplos
02-05-2023 15
02-05-2023 16
02-05-2023 17
Pregunta de investigación
¿Cómo incorporar conocimiento de sentido común a las técnicas para resolver VQA?
02-05-2023 18
Solución propuesta◦ Utilizar TransE para llevar Conceptnet a un
espacio vectorial donde se puede interactuar con la imagen, pero tomando como punto de partida los vectores de W2V.
02-05-2023 19
Limitaciones◦ Concepnet 5 está incompleto y posee errores
◦ Pueden existir relaciones que no sean representables como un único vector
◦ No todas las palabras de Concepnet tienen un vector asociado en los modelos de W2V disponibles públicamente
02-05-2023 20
Estado de la investigación
2015-2• Revisión
bibliográfica
11-18/12• ICCV
Abril • Combinar texto
y concepnet
2016-1• Incluir
imágenes
2016-2• Realizar
experimentos
2017-1• Escribir y
defender tesis