Построение 3D модели сцены по одному фотоснимку
Дмитрий Вихаревстудент магистратуры ГУ-ВШЭ
twitter.com/vikds
Cornell UniversityMake3D Project:http://make3d.cs.cornell.edu/
Наглядный пример
http://www.flickr.com/photos/lofink/4501610335/
Особенность проекта
diff monocular cues
Современно?
http://www.flickr.com/photos/lofink/4501610335/
Ashutosh Saxena
Andrew Y. Ng
2005 2006 2007 2008 2009 2010 2011
Learning Depth from Single
Monocular Images
3-D Depth Reconstruction
from a Single Still Image
Make3D: Learning 3-D
Scene Structure from a Single Still
Image
i23 - Rapid Interactive 3D
Reconstruction from a Single Image
Make3D: Learning 3-D Scene Structure from a Single Still Image
(2008)
Основная статья, разъясняющая механизм обработки фотоснимков:
Computer vision machine learning
Обычная фотография 3D Модель сцены
MRF: Markov Random FieldМодель Изинга
𝑃 (𝜔 𝑗=𝑎|𝜔𝑘 ,𝑘≠ 𝑗 ¿=𝑃 (𝜔 𝑗=𝑎|𝜔𝑘 ,𝑘∈𝑁 𝑗 ¿
𝑃 (𝜔 )= 1𝑍∏
𝑖𝑒− 1𝑘𝑇 𝑈 𝑖(𝜔 )
𝑈 𝑖 (𝜔 )=− 𝐽2 ∑
| 𝑗− 𝑖|=1𝜔𝑖𝜔 𝑗−𝑚𝐻∑
𝑖𝜔 𝑖
Свойство Марковского типа
Сегментация
http://www.flickr.com/photos/lofink/4501610335/
Efficient Graph-Based Image Segmentation (2004)
Постановка задачи
Нужно будет определить параметры:
𝛼∈ℝ3Плоскостей определяемые нормальным вектором �̂�=𝛼|𝛼|
Расстояния до суперпикселей вычисляются по 𝑑𝑖=1
𝑅𝑖𝑇𝛼
В MRF учитывалисьLocal features
Connection
Coplanarity
Collinearity
Monocular cues
http://www.flickr.com/photos/lofink/4501610335/
𝐸𝑖 (𝑛 )= ∑(𝑥 ,𝑦 )∈𝑆𝑖
|𝐼 (𝑥 , 𝑦 )∗𝐹 𝑛 (𝑥 , 𝑦 )|𝑘
𝑘= {2,4 }
1 2 3 4 5 … … … 31 32 33 34
+14
Monocular cues: контекст
1 2 3 4 5 … … … 521 522 523 524
Итого: 34∗ (4+1 )∗3+14=524 особенности для «суперпикселя»
Edge detection
1 2 3 4 5 … … … 11 12 13 14bool
Формальная постановка задачи
http://www.flickr.com/photos/lofink/4501610335/
Input: Output:𝑋 Входные параметры
суперпикселей (local features)
𝜃 Параметры обученной модели MRF
𝜐 «Доверие» к расстоянию до объекта, вычисленному опираясь только на локальные свойства суперпикселя
𝑦 Оценка того, насколько четко мы определили границу между суперпикселями
𝛼 Параметры плоскости, определяющие положение и ориентацию суперпикселя в пространстве
𝑃 (𝛼|𝑋 ,𝜐 , 𝑦 ,𝑅 ;𝜃 ¿=1𝑍∏
𝑖𝑓 1 (𝛼𝑖∨𝑋 𝑖 ,𝜐𝑖 ,𝑅𝑖 ;𝜃 )∏
𝑖 , 𝑗𝑓 2 (𝛼𝑖 ,𝛼 𝑗∨𝑦 𝑖𝑗 ,𝑅 𝑖 ,𝑅 𝑗 )
Local features
(�̂�𝑖 , 𝑠𝑖−𝑑𝑖 , 𝑠𝑖 )
𝑑𝑖 , 𝑠𝑖
=�̂�𝑖 , 𝑠𝑖
𝑑𝑖 , 𝑠𝑖
−1=𝑅 𝑖 , 𝑠𝑖
𝑇 𝛼𝑖 (𝑥𝑖 , 𝑠 𝑖
𝑇 𝜃𝑟 )−1
𝑓 1 (𝛼𝑖∨𝑋 𝑖 ,𝜐𝑖 ,𝑅𝑖 ;𝜃 )=exp(−∑𝑠 𝑖=1
𝑆𝑖
𝜐𝑖 , 𝑠𝑖|𝑅 𝑖 , 𝑠𝑖
𝑇 𝛼𝑖 (𝑥 𝑖 , 𝑠𝑖
𝑇 𝜃𝑟 )−1|)
Connection
h𝑠𝑖 , 𝑠 𝑗(𝛼𝑖 ,𝛼 𝑗 , 𝑦 𝑖𝑗 ,𝑅𝑖 ,𝑅 𝑗 )=exp (− 𝑦 𝑖𝑗|(𝑅 𝑖 , 𝑠𝑖
𝑇 𝛼𝑖−𝑅 𝑗 ,𝑠 𝑗
𝑇 𝛼 𝑗 ) �̂�|)
Coplanarity
h𝑠 𝑗′ ′ (𝛼 𝑖 ,𝛼 𝑗 , 𝑦 𝑖𝑗 ,𝑅 𝑗 ,𝑠 𝑗
′ ′ )=exp (− 𝑦 𝑖𝑗|(𝑅 𝑗 , 𝑠 𝑗′ ′
𝑇 𝛼 𝑖−𝑅 𝑗 , 𝑠 𝑗′ ′
𝑇 𝛼 𝑗 ) �̂�𝑠 𝑗′ ′|)
Collinearity
h𝑠 𝑗 (𝛼𝑖 ,𝛼 𝑗 , 𝑦 𝑖𝑗 ,𝑅 𝑗 , 𝑠 𝑗 )=exp (− 𝑦 𝑖𝑗|(𝑅 𝑗 , 𝑠 𝑗
𝑇 𝛼𝑖−𝑅 𝑗 , 𝑠 𝑗
𝑇 𝛼 𝑗) �̂�|)
РешениеMCL (Multi-Conditional Learning)Обучение:
𝜃𝑟∗=argmax
𝜃𝑟
∑𝑖log 𝑓 1 (𝛼𝑖∨𝑋 𝑖 ,𝜐𝑖 ,𝑅𝑖 ;𝜃𝑟 )+∑
𝑖 , 𝑗log 𝑓 2 (𝛼 𝑖 ,𝛼 𝑗∨𝑦 𝑖𝑗 ,𝑅𝑖 ,𝑅 𝑗 )
Методы линейного программирования (LP) min -нормы
Построение модели: Оценивается и максимальная апостериорная вероятность (MAP) для параметров плоскостей
𝛼∗=argmax𝛼log𝑃 (𝛼∨𝑋 ,𝜐 , 𝑦 ,𝑅 ;𝜃𝑟 )
Модифицированный метод Ньютона для эффективного нахождения ГессианаМетоды линейного программирования (LP) min -нормы
Технические деталиФотоснимки2272x1704
Матрицы расстояний55x305
Всего снимков400
150 Мб
MATLAB + C++*.cpp, *.c *.mex
VRML*.wrl
Ограничения
• Обучение проводилось только на снимках ландшафтов местности• Небольшое количество обучающего набора фотографий (400)• Фотографии – ландафты местности Пало-Альто в летнее время• Низкая разрешающая способность лазера (55x305)• Несмотря на из разрешение фотографий, они все перед обработкой
приводятся к одному и тому же небольшому разрешению• В математической модели жестко заданы параметры фототехники
(фокусное расстояние, диафрагма…)
В текущей реализации:
Дальнейшее развитие проектаПостроение трехмерной модели сцены по нескольким фотоснимкам
Добавление элементов Интерактивности
Возможное применение
Google «SketchUp»Microsoft «3DVIA Shape»
Демонстрация