Сергей Герасимов (ВМК МГУ), Александр Мещеряков...
TRANSCRIPT
Задачи анализа данных в астрофизике
Докладчики:Александр Мещеряков (Институт космических исследований РАН)
Сергей Герасимов (ВМК МГУ)
“Наш доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.”
Наблюдательная космология: ключевые задачи
Наблюдательная космология: ключевые задачи
Природа темной (невидимой) материи?Природа темной энергии (ускоренного расширения Вселенной)?
❏ звезды❏ сверхновые❏ галактики❏ скопления галактик❏ квазары
Нужно построить 3D карту небесных объектов на небе
Классы объектов:
Многоволновая астрономия
Многоволновая астрономия
Основной объем данных - в оптическом диапазоне (наземные телескопы)
снимок всего неба = 6×1012pix2
×32bit ×4 = 100Тб
0.3”
0.3” α,δ - координаты F - яркость t - время
пиксельизображения:
Большие данные в оптической астрономии
Крупнейшие будущие проекты: LSST
http://www.lsst.org/
- “все небо за 3 дня”- камера 3200Mpix- 8.4m зеркало
телескопа- 37 ×109 объектов - 5.5 ×106 фотографий- 15 Pb данных (10лет)- 15 Тб/ночь- запуск в 2022 году
Dark Energy Camera Legacy Survey: http://legacysurvey.org/viewer
Как отделить звезду от галактики на картинке с телескопа? Как классифицировать объекты и измерять расстояния до них?
Пример: https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge
Спектры небесных объектов
∼0.5% (5млн.) всех известных небесных объектов - тренировочная выборка для machine learning!
● точная классификация небесных объектов● точное измерение расстояний (по “красному
смещению”)
Закон Хаббла. Расширяющаяся Вселенная.
с(Δλ/λ)= H * d d - расстояние до галактикиΔλ/λ - красное смещение c - скорость света H - постоянная Хаббла
Красное смещение
Δλ/λ = zλ - длина волны
Квазар Галактика
ЗвездаПо спектральным линиям
астрономы точно классифицируют объекты и измеряют расстояния
до галактик.
Изображения неба в разных фильтрах: ∼109 объектов в небесных обзорах - целевая выборка для задач машинного обучения.
Спектр - детальная информация, доступна для ∼0.5% (5млн.) всех объектов. Спектральные каталоги - основная тренировочная выборка.
Изображения и спектры небесных объектов
Продолжение следует ..
Особенности анализа данных небесных обзоров
● Число атрибутов - порядка 500● Необходимость в оценке достоверности прогноза каждого
индивидуального прогноза● Отличающиеся распределения входных атрибутов в обучающей и
целевой выборках● Наличие значений ошибок измерений в качестве атрибутов
Оценка качества модели прогнозирования красного смещения
Алгоритм прогнозирования красного смещения
● Random Forest● Gradient Boosting● XGBoost (в работе) ● Deep Learning (планируется)
Результаты: Δz_norm_err
Оценка достоверности прогноза
z1=0.1 z2=0.1 z3=0.3 z4=0.3 z5=0.4 z6=0.8
● Восстановление плотности вероятности по значениям прогнозов деревьев, входящих в ансамбль (например, гистограмма из 200 бинов).
● Прогноз: zph=∑pizi● Достоверность прогноза: zConf - доля прогнозов деревьев ансамбля,
попавших в доверительный интервал zph(выбирается), например, ±3% - интервал (zph-0.03,zph+0.03)
Примеры
Близкие (яркие) объекты
Среднеудаленные объекты Далекие объекты
Распределения выборок
psp(X)≠pph(X)
Спектральная выборка
Фотометрическая выборка
обучающая тестовая
целеваяконтрольная
с разметкой целевой переменной
без разметки целевой переменной
Как узнать pph(x)/psp(x) для каждой точки x обучающей выборки?
Метод трансформации тренировочной выборки
http://image.diku.dk/jank/papers/ASCOM2015.pdf
тренировочная целевая
вес объекта = 2/4 = 0.5
k=4
Пример
Метод трансформации тренировочной выборки
● Выбор атрибутов для transfer learning - наиболее информативные атрибуты для прогноза
● Необходимость подбора числа соседей k● Метод может быть использован как для улучшения точности за счет
трансформации (взвешивания) тренировочной выборки, так и для создания контрольной выборки.
● На данный момент достигли лишь небольшого улучшения точности.
Система обработки и анализа данных небесных обзоров
Цель:
повышение точности прогнозирования и классификации на данных небесных обзоров за счет:
● унифицированной обработки сырых многоволновых данных небесных обзоров (в т.ч. самых “свежих”, по которым отсутствуют каталоги)
● построения моделей прогнозирования и классификации на многоволновых данных
Система обработки и анализа данных небесных обзоров
MapReduce конвейер
Предстоящие подзадачи● Конвейер для обработки сырых изображений
○ Распараллеливание целевой области на сфере в MapReduce
● Хранение многоволновых каталогов и “виджетов”○ Кросс-коррелирование данных нескольких каталогов
● Распределенное машинное обучение○ Не полностью пересекающиеся каталоги (пропущенные значения)○ Учет ошибок измерений в моделях○ Deep learning
HEALPix
Спасибо за внимание!
Александр Мещеряков,к.ф.-м.н.н.с.
Институт Космических Исследований
Валентина Глазкова,к.ф.-м.н., ассистент ВМК МГУ
лектор Технопарка Mail.Ru
Сергей Герасимов м.н.с. Лаборатории технологий программирования
ВМК МГУ,лектор курса “Большие данные” (ВМК МГУ)
Chief Data Scientist, Bank HCF
Иван Колосов, магистрант 1-го годапо программе “Интеллектуальный анализ
данных”, ВМК МГУ
Евгений Глотов, магистрант 1-го года по программе “Интеллектуальный анализ
данных”, ВМК МГУ
Галия Юлчурина, студент 3-го курсаВМК МГУ
www.astromining.orgBig Data & Machine Learning for Astrophysics