34
Задачи анализа данных в астрофизике Докладчики: Александр Мещеряков (Институт космических исследований РАН) Сергей Герасимов (ВМК МГУ)

Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Embed Size (px)

Citation preview

Page 1: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Задачи анализа данных в астрофизике

Докладчики:Александр Мещеряков (Институт космических исследований РАН)

Сергей Герасимов (ВМК МГУ)

Page 2: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

“Наш доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.”

Page 3: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Наблюдательная космология: ключевые задачи

Page 4: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Наблюдательная космология: ключевые задачи

Природа темной (невидимой) материи?Природа темной энергии (ускоренного расширения Вселенной)?

Page 5: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

❏ звезды❏ сверхновые❏ галактики❏ скопления галактик❏ квазары

Нужно построить 3D карту небесных объектов на небе

Классы объектов:

Page 6: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Многоволновая астрономия

Page 7: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Многоволновая астрономия

Основной объем данных - в оптическом диапазоне (наземные телескопы)

Page 8: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

снимок всего неба = 6×1012pix2

×32bit ×4 = 100Тб

0.3”

0.3” α,δ - координаты F - яркость t - время

пиксельизображения:

Большие данные в оптической астрономии

Page 9: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Крупнейшие будущие проекты: LSST

http://www.lsst.org/

- “все небо за 3 дня”- камера 3200Mpix- 8.4m зеркало

телескопа- 37 ×109 объектов - 5.5 ×106 фотографий- 15 Pb данных (10лет)- 15 Тб/ночь- запуск в 2022 году

Page 10: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Dark Energy Camera Legacy Survey: http://legacysurvey.org/viewer

Page 11: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Как отделить звезду от галактики на картинке с телескопа? Как классифицировать объекты и измерять расстояния до них?

Пример: https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge

Page 12: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Спектры небесных объектов

∼0.5% (5млн.) всех известных небесных объектов - тренировочная выборка для machine learning!

● точная классификация небесных объектов● точное измерение расстояний (по “красному

смещению”)

Page 13: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Закон Хаббла. Расширяющаяся Вселенная.

с(Δλ/λ)= H * d d - расстояние до галактикиΔλ/λ - красное смещение c - скорость света H - постоянная Хаббла

Page 14: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Красное смещение

Δλ/λ = zλ - длина волны

Page 15: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Квазар Галактика

ЗвездаПо спектральным линиям

астрономы точно классифицируют объекты и измеряют расстояния

до галактик.

Page 16: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Изображения неба в разных фильтрах: ∼109 объектов в небесных обзорах - целевая выборка для задач машинного обучения.

Спектр - детальная информация, доступна для ∼0.5% (5млн.) всех объектов. Спектральные каталоги - основная тренировочная выборка.

Изображения и спектры небесных объектов

Page 17: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Продолжение следует ..

Page 18: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Особенности анализа данных небесных обзоров

● Число атрибутов - порядка 500● Необходимость в оценке достоверности прогноза каждого

индивидуального прогноза● Отличающиеся распределения входных атрибутов в обучающей и

целевой выборках● Наличие значений ошибок измерений в качестве атрибутов

Page 19: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Оценка качества модели прогнозирования красного смещения

Page 20: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Алгоритм прогнозирования красного смещения

● Random Forest● Gradient Boosting● XGBoost (в работе) ● Deep Learning (планируется)

Page 21: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Результаты: Δz_norm_err

Page 22: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Оценка достоверности прогноза

z1=0.1 z2=0.1 z3=0.3 z4=0.3 z5=0.4 z6=0.8

● Восстановление плотности вероятности по значениям прогнозов деревьев, входящих в ансамбль (например, гистограмма из 200 бинов).

● Прогноз: zph=∑pizi● Достоверность прогноза: zConf - доля прогнозов деревьев ансамбля,

попавших в доверительный интервал zph(выбирается), например, ±3% - интервал (zph-0.03,zph+0.03)

Page 23: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Примеры

Page 24: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Близкие (яркие) объекты

Page 25: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Среднеудаленные объекты Далекие объекты

Page 26: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Распределения выборок

psp(X)≠pph(X)

Спектральная выборка

Фотометрическая выборка

обучающая тестовая

целеваяконтрольная

с разметкой целевой переменной

без разметки целевой переменной

Как узнать pph(x)/psp(x) для каждой точки x обучающей выборки?

Page 27: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Метод трансформации тренировочной выборки

http://image.diku.dk/jank/papers/ASCOM2015.pdf

тренировочная целевая

вес объекта = 2/4 = 0.5

k=4

Page 28: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Пример

Page 29: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Метод трансформации тренировочной выборки

● Выбор атрибутов для transfer learning - наиболее информативные атрибуты для прогноза

● Необходимость подбора числа соседей k● Метод может быть использован как для улучшения точности за счет

трансформации (взвешивания) тренировочной выборки, так и для создания контрольной выборки.

● На данный момент достигли лишь небольшого улучшения точности.

Page 30: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Система обработки и анализа данных небесных обзоров

Цель:

повышение точности прогнозирования и классификации на данных небесных обзоров за счет:

● унифицированной обработки сырых многоволновых данных небесных обзоров (в т.ч. самых “свежих”, по которым отсутствуют каталоги)

● построения моделей прогнозирования и классификации на многоволновых данных

Page 31: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Система обработки и анализа данных небесных обзоров

Page 32: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

MapReduce конвейер

Page 33: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Предстоящие подзадачи● Конвейер для обработки сырых изображений

○ Распараллеливание целевой области на сфере в MapReduce

● Хранение многоволновых каталогов и “виджетов”○ Кросс-коррелирование данных нескольких каталогов

● Распределенное машинное обучение○ Не полностью пересекающиеся каталоги (пропущенные значения)○ Учет ошибок измерений в моделях○ Deep learning

HEALPix

Page 34: Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа

Спасибо за внимание!

Александр Мещеряков,к.ф.-м.н.н.с.

Институт Космических Исследований

Валентина Глазкова,к.ф.-м.н., ассистент ВМК МГУ

лектор Технопарка Mail.Ru

Сергей Герасимов м.н.с. Лаборатории технологий программирования

ВМК МГУ,лектор курса “Большие данные” (ВМК МГУ)

Chief Data Scientist, Bank HCF

Иван Колосов, магистрант 1-го годапо программе “Интеллектуальный анализ

данных”, ВМК МГУ

Евгений Глотов, магистрант 1-го года по программе “Интеллектуальный анализ

данных”, ВМК МГУ

Галия Юлчурина, студент 3-го курсаВМК МГУ

www.astromining.orgBig Data & Machine Learning for Astrophysics

[email protected]