Сергей Герасимов (ВМК МГУ), Александр Мещеряков...

  • View
    4.921

  • Download
    9

  • Category

    Science

Preview:

Citation preview

Задачи анализа данных в астрофизике

Докладчики:Александр Мещеряков (Институт космических исследований РАН)

Сергей Герасимов (ВМК МГУ)

“Наш доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.”

Наблюдательная космология: ключевые задачи

Наблюдательная космология: ключевые задачи

Природа темной (невидимой) материи?Природа темной энергии (ускоренного расширения Вселенной)?

❏ звезды❏ сверхновые❏ галактики❏ скопления галактик❏ квазары

Нужно построить 3D карту небесных объектов на небе

Классы объектов:

Многоволновая астрономия

Многоволновая астрономия

Основной объем данных - в оптическом диапазоне (наземные телескопы)

снимок всего неба = 6×1012pix2

×32bit ×4 = 100Тб

0.3”

0.3” α,δ - координаты F - яркость t - время

пиксельизображения:

Большие данные в оптической астрономии

Крупнейшие будущие проекты: LSST

http://www.lsst.org/

- “все небо за 3 дня”- камера 3200Mpix- 8.4m зеркало

телескопа- 37 ×109 объектов - 5.5 ×106 фотографий- 15 Pb данных (10лет)- 15 Тб/ночь- запуск в 2022 году

Dark Energy Camera Legacy Survey: http://legacysurvey.org/viewer

Как отделить звезду от галактики на картинке с телескопа? Как классифицировать объекты и измерять расстояния до них?

Пример: https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge

Спектры небесных объектов

∼0.5% (5млн.) всех известных небесных объектов - тренировочная выборка для machine learning!

● точная классификация небесных объектов● точное измерение расстояний (по “красному

смещению”)

Закон Хаббла. Расширяющаяся Вселенная.

с(Δλ/λ)= H * d d - расстояние до галактикиΔλ/λ - красное смещение c - скорость света H - постоянная Хаббла

Красное смещение

Δλ/λ = zλ - длина волны

Квазар Галактика

ЗвездаПо спектральным линиям

астрономы точно классифицируют объекты и измеряют расстояния

до галактик.

Изображения неба в разных фильтрах: ∼109 объектов в небесных обзорах - целевая выборка для задач машинного обучения.

Спектр - детальная информация, доступна для ∼0.5% (5млн.) всех объектов. Спектральные каталоги - основная тренировочная выборка.

Изображения и спектры небесных объектов

Продолжение следует ..

Особенности анализа данных небесных обзоров

● Число атрибутов - порядка 500● Необходимость в оценке достоверности прогноза каждого

индивидуального прогноза● Отличающиеся распределения входных атрибутов в обучающей и

целевой выборках● Наличие значений ошибок измерений в качестве атрибутов

Оценка качества модели прогнозирования красного смещения

Алгоритм прогнозирования красного смещения

● Random Forest● Gradient Boosting● XGBoost (в работе) ● Deep Learning (планируется)

Результаты: Δz_norm_err

Оценка достоверности прогноза

z1=0.1 z2=0.1 z3=0.3 z4=0.3 z5=0.4 z6=0.8

● Восстановление плотности вероятности по значениям прогнозов деревьев, входящих в ансамбль (например, гистограмма из 200 бинов).

● Прогноз: zph=∑pizi● Достоверность прогноза: zConf - доля прогнозов деревьев ансамбля,

попавших в доверительный интервал zph(выбирается), например, ±3% - интервал (zph-0.03,zph+0.03)

Примеры

Близкие (яркие) объекты

Среднеудаленные объекты Далекие объекты

Распределения выборок

psp(X)≠pph(X)

Спектральная выборка

Фотометрическая выборка

обучающая тестовая

целеваяконтрольная

с разметкой целевой переменной

без разметки целевой переменной

Как узнать pph(x)/psp(x) для каждой точки x обучающей выборки?

Метод трансформации тренировочной выборки

http://image.diku.dk/jank/papers/ASCOM2015.pdf

тренировочная целевая

вес объекта = 2/4 = 0.5

k=4

Пример

Метод трансформации тренировочной выборки

● Выбор атрибутов для transfer learning - наиболее информативные атрибуты для прогноза

● Необходимость подбора числа соседей k● Метод может быть использован как для улучшения точности за счет

трансформации (взвешивания) тренировочной выборки, так и для создания контрольной выборки.

● На данный момент достигли лишь небольшого улучшения точности.

Система обработки и анализа данных небесных обзоров

Цель:

повышение точности прогнозирования и классификации на данных небесных обзоров за счет:

● унифицированной обработки сырых многоволновых данных небесных обзоров (в т.ч. самых “свежих”, по которым отсутствуют каталоги)

● построения моделей прогнозирования и классификации на многоволновых данных

Система обработки и анализа данных небесных обзоров

MapReduce конвейер

Предстоящие подзадачи● Конвейер для обработки сырых изображений

○ Распараллеливание целевой области на сфере в MapReduce

● Хранение многоволновых каталогов и “виджетов”○ Кросс-коррелирование данных нескольких каталогов

● Распределенное машинное обучение○ Не полностью пересекающиеся каталоги (пропущенные значения)○ Учет ошибок измерений в моделях○ Deep learning

HEALPix

Спасибо за внимание!

Александр Мещеряков,к.ф.-м.н.н.с.

Институт Космических Исследований

Валентина Глазкова,к.ф.-м.н., ассистент ВМК МГУ

лектор Технопарка Mail.Ru

Сергей Герасимов м.н.с. Лаборатории технологий программирования

ВМК МГУ,лектор курса “Большие данные” (ВМК МГУ)

Chief Data Scientist, Bank HCF

Иван Колосов, магистрант 1-го годапо программе “Интеллектуальный анализ

данных”, ВМК МГУ

Евгений Глотов, магистрант 1-го года по программе “Интеллектуальный анализ

данных”, ВМК МГУ

Галия Юлчурина, студент 3-го курсаВМК МГУ

www.astromining.orgBig Data & Machine Learning for Astrophysics

we@astromining.org

Recommended