114
НГУ Подготовка специалистов по анализу больших данных: все аспекты Руководитель проекта магистерской программы «Аналитика больших массивов данных» в НГУ к.ф.-м.н. Павловский Евгений Николаевич Директор по развитию «Экспасофт»

Подготовка специалистов по анализу больших данных: все аспекты

Embed Size (px)

Citation preview

Page 1: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Подготовка специалистов по анализу больших данных: все аспектыРуководитель проекта магистерской программы«Аналитика больших массивов данных» в НГУ

к.ф.-м.н. Павловский Евгений НиколаевичДиректор по развитию «Экспасофт»

Page 2: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Экспасофт· 2010, ЛША· «Исследовательские системы», 2011 – н.в.· FRiS – уникальная методология анализа данных,школа Н.Г. Загоруйко

· 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг

· Услуги по анализу данных

Page 3: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

BDA

биоинформатика

медицина

безопасность

криминалистика

нефтедобычафинансы

маркетинг

ритейл

облачныевычисления

образованиеБизнес-домены

3BDA – Big Data Analytics

Page 4: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

ОбразованиеBDA

программа

опыт

проекты

команда

маркетингPR

ФГОС

инфраструктура

наукаВсе аспекты

4BDA – Big Data Analytics

Page 5: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

НаукаНа базе лабораторий анализа данных СО РАН

5

Page 6: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Машинное обучение

Кластеризация

Распознавание

Прогнозирование

Цензурирование

Выборинформати

вныхпризнаков

6

Page 7: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Феномен Больших данных· 50 лет· 2002, 50% в цифре· 2008, Nature· 2011, McKinsey

7

Page 8: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

8

4V· Volume· Объём данных

· Velocity· Скорость создания и обработки данных

· Variety· Разнообразие источников и форм

хранения данных· Value· Ценность

Page 9: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

9

Page 10: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

10

2014

Page 11: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

11

2015

Page 12: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

EMC2 12

Page 13: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

13

Особенностибольших данныхЧем отличаются от маленьких по существу?

Page 14: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

14

Page 15: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Отказ от структурированности N = всё

сбор данных впрок не знаем, какие вопросы будем задавать

NoSQL - Not Only SQL: документо-ориентированные, ключ-значение Отказ от структуры Отказ от консистентности в пользу доступности или параллелизма

HDFS – Hadoop Distributed File System Параллелизм обработки Резервирование 15

Page 16: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Неперемещаемость · идея использовать вычислительные мощности на месте хранения

· MapReduce · Hadoop

· TeraData Hortonworks · IBM BigInsights · Cloudera

· Spark

· реально быстро!· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)

16

Page 17: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Новые источники достоверных данных· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами.

· Социальные сети (скоринг по соц. профилю, RTB)

· Открытые данные: http://data.gov.ru/, http://data.mos.ru/

17

Page 18: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Сокращение сроков вычислений · in-memory · SAP HANA

· 256Tb RAM· Oracle TimesTen· Опыт в РФ

· СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)· сокращение сроков формирования отчётов на порядки

· MapReduce · Hadoop

18

Page 19: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Статистификация · обращение к статистическим методам

· обращение к интеллектуальному анализу данных (Data Mining)

· поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности

· отказ от причинности

19

Page 20: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

20

Какие отрасли первыми будут пытаться внедрять эти технологии?наличие реального спроса в РФ

Page 21: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

21

СпросРЕАЛЬНЫЙ· 1) Банковский сектор, скоринг

· 2) Real time bidding (RTB) платформы

· 3) Микрофинансы· 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) + телекомы

· 5) Авиакопании

ОПАЗДЫВАЮЩИЙ· 1) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР.

2) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.

Page 22: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

22

Маркетинговое "давление"· 1) реклама и продвижение вендоров:· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights),

SAP HANA, EMC Pivotal HD· 2) "вольные" евангелисты:· В. Майер-Шёнбергер, Р. Смолан и др.

· 3) осознание возможностей BigData в обществе, подтверждающие примеры· Статья в Nature (2008) аналогия "большая нефть" – "большие

данные", Гугло-машина, Сноуден

Page 23: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

23

Реальные основания для "давления"· Потенциальные рынки данных:· Данные профилей Facebook, LinkedIn, MySpace, VK,

Одноклассники и др.· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics

и др.)

· Рыночные факторы:· Снижение себестоимости хранения, вычислений· Возможность получать "всю" информацию о явлении

(богатство сенсоров)· Отход от структурированности (NoSQL базы) и синхронности

(отход от ACID)· Уход в параллелизм (закон Мура перестал действовать)

Page 24: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Отвечаем на вызов"Кадры решают всё!" (на основе данных)

24

Page 25: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

•самая широкая аудитория (школьники, разработчики, бакалавры)•средство привлечения из онлайн в офлайн

Онлайн-курсыbit.ly/IntuitBDA

•вовлекаем в мобильность•готовим для индустрии и для науки

Магистратураbigdatansu.ru

•укрепление научных школАспирантура

•повышение квалификации в области обработки больших данных

Доп. Образованиеexpasoft.com/edu

Образовательная стратегия в НГУ

Page 26: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

26Орг-формыИнституты ППК

Целевые магистратуры

Кадровые агентства

Компетенции

ЦЕРННейросет

иФЭЧ

ИЯФСпутникиНейросет

иВоенка

ИАЭFRiS, оптим. алг, онтологии, логикаРаспознавание

ИМБанки данныхCUDA,

DNAБиоинформатика

ИЦиГ, УНИПРО,

НПС АрхивыОнтологии,

логикаИнформатика

ИСИСО РАН

ССКЦИнформатика

ИВТ, ИВМиМГ

СОРМСбор, хранениеБезопасность

Сигнатек?БезопасностьБезопасность

СИБ

ИнициативыМагистерская программа

Аспирантура

Краткосрочные курсы

СХД 1 PbХранение

Кардиология, Радиология

НИИПК?Хранение

Медицина

НИИТО

FRiS, оптим. алг,

онтологии, логика,

управление BDA

Безопасность, медицина, финансы, сервера

Экспасофт

Приборы?

Унискан, ТИОН

ИгрыSlpunk

Игры

AlawarМТСТранзакцииТаргетинг

EyelineБанкиТранзакцииФинансы

ЦФТ?Вычисления, хранение

ИЦКТ

Потребители

?Обработка, образовани

еМедицина, биология, физика, ИТ, и др.

НГУ

КартыГеопространс

твоКарты

DataEast

Page 27: Подготовка специалистов по анализу больших данных: все аспекты

НГУПервый в России онлайн-курс поBig Data AnalyticsЗагоруйко

Николай Григорьевич

Павловский Евгений

Николаевич

Борисова Ирина

Артёмовна

Аникин ЮрийАлександрович

Зырянов Александр Олегович

д. т. н., академик МАИ, профессор, зав. лаб. анализа

данных ИМ СО РАН

к.ф.-м.н., директор по развитию «Экспасофт»

к.т.н., ассистент кафедры общей

информатики ФИТ НГУ

к.т.н., преподаватель кафедры общей

информатики ФИТ НГУ

Data-аналитик,ООО Экспасофт

Введение в когнитивный анализ данных

Введение в «большие данные»Области применения больших данныхОсновы языка R

Разработка алгоритмов на базе FRiS-функции

Обзор технологий хранения больших данных

Программирование на языке R

Инструменты Data Mining

http://bit.ly/IntuitBDA

Page 28: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Учебный план магистратуры

Page 29: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT  

 

 

CRISP-DM

Page 30: Подготовка специалистов по анализу больших данных: все аспекты

Copyright © 2012 EMC Corporation. All Rights Reserved.

EMC2 PROVEN PROFESSIONAL

Data Analytics Lifecycle

30

Discovery

Operationalize

Model Planning

Data Prep

Model Building

Communicate Results

Do I have enough information to draft an analytic plan and share

for peer review?

Do I have enough

good quality data to start building the

model?

Do I have a good idea about the type

of model to try? Can I refine the analytic plan?

Is the model robust enough?

Have we failed for sure?

1

2

3

4

6

5

Page 31: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

ОбразованиеBDA

программа

опыт

проекты

команда

маркетингPR

ФГОС

инфраструктура

наукаВсе аспекты

31BDA – Big Data Analytics

Page 32: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

32

Page 33: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

33

Page 34: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Конкурсы· 1е место, 2015, AVITO

· 1е место, 2015, eKapusta

· 4е место среди 619 команд, 2009, Data Mining Cup

34

Page 35: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Чай-перерыв

35

Page 36: Подготовка специалистов по анализу больших данных: все аспекты

Цикл аналитики

Page 37: Подготовка специалистов по анализу больших данных: все аспекты

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT 

 

 

 CRISP-DM

CRISP-DMCross-Industry Standard Process for Data Mining

Page 38: Подготовка специалистов по анализу больших данных: все аспекты

KDDKnowledge Discovery in Databases

38

Page 39: Подготовка специалистов по анализу больших данных: все аспекты

BABOK v2.0Business Analysis Body Of Knowledge (v2.0)

39

Page 40: Подготовка специалистов по анализу больших данных: все аспекты

EMC2 40

Page 41: Подготовка специалистов по анализу больших данных: все аспекты

41

Page 42: Подготовка специалистов по анализу больших данных: все аспекты

42

Page 43: Подготовка специалистов по анализу больших данных: все аспекты

43

Page 44: Подготовка специалистов по анализу больших данных: все аспекты

Понимание бизнеса(Business Understanding)· Определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.

· Требования, предъявляемые к клиенту· Предоставить содержательную постановку задачи

(заполнить анкету)· Отвечать на запросы эксперта

44

Page 45: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа Определить бизнес цели (Determine business objectives)· Определение бизнес-целей заказчика, выделение важных факторов, которые могут повлиять на результаты проекта.

Бэкграунд проекта (Background)· Сбор информации, относящейся к бизнес-целям заказчика.

Оценить ситуацию (Assess situation)· Изучение ресурсов, ограничений, допущений и других факторов, которые следует учитывать при определении цели

анализа данных и составлении плана проекта.

Определить цели анализа данных (Determine data mining goals)· Определение задачи проекта в технических терминах анализа данных.

Составить план проекта (Produce project plan)· Подготовка плана по достижению целей анализа данных и, тем самым - бизнес-целей. 45

Page 46: Подготовка специалистов по анализу больших данных: все аспекты

Результат работ по этапу· Цели бизнеса (Business objectives)· Описание основных и второстепенных целей заказчика с точки зрения бизнеса.· Условия успешности бизнеса (Business success criteria)· Описание основных условий успешной реализации проекта с точки зрения ведения бизнеса.· Цели анализа данных (Data mining goals)· Описание ожидаемых технических результатов проекта, которые приведут к достижению

бизнес-целей.· Критерий успеха анализа данных (Data mining success criteria)· Описание критериев успешного исхода проекта в технических терминах.· План проекта (Project plan)· Перечень этапов, которые должны быть выполнены в проекте, их длительность,

необходимые ресурсы, входы, выходы, и зависимости.

46

Page 47: Подготовка специалистов по анализу больших данных: все аспекты

Понимание данных(Data Understanding)· На этой фазе данные собираются, происходит ознакомление с данными, определяются проблемы в качестве данных (такие как ошибки или пропуски), делаются первые попытки анализа данных с целью выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.

· Требования, предъявляемые клиенту· Предоставить доступ к данным/к структуре данных (…)· Выслать файлы, структуры данных, предоставить доступ к базам данных, ….· Описать данные (Describe data)· Сопроводить данные информацией необходимой для понимания данных:

· описание признаков (возможные значения, дискретность);· если есть вторичные признаки, разъяснить, как именно они были образованы;· каким образом данные собирались.

· Предоставить информацию необходимую для интеграции данных: соответствие объектов и признаков в разных источниках данных. 47

Page 48: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Собрать исходные данные (Collect initial data)· Запросить доступ к данным и осуществить их выгрузку (если это возможно). Если необходимо, непосредственно загрузить данные в анализирующие инструменты.

· В случае нескольких источников данных возникает задача их интеграции.· Слияние данных (Merged data)· Слияние данных - объединение двух и более источников данных, которые содержат различную информацию об одних и тех же объектах.

· Описать данные (Describe data)· Исследовать основные или "поверхностные" свойства собранных данных.

48

Page 49: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Исследовать данные (Explore data)· Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. Она включает в себя выяснение распределения ключевых признаков; отношения между парами или малым числом признаков; результаты простого агрегирования; свойства больших групп населения; простой статистический анализ. Это ознакомление может быть обращено конкретно к цели самого анализа данных; также оно может добавлять или уточнять информацию о данных и их качестве. Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа.

· Проверить качество данных (Verify data quality)· Следует определить качество данных, ответив на вопросы:

· Являются ли данные полными (покрывают ли они все требуемые случаи)?· Являются ли данные корректными, или же содержат ошибки, и где эти ошибки?· Встречаются ли в данных пропущенные значения? Если встречаются, то где и

насколько часто? 49

Page 50: Подготовка специалистов по анализу больших данных: все аспекты

Результаты этапа· Отчет о выгрузке данных (Initial data collection report)· Список полученных наборов данных вместе с описанием доступа к ним и возможными

проблемами при осуществлении этого доступа. Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).

· Отчет по описанию данных (Data description report)· Описание собранных данных, включающее: формат данных, количество данных (число

объектов и признаков в каждой таблице), сущности в каждом признаке и все другие найденные поверхностные характеристики данных.

· Отчет об ознакомлении с данными (Data exploration report)· Информация о первых замечаниях и гипотезах, а также об их возможном влиянии на

оставшуюся часть проекта. Диаграммы и графики, которые показывают свойства данных, описывают те части данных, которые будут интересны для дальнейшего рассмотрения.

· Отчет о качестве данных (Data quality report)· Список результатов по верификации качества данных. Если встретились ошибки –

описание возможных решений. 50

Page 51: Подготовка специалистов по анализу больших данных: все аспекты

Подготовка данных(Data Preparation)· Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных.

51

Page 52: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Отобрать данные (Select data)· Выбор данных для анализа. Критерий выбора включает релевантность для целей анализа

данных, качество и технические ограничения, такие как объем данных или тип данных.· Очистить данные (Clean data)· Привести качество данных в соответствие с выбранным аналитическим подходом. Этого

можно добиться различными подходами, например: выбором достаточно качественного поднабора данных, введением значения по умолчанию, оцениванием пропусков в данных с помощью моделирования и другими.

· Сделать производные данные (Construct data)· Эта задача включает операции по конструктивной подготовке данных, такие как

порождение новых признаков и новых записей, а также простое преобразование значений признаков. В том числе речь идет об агрегации, когда новые значения вычисляются из суммирования информации из множества записей или таблиц.

· Привести данные в нужный формат (Format data)· Преобразование данных в первую очередь носит синтаксические изменения, которые не

меняют значение данных. Они необходимы для требований инструментов моделирования.52

Page 53: Подготовка специалистов по анализу больших данных: все аспекты

Результат работ по этапу· Правила включения/исключения (Rationale for inclusion/exclusion)· Перечень данных, которые должны быть включены/исключены и по каким причинам.

· Отчет о чистке данных (Data cleaning report)· Список решений и предпринятых мер по улучшению качества данных. Список проверенных трансформаций данных, сделанных в целях улучшения качества.

· Отчет о создании производных данных (Construct data report)· Отчет о проведении операций по конструктивной подготовке данных.· Переформатированные данные (Reformatted data)· Данные, представленные в формате, удовлетворяющем требованиям выбранных инструментов моделирования и/или специфичной модели.

53

Page 54: Подготовка специалистов по анализу больших данных: все аспекты

Моделирование(Modeling)· В этой фазе к данным применяются разнообразные методики моделирования, строятся модели, их параметры настраиваются на оптимальные значения.

· Требования, предъявляемые клиенту· Выбрать методику моделирования (Select modeling

technique)· Выбрать одно или более средств реализации

моделирования.· Дизайн тестов (Test design)· Высказать свои пожелания относительно тестирования и

оценки качества модели. 54

Page 55: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Выбрать методику моделирования (Select modeling technique)· Осуществляется в том случае, если выбор средства реализации моделирования

оставлен за исполнителем.· Сделать тесты для модели (Generate test design)· Разработка методов валидации для построенной модели в соответствии с

пожеланиями, указанными заказчиком. Основная задача - решить, как разделять выборку на обучающую, контрольную и валидационную.

· Построить модель (Build model)· Создание одной или нескольких моделей.· Настройка параметров (Parameter settings)· Любой инструмент моделирования содержит большое число параметров, которые

необходимо настраивать.· Оценить модель (Assess model)· Оценивание модели, чтобы была уверенность, что она отвечает критерию успеха

интеллектуального анализа данных и проходит необходимые критерии испытаний.55

Page 56: Подготовка специалистов по анализу больших данных: все аспекты

Результат работ по этапу· Выбранное средство реализации моделирования (Modeling technique)· Документ, содержащий описание выбранного средства моделирования.· Предположения модели (Modeling assumption)· Документ, содержащий все специфические предположения о данных, при условии которых работает

выбранное средство реализации модели, например: нет пустых значений, все параметры распределены равномерно и другие.

· Дизайн тестов (Test design)· План обучения, тестирования и оценки качества модели.· Модели (Models)· Окончательный вариант одной или нескольких моделей, полученных инструментом анализа данных.

Предоставляется в формате инструмента, которым они были порождены.· Описание модели (Model description)· Отчет с описанием и интерпретацией моделей.· Оценивание модели (Model assessment)· Сравнительный список качества порожденных моделей (например, с точки зрения точности) и оценка

их качества по отношению друг к другу. 56

Page 57: Подготовка специалистов по анализу больших данных: все аспекты

Оценка(Evaluation)· Оценка результатов работы с точки зрения достижения целей проекта и удовлетворения требований со стороны бизнеса, которые были сформулированы на предыдущих этапах.

57

Page 58: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Оценить результаты (Evaluate results)· Оценивание того, насколько построенная модель достигает поставленные бизнесом цели, и есть ли бизнес-причины, по которым у модели появляются существенные недостатки.

· Процесс ревю (Review process)· Обзор успешности самого применения техник анализа данных для того чтобы определить, есть ли важные факторы или задачи, которые кто-то мог пропустить.

· Определить следующие шаги (Determine next steps)· Исследование необходимости проведения дополнительных исследований. Составление списка возможных дальнейших действий вместе со всеми "за" и "против".

58

Page 59: Подготовка специалистов по анализу больших данных: все аспекты

Результат работ по этапу· Оценка результатов анализа данных с точки зрения бизнес-успеха (Assessment of data mining results with respect to business success criteria)

· Отчёт, содержащий основные результаты в терминах бизнес-целей и бизнес-результатов.

· Одобренные модели (Approved models)· Список моделей, которые с точки зрения достижения бизнес-целей являются успешными.

· Ревю процесса (Review of process)· Советы относительно действий, которые были пропущены или должны быть повторены.

59

Page 60: Подготовка специалистов по анализу больших данных: все аспекты

Развертывание(Deployment)· В зависимости от требований, фаза развертывания может быть столь же простой, как генерация отчета, или же сложной, например, автоматизация процесса анализа данных для решения бизнес-задач. Однако даже если аналитик не принимает участие в развертывании, важно дать понять клиенту, что ему нужно сделать для того, чтобы начать использовать полученные модели.

60

Page 61: Подготовка специалистов по анализу больших данных: все аспекты

Работы этапа· Запланировать развертывание (Plan deployment)· Перечень мероприятий, необходимых для того, чтобы внедрить результаты анализа данных в бизнес.

· Запланировать поддержку и мониторинг развернутого решения (Plan monitoring and maintenance)

· Составление рекомендаций по правильной эксплуатации полученных результатов анализа данных, поддержанию моделей в актуальном состоянии.

· Сделать финальный отчет (Produce final report)· Резюмирование проекта и всех связанных с ним достижений.· Документирование опыта (Experience documentation)· Описание важного опыта, который был накоплен в ходе реализации проекта. Например, подводные камни, вводящие в заблуждение подходы или подсказки для выбора наиболее подходящих методов анализа данных в подобных ситуациях - это может стать частью документации. 61

Page 62: Подготовка специалистов по анализу больших данных: все аспекты

Результат работ по этапу· План развертывания (Deployment plan)· Необходимые для развертывания шаги и способ их осуществления.

· План мониторинга и поддержки (Monitoring and maintenance plan)

· Перечень мероприятий необходимых для поддержания моделей в актуальном состоянии.

· Финальный отчет (Final report)· Это окончательный письменный отчет о проведенном анализе данных. Он включает в себя все предыдущие результаты и подводит итоговые заключения. 62

Page 63: Подготовка специалистов по анализу больших данных: все аспекты

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT 

 

 

 CRISP-DM

CRISP-DMCross-Industry Standard Process for Data Mining

Page 64: Подготовка специалистов по анализу больших данных: все аспекты

HTTP://WWW.OSP.RU/NETCAT_FILES/18/10/09_201410_OSP_USTYUZHANIN_V02.PDF 64

Page 65: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

КейсыАнализа больших данных

65

Page 66: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

НГУ-Parallels

66

· Прогнозирование нагрузок на сервера по характеру запросов к ним

Препринт научной статьи

Page 67: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Выбор жены

http://www.wired.com/2014/01/how-to-hack-okcupid/all/

Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий.Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.

Page 68: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Выбор женыPython для обработки анкет.12 ложных своих анкет.Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по-человечески. (Понаблюдал за другом, сымитировал его поведение).Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин.Не спал ночами, отложил диссертацию.Кластеризация K-Modes.5000 анкет собрал для контроля.Получилось 7 кластеров.

Page 69: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Выбор жены

· Понравилось два кластера. Создал и оптимизировал под них профили A и B.· Text-mining двух кластеров - ключевые интересы.· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.

Page 70: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

70

Page 71: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

71

Навигация· 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне.

· «Датифицировал» архивы моряков.· «Физическая география моря» в 1855 году

1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)

2. Потоки течений, океанография3. Закладка трансатлантического

телеграфного кабеля

Page 72: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

72

Нефть,это наше всёВостребованы конкурентоспособные решения

Page 73: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

73

Восстановление данных фракционного состава добываемой смесиДанные:· 3 исходных параметра ($10k)· 3 целевых параметра ($200k)· 5 участков данных· Частота измерений – раз в минуту· Всего 66052 измерения

12мм 13мм 11мм 12мм 13мм

Page 74: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

74

Сравнение алгоритмовАлгоритмы прогнозирования gas oil waterLinearRegression 0,0326 0,1734 0,2018ZeroR 0,0652 0,1022 0,1103M5P 0,0326 0,1695 0,1619MultilayerPerceptron 0,0426 0,3623 0,3484IsotonicRegression 0,06 0,143 0,1439LeastMedSq 0,02 0,281 0,3569PaceRegression 0,0281 0,1993 0,3656RBFNetwork 0,0651 0,1023 0,1105SimpleLinearRegression 0,027 0,1939 0,227SMOreg 0,0229 0,3306 0,4426IBk 0,0635 0,1519 0,1528LWL 0,0633 0,112 0,1164ConjunctiveRule 0,0637 0,1042 0,1173M5Rules 0,0326 0,1695 0,1601DecisionTable 0,062 0,104 0,1124DecisionStump 0,063 0,1099 0,1125REPTree 0,0616 0,1416 0,1595KStar 0,0645 0,1041 0,1124

Page 75: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Неожиданные открытияКейсы из книги«Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

75

Page 76: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Чем больше общих генов в паре, тем больше вероятность неверности жены

76

Page 77: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Молодцы пускают слюни по поводу спортивных автомобилей

77

Page 78: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Курильщики реже страдают от туннельного синдрома запястья

78

Page 79: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Террористы-смертникижизнь не страхуют

79

Page 80: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

После выборов преступность увеличивается

80

Page 81: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Желтые и оранжевые автомобили реже попадают в аварию· реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%.

· одна из ведущих страховых компаний в России· Часто в аварии попадают машины красных оттенков (в

общем количестве страховых возмещений по ДТП их доля составляет 62%)· Объясняется это тем, что красный выбирают в основном водители

молодые, имеющий маленький водительский стаж.·  Другая возможная причина: красный цвет вызывает у человека

активизацию процессов, возбуждённость.  Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги. 

81

Page 82: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

CAPEX & OPEX

82

Page 83: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Big Data проектысбор данных (CAPEX) • Сервера • Облака • Инфраструктура

извлечение пользы (value) (OPEX) • команда

• Data Scientist • Data Engineer • Manager

• процесс • сбор данных

• инвентаризация источников • доступ к данным

• физический • юридический

• мощности по обработке данных • Hadoop - обрабатываем прямо там, где

хранятся • в облаках • на локальных машинах • аналитические инструменты

• Splunk • PreCog • BigML

Page 84: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Как делает Beeline?

84

Page 85: Подготовка специалистов по анализу больших данных: все аспекты

НГУBigData-процесс в Вымпелкоме (2014)«Фабрика идей»

• Формализация• Анализ• План

Фабрика

идей

• Источники• Пилот• Доработка• Оценка• Выпуск решения

Реализация

• Актуальность• Доступность• Производительность• Масштабируемость• Работа с

инцидентами

Результат

85

Page 86: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Секретные ингредиенты от Билайна· Инфраструктура для БД· «Фабрика идей»· Вовлечённость всех подразделений· Команда, мотивированная на результат и открытия· Соответствие потребностям бизнеса

· Получить быстрый результат

86

Page 87: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

87https://events.yandex.ru/lib/talks/2948/

, НГУ

Page 88: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Зачем управленцам математика? - HBR• Подучите азы регрессионного анализа,

статистического анализа и планирования экспериментов

• Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами

• Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании)

• Сотрудничайте с аналитиками подходящей специализации

• Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент

• Наладить контакты между аналитиками и всеми

службами (матричная организация) - чтобы были коммуникации

• Сосредоточьтесь на начальной и конечной стадиях

• постановка задачи • гипотезы • донесение результатов до заинтересованных

лиц • Задавайте по ходу дела много вопросов

• больше деталей • Создавайте культуру исследования, а не защиты

• поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные

http://bit.ly/HBRbigdata

Page 89: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

89

Материалы для повышения квалификации по направлению курса

· Видео лекции ШАД по машинному обучению· http://shad.yandex.ru/lectures/machine_learning.xml

· Курс по большим данным на Интуит· http://bit.ly/IntuitBDA

· Курс по озёрам данных· https://

educast.emc.com/learn/data-lakes-for-big-data-may-june

Курсы на Coursera.org· Introduction to Data Science

· https://www.coursera.org/course/datasci· Machine Learning

· https://www.coursera.org/course/ml· Probabilistic Graphical Models

· https://www.coursera.org/course/pgm· Natural Language processing

· https://www.coursera.org/course/nlp· Data Science Specialization – 9 курсов + проект

· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project

· Core Concepts of Data Analysis· https://www.coursera.org/course/datan

Page 90: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Офлайн-курсыТолько хардкор – только офлайн

90

Page 91: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Курс «Аналитика больших данных для бизнеса»

ПН ВТ СР ЧТ ПТ СБ ВС          10:00 –

11:20 

  18:00 – 19:20

  18:00 – 19:20

  11:30 – 13:00

 

  19:30 – 21:00

  19:30 – 21:00

     

91• Диплом НГУ о повышении квалификации на 96 часов• с 20 октября по 20 декабря• Проектная работа над известными кейсами и кейсом вашей

компании

Page 92: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Нити-дисциплины

92

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

Page 93: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Роли – голограмма коллектива

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

93

Dat

a Sc

ient

ist

CIO

Бизнес-аналитик,

дата-аналитик

Разработчик

DBA

Page 94: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Выпускник принесёт в свою компанию· Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.

· Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.

· Предметные знания всех основных направлений машинного обучения.

· Понимание областей применения «джентельменского набора» алгоритмов анализа данных.

· Понимание создания новых бизнес-моделей на основе данных 94

Page 95: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

ФГОС и ФГОС 3+

95

Page 96: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Ограничения стандартов· Компетентностный подход· Формы обучения, учебный график· Учебный план· Фонды оценочных средств· Литература

96

Page 97: Подготовка специалистов по анализу больших данных: все аспекты

Компетентностный подходПо завершении курса, студент должен :• Участвовать (и быть полезным!) в качестве члена команды по анализу, в том

числе Больших, данных: Использовать структурированный подход к организации жизненного цикла проектов по

анализу больших данных Преобразовывать проблемы бизнеса в аналитические проблемы Применять аналитические методы и инструменты для анализа данных, создания

статистических моделей и выявления скрытых знаний, которые могут привести к действенным результатам

Выбирать оптимальные способы визуализации данных, для более ясного донесения аналитических результатов бизнес спонсорам и другим, заинтересованным лицам

Использовать инструменты, такие как R и RStudio, MapReduce/Hadoop, аналитику в БД, функционал MADlib и т.п.

• Объяснять как продвинутая аналитика может быть использована для получения конкурентных преимуществ и как роль и навыки специалиста по обработке данных (data scientist) отличаются от традиционных для бизнес-аналитика (business intelligence analyst)

97Introduction and Course Agenda

Page 98: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

98

КомпетенцииКод

компетенци

и

Формулировка компетенции из ФГОС

Планируемые результаты обучения (показатели достижения заданного уровня освоения компетенций)

ОК-2 Способность понимать роль науки в развитии цивилизации, соотношение науки и техники, иметь представление о связанных с ними современных социальных и этических проблемах, понимать ценность научной рациональности и ее исторических типов.

Понимать важность феномена больших данных для развития общества и науки. Знать причины возникновения тренда больших данных. Знать проблемы и возможности, связанные с появлением больших данных.Понимать важность применения научных методов для извлечения пользы из больших массивов данных

MODULE #: MODULE NAME

Page 99: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

99

КомпетенцииКод

компетенци

и

Формулировка компетенции из ФГОС

Планируемые результаты обучения (показатели достижения заданного уровня освоения компетенций)

ОПК-2

Культурой мышления, способностью выстраивать логику рассуждений и высказываний, основанных на интерпретации данных, интегрированных их разных областей науки и техники, выносить суждения на основании неполных.

Знать: существующие в современном мире источники данных.Уметь: интегрировать данные из разных источников, интерпретировать их в контексте поставленной задачи, делать выводы, основанные на анализе полученных данных.Владеть: методами получения данных из различных доступных источников.

MODULE #: MODULE NAME

Page 100: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Способы контроляКомпетенция Знания, умения, навыки Процедура

оцениванияСпособность понимать роль науки в развитии цивилизации, соотношение науки и техники, иметь представление о связанных с ними современных социальных и этических проблемах, понимать ценность научной рациональности и ее исторических типов (ОК-2)

Понимать важность феномена больших данных для развития общества и науки.

Дискуссия

Знать причины возникновения тренда больших данных.

Тест-пятиминутка

Знать проблемы и возможности, связанные с появлением больших данных.

Тест-пятиминутка

Понимать важность применения научных методов для извлечения пользы из больших массивов данных

Дискуссия

100

Page 101: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Способы контроляКомпетенция Знания, умения, навыки Процедура

оцениванияКультурой мышления, способностью выстраивать логику рассуждений и высказываний, основанных на интерпретации данных, интегрированных их разных областей науки и техники, выносить суждения на основании неполных (ОПК-2)

Знать: существующие в современном мире источники данных.

Тест-пятиминутка

Уметь: интегрировать данные из разных источников, интерпретировать их в контексте поставленной задачи, делать выводы, основанные на анализе полученных данных.

Домашнее задание

Владеть: методами получения данных из различных доступных источников.

Домашнее задание101

Page 102: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Критерии оцениванияУровень Показатели (что обучающийся

должен продемонстрировать)

Оценочная шкала

удовлетворительно хорошо отлично

Пороговый

Понимать важность феномена больших данных для развития общества и науки.

Имеет фрагментарное представление о феномене больших данных и его влиянии на общество и науку.  

Может сформулировать несколько факторов влияния больших данных на науку

Демонстрирует целостное представление о феномене больших данных в контексте развития общества.

Базовый

Знать причины возникновения тренда больших данных.

Называет причины правильно, но не может объяснить.

Объясняет как минимум одну причину и ее генезис.

Имеет целостное понимание причин, а также что не является причиной. Может фильтровать маркетинговый шум.

102

Page 103: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Литература· Committee on the Analysis of Massive Data; Committee on Applied and

Theoretical Statistics; Board on Mathematical Sciences and Their Applications; Division on Engineering and Physical Sciences; Frontiers in Massive Data Analysis, National Research Council, 2013 http://www.nap.edu/catalog/18374/frontiers-in-massive-data-analysis

· Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data // EMC Education Services. 2015. — 432p. — ISBN: 978-1-118-87613-8.

· C. B. B. D. Manyika, “Big Data: The Next Frontier for Innovation, Competition, and Productivity,” McKinsey Global Institute, 2011. URL: http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights%20and%20pubs/MGI/Research/Technology%20and%20Innovation/Big%20Data/MGI_big_data_full_report.ashx 103

Page 104: Подготовка специалистов по анализу больших данных: все аспекты

НГУ

Литература· Виктор Маер-Шенбергер, Кеннет Кукьер. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. — М.: «Манн, Иванов и Фербер», 2013, 240 с. ISBN 978-5-91657-936-9(http://www.mann-ivanov-ferber.ru/books/paperbook/big_data/)

· Эрик Сигель. Прогнозируя будущее. М.: Альпина Паблишер. – 2014.· DJ Patil. Building Data Science Teams. O’Reilly. 2011. ISBN: 978-1-449-31623-5

· (http://cdn.oreilly.com/radar/2011/09/Building-Data-Science-Teams.pdf)· J. Adler. R in a Nutshell. Second Edition. O’Reilly Media Inc. 2012. ISBN: 978-1-449-31208-4 (URL: http://it-ebooks.info/book/1014/)

104

Page 105: Подготовка специалистов по анализу больших данных: все аспекты

Модули курса

Introduction and Course Agenda 105

Data Science and Big Data Analytics 1. Введение в анализ больших данных2. Жизненный цикл проекта анализа данных3. Обзор базовых аналитических методов с

использованием R4. Расширенная аналитика – Теория и методы5. Расширенная аналитика - Технологии и

инструменты6. Собираем все вместе + завершающий проект

Page 106: Подготовка специалистов по анализу больших данных: все аспекты

Темы, рассматриваемые в курсе

106

Introduction to Big Data Analytics+ Data Analytics Lifecycle

Review of Basic Data Analytic Methods Using R

Advanced Analytics – Theory and Methods

Advanced Analytics - Technology and Tools

The Endgame, or Putting it All Together+Final Lab on Big Data Analytics

Big Data Overview

State of the Practice in Analytics

The Data Scientist

Big Data Analytics in Industry Verticals

Data Analytics Lifecycle

Using R to Look at Data - Introduction to R

Analyzing and Exploring the Data

Statistics for Model Building and Evaluation

K-means Clustering

Association Rules

Linear Regression

Logistic Regression

Naive Bayesian Classifier Decision Trees

Time Series Analysis

Text Analysis

Analytics for Unstructured Data (MapReduce and Hadoop)

The Hadoop Ecosystem

In-database Analytics – SQL Essentials Advanced SQL and MADlib for In-database Analytics

Operationalizing an Analytics Project

Creating the Final Deliverables

Data Visualization Techniques

+ Final Lab – Application of the Data Analytics Lifecycle to a Big Data Analytics Challenge

Introduction and Course Agenda

Page 107: Подготовка специалистов по анализу больших данных: все аспекты

Структура курса и временные затраты (модули 1,2 и 3)

• Лирическая часть Большие данные, наука данных, роль специалиста по обработке данных и т.д. 3-4 часа лекций

• Организационная часть Жизненный цикл проекта по обработке больших данных 5-7 часов лекций

• Вводно-программистская + вводно-статистическая часть Введение в программирование в R и PSQL Введение в статистику 4 часа лекций + 4 часа лабораторных работ

Page 108: Подготовка специалистов по анализу больших данных: все аспекты

Структура курса и временные затраты (модули 4 и 5)

• Алгоритмическо-математическая часть Кластеризация, правила ассоциативности, регрессионный анализ и т.д. 12 часов лекций + 12 часов лабораторных работ

• Технологическая часть Map-reduce, Hadoop, MADlib,… 8 часов лекций + 2 часа лабораторных работ

Page 109: Подготовка специалистов по анализу больших данных: все аспекты

Структура курса и временные затраты (модуль 6 + проект)

• Заключительная часть Представление результатов Завершающий проект 1 час лекций + домашняя работа над проектом

Page 110: Подготовка специалистов по анализу больших данных: все аспекты

Проблема с таймированием• Курс построен для обучения профессионалов с отрывом от производства в

режиме 8x5• Теоретические и практические модули имеют разную продолжительность• Плохо ложится на жесткое расписание принятое в большинстве ВУЗов

Планировать занятия в рамках группы, а не потока в режиме минимум двух пар подряд

Лучше в блочном режиме на весь день

Page 111: Подготовка специалистов по анализу больших данных: все аспекты

Среда проведения лабораторных работ• Аппаратура:

Сервера совместимые с VMWare Можно Hyper-V,

решение не поддерживается EMC Не тривиальное преобразование виртуалок

через третьи утилиты Индивидуальные виртуальные машины

• ПО – Open Source: Данные хранятся на Greenplum Community

Edition Database (GPDB) Доступ при помощи браузера

Microsoft & Apple Mac Можно Linux

Средства аналитики: RStudio PSQL interface for GPDB

Pgadmin III Hadoop MADlib

Introduction and Course Agenda 111

RStudio

Page 112: Подготовка специалистов по анализу больших данных: все аспекты

Требования к инфраструктуре• Для каждой виртуальной машины

Processors: 2 x vCPU RAM: 8 GB vDisks: 4x 16 GB (требуется 64 GB на VMFS) При использование VMware snapshot (что рекомендуется), дополнительно 50%

дополнительной емкости под VM (т.е. 96 GB на хранилище для каждой VM)

Page 113: Подготовка специалистов по анализу больших данных: все аспекты

• Студентам доступны: Слайды лекций Приложения:

Ссылки на литературу «Шпаргалки» (Quick reference guides)

LINUX PSQL R

• Лабораторный журнал: Подробные последовательности действий

Introduction and Course Agenda 113

Материалы курса

Page 114: Подготовка специалистов по анализу больших данных: все аспекты

Проблема с локализацией / доступность материалов

• Все материалы пока на английском Не все студенты имеют адекватный языковой уровень

• Первоочередная задача – перевод лабораторного журнала

• Нельзя передавать материалы студентам в электронном виде Полный учебник > 500 страниц Передача студентам только слайдов (без пояснений) в печатном виде

Замедляет чтение курса