Подготовка специалистов по анализу больших данных:...

Preview:

Citation preview

НГУ

Подготовка специалистов по анализу больших данных: все аспектыРуководитель проекта магистерской программы«Аналитика больших массивов данных» в НГУ

к.ф.-м.н. Павловский Евгений НиколаевичДиректор по развитию «Экспасофт»

НГУ

Экспасофт· 2010, ЛША· «Исследовательские системы», 2011 – н.в.· FRiS – уникальная методология анализа данных,школа Н.Г. Загоруйко

· 18 проектов анализа данных: биоинформатика, медицина, безопасность, нефтедобыча, финансы, ритейл, облака, образование, криминалистика, маркетинг

· Услуги по анализу данных

НГУ

BDA

биоинформатика

медицина

безопасность

криминалистика

нефтедобычафинансы

маркетинг

ритейл

облачныевычисления

образованиеБизнес-домены

3BDA – Big Data Analytics

НГУ

ОбразованиеBDA

программа

опыт

проекты

команда

маркетингPR

ФГОС

инфраструктура

наукаВсе аспекты

4BDA – Big Data Analytics

НГУ

НаукаНа базе лабораторий анализа данных СО РАН

5

НГУ

Машинное обучение

Кластеризация

Распознавание

Прогнозирование

Цензурирование

Выборинформати

вныхпризнаков

6

НГУ

Феномен Больших данных· 50 лет· 2002, 50% в цифре· 2008, Nature· 2011, McKinsey

7

НГУ

8

4V· Volume· Объём данных

· Velocity· Скорость создания и обработки данных

· Variety· Разнообразие источников и форм

хранения данных· Value· Ценность

НГУ

9

НГУ

10

2014

НГУ

11

2015

НГУ

EMC2 12

НГУ

13

Особенностибольших данныхЧем отличаются от маленьких по существу?

НГУ

14

НГУ

Отказ от структурированности N = всё

сбор данных впрок не знаем, какие вопросы будем задавать

NoSQL - Not Only SQL: документо-ориентированные, ключ-значение Отказ от структуры Отказ от консистентности в пользу доступности или параллелизма

HDFS – Hadoop Distributed File System Параллелизм обработки Резервирование 15

НГУ

Неперемещаемость · идея использовать вычислительные мощности на месте хранения

· MapReduce · Hadoop

· TeraData Hortonworks · IBM BigInsights · Cloudera

· Spark

· реально быстро!· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга реального времени »)

16

НГУ

Новые источники достоверных данных· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между устройствами.

· Социальные сети (скоринг по соц. профилю, RTB)

· Открытые данные: http://data.gov.ru/, http://data.mos.ru/

17

НГУ

Сокращение сроков вычислений · in-memory · SAP HANA

· 256Tb RAM· Oracle TimesTen· Опыт в РФ

· СургутНефтегаз · опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)· сокращение сроков формирования отчётов на порядки

· MapReduce · Hadoop

18

НГУ

Статистификация · обращение к статистическим методам

· обращение к интеллектуальному анализу данных (Data Mining)

· поиск озарений (insights) · неожиданные связи в данных · скрытые закономерности

· отказ от причинности

19

НГУ

20

Какие отрасли первыми будут пытаться внедрять эти технологии?наличие реального спроса в РФ

НГУ

21

СпросРЕАЛЬНЫЙ· 1) Банковский сектор, скоринг

· 2) Real time bidding (RTB) платформы

· 3) Микрофинансы· 4) Ведомственные структуры (РКН, МВД, ФСБ и др.) + телекомы

· 5) Авиакопании

ОПАЗДЫВАЮЩИЙ· 1) Медицина. Текущий этап: сбор данных. Региональные дата-центры. НИР.

2) Госуслуги. Рекомендации. Оценка качества. СМЭВ. 300млрд. Электронная Москва.

НГУ

22

Маркетинговое "давление"· 1) реклама и продвижение вендоров:· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights),

SAP HANA, EMC Pivotal HD· 2) "вольные" евангелисты:· В. Майер-Шёнбергер, Р. Смолан и др.

· 3) осознание возможностей BigData в обществе, подтверждающие примеры· Статья в Nature (2008) аналогия "большая нефть" – "большие

данные", Гугло-машина, Сноуден

НГУ

23

Реальные основания для "давления"· Потенциальные рынки данных:· Данные профилей Facebook, LinkedIn, MySpace, VK,

Одноклассники и др.· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics

и др.)

· Рыночные факторы:· Снижение себестоимости хранения, вычислений· Возможность получать "всю" информацию о явлении

(богатство сенсоров)· Отход от структурированности (NoSQL базы) и синхронности

(отход от ACID)· Уход в параллелизм (закон Мура перестал действовать)

НГУ

Отвечаем на вызов"Кадры решают всё!" (на основе данных)

24

НГУ

•самая широкая аудитория (школьники, разработчики, бакалавры)•средство привлечения из онлайн в офлайн

Онлайн-курсыbit.ly/IntuitBDA

•вовлекаем в мобильность•готовим для индустрии и для науки

Магистратураbigdatansu.ru

•укрепление научных школАспирантура

•повышение квалификации в области обработки больших данных

Доп. Образованиеexpasoft.com/edu

Образовательная стратегия в НГУ

НГУ

26Орг-формыИнституты ППК

Целевые магистратуры

Кадровые агентства

Компетенции

ЦЕРННейросет

иФЭЧ

ИЯФСпутникиНейросет

иВоенка

ИАЭFRiS, оптим. алг, онтологии, логикаРаспознавание

ИМБанки данныхCUDA,

DNAБиоинформатика

ИЦиГ, УНИПРО,

НПС АрхивыОнтологии,

логикаИнформатика

ИСИСО РАН

ССКЦИнформатика

ИВТ, ИВМиМГ

СОРМСбор, хранениеБезопасность

Сигнатек?БезопасностьБезопасность

СИБ

ИнициативыМагистерская программа

Аспирантура

Краткосрочные курсы

СХД 1 PbХранение

Кардиология, Радиология

НИИПК?Хранение

Медицина

НИИТО

FRiS, оптим. алг,

онтологии, логика,

управление BDA

Безопасность, медицина, финансы, сервера

Экспасофт

Приборы?

Унискан, ТИОН

ИгрыSlpunk

Игры

AlawarМТСТранзакцииТаргетинг

EyelineБанкиТранзакцииФинансы

ЦФТ?Вычисления, хранение

ИЦКТ

Потребители

?Обработка, образовани

еМедицина, биология, физика, ИТ, и др.

НГУ

КартыГеопространс

твоКарты

DataEast

НГУПервый в России онлайн-курс поBig Data AnalyticsЗагоруйко

Николай Григорьевич

Павловский Евгений

Николаевич

Борисова Ирина

Артёмовна

Аникин ЮрийАлександрович

Зырянов Александр Олегович

д. т. н., академик МАИ, профессор, зав. лаб. анализа

данных ИМ СО РАН

к.ф.-м.н., директор по развитию «Экспасофт»

к.т.н., ассистент кафедры общей

информатики ФИТ НГУ

к.т.н., преподаватель кафедры общей

информатики ФИТ НГУ

Data-аналитик,ООО Экспасофт

Введение в когнитивный анализ данных

Введение в «большие данные»Области применения больших данныхОсновы языка R

Разработка алгоритмов на базе FRiS-функции

Обзор технологий хранения больших данных

Программирование на языке R

Инструменты Data Mining

http://bit.ly/IntuitBDA

НГУ

Учебный план магистратуры

НГУ

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT  

 

 

CRISP-DM

Copyright © 2012 EMC Corporation. All Rights Reserved.

EMC2 PROVEN PROFESSIONAL

Data Analytics Lifecycle

30

Discovery

Operationalize

Model Planning

Data Prep

Model Building

Communicate Results

Do I have enough information to draft an analytic plan and share

for peer review?

Do I have enough

good quality data to start building the

model?

Do I have a good idea about the type

of model to try? Can I refine the analytic plan?

Is the model robust enough?

Have we failed for sure?

1

2

3

4

6

5

НГУ

ОбразованиеBDA

программа

опыт

проекты

команда

маркетингPR

ФГОС

инфраструктура

наукаВсе аспекты

31BDA – Big Data Analytics

НГУ

32

НГУ

33

НГУ

Конкурсы· 1е место, 2015, AVITO

· 1е место, 2015, eKapusta

· 4е место среди 619 команд, 2009, Data Mining Cup

34

НГУ

Чай-перерыв

35

Цикл аналитики

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT 

 

 

 CRISP-DM

CRISP-DMCross-Industry Standard Process for Data Mining

KDDKnowledge Discovery in Databases

38

BABOK v2.0Business Analysis Body Of Knowledge (v2.0)

39

EMC2 40

41

42

43

Понимание бизнеса(Business Understanding)· Определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.

· Требования, предъявляемые к клиенту· Предоставить содержательную постановку задачи

(заполнить анкету)· Отвечать на запросы эксперта

44

Работы этапа Определить бизнес цели (Determine business objectives)· Определение бизнес-целей заказчика, выделение важных факторов, которые могут повлиять на результаты проекта.

Бэкграунд проекта (Background)· Сбор информации, относящейся к бизнес-целям заказчика.

Оценить ситуацию (Assess situation)· Изучение ресурсов, ограничений, допущений и других факторов, которые следует учитывать при определении цели

анализа данных и составлении плана проекта.

Определить цели анализа данных (Determine data mining goals)· Определение задачи проекта в технических терминах анализа данных.

Составить план проекта (Produce project plan)· Подготовка плана по достижению целей анализа данных и, тем самым - бизнес-целей. 45

Результат работ по этапу· Цели бизнеса (Business objectives)· Описание основных и второстепенных целей заказчика с точки зрения бизнеса.· Условия успешности бизнеса (Business success criteria)· Описание основных условий успешной реализации проекта с точки зрения ведения бизнеса.· Цели анализа данных (Data mining goals)· Описание ожидаемых технических результатов проекта, которые приведут к достижению

бизнес-целей.· Критерий успеха анализа данных (Data mining success criteria)· Описание критериев успешного исхода проекта в технических терминах.· План проекта (Project plan)· Перечень этапов, которые должны быть выполнены в проекте, их длительность,

необходимые ресурсы, входы, выходы, и зависимости.

46

Понимание данных(Data Understanding)· На этой фазе данные собираются, происходит ознакомление с данными, определяются проблемы в качестве данных (такие как ошибки или пропуски), делаются первые попытки анализа данных с целью выделения интересных подмножеств данных и формирования гипотез о скрытых зависимостях.

· Требования, предъявляемые клиенту· Предоставить доступ к данным/к структуре данных (…)· Выслать файлы, структуры данных, предоставить доступ к базам данных, ….· Описать данные (Describe data)· Сопроводить данные информацией необходимой для понимания данных:

· описание признаков (возможные значения, дискретность);· если есть вторичные признаки, разъяснить, как именно они были образованы;· каким образом данные собирались.

· Предоставить информацию необходимую для интеграции данных: соответствие объектов и признаков в разных источниках данных. 47

Работы этапа· Собрать исходные данные (Collect initial data)· Запросить доступ к данным и осуществить их выгрузку (если это возможно). Если необходимо, непосредственно загрузить данные в анализирующие инструменты.

· В случае нескольких источников данных возникает задача их интеграции.· Слияние данных (Merged data)· Слияние данных - объединение двух и более источников данных, которые содержат различную информацию об одних и тех же объектах.

· Описать данные (Describe data)· Исследовать основные или "поверхностные" свойства собранных данных.

48

Работы этапа· Исследовать данные (Explore data)· Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности. Она включает в себя выяснение распределения ключевых признаков; отношения между парами или малым числом признаков; результаты простого агрегирования; свойства больших групп населения; простой статистический анализ. Это ознакомление может быть обращено конкретно к цели самого анализа данных; также оно может добавлять или уточнять информацию о данных и их качестве. Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа.

· Проверить качество данных (Verify data quality)· Следует определить качество данных, ответив на вопросы:

· Являются ли данные полными (покрывают ли они все требуемые случаи)?· Являются ли данные корректными, или же содержат ошибки, и где эти ошибки?· Встречаются ли в данных пропущенные значения? Если встречаются, то где и

насколько часто? 49

Результаты этапа· Отчет о выгрузке данных (Initial data collection report)· Список полученных наборов данных вместе с описанием доступа к ним и возможными

проблемами при осуществлении этого доступа. Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).

· Отчет по описанию данных (Data description report)· Описание собранных данных, включающее: формат данных, количество данных (число

объектов и признаков в каждой таблице), сущности в каждом признаке и все другие найденные поверхностные характеристики данных.

· Отчет об ознакомлении с данными (Data exploration report)· Информация о первых замечаниях и гипотезах, а также об их возможном влиянии на

оставшуюся часть проекта. Диаграммы и графики, которые показывают свойства данных, описывают те части данных, которые будут интересны для дальнейшего рассмотрения.

· Отчет о качестве данных (Data quality report)· Список результатов по верификации качества данных. Если встретились ошибки –

описание возможных решений. 50

Подготовка данных(Data Preparation)· Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных.

51

Работы этапа· Отобрать данные (Select data)· Выбор данных для анализа. Критерий выбора включает релевантность для целей анализа

данных, качество и технические ограничения, такие как объем данных или тип данных.· Очистить данные (Clean data)· Привести качество данных в соответствие с выбранным аналитическим подходом. Этого

можно добиться различными подходами, например: выбором достаточно качественного поднабора данных, введением значения по умолчанию, оцениванием пропусков в данных с помощью моделирования и другими.

· Сделать производные данные (Construct data)· Эта задача включает операции по конструктивной подготовке данных, такие как

порождение новых признаков и новых записей, а также простое преобразование значений признаков. В том числе речь идет об агрегации, когда новые значения вычисляются из суммирования информации из множества записей или таблиц.

· Привести данные в нужный формат (Format data)· Преобразование данных в первую очередь носит синтаксические изменения, которые не

меняют значение данных. Они необходимы для требований инструментов моделирования.52

Результат работ по этапу· Правила включения/исключения (Rationale for inclusion/exclusion)· Перечень данных, которые должны быть включены/исключены и по каким причинам.

· Отчет о чистке данных (Data cleaning report)· Список решений и предпринятых мер по улучшению качества данных. Список проверенных трансформаций данных, сделанных в целях улучшения качества.

· Отчет о создании производных данных (Construct data report)· Отчет о проведении операций по конструктивной подготовке данных.· Переформатированные данные (Reformatted data)· Данные, представленные в формате, удовлетворяющем требованиям выбранных инструментов моделирования и/или специфичной модели.

53

Моделирование(Modeling)· В этой фазе к данным применяются разнообразные методики моделирования, строятся модели, их параметры настраиваются на оптимальные значения.

· Требования, предъявляемые клиенту· Выбрать методику моделирования (Select modeling

technique)· Выбрать одно или более средств реализации

моделирования.· Дизайн тестов (Test design)· Высказать свои пожелания относительно тестирования и

оценки качества модели. 54

Работы этапа· Выбрать методику моделирования (Select modeling technique)· Осуществляется в том случае, если выбор средства реализации моделирования

оставлен за исполнителем.· Сделать тесты для модели (Generate test design)· Разработка методов валидации для построенной модели в соответствии с

пожеланиями, указанными заказчиком. Основная задача - решить, как разделять выборку на обучающую, контрольную и валидационную.

· Построить модель (Build model)· Создание одной или нескольких моделей.· Настройка параметров (Parameter settings)· Любой инструмент моделирования содержит большое число параметров, которые

необходимо настраивать.· Оценить модель (Assess model)· Оценивание модели, чтобы была уверенность, что она отвечает критерию успеха

интеллектуального анализа данных и проходит необходимые критерии испытаний.55

Результат работ по этапу· Выбранное средство реализации моделирования (Modeling technique)· Документ, содержащий описание выбранного средства моделирования.· Предположения модели (Modeling assumption)· Документ, содержащий все специфические предположения о данных, при условии которых работает

выбранное средство реализации модели, например: нет пустых значений, все параметры распределены равномерно и другие.

· Дизайн тестов (Test design)· План обучения, тестирования и оценки качества модели.· Модели (Models)· Окончательный вариант одной или нескольких моделей, полученных инструментом анализа данных.

Предоставляется в формате инструмента, которым они были порождены.· Описание модели (Model description)· Отчет с описанием и интерпретацией моделей.· Оценивание модели (Model assessment)· Сравнительный список качества порожденных моделей (например, с точки зрения точности) и оценка

их качества по отношению друг к другу. 56

Оценка(Evaluation)· Оценка результатов работы с точки зрения достижения целей проекта и удовлетворения требований со стороны бизнеса, которые были сформулированы на предыдущих этапах.

57

Работы этапа· Оценить результаты (Evaluate results)· Оценивание того, насколько построенная модель достигает поставленные бизнесом цели, и есть ли бизнес-причины, по которым у модели появляются существенные недостатки.

· Процесс ревю (Review process)· Обзор успешности самого применения техник анализа данных для того чтобы определить, есть ли важные факторы или задачи, которые кто-то мог пропустить.

· Определить следующие шаги (Determine next steps)· Исследование необходимости проведения дополнительных исследований. Составление списка возможных дальнейших действий вместе со всеми "за" и "против".

58

Результат работ по этапу· Оценка результатов анализа данных с точки зрения бизнес-успеха (Assessment of data mining results with respect to business success criteria)

· Отчёт, содержащий основные результаты в терминах бизнес-целей и бизнес-результатов.

· Одобренные модели (Approved models)· Список моделей, которые с точки зрения достижения бизнес-целей являются успешными.

· Ревю процесса (Review of process)· Советы относительно действий, которые были пропущены или должны быть повторены.

59

Развертывание(Deployment)· В зависимости от требований, фаза развертывания может быть столь же простой, как генерация отчета, или же сложной, например, автоматизация процесса анализа данных для решения бизнес-задач. Однако даже если аналитик не принимает участие в развертывании, важно дать понять клиенту, что ему нужно сделать для того, чтобы начать использовать полученные модели.

60

Работы этапа· Запланировать развертывание (Plan deployment)· Перечень мероприятий, необходимых для того, чтобы внедрить результаты анализа данных в бизнес.

· Запланировать поддержку и мониторинг развернутого решения (Plan monitoring and maintenance)

· Составление рекомендаций по правильной эксплуатации полученных результатов анализа данных, поддержанию моделей в актуальном состоянии.

· Сделать финальный отчет (Produce final report)· Резюмирование проекта и всех связанных с ним достижений.· Документирование опыта (Experience documentation)· Описание важного опыта, который был накоплен в ходе реализации проекта. Например, подводные камни, вводящие в заблуждение подходы или подсказки для выбора наиболее подходящих методов анализа данных в подобных ситуациях - это может стать частью документации. 61

Результат работ по этапу· План развертывания (Deployment plan)· Необходимые для развертывания шаги и способ их осуществления.

· План мониторинга и поддержки (Monitoring and maintenance plan)

· Перечень мероприятий необходимых для поддержания моделей в актуальном состоянии.

· Финальный отчет (Final report)· Это окончательный письменный отчет о проведенном анализе данных. Он включает в себя все предыдущие результаты и подводит итоговые заключения. 62

Data

BUSINESS UNDERSTANDING

DATA UNDERSTANDING

DATA PREPARATION

MODELING

EVALUATION

DEPLOYMENT 

 

 

 CRISP-DM

CRISP-DMCross-Industry Standard Process for Data Mining

HTTP://WWW.OSP.RU/NETCAT_FILES/18/10/09_201410_OSP_USTYUZHANIN_V02.PDF 64

НГУ

КейсыАнализа больших данных

65

НГУ

НГУ-Parallels

66

· Прогнозирование нагрузок на сервера по характеру запросов к ним

Препринт научной статьи

НГУ

Выбор жены

http://www.wired.com/2014/01/how-to-hack-okcupid/all/

Chris McKinlay. Математик, 35 лет. Сайт знакомств OkCupid. Алгоритмы рекомендаций. Послал десятки писем рекомендованным. Сходил на 6 свиданий.Базовый алгоритм OkCupid определил менее 100 анкет (из 80000 в Лос-Анджелесе) с совместимостью более 90%.

НГУ

Выбор женыPython для обработки анкет.12 ложных своих анкет.Боты для ответов на вопросы (чтобы увидеть ответы просматриваемых). Забанили. Научил их вести себя по-человечески. (Понаблюдал за другом, сымитировал его поведение).Через 3 недели получил 6 000 000 ответов от более чем 20 000 женщин.Не спал ночами, отложил диссертацию.Кластеризация K-Modes.5000 анкет собрал для контроля.Получилось 7 кластеров.

НГУ

Выбор жены

· Понравилось два кластера. Создал и оптимизировал под них профили A и B.· Text-mining двух кластеров - ключевые интересы.· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.

НГУ

70

НГУ

71

Навигация· 1839 год. Мори Мэтью Фонтейн, ВМС США, позже начальник архива морских карт в Вашингтоне.

· «Датифицировал» архивы моряков.· «Физическая география моря» в 1855 году

1. Карта навигации, короткие пути (из Нью-Йорка к экватору вместо 40 суток только 24)

2. Потоки течений, океанография3. Закладка трансатлантического

телеграфного кабеля

НГУ

72

Нефть,это наше всёВостребованы конкурентоспособные решения

НГУ

73

Восстановление данных фракционного состава добываемой смесиДанные:· 3 исходных параметра ($10k)· 3 целевых параметра ($200k)· 5 участков данных· Частота измерений – раз в минуту· Всего 66052 измерения

12мм 13мм 11мм 12мм 13мм

НГУ

74

Сравнение алгоритмовАлгоритмы прогнозирования gas oil waterLinearRegression 0,0326 0,1734 0,2018ZeroR 0,0652 0,1022 0,1103M5P 0,0326 0,1695 0,1619MultilayerPerceptron 0,0426 0,3623 0,3484IsotonicRegression 0,06 0,143 0,1439LeastMedSq 0,02 0,281 0,3569PaceRegression 0,0281 0,1993 0,3656RBFNetwork 0,0651 0,1023 0,1105SimpleLinearRegression 0,027 0,1939 0,227SMOreg 0,0229 0,3306 0,4426IBk 0,0635 0,1519 0,1528LWL 0,0633 0,112 0,1164ConjunctiveRule 0,0637 0,1042 0,1173M5Rules 0,0326 0,1695 0,1601DecisionTable 0,062 0,104 0,1124DecisionStump 0,063 0,1099 0,1125REPTree 0,0616 0,1416 0,1595KStar 0,0645 0,1041 0,1124

НГУ

Неожиданные открытияКейсы из книги«Прогнозируя Будущее: Кто кликнет, купит, соврет или умрет», Э.Сигель, М.:Альпина Паблишер, 2014.

75

НГУ

Чем больше общих генов в паре, тем больше вероятность неверности жены

76

НГУ

Молодцы пускают слюни по поводу спортивных автомобилей

77

НГУ

Курильщики реже страдают от туннельного синдрома запястья

78

НГУ

Террористы-смертникижизнь не страхуют

79

НГУ

После выборов преступность увеличивается

80

НГУ

Желтые и оранжевые автомобили реже попадают в аварию· реже всего в аварии попадают автомобили оранжевого, желтого, коричневого и фиолетового цвета. Так, на общее количество желтых машин, имеющих страховку, приходится только 1% страховых возмещений, на автомобили оранжевого цвета немного больше — 8%.

· одна из ведущих страховых компаний в России· Часто в аварии попадают машины красных оттенков (в

общем количестве страховых возмещений по ДТП их доля составляет 62%)· Объясняется это тем, что красный выбирают в основном водители

молодые, имеющий маленький водительский стаж.·  Другая возможная причина: красный цвет вызывает у человека

активизацию процессов, возбуждённость.  Поэтому даже, если владелец красного авто и едет спокойно и правила соблюдает, надо быть внимательным к другим участникам дороги. 

81

НГУ

CAPEX & OPEX

82

НГУ

Big Data проектысбор данных (CAPEX) • Сервера • Облака • Инфраструктура

извлечение пользы (value) (OPEX) • команда

• Data Scientist • Data Engineer • Manager

• процесс • сбор данных

• инвентаризация источников • доступ к данным

• физический • юридический

• мощности по обработке данных • Hadoop - обрабатываем прямо там, где

хранятся • в облаках • на локальных машинах • аналитические инструменты

• Splunk • PreCog • BigML

НГУ

Как делает Beeline?

84

НГУBigData-процесс в Вымпелкоме (2014)«Фабрика идей»

• Формализация• Анализ• План

Фабрика

идей

• Источники• Пилот• Доработка• Оценка• Выпуск решения

Реализация

• Актуальность• Доступность• Производительность• Масштабируемость• Работа с

инцидентами

Результат

85

НГУ

Секретные ингредиенты от Билайна· Инфраструктура для БД· «Фабрика идей»· Вовлечённость всех подразделений· Команда, мотивированная на результат и открытия· Соответствие потребностям бизнеса

· Получить быстрый результат

86

НГУ

87https://events.yandex.ru/lib/talks/2948/

, НГУ

НГУ

Зачем управленцам математика? - HBR• Подучите азы регрессионного анализа,

статистического анализа и планирования экспериментов

• Пройдите программу статистики для руководящих работников или онлайновый курс обучения или поучитесь у своих аналитиков, поработав с ними вместе над проектами

• Обратиться к специалистам по планированию экспериментов (поучаствовать в исследовании)

• Сотрудничайте с аналитиками подходящей специализации

• Гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент

• Наладить контакты между аналитиками и всеми

службами (матричная организация) - чтобы были коммуникации

• Сосредоточьтесь на начальной и конечной стадиях

• постановка задачи • гипотезы • донесение результатов до заинтересованных

лиц • Задавайте по ходу дела много вопросов

• больше деталей • Создавайте культуру исследования, а не защиты

• поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные

http://bit.ly/HBRbigdata

НГУ

89

Материалы для повышения квалификации по направлению курса

· Видео лекции ШАД по машинному обучению· http://shad.yandex.ru/lectures/machine_learning.xml

· Курс по большим данным на Интуит· http://bit.ly/IntuitBDA

· Курс по озёрам данных· https://

educast.emc.com/learn/data-lakes-for-big-data-may-june

Курсы на Coursera.org· Introduction to Data Science

· https://www.coursera.org/course/datasci· Machine Learning

· https://www.coursera.org/course/ml· Probabilistic Graphical Models

· https://www.coursera.org/course/pgm· Natural Language processing

· https://www.coursera.org/course/nlp· Data Science Specialization – 9 курсов + проект

· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis, Reproducible Research, Statistical Inference, Regression Models, Practical Machine Learning, Developing Data Product, Capstone Project

· Core Concepts of Data Analysis· https://www.coursera.org/course/datan

НГУ

Офлайн-курсыТолько хардкор – только офлайн

90

НГУ

Курс «Аналитика больших данных для бизнеса»

ПН ВТ СР ЧТ ПТ СБ ВС          10:00 –

11:20 

  18:00 – 19:20

  18:00 – 19:20

  11:30 – 13:00

 

  19:30 – 21:00

  19:30 – 21:00

     

91• Диплом НГУ о повышении квалификации на 96 часов• с 20 октября по 20 декабря• Проектная работа над известными кейсами и кейсом вашей

компании

НГУ

Нити-дисциплины

92

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

НГУ

Роли – голограмма коллектива

BA Кейсы Проектный цикл

Бизнес-задачи

Бизнес-модели

ML Алгоритмы Модели Критери

и Техники

SE Python SciPy NumPy OWL

Tools

MapReduce Tableau TextMinin

gGreenPlu

m

93

Dat

a Sc

ient

ist

CIO

Бизнес-аналитик,

дата-аналитик

Разработчик

DBA

НГУ

Выпускник принесёт в свою компанию· Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.

· Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.

· Предметные знания всех основных направлений машинного обучения.

· Понимание областей применения «джентельменского набора» алгоритмов анализа данных.

· Понимание создания новых бизнес-моделей на основе данных 94

НГУ

ФГОС и ФГОС 3+

95

НГУ

Ограничения стандартов· Компетентностный подход· Формы обучения, учебный график· Учебный план· Фонды оценочных средств· Литература

96

Компетентностный подходПо завершении курса, студент должен :• Участвовать (и быть полезным!) в качестве члена команды по анализу, в том

числе Больших, данных: Использовать структурированный подход к организации жизненного цикла проектов по

анализу больших данных Преобразовывать проблемы бизнеса в аналитические проблемы Применять аналитические методы и инструменты для анализа данных, создания

статистических моделей и выявления скрытых знаний, которые могут привести к действенным результатам

Выбирать оптимальные способы визуализации данных, для более ясного донесения аналитических результатов бизнес спонсорам и другим, заинтересованным лицам

Использовать инструменты, такие как R и RStudio, MapReduce/Hadoop, аналитику в БД, функционал MADlib и т.п.

• Объяснять как продвинутая аналитика может быть использована для получения конкурентных преимуществ и как роль и навыки специалиста по обработке данных (data scientist) отличаются от традиционных для бизнес-аналитика (business intelligence analyst)

97Introduction and Course Agenda

НГУ

98

КомпетенцииКод

компетенци

и

Формулировка компетенции из ФГОС

Планируемые результаты обучения (показатели достижения заданного уровня освоения компетенций)

ОК-2 Способность понимать роль науки в развитии цивилизации, соотношение науки и техники, иметь представление о связанных с ними современных социальных и этических проблемах, понимать ценность научной рациональности и ее исторических типов.

Понимать важность феномена больших данных для развития общества и науки. Знать причины возникновения тренда больших данных. Знать проблемы и возможности, связанные с появлением больших данных.Понимать важность применения научных методов для извлечения пользы из больших массивов данных

MODULE #: MODULE NAME

НГУ

99

КомпетенцииКод

компетенци

и

Формулировка компетенции из ФГОС

Планируемые результаты обучения (показатели достижения заданного уровня освоения компетенций)

ОПК-2

Культурой мышления, способностью выстраивать логику рассуждений и высказываний, основанных на интерпретации данных, интегрированных их разных областей науки и техники, выносить суждения на основании неполных.

Знать: существующие в современном мире источники данных.Уметь: интегрировать данные из разных источников, интерпретировать их в контексте поставленной задачи, делать выводы, основанные на анализе полученных данных.Владеть: методами получения данных из различных доступных источников.

MODULE #: MODULE NAME

НГУ

Способы контроляКомпетенция Знания, умения, навыки Процедура

оцениванияСпособность понимать роль науки в развитии цивилизации, соотношение науки и техники, иметь представление о связанных с ними современных социальных и этических проблемах, понимать ценность научной рациональности и ее исторических типов (ОК-2)

Понимать важность феномена больших данных для развития общества и науки.

Дискуссия

Знать причины возникновения тренда больших данных.

Тест-пятиминутка

Знать проблемы и возможности, связанные с появлением больших данных.

Тест-пятиминутка

Понимать важность применения научных методов для извлечения пользы из больших массивов данных

Дискуссия

100

НГУ

Способы контроляКомпетенция Знания, умения, навыки Процедура

оцениванияКультурой мышления, способностью выстраивать логику рассуждений и высказываний, основанных на интерпретации данных, интегрированных их разных областей науки и техники, выносить суждения на основании неполных (ОПК-2)

Знать: существующие в современном мире источники данных.

Тест-пятиминутка

Уметь: интегрировать данные из разных источников, интерпретировать их в контексте поставленной задачи, делать выводы, основанные на анализе полученных данных.

Домашнее задание

Владеть: методами получения данных из различных доступных источников.

Домашнее задание101

НГУ

Критерии оцениванияУровень Показатели (что обучающийся

должен продемонстрировать)

Оценочная шкала

удовлетворительно хорошо отлично

Пороговый

Понимать важность феномена больших данных для развития общества и науки.

Имеет фрагментарное представление о феномене больших данных и его влиянии на общество и науку.  

Может сформулировать несколько факторов влияния больших данных на науку

Демонстрирует целостное представление о феномене больших данных в контексте развития общества.

Базовый

Знать причины возникновения тренда больших данных.

Называет причины правильно, но не может объяснить.

Объясняет как минимум одну причину и ее генезис.

Имеет целостное понимание причин, а также что не является причиной. Может фильтровать маркетинговый шум.

102

НГУ

Литература· Committee on the Analysis of Massive Data; Committee on Applied and

Theoretical Statistics; Board on Mathematical Sciences and Their Applications; Division on Engineering and Physical Sciences; Frontiers in Massive Data Analysis, National Research Council, 2013 http://www.nap.edu/catalog/18374/frontiers-in-massive-data-analysis

· Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data // EMC Education Services. 2015. — 432p. — ISBN: 978-1-118-87613-8.

· C. B. B. D. Manyika, “Big Data: The Next Frontier for Innovation, Competition, and Productivity,” McKinsey Global Institute, 2011. URL: http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights%20and%20pubs/MGI/Research/Technology%20and%20Innovation/Big%20Data/MGI_big_data_full_report.ashx 103

НГУ

Литература· Виктор Маер-Шенбергер, Кеннет Кукьер. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. — М.: «Манн, Иванов и Фербер», 2013, 240 с. ISBN 978-5-91657-936-9(http://www.mann-ivanov-ferber.ru/books/paperbook/big_data/)

· Эрик Сигель. Прогнозируя будущее. М.: Альпина Паблишер. – 2014.· DJ Patil. Building Data Science Teams. O’Reilly. 2011. ISBN: 978-1-449-31623-5

· (http://cdn.oreilly.com/radar/2011/09/Building-Data-Science-Teams.pdf)· J. Adler. R in a Nutshell. Second Edition. O’Reilly Media Inc. 2012. ISBN: 978-1-449-31208-4 (URL: http://it-ebooks.info/book/1014/)

104

Модули курса

Introduction and Course Agenda 105

Data Science and Big Data Analytics 1. Введение в анализ больших данных2. Жизненный цикл проекта анализа данных3. Обзор базовых аналитических методов с

использованием R4. Расширенная аналитика – Теория и методы5. Расширенная аналитика - Технологии и

инструменты6. Собираем все вместе + завершающий проект

Темы, рассматриваемые в курсе

106

Introduction to Big Data Analytics+ Data Analytics Lifecycle

Review of Basic Data Analytic Methods Using R

Advanced Analytics – Theory and Methods

Advanced Analytics - Technology and Tools

The Endgame, or Putting it All Together+Final Lab on Big Data Analytics

Big Data Overview

State of the Practice in Analytics

The Data Scientist

Big Data Analytics in Industry Verticals

Data Analytics Lifecycle

Using R to Look at Data - Introduction to R

Analyzing and Exploring the Data

Statistics for Model Building and Evaluation

K-means Clustering

Association Rules

Linear Regression

Logistic Regression

Naive Bayesian Classifier Decision Trees

Time Series Analysis

Text Analysis

Analytics for Unstructured Data (MapReduce and Hadoop)

The Hadoop Ecosystem

In-database Analytics – SQL Essentials Advanced SQL and MADlib for In-database Analytics

Operationalizing an Analytics Project

Creating the Final Deliverables

Data Visualization Techniques

+ Final Lab – Application of the Data Analytics Lifecycle to a Big Data Analytics Challenge

Introduction and Course Agenda

Структура курса и временные затраты (модули 1,2 и 3)

• Лирическая часть Большие данные, наука данных, роль специалиста по обработке данных и т.д. 3-4 часа лекций

• Организационная часть Жизненный цикл проекта по обработке больших данных 5-7 часов лекций

• Вводно-программистская + вводно-статистическая часть Введение в программирование в R и PSQL Введение в статистику 4 часа лекций + 4 часа лабораторных работ

Структура курса и временные затраты (модули 4 и 5)

• Алгоритмическо-математическая часть Кластеризация, правила ассоциативности, регрессионный анализ и т.д. 12 часов лекций + 12 часов лабораторных работ

• Технологическая часть Map-reduce, Hadoop, MADlib,… 8 часов лекций + 2 часа лабораторных работ

Структура курса и временные затраты (модуль 6 + проект)

• Заключительная часть Представление результатов Завершающий проект 1 час лекций + домашняя работа над проектом

Проблема с таймированием• Курс построен для обучения профессионалов с отрывом от производства в

режиме 8x5• Теоретические и практические модули имеют разную продолжительность• Плохо ложится на жесткое расписание принятое в большинстве ВУЗов

Планировать занятия в рамках группы, а не потока в режиме минимум двух пар подряд

Лучше в блочном режиме на весь день

Среда проведения лабораторных работ• Аппаратура:

Сервера совместимые с VMWare Можно Hyper-V,

решение не поддерживается EMC Не тривиальное преобразование виртуалок

через третьи утилиты Индивидуальные виртуальные машины

• ПО – Open Source: Данные хранятся на Greenplum Community

Edition Database (GPDB) Доступ при помощи браузера

Microsoft & Apple Mac Можно Linux

Средства аналитики: RStudio PSQL interface for GPDB

Pgadmin III Hadoop MADlib

Introduction and Course Agenda 111

RStudio

Требования к инфраструктуре• Для каждой виртуальной машины

Processors: 2 x vCPU RAM: 8 GB vDisks: 4x 16 GB (требуется 64 GB на VMFS) При использование VMware snapshot (что рекомендуется), дополнительно 50%

дополнительной емкости под VM (т.е. 96 GB на хранилище для каждой VM)

• Студентам доступны: Слайды лекций Приложения:

Ссылки на литературу «Шпаргалки» (Quick reference guides)

LINUX PSQL R

• Лабораторный журнал: Подробные последовательности действий

Introduction and Course Agenda 113

Материалы курса

Проблема с локализацией / доступность материалов

• Все материалы пока на английском Не все студенты имеют адекватный языковой уровень

• Первоочередная задача – перевод лабораторного журнала

• Нельзя передавать материалы студентам в электронном виде Полный учебник > 500 страниц Передача студентам только слайдов (без пояснений) в печатном виде

Замедляет чтение курса

Recommended