Big Data: вызовы и возможности

Preview:

Citation preview

15 июня, 2016, Россия, Москва, Mercure Москва Павелецкая

КонференцияBIGDATA И BI DAY 2016Модератор – Станислав Макаров

BI & Big Data: Вызовы и возможностиСтанислав Макаров

4V Больших Данных

1. Volume: как много у вас данных?

Откуда взялся термин Big DataВ 1997 году на 8-й конференции IEEE по визуализации Майкл Кокс и Дэвид Эллсворс (Michael Coxand David Ellsworth) из NASA делали доклад о своей работе по вычислительной гидродинамике. Им нужно было показывать результаты расчетов на экране, для чего приходилось идти на различные ухищрения – об этом и была их статья “Application-controlled demand paging for out-of-corevisualization” («Управляемый приложением спрос на подкачку данных вне ядра визуализации»).

Вот что они писали: «Визуализация представляет интересный вызов для компьютерных систем: наборы данных в основном настолько велики, что они превосходят емкость основной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных.»

100-500 ГБ

Large Synoptic Survey TelescopeOpening a Window of Discovery on the Dynamic Universe

Телескоп способен заснять всю доступную площадь неба всего за несколько ночей.

• Основное зеркало диаметром 8,4 метра • Камера 3.3 Гигапикселя• 30 ТБ данных за ночь• Объем архива более чем 200 ПБ

Merriam-Webster definition of SYNOPTIC 1: affording a general view of a whole. 2: manifesting or characterized by comprehensiveness or breadth of view.

Телескопов много!

Собственных данных у организаций пока мало

2009 г.

http://www.b-eye-network.com/blogs/madsen/archives/2009/04/size_of_data_wa.php

Предположим, к 2015, то есть за 6 лет, объемы данных выросли в 100 раз.Все равно мало для Big Data.

Библиотека Конгресса

• 130 million items (books, photographs, maps, etc)

• 29 million books• 10,000 new items added each

day• 530 miles of shelves• 5 million digital documents• 20 terabytes of text data

2010 г

VOLUME – не проблема!

https://www.thatdatadude.com/interactive-chart-hard-drive-prices-1950-2010/

Стоимость гигабайта на жестком диске с 1956 до 2010 года.

Стоимость хранения упала – стало можно хранить все подряд, не задумываясь о ценности и порядке.

2V – Velocity (скорость поступления данных)

Одно событие (то есть, столкновение частиц) дает нам примерно 25 МБ данных. Вроде немного, да? Но событий этих – 40 миллионов в секунду! Итого мы имеем 1 ПБ сырых данных в секунду.

ATLAS (A Toroidal LHC ApparatuS)

2V – Velocity (скорость обработки)Аналитика в реальном времени in-Memory Database

http://blog.memsql.com/in-memory-database-survey-real-time-analytics/

2V – Velocity (скорость обработки)Аналитика в реальном времени in-Memory Database

Forrester Wave, Q3 2015

Выбор есть!

Не проблема – были б деньги

3V – Variety (многообразие)

80-90% полезной для бизнеса информации хранится в неструктурированном виде.

Взрывной рост объемов данных вызван, прежде всего, ростом неструктурированной информации.

Big Data = Big Content

При этом широко используются только традиционные инструменты Business Intelligence – для работы с числовыми данными.

Контентная аналитика, семантика, онтология, анализ тональности, и т.д.

4V - Veracity (можно ли верить)1.Доверие к самим данным2.Доверие к выводам

Верить, в наше время, нельзя никому, даже себе.Мне – можно!

Риски:• Происхождение данных• Статистика вместо теории

Люди, процессы, данные

Big

Data Scientist – самая сексуальная работа 21 века

Средняя зарплата «ученого по данным», согласно исследованию Glassdoor, составляет $114,8 тыс., тогда как средняя зарплата обычного статистика находится на уровне $75 тыс.

McKinsey предсказывает, что к

2018 году США столкнутся с

нехваткой 190 тыс. data scientists и 1.5 млн. менеджеров с

навыками использования аналитических

данных для принятия

бизнес-решений.

Сегодня дефицит этих специалистов так велик, что на

работу берут и без профильного образования

по математике и программированию. 

Без математики ничего не получится

«Мы говорили о нехватке программистов,но неожиданно сейчас мы столкнулись с нехваткой математиков.

То есть, управление бизнесом сейчас, из-за внедрения аналитики, потребовало высшей математики в гораздо большем объеме. И дефицит профессии, которую условно можно назвать «аналитик» (или data scientist), сейчас налицо.

А математика это вам не экраны пальчиком на планшете двигать, математику учить надо. Тут время понадобится – поэтому эффект от внедрения аналитики будет нарастать довольно долго.»

Кирилл Корнильев, IBM:

Математизация всего«Общая тенденция математизации наук (в том числе и таких, которые до сих пор по традиции не использовали математических средств), охватив биологию, психологию и медицину, постепенно проникает даже в гуманитарные области — правда, пока еще скорее в виде отдельных «партизанских налетов»; это можно заметить, например, в области языкознания (теоретическая лингвистика) или теории литературы (применение теории информации к исследованию литературных, в частности поэтических, текстов).»

Станислав ЛемСумма технологии, 1962

Спрос на специалистов по Big Data в МосквеПараметры запроса:• “Big Data” в описании вакансии• Регион – Москва• Профобласть - любая• Опыт – не имеет значения• Занятость – любая• Период – за месяц

Найдено 139 вакансий

Разброс огромный – у рынка нет понимания

и до:

От:

Для сравнения – предложение вакансий

1C – 9643SAP – 1189Java – 1299Hadoop – 111Data Scientist – 38Аналитик – 4044 Программист – 3866

Процессы: Принятие решений на основе данных

Адекватные показатели

Нельзя управлять тем, что нельзя измерить

Их понимание и культура использования

Интуиция, опыт и здравый смысл

Не цифрой единой!

Больше данных – не всегда лучшеК 2018 году 90% внедренных озер данных будут бесполезны потому что они будут переполнены информацией, собранной неизвестно с какой целью. (Gartner, Strategic Planning Assumption, Gartner BI Summit, 2015).

Данные в озере могут быть неконсистентны и не иметь метаданных, поэтому реально только очень опытные аналитики, хорошо знающие контекст, смогут сливать и согласовывать данные из разных источников. 

Михаил Эпштейн. Информационный взрыв и травма постмодерна

Информационный взрыв таит в себе не меньшую опасность, чем демографический. .... Как выясняется к началу третьего тысячелетия, основные ресурсы общества — не промышленные или сельскохозяйственные, но информационные. Если материальное производство человечества отстает от его же материальных потребностей, то еще более отстает информационное потребление индивида от информационного производства человечества.

Это кризис не перенаселенности, а недопонимания, кризис родовой идентичности. Человечество может себя прокормить — но может ли оно себя понять, охватить разумом индивида то, что создано видовым разумом? Хватит ли человеку биологически отмеренного срока жизни, чтобы стать человеком?

Осмысление феномена Больших данных

Контакты

Станислав Макаров

s.makarov15@gmail.com

https://www.facebook.com/s.makarov15

http://www.linkedin.com/profile/view?id=1048153&trk=tab_pro

https://twitter.com/Stas_Makarov

Skype: Stanislav.Makarov

Recommended