53
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 1 Как BigData меняет бизнес Вадим Табаков Big Data & Technology, SAP 20.04.2015 Фото: http://sport.mail.ru/foto/218865/188116/

2 sap v1_do_как big_data меняет бизнес

Embed Size (px)

Citation preview

Page 1: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG or an SAP affiliate company. All rights reserved. 1

Как BigData меняет бизнес

Вадим Табаков

Big Data & Technology, SAP 20.04.2015

Фото: http://sport.mail.ru/foto/218865/188116/

Page 2: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG or an SAP affiliate company. All rights reserved. 2

Как BigData меняет бизнес

Вадим Табаков

Big Data & Technology, SAP 20.04.2015

Фото: http://sport.mail.ru/foto/218865/188116/

Как, BigData меняет бизнес?

Page 3: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 3

PhD в гаражном боксе

Page 4: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 4

Доли секунды

Page 5: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG or an SAP affiliate company. All rights reserved. 5

Animus ex machina?

1. Анализировать все данные, а не довольствоваться их

частью или статистическими выборками

2. Иметь дело с неупорядоченными данными в ущерб

точности

3. Доверять корреляциям, а не гнаться за труднодостижимой

причинностью

Page 6: 2 sap v1_do_как big_data меняет бизнес

Big Data – группа технологий и методов производительной обработки

динамически растущих объемов данных (структурированных и

неструктурированных) в распределенных информационных системах,

обеспечивающих организацию качественно новой полезной

информацией.

Big Data с точки зрения ИТ-компании

Page 7: 2 sap v1_do_как big_data меняет бизнес

Инструменты для работы с Big Data

In-Memory СУБД 1

2

4

СУБД с вертикальным хранением данных

MAP REDUCE и HADOOP

Data Mining и прогнозная аналитика 3

5 Управление потоками событий

6 No SQL СУБД

Page 8: 2 sap v1_do_как big_data меняет бизнес

SAP HANA Data Platform для Big Data

Consume

Store &

Process

Ingest

Page 9: 2 sap v1_do_как big_data меняет бизнес

© 2014 SAP AG or an SAP affiliate company. All rights reserved. 9 Public

SAP HANA – это

программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.

В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,

ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.

КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ

В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,

СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:

ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ

ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.

Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет

использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.

Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в

оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.

Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.

Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.

Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых

платформой SAP HANA.

SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?

Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и

хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.

Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:

База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.

Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.

OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.

Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-

memory. Решение от IBM не предоставляет подобных возможностей.

Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не

является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.

СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ

Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные

сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:

SAP HANA для аналитики в режиме реального времени

Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а

также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные

модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.

В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым

быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.

Приложения нового поколения

Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,

бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме

реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.

Существующие решения SAP powered by HANA

Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям организаций. Миграция этих

решений на SAP HANA не только решает проблемы производительности, но и позволяет оптимизировать их архитектуру, расширить функциональность и упростить администрирование, сохраняя пользовательские интерфейсы неизменными. К примеру, миграция хранилища данных SAP Netweaver BW позволяет не только решить проблемы с отчетностью, работающей

недопустимо медленно, но и значительно ускоряет такие процессы, как бюджетирование на SAP BW-IP и SAP BPC, за счет выполнения объемных расчетов на уровне базы данных в оперативной памяти.

Технология In-Memory реализована в перспективном решении SAP HANA (High-Performance Analytics Appliance). Это гибкий, многоцелевой программно-аппаратный комплекс, который размещает все данные для аналитической обработки в оперативной памяти. Решение SAP HANA построено на программных компонентах SAP, оптимизированных для работы на

оборудовании, поставляемом ведущими мировыми производителями – партнерами SAP. SAP HANA представляет инновационную парадигму вычислений в реальном времени и помогает бизнесу переосмыслить существующие пути решения деловых задач, используя революционный инструментарий бизнес-аналитики, не имеющие аналогов приложения и обновленные

существующие решения SAP.

Основные возможности SAP HANA

Непосредственный доступ к оперативным данным без ущерба для производительности операционных систем. Возможность синхронизировать ключевые таблицы с информацией о транзакциях непосредственно в оперативной памяти в режиме, близком к реальному времени, что делает эти таблицы легкодоступными для анализа и поиска без ущерба для

производительности операционных систем. Усовершенствованный процесс моделирования поддерживает модели для прямого доступа к детализированной информации, а также аналитические модели для более сложного анализа.

Оптимальный процесс построения отчетности, который охватывает весь спектр задач – от выявления важных оперативных сведений до генерации семантически сгруппированных данных в рамках модели и публикации итоговых моделей для общего использования. Ключевое отличие решения SAP HANA от традиционных аналитических инструментов – отсутствие всякой

материализации, что значительно упрощает внесение изменений в модели. В качестве основных источников данных используются только виртуальные модели, которые рассчитыва ются на основе неагрегированных оперативных данных.

Поддержка любых источников данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.

Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи

веб-инструментов, встроенных в решение SAP HANA.

Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.

Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.

Текущие сценарии применения SAP HANA

Получение отчетов в режиме, приближенном к реальному времени

Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему

использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.

Использование в качестве акселератора (ускорителя) для существующего ХД

Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки

запросов.

Использование в качестве БД и СУБД для построения хранилища данных

При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее

открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.

Технические характеристики SAP HANA

Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая

необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.

Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных

инноваций в трех ключевых областях:

Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.

Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.

Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.

программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.

В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,

ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.

КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ

В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,

СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:

ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ

ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.

Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет

использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.

Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в

оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.

Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.

Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.

Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых

платформой SAP HANA.

SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?

Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и

хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.

Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:

База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.

Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.

OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.

Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-

memory. Решение от IBM не предоставляет подобных возможностей.

Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не

является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.

СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ

Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные

сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:

SAP HANA для аналитики в режиме реального времени

Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а

также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные

модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.

В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым

быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.

Приложения нового поколения

Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,

бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме

реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.

Существующие решения SAP powered by HANA

Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям организаций. Миграция этих

решений на SAP HANA не только решает проблемы производительности, но и позволяет оптимизировать их архитектуру, расширить функциональность и упростить администрирование, сохраняя пользовательские интерфейсы неизменными. К примеру, миграция хранилища данных SAP Netweaver BW позволяет не только решить проблемы с отчетностью, работающей

недопустимо медленно, но и значительно ускоряет такие процессы, как бюджетирование на SAP BW-IP и SAP BPC, за счет выполнения объемных расчетов на уровне базы данных в оперативной памяти.

Технология In-Memory реализована в перспективном решении SAP HANA (High-Performance Analytics Appliance). Это гибкий, многоцелевой программно-аппаратный комплекс, который размещает все данные для аналитической обработки в оперативной памяти. Решение SAP HANA построено на программных компонентах SAP, оптимизированных для работы на

оборудовании, поставляемом ведущими мировыми производителями – партнерами SAP. SAP HANA представляет инновационную парадигму вычислений в реальном времени и помогает бизнесу переосмыслить существующие пути решения деловых задач, используя революционный инструментарий бизнес-аналитики, не имеющие аналогов приложения и обновленные

существующие решения SAP.

Основные возможности SAP HANA

Непосредственный доступ к оперативным данным без ущерба для производительности операционных систем. Возможность синхронизировать ключевые таблицы с информацией о транзакциях непосредственно в оперативной памяти в режиме, близком к реальному времени, что делает эти таблицы легкодоступными для анализа и поиска без ущерба для

производительности операционных систем. Усовершенствованный процесс моделирования поддерживает модели для прямого доступа к детализированной информации, а также аналитические модели для более сложного анализа.

Оптимальный процесс построения отчетности, который охватывает весь спектр задач – от выявления важных оперативных сведений до генерации семантически сгруппированных данных в рамках модели и публикации итоговых моделей для общего использования. Ключевое отличие решения SAP HANA от традиционных аналитических инструментов – отсутствие всякой

материализации, что значительно упрощает внесение изменений в модели. В качестве основных источников данных используются только виртуальные модели, которые рассчитыва ются на основе неагрегированных оперативных данных.

Поддержка любых источников данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.

Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи

веб-инструментов, встроенных в решение SAP HANA.

Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.

Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.

Текущие сценарии применения SAP HANA

Получение отчетов в режиме, приближенном к реальному времени

Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему

использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.

Использование в качестве акселератора (ускорителя) для существующего ХД

Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки

запросов.

Использование в качестве БД и СУБД для построения хранилища данных

При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее

открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.

Технические характеристики SAP HANA

Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая

необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.

Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных

инноваций в трех ключевых областях:

Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.

Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.

Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.

программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.

В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,

ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.

КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ

В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,

СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:

ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ

ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.

Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет

использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.

Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в

оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.

Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.

Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.

Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых

платформой SAP HANA.

SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?

Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и

хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.

Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:

База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.

Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.

OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.

Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-

memory. Решение от IBM не предоставляет подобных возможностей.

Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не

является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.

СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ

Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные

сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:

SAP HANA для аналитики в режиме реального времени

Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а

также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные

модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.

В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым

быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.

Приложения нового поколения

Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,

бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме

реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.

Существующие решения SAP powered by HANA

Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям Поддержка любых источников

данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.

Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи

веб-инструментов, встроенных в решение SAP HANA.

Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.

Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.

Текущие сценарии применения SAP HANA

Получение отчетов в режиме, приближенном к реальному времени

Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему

использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.

Использование в качестве акселератора (ускорителя) для существующего ХД

Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки

запросов.

Использование в качестве БД и СУБД для построения хранилища данных

При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее

открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.

Технические характеристики SAP HANA

Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая

необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.

Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных

инноваций в трех ключевых областях:

Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.

Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.

Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.

программно-аппаратный комплекс, в основе которого лежит технология

хранения и обработки данных «In-memory»

HANA (High-performance ANalytics Appliance) –

Page 10: 2 sap v1_do_как big_data меняет бизнес

Что такое SAP HANA

HANA (High-performance ANalytics Appliance) –

программно-аппаратный комплекс, в основе которого лежит технология

хранения и обработки данных «In-memory»

SAP HANA

OLTP BI (OLAP) ■ Данные хранятся и обрабатываются

непосредственно в оперативной памяти

■ «In-memory» позволяет избежать эффекта

задержек ввода/вывода

■ Строчное и колоночное хранение данных

позволяют оптимизировать выборку по запросу

■ Сжатие данных за счет хранения и обработки

только значимого содержимого

■ Поставляется как единый программно-

аппаратный комплекс

Page 11: 2 sap v1_do_как big_data меняет бизнес

SAP HANA

HANA

Page 12: 2 sap v1_do_как big_data меняет бизнес

Помним, да?

Page 13: 2 sap v1_do_как big_data меняет бизнес

Диск VS Оперативная память

Доступ к оперативной памяти – 60 нс, скорость чтения 25 Гб/c

Доступ к диску – 10,000,000 нс, скорость чтения 0.07 Гб/с

3 606 км

Page 14: 2 sap v1_do_как big_data меняет бизнес

SAP HANA

CPU

STORAGE

MEMORY

Compression Partitioning

No Aggregate tables

(Dynamic Aggregation)

Solid State Flash HDD

64bit address space 1 TB in current servers

Dramatic decline in price/performance

L3

Cache

L3

Cache

L3

Cache

L3

Cache L3

Cache

L3

Cache

L3

Cache

L3

Cache

Multi-Core Architecture 8 CPU x 10 Cores per blade

Massive parallel scaling with many blades

Logging and Backup

OLTP+OLAP

in column Store

Page 15: 2 sap v1_do_как big_data меняет бизнес

Вертикальное хранение данных

Order Country Product Sales

456 France corn 1000

457 Italy wheat 900

458 Italy corn 600

459 Spain rice 800

456 France corn 1000

457 Italy wheat 900

458 Italy corn 600

459 Spain rice 800

456

457

458

459

France

Italy

Italy

Spain

corn

wheat

corn

rice

1000

900

600

800

СУБД с построчным хранением

СУБД с вертикальным хранением Single-scan aggregation:

SELECT Country, SUM(sales) FROM SalesOrders WHERE

Product=‘corn’ GROUP BY Country

Single-record access:

SELECT * FROM SalesOrders

WHERE Order = ‘457’

Page 16: 2 sap v1_do_как big_data меняет бизнес

SAP HANA

CPU

STORAGE

MEMORY

Compression Partitioning

No Aggregate tables

(Dynamic Aggregation)

Solid State Flash HDD

64bit address space 1 TB in current servers

Dramatic decline in price/performance

L3

Cache

L3

Cache

L3

Cache

L3

Cache L3

Cache

L3

Cache

L3

Cache

L3

Cache

Multi-Core Architecture 8 CPU x 10 Cores per blade

Massive parallel scaling with many blades

Logging and Backup

OLTP+OLAP

in column Store

Page 17: 2 sap v1_do_как big_data меняет бизнес

Backup and Recovery

Savepoint:

Save to disk

(data area)

1

COMMIT

Log file is saved to disk (log area)

2

Power failure

3

Time

Time

A B C

Page 18: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 18

Время формирования отчетов снизилось с 3

часов до 16 секунд

Своевременная поставка необходимого

материала снизила число коллизий,

связанных с недостатком материалов на

складе

Постоянное наличие нужного количества

материалов повышает эффективность 20000

скважин

Экономия миллионов евро в год

Анализ материальных запасов

Page 19: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 19

Анализ материальных запасов

Page 20: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 20

Анализ прибыльности сегментов с нужным уровнем детализации:

корректное разнесение затрат на объекты

потенциал увеличения прибыльности за счет аналитики

Увеличение точности расчетов для обоснования тарифа позволит

получать субсидии в необходимом объеме

Возможность корректного распределения затрат на статьи

бюджета (например, отделение затрат на ремонты от затрат на

перевозки)

Распределение и анализ затрат на уровень балансовых единиц

Избежание штрафов за несвоевременную сдачу отчетности

Общее время распределения по видам деятельности и по

территориям в системе снизилось с 14,5 часов доя 23 минут

Распределение по видам деятельности

Page 21: 2 sap v1_do_как big_data меняет бизнес

Прогнозная аналитика и персонификация

Разные

предложения Разные

каналы

Предложение 2

Интернет

Готов к оттоку

Предложение 1

Традиционные

Готова для

предложения 1

Предложение 3

Социальные сети

Уже получила

предложение

и сказала

«нет».

Миллионы

клиентов

? В каждый момент знаем что делать с каждым клиентом и каким образом это с ним делать.

Page 22: 2 sap v1_do_как big_data меняет бизнес

Лучше понять своих

клиентов!

SAP MAKES BIG DATA REAL

Page 23: 2 sap v1_do_как big_data меняет бизнес

• “Новые бизнес-модели пока не могут возместить потерю

доходов традиционных СМИ”

• “Программное обеспечение обновляется быстрее, чем

устанавливается”

• “Крупных и надежных решений, способных заменить или

удержать рекламные деньги и читательскую плату, так и нет”

• “Серьезная журналистика не делается ради денег”

• “Нам ничего не известно о моральных стандартах тех, кто

размещает свои посты в Фейсбуке”

• “Интернет есть, а счастья денег нет”

Пример из медиа: а где же деньги счастье?

Page 24: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 24

Allociné: Сайт база данных кинофильмов

• Повысить доходы от рекламы

• Повысить количество просмотров страниц

• Повысить добавленную стоимость

персональных рекомендаций по фильмам

Page 25: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 25

Как это работает

Идентифицированный

пользователь Рекомендации по

поведению

схожих («связанных»)

пользователей

Персонализированные письма

Индивидуальные рекомендации по всей истории

просмотров

Не идентифицированный

пользователь Запрос страницы с

фильмом

Рекомендации по

схожести фильмов

(similarity)

Page 26: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 26

Микро-сегментация клиентов

2 клиента связаны если они :

• смотрят одинаковые фильмы

• или покупают в одних и тех же местах

• или посещают одинаковые страницы

Действия:

Связанные клиенты образуют «сообщества»

Предложить клиенту продукты, популярные в его «сообществе»

Bipartite Graph

Client 1 Product 1

Client 2

Client 3

Client 4

Product 2

Product 3

Product 4

Client 4

Client 1

Client 2

Client 3

2

1 1

Микросегменты

клиентов

2

Product 3

Product 2

Product 1

Product 4

1

Микросегменты

продуктов

Page 27: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 27

В чем заключается конверсия

Dogs

Clint Eastwood Comedy

Clint Eastwood

Boxing

Veteran

Sylvester Stallone

Page 28: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 28

Allociné: Сайт база данных кинофильмов

• Персонализация 220 миллионов страниц в месяц

• Рекомендации для неавторизованных

пользователей на основании «схожести»

фильмов

• Рекомендации для идентифицированных

пользователей на основании «схожести»

рейтингов

• Увеличение доходов от рекламы на 9% за счёт

повышения количества просмотров на визит

Page 29: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 29

Продуктовая сегментация

• Среди связанных продуктов, можно выделить

устойчивые группы продуктов (фильмов,

пакетов), связанных между собой общими

потребителями

• Такие группы представляют собой типичные

«корзины», или модели поведения

покупателей.

Page 30: 2 sap v1_do_как big_data меняет бизнес

Hadoop – проект фонда Apache Software Foundation, свободно

распространяемый набор утилит, библиотек и программный каркас для

разработки и выполнения распределённых программ, работающих на

кластерах из сотен и тысяч узлов.

HADOOP – кто это???

Page 31: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 31

Интеграционная модель

SAP

HANA

Визуализация и

прогноз

Журналы Неструктурированные

данные

Загрузка данных

для

предобработки Загрузка результатов в

SAP HANA

SAP IQ

(Data Services)

Федерация

запросов

Smart Query Access (Data Virtualization)

SAP IQ

Интеграция на уровне ETL

Data Services предоставляет прямой

доступ к Hadoop: SAP Data Services

генерируют и выполняют инструкции

HiveQL для запроса, выборки и загрузки

данных в таблицы Hive.

Анализ выполняется непосредственно в

HDFS как задания модели MapReduce

ETL непосредственно в SAP IQ

Прямой доступ к Hadoop

Виртуальные таблицы (SAP HANA smart

data access)

Интеграция с HCatalog

Федерация запросов с SAP IQ

SAP BI доступ

Доступ SAP BOBJ напрямую к Hadoop

HIVE через JDBC

Page 32: 2 sap v1_do_как big_data меняет бизнес

Ценность Hadoop заключается в том, чтобы создать репрезентативную

выборку из гигантских объемов первичных данных и затем передать эту

выборку для оперативной обработки в SAP HANA (яркий пример – сборка генома)

Ценность Hadoop + SAP HANA

Page 33: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 33

Требования

Повышение эффективности процесса принятия решений при диагностике и

лечении раковых заболеваний

Снижение временных и денежных затрат на исследования и разработку новых

лекарственных препаратов

Технические сложности

Существующая архитектура R и Hadoop не полностью удовлетворяет условиям

работы с Big Data

Медленная скорость обработки данных замедляет процесс сборки генома

Полученные преимущества

Снижение времени сравнения ДНК и повышение качества терапии

SAP HANA предоставляет повышение скорости корреляционного анализа

Фармацевтические компании получают возможность своевременно проводить

необходимые исследования и синтезировать новые препараты

Собрать геном

Page 34: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 34

Функциональная архитектура

SAP HANA

Результаты исследований биоматериала

Сбор и предварительная обработка,

консолидация информации

Анализ полученных фрагментов и восстановление

последовательностей ДНК хромосом

Page 35: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 35

Ускорение сборки генома в 216 раз

Page 36: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 36

Требования

Повышение эффективности процесса принятия решений при диагностике и

лечении раковых заболеваний

Снижение временных и денежных затрат на исследования и разработку новых

лекарственных препаратов

Технические сложности

Существующая архитектура R и Hadoop не полностью удовлетворяет условиям

работы с Big Data

Медленная скорость обработки данных замедляет процесс сборки генома

Полученные преимущества

Снижение времени сравнения ДНК и повышение качества терапии

SAP HANA предоставляет повышение скорости корреляционного анализа

Фармацевтические компании получают возможность своевременно проводить

необходимые исследования и синтезировать новые препараты

Для справки

Page 37: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 37

Управление потоками событий

SAP Event Stream

Processor

Входные потоки

Рыночная аналитика

Записи о транзакциях

Телеметрические датчики

Средства анализа/отчетности

Прикладные системы

Средства разработки

Эталонные данные

SAP HANA,

SAP IQ

Инфопанели

Потоковый вывод

Page 38: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 38

Игра в материальном мире

Page 39: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 39

В ходе игрового процесса генерируется более 5000

различных пользовательских событий в секунду,

составляющих объем порядка 0,5 Тб данных. Эти

события требуют мгновенной обработки, и для

поддержания атмосферы реального времени

используются преимущества технологий SAP HANA

и SAP Event Stream Processor.

Игра в материальном мире

Page 40: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 40

World Cup in Brazil

SG Hoffenheim, футбольный клуб первого дивизиона Германии,

использует сбор и анализ данных в реальном масштабе времени:

изучаются пространственные перемещения игроков, чтобы сделать

тренировки эффективнее.

Футболисты экипируются датчиками, они же есть в мяче. Все сведения

поступают на вход аппаратно-программного комплекса SAP HANA.

Похожая система готовится для немецкой национальной сборной.

«Речь идет не о прогнозировании результатов, а о повышении

возможностей команды. Такая же картина рисуется в бизнесе, и связана она

с ростом эффективности на основе анализа данных: если вы обращаетесь

к интуиции, а не фактам, легко прийти к неверным выводам».

Джим Хагеман Снейбе, соисполнительный директор SAP

Page 41: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 41

Мониторинг состояния паровых котлов

ESP 5.1 SP1

Oracle

Oracle

RS (Replication

Server)

15.7.1

HANA 1.0

RA#1

15.7.1

RA#2

15.7.1

HP-UX System: ECD

ORACLE 10.2.0.5

AIX x64 System: KN

ORACLE 11.2.0.2

SLES 11SP2, x64 RAM 16GB, 4 CORE

SLES 11SP2, x64 RAM 8GB, 4 CORE

SLES 11SP1, x64 RAM 128GB, 32 CORE

Windows 2008, x64 RAM 16GB, 4 CORE

Windows 2008 x64 RAM 32GB, 8 CORE

HANA

output

adapter

SOI2

adapter

RS

adapter

Page 42: 2 sap v1_do_как big_data меняет бизнес

Стратегия – это плановый документ, определяющий направление

«главного удара» в развитии организации и формирующий ее качественно

новое будущее состояние (в горизонте планирования 3-5 лет) относительно

ее роли и места в расстановке отраслевых сил и создания ее новой

рыночной стоимости.

Big Data как часть корпоративной стратегии

Page 43: 2 sap v1_do_как big_data меняет бизнес

Градиент развития

2012

2013

Page 44: 2 sap v1_do_как big_data меняет бизнес

Градиент развития

2014

Page 45: 2 sap v1_do_как big_data меняет бизнес

Let’s Do IT

Вадим Табаков

Менеджер по развитию направления Big Data&Technology SAP CIS

к.э.н.

+7 495 755 9800

+7 967 132 5871

[email protected]

Page 46: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 46

1. Электронная торговая площадка

2. Анализ кредитоспособности

3. Управление рисками ликвидности

4. Brand Analytics

5. Расчет нормативов по достаточности капитала

6. Распознавание и идентификация по изображению

Финансовые организации

Page 47: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 47

1. Управление сбытом

2. Поддержка систем горнотранспортного комплекса

3. Управление энергосбережением

4. Ремонты по состоянию (Predictive Maintanance)

5. Ситуационный центр

Металлургия и добывающая промышленность

Page 48: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 48

1. Сбыт в рознице (АЗС)

2. Оценка экономической эффективности месторождения

3. Digital Oil Field – Монитор бурения

4. Оценка экономической эффективности инноваций

5. Ремонты по состоянию (Predictive Maintanance)

Нефтегазовая промышленность

Page 49: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 49

1. Прогноз Социально-Экономического развития

2. Централизованное хранилище данных электронного бюджета

3. Система видео-контроля мигрантов

4. Ситуационный центр выявления угроз Национальной

безопасности

5. Выявление мошенничества в налоговой сфере

Государственный сектор

Page 50: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 50

1. Прогнозирование спроса и планирование ассортимента

2. Поддержка мероприятий по продвижению товаров

3. Управление товарными запасами дистрибутора в реальном

времени

4. Оптимизация использования торговых площадей Оптимизация использования торговых площадей

Предсезонное планирование

Розничная торговля

Page 51: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 51

1. Слияние биллинговых систем

2. Хранилище данных с телекоммуникационной моделью

3. Управление лояльностью абонентов

4. Превентивная диагностика

Телекоммуникации

Page 52: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 52

1. Электроэнергетическая система с интеллектуальной сетью

2. Мониторинг технического состоянии электронно-сетевого

оборудования

3. Оперативный мониторинг и прогнозирование

4. Поддержка системы управления режимами энергосистемы

Энергетика

Page 53: 2 sap v1_do_как big_data меняет бизнес

© 2013 SAP AG. All rights reserved. 53

1. Контроль дислокации и выполнения графиков

2. Планирование расписания грузоперевозок

3. Железнодорожный транспорт Учёт расхода дизтоплива

Контроль/мониторинг состояния активов

Мониторинг поведения пассажиров

4. Авиа транспорт Определение срока прибытия воздушного судна

Диагностика работы авиационных двигателей на лету

Мониторинг состояния покрытия ВПП

Транспорт