Upload
antishmanti
View
534
Download
2
Embed Size (px)
Citation preview
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 1
Как BigData меняет бизнес
Вадим Табаков
Big Data & Technology, SAP 20.04.2015
Фото: http://sport.mail.ru/foto/218865/188116/
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 2
Как BigData меняет бизнес
Вадим Табаков
Big Data & Technology, SAP 20.04.2015
Фото: http://sport.mail.ru/foto/218865/188116/
Как, BigData меняет бизнес?
© 2013 SAP AG. All rights reserved. 3
PhD в гаражном боксе
© 2013 SAP AG. All rights reserved. 4
Доли секунды
© 2013 SAP AG or an SAP affiliate company. All rights reserved. 5
Animus ex machina?
1. Анализировать все данные, а не довольствоваться их
частью или статистическими выборками
2. Иметь дело с неупорядоченными данными в ущерб
точности
3. Доверять корреляциям, а не гнаться за труднодостижимой
причинностью
Big Data – группа технологий и методов производительной обработки
динамически растущих объемов данных (структурированных и
неструктурированных) в распределенных информационных системах,
обеспечивающих организацию качественно новой полезной
информацией.
Big Data с точки зрения ИТ-компании
Инструменты для работы с Big Data
In-Memory СУБД 1
2
4
СУБД с вертикальным хранением данных
MAP REDUCE и HADOOP
Data Mining и прогнозная аналитика 3
5 Управление потоками событий
6 No SQL СУБД
SAP HANA Data Platform для Big Data
Consume
Store &
Process
Ingest
© 2014 SAP AG or an SAP affiliate company. All rights reserved. 9 Public
SAP HANA – это
программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.
В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,
ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.
КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ
В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,
СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:
ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ
ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.
Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет
использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.
Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в
оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.
Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.
Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.
Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых
платформой SAP HANA.
SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?
Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и
хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.
Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:
База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.
Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.
OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.
Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-
memory. Решение от IBM не предоставляет подобных возможностей.
Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не
является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.
СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ
Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные
сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:
SAP HANA для аналитики в режиме реального времени
Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а
также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные
модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.
В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым
быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.
Приложения нового поколения
Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,
бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме
реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.
Существующие решения SAP powered by HANA
Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям организаций. Миграция этих
решений на SAP HANA не только решает проблемы производительности, но и позволяет оптимизировать их архитектуру, расширить функциональность и упростить администрирование, сохраняя пользовательские интерфейсы неизменными. К примеру, миграция хранилища данных SAP Netweaver BW позволяет не только решить проблемы с отчетностью, работающей
недопустимо медленно, но и значительно ускоряет такие процессы, как бюджетирование на SAP BW-IP и SAP BPC, за счет выполнения объемных расчетов на уровне базы данных в оперативной памяти.
Технология In-Memory реализована в перспективном решении SAP HANA (High-Performance Analytics Appliance). Это гибкий, многоцелевой программно-аппаратный комплекс, который размещает все данные для аналитической обработки в оперативной памяти. Решение SAP HANA построено на программных компонентах SAP, оптимизированных для работы на
оборудовании, поставляемом ведущими мировыми производителями – партнерами SAP. SAP HANA представляет инновационную парадигму вычислений в реальном времени и помогает бизнесу переосмыслить существующие пути решения деловых задач, используя революционный инструментарий бизнес-аналитики, не имеющие аналогов приложения и обновленные
существующие решения SAP.
Основные возможности SAP HANA
Непосредственный доступ к оперативным данным без ущерба для производительности операционных систем. Возможность синхронизировать ключевые таблицы с информацией о транзакциях непосредственно в оперативной памяти в режиме, близком к реальному времени, что делает эти таблицы легкодоступными для анализа и поиска без ущерба для
производительности операционных систем. Усовершенствованный процесс моделирования поддерживает модели для прямого доступа к детализированной информации, а также аналитические модели для более сложного анализа.
Оптимальный процесс построения отчетности, который охватывает весь спектр задач – от выявления важных оперативных сведений до генерации семантически сгруппированных данных в рамках модели и публикации итоговых моделей для общего использования. Ключевое отличие решения SAP HANA от традиционных аналитических инструментов – отсутствие всякой
материализации, что значительно упрощает внесение изменений в модели. В качестве основных источников данных используются только виртуальные модели, которые рассчитыва ются на основе неагрегированных оперативных данных.
Поддержка любых источников данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.
Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи
веб-инструментов, встроенных в решение SAP HANA.
Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.
Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.
Текущие сценарии применения SAP HANA
Получение отчетов в режиме, приближенном к реальному времени
Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему
использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.
Использование в качестве акселератора (ускорителя) для существующего ХД
Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки
запросов.
Использование в качестве БД и СУБД для построения хранилища данных
При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее
открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.
Технические характеристики SAP HANA
Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая
необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.
Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных
инноваций в трех ключевых областях:
Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.
Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.
Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.
программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.
В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,
ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.
КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ
В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,
СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:
ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ
ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.
Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет
использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.
Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в
оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.
Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.
Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.
Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых
платформой SAP HANA.
SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?
Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и
хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.
Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:
База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.
Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.
OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.
Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-
memory. Решение от IBM не предоставляет подобных возможностей.
Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не
является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.
СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ
Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные
сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:
SAP HANA для аналитики в режиме реального времени
Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а
также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные
модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.
В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым
быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.
Приложения нового поколения
Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,
бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме
реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.
Существующие решения SAP powered by HANA
Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям организаций. Миграция этих
решений на SAP HANA не только решает проблемы производительности, но и позволяет оптимизировать их архитектуру, расширить функциональность и упростить администрирование, сохраняя пользовательские интерфейсы неизменными. К примеру, миграция хранилища данных SAP Netweaver BW позволяет не только решить проблемы с отчетностью, работающей
недопустимо медленно, но и значительно ускоряет такие процессы, как бюджетирование на SAP BW-IP и SAP BPC, за счет выполнения объемных расчетов на уровне базы данных в оперативной памяти.
Технология In-Memory реализована в перспективном решении SAP HANA (High-Performance Analytics Appliance). Это гибкий, многоцелевой программно-аппаратный комплекс, который размещает все данные для аналитической обработки в оперативной памяти. Решение SAP HANA построено на программных компонентах SAP, оптимизированных для работы на
оборудовании, поставляемом ведущими мировыми производителями – партнерами SAP. SAP HANA представляет инновационную парадигму вычислений в реальном времени и помогает бизнесу переосмыслить существующие пути решения деловых задач, используя революционный инструментарий бизнес-аналитики, не имеющие аналогов приложения и обновленные
существующие решения SAP.
Основные возможности SAP HANA
Непосредственный доступ к оперативным данным без ущерба для производительности операционных систем. Возможность синхронизировать ключевые таблицы с информацией о транзакциях непосредственно в оперативной памяти в режиме, близком к реальному времени, что делает эти таблицы легкодоступными для анализа и поиска без ущерба для
производительности операционных систем. Усовершенствованный процесс моделирования поддерживает модели для прямого доступа к детализированной информации, а также аналитические модели для более сложного анализа.
Оптимальный процесс построения отчетности, который охватывает весь спектр задач – от выявления важных оперативных сведений до генерации семантически сгруппированных данных в рамках модели и публикации итоговых моделей для общего использования. Ключевое отличие решения SAP HANA от традиционных аналитических инструментов – отсутствие всякой
материализации, что значительно упрощает внесение изменений в модели. В качестве основных источников данных используются только виртуальные модели, которые рассчитыва ются на основе неагрегированных оперативных данных.
Поддержка любых источников данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.
Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи
веб-инструментов, встроенных в решение SAP HANA.
Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.
Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.
Текущие сценарии применения SAP HANA
Получение отчетов в режиме, приближенном к реальному времени
Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему
использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.
Использование в качестве акселератора (ускорителя) для существующего ХД
Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки
запросов.
Использование в качестве БД и СУБД для построения хранилища данных
При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее
открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.
Технические характеристики SAP HANA
Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая
необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.
Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных
инноваций в трех ключевых областях:
Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.
Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.
Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.
программно-аппаратный комплекс, в основе которого лежит технология хранения и обработки данных in-memory.
В НАСТОЯЩЕЕ ВРЕМЯ ПЕРЕД БОЛЬШИНСТВОМ КРУПНЫХ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ ОСТРО ВСТАЛА ЗАДАЧА ЭФФЕКТИВНОЙ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ОБЪЕМОВ ДАННЫХ. ОРГАНИЗАЦИИ СТРЕМЯТСЯ СВОЕВРЕМЕННО ПОЛУЧАТЬ НУЖНУЮ ИНФОРМАЦИЮ, ЧТОБЫ ОПЕРАТИВНО РЕАГИРОВАТЬ НА ИЗМЕНЕНИЯ ФИНАНСОВОГО РЫНКА,
ПРЕДУПРЕЖДАТЬ РИСКИ И АНАЛИЗИРОВАТЬ ТРЕНДЫ. ОДНАКО ОБЪЕМ ДАННЫХ БЫВАЕТ НАСТОЛЬКО ВЕЛИК, ЧТО ТРАДИЦИОННЫЕ СИСТЕМЫ НЕ СПРАВЛЯЮТСЯ С ОБРАБОТКОЙ В НУЖНЫЕ СРОКИ И НЕ МОГУТ УДОВЛЕТВОРЯТЬ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЕЙ В ПОЛУЧЕНИИ НЕОБХОДИМОЙ ИНФОРМАЦИИ В РЕАЛЬНОМ ВРЕМЕНИ.
КОМПАНИЯ SAP ПРЕДЛАГАЕТ РЕВОЛЮЦИОННОЕ РЕШЕНИЕ ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ - ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС SAP HANA. ОН ПОСТРОЕН НА ОСНОВЕ ИННОВАЦИОННЫХ РАЗРАБОТОК КОМПАНИИ SAP В СФЕРЕ ХРАНЕНИЯ ДАННЫХ В ОПЕРАТИВНОЙ ПАМЯТИ И ПОСЛЕДНИХ ДОСТИЖЕНИЙ
В ОБЛАСТИ АППАРАТНОГО ОБЕСПЕЧЕНИЯ. SAP HANA СНИМАЕТ ОГРАНИЧЕНИЯ ТРАДИЦИОННОЙ АРХИТЕКТУРЫ БАЗ ДАННЫХ, КОТОРЫЕ СУЩЕСТВЕННО СУЖАЛИ ВОЗМОЖНОСТИ РАЗРАБОТКИ ПРИЛОЖЕНИЙ ДЛЯ ПОДДЕРЖКИ ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИЙ В РЕАЛЬНОМ ВРЕМЕНИ. НИЖЕ ПЕРЕЧИСЛЕНЫ КЛЮЧЕВЫЕ ОСОБЕННОСТИ SAP HANA,
СОВОКУПНОСТЬ КОТОРЫХ ПОЗВОЛЯЕТ СЧИТАТЬ ПЛАТФОРМУ БЕСПРЕЦЕДЕНТНЫМ РЕШЕНИЕМ НА РЫНКЕ ТЕХНОЛОГИЙ ДЛЯ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ:
ПОЛНОЦЕННАЯ БАЗА ДАННЫХ IN-MEMORY В ОСНОВЕ ПЛАТФОРМЫ SAP HANA. ВСЕ ДАННЫЕ, ХРАНЯЩИЕСЯ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ SAP HANA, ПОСТОЯННО НАХОДЯТСЯ В ОПЕРАТИВНОЙ ПАМЯТИ СЕРВЕРОВ, ЗА СЧЕТ ЧЕГО УСТРАНЯЕТСЯ УЗКОЕ МЕСТО, СНИЖАВШЕЕ ПРОИЗВОДИТЕЛЬНОСТЬ ПРИЛОЖЕНИЙ НА ПРОТЯЖЕНИИ МНОГИХ
ЛЕТ – ОЖИДАНИЕ ПРОЦЕССОРОМ ДАННЫХ С ЖЕСТКОГО ДИСКА.
Поколоночное хранение – новая скорость обработки данных и эффективные алгоритмы компрессии. Данный способ хранения позволяет извлекать из памяти только необходимые колонки таблиц данных и производить вычисления над ними, что значительно ускоряет выполнение аналитических запросов. Также поколоночная организация хранения позволяет
использовать ряд эффективных алгоритмов компрессии данных, не влияющих на производительность.
Построение комплексных моделей данных и реализация вычислительных алгоритмов на уровне базы данных с возможностью использования встроенных библиотек функций прогнозирования и бизнес-функций. SAP HANA позволяет создавать приложения нового поколения, изначально спроектированные для использования преимуществ вычислений в
оперативной памяти, а также переносить логику существующих приложений на уровень базы данных In-Memory.
Эффективное использование массово-параллельной архитектуры аппаратного обеспечения для распараллеливания вычислений на больших объемах данных.
Построение аналитики на транзакционных данных без предварительной агрегации, индексирования и материализованных представлений.
Бесшовная интеграция с существующими решениями SAP с целью увеличения производительности и создания новых возможностей для пользователей. Такие приложения, как SAP Netweaver BW, SAP CRM и в скором времени SAP ERP оптимизированы для работы в оперативной памяти и для использования вычислительных ресурсов, предоставляемых
платформой SAP HANA.
SAP HANA И IBM NETEZZA – ВОЗМОЖНА ЛИ АНАЛОГИЯ?
Программно-аппаратный комплекс PureData System for Analytics N1001 (новое название продукта Netezza 1000 Data Warehousing machine) в основе своей имеет СУБД, оптимизированную, согласно информации от производителя, для работы с аналитическими приложениями и хранилищами данных. При этом он не является многоцелевой платформой для обработки и
хранения как аналитических, так и транзакционных данных (для транзакционных систем IBM предлагает другой продукт семейства PureData – PureData for Transactions T1500). Единственной общей особенностью SAP HANA и PureData System for Analytics N1001 является эффективное использование массово-параллельной архитектуры при выполнении запросов.
Явными преимуществами SAP HANA, не позволяющими называть продукт компании IBM конкурентом и аналогом, являются:
База данных In-Memory, в то время как PureData System for Analytics Т1001 работает на основе дисков. Дисковые технологии накладывают ограничения на производительность, тем самым не позволяя выполнять комплексные вычисления на больших объемах данных в режиме реального времени и создавать приложения нового поколения.
Гибридное хранение данных (поколоночное и построчное с возможностью выбора) в отличие от решения IBM, позволяющего хранить данные только построчно. Как было сказано выше, поколоночное хранение имеет массу преимуществ и позволяет добиться высочайшей скорости выполнения аналитических запросов, а также степени компрессии данных.
OLAP + OLTP. SAP HANA оптимизирована для обработки данных обоих типов, в то время как PureData System for Analytics T1001 непроизводительна в работе с транзакционными приложениями.
Многофункциональная платформа для разработки новых приложений с возможностями использования библиотек функций планирования, прогнозирования и бизнес-функций. SAP HANA позволяет создавать новые решения, используя платформу stand-alone, а также оптимизировать существующие приложения, перенося логику на уровень базы данных in-
memory. Решение от IBM не предоставляет подобных возможностей.
Репликация данных из любых источников в режиме реального времени. В зависимости от поставленных задач и источников данных, компания SAP предлагает несколько зарекомендовавших себя инструментов для репликации – SAP SLT, Sybase Replication Server, SAP BusinessObjects Data Services. Загрузка данных в PureData System for Analytics T1001 не
является real-time, поэтому решение не может поддерживать функционирование организаций в реальном времени.
СЦЕНАРИИ ИСПОЛЬЗОВАНИЯ SAP HANA ДЛЯ ФИНАНСОВЫХ УЧРЕЖДЕНИЙ
Являясь универсальной многоцелевой платформой, SAP HANA позволяет реализовывать различные
сценарии для ускорения и оптимизации существующих приложений, а также создавать решения нового поколения, изначально проектируемые с использованием преимуществ вычислений в оперативной памяти. Основные группы сценариев представлены ниже:
SAP HANA для аналитики в режиме реального времени
Основной проблемой существующих аналитических приложений является сложность получения данных из источников в режиме реального времени, отсутствие гибкости моделей, а также необходимость предварительной агрегации данных для последующего анализа. По этим причинам пользователи не получают информацию для принятия решений своевременно, а
также не имеют возможности формировать ad-hoc запросы с требуемым уровнем детализации для анализа причин возникновения тех или иных событий и рисков. SAP HANA является идеальным решением описанной проблемы, позволяя реплицировать большие объемы данных из различных транзакционных систем в режиме реального времени, создавать комплексные
модели и витрины данных, вычисляемые «на лету», и предоставляя интерфейс для решений SAP BusinessObjects BI, MS Excel, а также любых других клиентских приложений, поддерживающих SQL или MDX.
В рамках данного сценария компания SAP предлагает большой спектр преднастроенных моделей, разработанных на основе многолетней экспертизы компании в области бизнес-процессов. Примером такого решения является аналитическая отчетность для банков, позволяющая менеджменту анализировать различные КПЭ в режиме реального времени и тем самым
быстро адаптироваться к меняющимся условиям финансового рынка и минимизировать риски.
Приложения нового поколения
Платформа SAP HANA позволяет создавать приложения, которые были нереализуемы ранее с применением традиционных технологий. Логика подобных приложений изначально реализуется на уровне базы данных SAP HANA с целью эффективного использования технологии вычислений в оперативной памяти, а также оптимизированных алгоритмов прогнозирования,
бизнес-функций и т.п. Примером такого приложения для банков является SAP Liquidity Risk Management (Управление рисками ликвидности). Оно позволяет банкам проводить анализ ликвидности и управление рисками и дает возможность анализировать большие объемы операционных, симулированных и «стресс» данных о денежных потоках всех типов в режиме
реального времени, от агрегированных данных группы вплоть до отдельных денежных потоков.
Существующие решения SAP powered by HANA
Приложения SAP Business Suite и SAP NetWeaver Business Warehouse являются ключевыми элементами системного ландшафта многих организаций, при этом традиционные базы данных, используемые этими приложениями, не позволяют им эффективно обрабатывать большие объемы данных и отвечать современным требованиям Поддержка любых источников
данных, позволяющая использовать оперативную информацию из приложений сторонних разработчиков, а также в случаях, когда организации хотят расширить существующие аналитические модели.
Простые в использовании инструменты моделирования с целью дальнейшего расширения автономии бизнес-пользователей. Богатые с семантической точки зрения представления превращают необработанные оперативные данные в понятную и значимую информацию. Бизнес-пользователи могут самостоятельно создавать новые аналитические модели при помощи
веб-инструментов, встроенных в решение SAP HANA.
Различные решения для бизнес-аналитики, как входящие в состав SAP Business Objects, так и не входящие (типа Excel) инструменты и приложения для анализа данных, которые могут подключиться к SAP HANA через стандартные интерфейсы, например MDX или SQL.
Стандартные интерфейсы для существующих решений, операционных систем или других бизнес-приложений. SAP HANA подключается к существующим источникам данных без ущерба для существующих ландшафтов, а организации смогут эффективнее использовать инвестиции в клиентские приложения для систем бизнес-аналитики.
Текущие сценарии применения SAP HANA
Получение отчетов в режиме, приближенном к реальному времени
Для обеспечения анализа в режиме реального времени перенос данных из транзакционной системы в HANA осуществляется с помощью технологии репликации данных. Репликация позволяет переносить в HANA все изменения, происходящие в БД учетной системы, в режиме, приближенном к «real time». Ранее для переноса данных в аналитическую систему
использовался процесс экстракции, трансформации и загрузки (т.н. ETL), который требовал длительного времени на извлечение и обработку больших массивов данных, прежде чем с этими данными начнут работать пользователи. Теперь же пользователям не нужно ожидать очередного срабатывания ETL-процесса или работать с устаревшими данными.
Использование в качестве акселератора (ускорителя) для существующего ХД
Такой режим уже не подразумевает работу в режиме реального времени, однако, на этом этапе пользователи могут анализировать большие объемы данных из любого источника с высокой скоростью обработки
запросов.
Использование в качестве БД и СУБД для построения хранилища данных
При данном подходе возможно получить максимальную выгоду, используя всю функциональность SAP HANA, и пользоваться всеми преимуществами первых двух вариантов. В данном варианте «совмещаются» механизмы хранения и обработки, что значительно сокращает время обмена данными между БД и уровнем приложения. К тому же данное решение наиболее
открыто для дальнейших перспектив развития – в ближайшем будущем SAP HANA рассматривается как универсальная платформа для разработки приложений нового поколения – «in-memory»-приложений.
Технические характеристики SAP HANA
Высокопроизводительные развертывания SAP HANA работают на системах на базе микросхем Intel, сертифицированных SAP как HANA-совместимые, т.к. обычно такие внедрения требуют большого количества оперативной памяти и использования быстрых многоядерных процессоров. SAP HANA использует технологию вычислений «in-memory», удерживая
необходимую информацию непосредственно в оперативной памяти для ускорения ее обработки. При этом устраняется необходимость выполнения основных низко производительных операций чтения/записи с жестких дисков.
Компания SAP реализовала в своем ядре вычислений «in-memory» ряд технических прорывов, обеспечив, например, оптимальную загрузку процессора и возможность параллельной обработки данных на нескольких узлах. В процессе совместной работы с клиентами на экспериментальном этапе проекта SAP HANA удалось продемонстрировать ряд глобальных
инноваций в трех ключевых областях:
Скорость: модуль вычислений в оперативной памяти от SAP позволяет каждому ядру процессора сканировать 2 миллиона записей в миллисекунду и производить «на лету» более 10 миллионов операций по агрегированию данных в секунду. Эти результаты достигнуты с использованием реальных данных клиентов, работающих на стандартных процессорах Intel.
Масштабируемость: программное ядро SAP HANA разработано на основе многоядерной архитектуры; в нем реализованы адаптивные алгоритмы, позволяющие оптимально использовать кэш. В результате производительность линейно растет при увеличении количества задействованных ядер, процессоров и серверов.
Сжатие: ядро SAP для вычислений в памяти использует передовые алгоритмы сжатия и структуры данных, позволяющие минимизировать объем памяти, необходимый для нормальной работы системы.
программно-аппаратный комплекс, в основе которого лежит технология
хранения и обработки данных «In-memory»
HANA (High-performance ANalytics Appliance) –
Что такое SAP HANA
HANA (High-performance ANalytics Appliance) –
программно-аппаратный комплекс, в основе которого лежит технология
хранения и обработки данных «In-memory»
SAP HANA
OLTP BI (OLAP) ■ Данные хранятся и обрабатываются
непосредственно в оперативной памяти
■ «In-memory» позволяет избежать эффекта
задержек ввода/вывода
■ Строчное и колоночное хранение данных
позволяют оптимизировать выборку по запросу
■ Сжатие данных за счет хранения и обработки
только значимого содержимого
■ Поставляется как единый программно-
аппаратный комплекс
SAP HANA
HANA
Помним, да?
Диск VS Оперативная память
Доступ к оперативной памяти – 60 нс, скорость чтения 25 Гб/c
Доступ к диску – 10,000,000 нс, скорость чтения 0.07 Гб/с
3 606 км
SAP HANA
CPU
STORAGE
MEMORY
Compression Partitioning
No Aggregate tables
(Dynamic Aggregation)
Solid State Flash HDD
64bit address space 1 TB in current servers
Dramatic decline in price/performance
L3
Cache
L3
Cache
L3
Cache
L3
Cache L3
Cache
L3
Cache
L3
Cache
L3
Cache
Multi-Core Architecture 8 CPU x 10 Cores per blade
Massive parallel scaling with many blades
Logging and Backup
OLTP+OLAP
in column Store
Вертикальное хранение данных
Order Country Product Sales
456 France corn 1000
457 Italy wheat 900
458 Italy corn 600
459 Spain rice 800
456 France corn 1000
457 Italy wheat 900
458 Italy corn 600
459 Spain rice 800
456
457
458
459
France
Italy
Italy
Spain
corn
wheat
corn
rice
1000
900
600
800
СУБД с построчным хранением
СУБД с вертикальным хранением Single-scan aggregation:
SELECT Country, SUM(sales) FROM SalesOrders WHERE
Product=‘corn’ GROUP BY Country
Single-record access:
SELECT * FROM SalesOrders
WHERE Order = ‘457’
SAP HANA
CPU
STORAGE
MEMORY
Compression Partitioning
No Aggregate tables
(Dynamic Aggregation)
Solid State Flash HDD
64bit address space 1 TB in current servers
Dramatic decline in price/performance
L3
Cache
L3
Cache
L3
Cache
L3
Cache L3
Cache
L3
Cache
L3
Cache
L3
Cache
Multi-Core Architecture 8 CPU x 10 Cores per blade
Massive parallel scaling with many blades
Logging and Backup
OLTP+OLAP
in column Store
Backup and Recovery
Savepoint:
Save to disk
(data area)
1
COMMIT
Log file is saved to disk (log area)
2
Power failure
3
Time
Time
A B C
© 2013 SAP AG. All rights reserved. 18
Время формирования отчетов снизилось с 3
часов до 16 секунд
Своевременная поставка необходимого
материала снизила число коллизий,
связанных с недостатком материалов на
складе
Постоянное наличие нужного количества
материалов повышает эффективность 20000
скважин
Экономия миллионов евро в год
Анализ материальных запасов
© 2013 SAP AG. All rights reserved. 19
Анализ материальных запасов
© 2013 SAP AG. All rights reserved. 20
Анализ прибыльности сегментов с нужным уровнем детализации:
корректное разнесение затрат на объекты
потенциал увеличения прибыльности за счет аналитики
Увеличение точности расчетов для обоснования тарифа позволит
получать субсидии в необходимом объеме
Возможность корректного распределения затрат на статьи
бюджета (например, отделение затрат на ремонты от затрат на
перевозки)
Распределение и анализ затрат на уровень балансовых единиц
Избежание штрафов за несвоевременную сдачу отчетности
Общее время распределения по видам деятельности и по
территориям в системе снизилось с 14,5 часов доя 23 минут
Распределение по видам деятельности
Прогнозная аналитика и персонификация
Разные
предложения Разные
каналы
Предложение 2
Интернет
Готов к оттоку
Предложение 1
Традиционные
Готова для
предложения 1
Предложение 3
Социальные сети
Уже получила
предложение
и сказала
«нет».
Миллионы
клиентов
? В каждый момент знаем что делать с каждым клиентом и каким образом это с ним делать.
Лучше понять своих
клиентов!
SAP MAKES BIG DATA REAL
• “Новые бизнес-модели пока не могут возместить потерю
доходов традиционных СМИ”
• “Программное обеспечение обновляется быстрее, чем
устанавливается”
• “Крупных и надежных решений, способных заменить или
удержать рекламные деньги и читательскую плату, так и нет”
• “Серьезная журналистика не делается ради денег”
• “Нам ничего не известно о моральных стандартах тех, кто
размещает свои посты в Фейсбуке”
• “Интернет есть, а счастья денег нет”
Пример из медиа: а где же деньги счастье?
© 2013 SAP AG. All rights reserved. 24
Allociné: Сайт база данных кинофильмов
• Повысить доходы от рекламы
• Повысить количество просмотров страниц
• Повысить добавленную стоимость
персональных рекомендаций по фильмам
© 2013 SAP AG. All rights reserved. 25
Как это работает
Идентифицированный
пользователь Рекомендации по
поведению
схожих («связанных»)
пользователей
Персонализированные письма
Индивидуальные рекомендации по всей истории
просмотров
Не идентифицированный
пользователь Запрос страницы с
фильмом
Рекомендации по
схожести фильмов
(similarity)
© 2013 SAP AG. All rights reserved. 26
Микро-сегментация клиентов
2 клиента связаны если они :
• смотрят одинаковые фильмы
• или покупают в одних и тех же местах
• или посещают одинаковые страницы
Действия:
Связанные клиенты образуют «сообщества»
Предложить клиенту продукты, популярные в его «сообществе»
Bipartite Graph
Client 1 Product 1
Client 2
Client 3
Client 4
Product 2
Product 3
Product 4
Client 4
Client 1
Client 2
Client 3
2
1 1
Микросегменты
клиентов
2
Product 3
Product 2
Product 1
Product 4
1
Микросегменты
продуктов
© 2013 SAP AG. All rights reserved. 27
В чем заключается конверсия
Dogs
Clint Eastwood Comedy
Clint Eastwood
Boxing
Veteran
Sylvester Stallone
© 2013 SAP AG. All rights reserved. 28
Allociné: Сайт база данных кинофильмов
• Персонализация 220 миллионов страниц в месяц
• Рекомендации для неавторизованных
пользователей на основании «схожести»
фильмов
• Рекомендации для идентифицированных
пользователей на основании «схожести»
рейтингов
• Увеличение доходов от рекламы на 9% за счёт
повышения количества просмотров на визит
© 2013 SAP AG. All rights reserved. 29
Продуктовая сегментация
• Среди связанных продуктов, можно выделить
устойчивые группы продуктов (фильмов,
пакетов), связанных между собой общими
потребителями
• Такие группы представляют собой типичные
«корзины», или модели поведения
покупателей.
Hadoop – проект фонда Apache Software Foundation, свободно
распространяемый набор утилит, библиотек и программный каркас для
разработки и выполнения распределённых программ, работающих на
кластерах из сотен и тысяч узлов.
HADOOP – кто это???
© 2013 SAP AG. All rights reserved. 31
Интеграционная модель
SAP
HANA
Визуализация и
прогноз
Журналы Неструктурированные
данные
Загрузка данных
для
предобработки Загрузка результатов в
SAP HANA
SAP IQ
(Data Services)
Федерация
запросов
Smart Query Access (Data Virtualization)
SAP IQ
Интеграция на уровне ETL
Data Services предоставляет прямой
доступ к Hadoop: SAP Data Services
генерируют и выполняют инструкции
HiveQL для запроса, выборки и загрузки
данных в таблицы Hive.
Анализ выполняется непосредственно в
HDFS как задания модели MapReduce
ETL непосредственно в SAP IQ
Прямой доступ к Hadoop
Виртуальные таблицы (SAP HANA smart
data access)
Интеграция с HCatalog
Федерация запросов с SAP IQ
SAP BI доступ
Доступ SAP BOBJ напрямую к Hadoop
HIVE через JDBC
Ценность Hadoop заключается в том, чтобы создать репрезентативную
выборку из гигантских объемов первичных данных и затем передать эту
выборку для оперативной обработки в SAP HANA (яркий пример – сборка генома)
Ценность Hadoop + SAP HANA
© 2013 SAP AG. All rights reserved. 33
Требования
Повышение эффективности процесса принятия решений при диагностике и
лечении раковых заболеваний
Снижение временных и денежных затрат на исследования и разработку новых
лекарственных препаратов
Технические сложности
Существующая архитектура R и Hadoop не полностью удовлетворяет условиям
работы с Big Data
Медленная скорость обработки данных замедляет процесс сборки генома
Полученные преимущества
Снижение времени сравнения ДНК и повышение качества терапии
SAP HANA предоставляет повышение скорости корреляционного анализа
Фармацевтические компании получают возможность своевременно проводить
необходимые исследования и синтезировать новые препараты
Собрать геном
© 2013 SAP AG. All rights reserved. 34
Функциональная архитектура
SAP HANA
Результаты исследований биоматериала
Сбор и предварительная обработка,
консолидация информации
Анализ полученных фрагментов и восстановление
последовательностей ДНК хромосом
© 2013 SAP AG. All rights reserved. 35
Ускорение сборки генома в 216 раз
© 2013 SAP AG. All rights reserved. 36
Требования
Повышение эффективности процесса принятия решений при диагностике и
лечении раковых заболеваний
Снижение временных и денежных затрат на исследования и разработку новых
лекарственных препаратов
Технические сложности
Существующая архитектура R и Hadoop не полностью удовлетворяет условиям
работы с Big Data
Медленная скорость обработки данных замедляет процесс сборки генома
Полученные преимущества
Снижение времени сравнения ДНК и повышение качества терапии
SAP HANA предоставляет повышение скорости корреляционного анализа
Фармацевтические компании получают возможность своевременно проводить
необходимые исследования и синтезировать новые препараты
Для справки
© 2013 SAP AG. All rights reserved. 37
Управление потоками событий
SAP Event Stream
Processor
Входные потоки
Рыночная аналитика
Записи о транзакциях
Телеметрические датчики
Средства анализа/отчетности
Прикладные системы
Средства разработки
Эталонные данные
SAP HANA,
SAP IQ
Инфопанели
Потоковый вывод
© 2013 SAP AG. All rights reserved. 38
Игра в материальном мире
© 2013 SAP AG. All rights reserved. 39
В ходе игрового процесса генерируется более 5000
различных пользовательских событий в секунду,
составляющих объем порядка 0,5 Тб данных. Эти
события требуют мгновенной обработки, и для
поддержания атмосферы реального времени
используются преимущества технологий SAP HANA
и SAP Event Stream Processor.
Игра в материальном мире
© 2013 SAP AG. All rights reserved. 40
World Cup in Brazil
SG Hoffenheim, футбольный клуб первого дивизиона Германии,
использует сбор и анализ данных в реальном масштабе времени:
изучаются пространственные перемещения игроков, чтобы сделать
тренировки эффективнее.
Футболисты экипируются датчиками, они же есть в мяче. Все сведения
поступают на вход аппаратно-программного комплекса SAP HANA.
Похожая система готовится для немецкой национальной сборной.
«Речь идет не о прогнозировании результатов, а о повышении
возможностей команды. Такая же картина рисуется в бизнесе, и связана она
с ростом эффективности на основе анализа данных: если вы обращаетесь
к интуиции, а не фактам, легко прийти к неверным выводам».
Джим Хагеман Снейбе, соисполнительный директор SAP
© 2013 SAP AG. All rights reserved. 41
Мониторинг состояния паровых котлов
ESP 5.1 SP1
Oracle
Oracle
RS (Replication
Server)
15.7.1
HANA 1.0
RA#1
15.7.1
RA#2
15.7.1
HP-UX System: ECD
ORACLE 10.2.0.5
AIX x64 System: KN
ORACLE 11.2.0.2
SLES 11SP2, x64 RAM 16GB, 4 CORE
SLES 11SP2, x64 RAM 8GB, 4 CORE
SLES 11SP1, x64 RAM 128GB, 32 CORE
Windows 2008, x64 RAM 16GB, 4 CORE
Windows 2008 x64 RAM 32GB, 8 CORE
HANA
output
adapter
SOI2
adapter
RS
adapter
Стратегия – это плановый документ, определяющий направление
«главного удара» в развитии организации и формирующий ее качественно
новое будущее состояние (в горизонте планирования 3-5 лет) относительно
ее роли и места в расстановке отраслевых сил и создания ее новой
рыночной стоимости.
Big Data как часть корпоративной стратегии
Градиент развития
2012
2013
Градиент развития
2014
Let’s Do IT
Вадим Табаков
Менеджер по развитию направления Big Data&Technology SAP CIS
к.э.н.
+7 495 755 9800
+7 967 132 5871
© 2013 SAP AG. All rights reserved. 46
1. Электронная торговая площадка
2. Анализ кредитоспособности
3. Управление рисками ликвидности
4. Brand Analytics
5. Расчет нормативов по достаточности капитала
6. Распознавание и идентификация по изображению
Финансовые организации
© 2013 SAP AG. All rights reserved. 47
1. Управление сбытом
2. Поддержка систем горнотранспортного комплекса
3. Управление энергосбережением
4. Ремонты по состоянию (Predictive Maintanance)
5. Ситуационный центр
Металлургия и добывающая промышленность
© 2013 SAP AG. All rights reserved. 48
1. Сбыт в рознице (АЗС)
2. Оценка экономической эффективности месторождения
3. Digital Oil Field – Монитор бурения
4. Оценка экономической эффективности инноваций
5. Ремонты по состоянию (Predictive Maintanance)
Нефтегазовая промышленность
© 2013 SAP AG. All rights reserved. 49
1. Прогноз Социально-Экономического развития
2. Централизованное хранилище данных электронного бюджета
3. Система видео-контроля мигрантов
4. Ситуационный центр выявления угроз Национальной
безопасности
5. Выявление мошенничества в налоговой сфере
Государственный сектор
© 2013 SAP AG. All rights reserved. 50
1. Прогнозирование спроса и планирование ассортимента
2. Поддержка мероприятий по продвижению товаров
3. Управление товарными запасами дистрибутора в реальном
времени
4. Оптимизация использования торговых площадей Оптимизация использования торговых площадей
Предсезонное планирование
Розничная торговля
© 2013 SAP AG. All rights reserved. 51
1. Слияние биллинговых систем
2. Хранилище данных с телекоммуникационной моделью
3. Управление лояльностью абонентов
4. Превентивная диагностика
Телекоммуникации
© 2013 SAP AG. All rights reserved. 52
1. Электроэнергетическая система с интеллектуальной сетью
2. Мониторинг технического состоянии электронно-сетевого
оборудования
3. Оперативный мониторинг и прогнозирование
4. Поддержка системы управления режимами энергосистемы
Энергетика
© 2013 SAP AG. All rights reserved. 53
1. Контроль дислокации и выполнения графиков
2. Планирование расписания грузоперевозок
3. Железнодорожный транспорт Учёт расхода дизтоплива
Контроль/мониторинг состояния активов
Мониторинг поведения пассажиров
4. Авиа транспорт Определение срока прибытия воздушного судна
Диагностика работы авиационных двигателей на лету
Мониторинг состояния покрытия ВПП
Транспорт