18
www.i-teco.ru Обзор платформы HP Vertica

HP Vertica

Embed Size (px)

DESCRIPTION

Краткий рассказ про HP Vertica - СУБД нового поколения, предназначенную для хранения и быстрого доступа к большим объёмам данных.

Citation preview

Page 1: HP Vertica

www.i-teco.ru

Обзор платформы HP Vertica

Page 2: HP Vertica

2 www.i-teco.ruОбзор платформы HP Vertica

Представьте, что на этом слайде приведена громкая цитата, сопровождающаяся шокирующими данными о лавинообразном росте информации в мире, необходимости ее структуризации и анализа посредством решений уровня Big Data

Page 3: HP Vertica

3 www.i-teco.ruОбзор платформы HP Vertica

HP Vertica - это специализированная база данных, предназначенная для анализа большого объема информации в режиме реального времени

Архитектурные особенности HP Vertica позволяют обрабатывать и предоставлять информацию намного быстрее и эффективнее, чем традиционные СУБД

• Повышение производительности в 10-100 раз

• Высокая масштабируемость от TB к PB

• Простая интеграция с существующими решениями ETL и BI

• Максимальная производительность на доступной аппаратной платформе

• Высокая гибкость развертывания

• Простая лицензионная модель

Page 4: HP Vertica

4 www.i-teco.ruОбзор платформы HP Vertica

Особенности, позволяющие добиться таких результатов:

• Технология колоночного хранения

• Высокоэффективное сжатие

• Массово-параллельная архитектура (MPP)

• Встроенная поддержка высокой доступности (HA)

• Стандартный SQL интерфейс, коннекторы ODBC, JDBC или ADO.NET

• Автоматизированный Дизайнер БД

• Идеология «нулевого» администрирования

Page 5: HP Vertica

5 www.i-teco.ruОбзор платформы HP Vertica

Технология колоночного хранения

В таблицах традиционных (рядных) СУБД все данные хранятся построчно, тогда как в таблицах колоночной СУБД таблицы являются совокупностью колонок, каждая из которых по сути представляет собой таблицу из одного поля

Такой подход позволяет минимизировать затраты сервера доступа к данным на носителях и ускорить выполнение аналитических запросов за счет чтения значений только тех полей, которые участвуют в запросе

SELECT avg(price) FROM tickstore WHERE symbol = ‘AAPL’ AND date = ‘5/06/09’;

Page 6: HP Vertica

6 www.i-teco.ruОбзор платформы HP Vertica

Высокоэффективное сжатие

Вся информация в HP Vertica хранится в сжатом виде, при этом значительно увеличивается скорость чтения данных с носителей

HP Vertica использует различные алгоритмы сжатия в зависимости от характера данных : Run-Length Encoding (RLE), словарный метод, дифференцированный (для непрерывных типов данных)

За счет использования технологии колоночного хранения достигается максимальная эффективность сжатия данных одного типа

Принцип RLE

В таблице со 100 млн записей, сделанных в течение 1 года, в колонке "Дата" будет храниться не более 366 возможных значений. Таким образом, для хранения на диске 100 млн. отсортированных значений заменяются на 366 пар значений вида <дата, кол-во раз>. При этом они занимают почти в 100 тыс. раз меньше места, что также способствует повышению скорости выполнения запросов.

Page 7: HP Vertica

7 www.i-teco.ruОбзор платформы HP Vertica

Массово-параллельная архитектура (MPP)

Архитектура MPP предполагает возможность горизонтального масштабирования кластера серверов с разделенной памятью для легкого наращивания мощностей при значительном увеличении потоков загружаемых данных и количества ad-hoc запросов, в том числе в рамках параллельных сессий

Узлы кластера HP Vertica представляют собой по сути пиринговую сеть, так как не содержат разделяемых ресурсов и связанных с ними блокировок

Преимущества MPP

• Отсутствуют специализированные (критические) узлы• Для загрузки данных и выполнения запросов может

использоваться любой узел• Линейная масштабируемость• Чем больше узлов, тем больше места для данных и выше общая

производительность• Автоматическая репликация и восстановление после сбоев

Page 8: HP Vertica

8 www.i-teco.ruОбзор платформы HP Vertica

Встроенная поддержка высокой доступности (HA)

• При выходе узла кластера из строя продолжается загрузка данных и выполнение запросов

• Необходимость ведения журналов и восстановления данных на их основе отсутствует

• Для обеспечения отказоустойчивости данные зеркалируются между узлами кластера

• Пропавшие данные восстанавливаются с оставшихся узлов кластера

Кластер HP Vertica из 3 узлов

Благодаря специальному механизму K-Safety устройство кластера HP Vertica функционально подобно устройству RAID массивов

Page 9: HP Vertica

9 www.i-teco.ru

Analytics, Reporting

Обзор платформы HP Vertica

Стандартный SQL интерфейс

HP Vertica поддерживает стандарт ANSI SQL-99 и его аналитические расширения с целью минимизации затрат при интеграции с существующими инструментами BI и ETL

HP Vertica обладает всеми стандартными драйверами доступа к данным - ODBC, JDBC, ADO.NET, Python

Также HP Vertica оснащен набором штатных средств пакетной загрузки данных, которые можно расширять собственными парсерами, фильтрами и валидаторами

Массовая и поточная загрузка

ETL, Replication, Data Quality

SQLODBC, JDBC, .NET

Page 10: HP Vertica

10 www.i-teco.ruОбзор платформы HP Vertica

Автоматический дизайнер БД

HP Vertica поставляется с заранее сконфигурированными настройками и ПО Database Designer, предназначенным для автоматизации адаптации системы под требования заказчика

HP Vertica Database Designer позволяет значительно минимизировать усилия администраторов, связанные с физическим дизайном и оптимизацией баз данных

HP Vertica Database Designer:

• анализирует существующие логические схемы, статистическую информацию о загруженных данных и используемые запросы (опционально)

• создает макет дизайна физической схемы (проекции) в форме сценариев SQL, которая может быть выполнена как автоматически, так и вручную

• не требует специализированных знаний в области проектирования баз данных

• может запускаться в любое время для дополнительной оптимизации без остановки баз данных

Page 11: HP Vertica

11 www.i-teco.ruОбзор платформы HP Vertica

Идеология «нулевого» администрирования

Близость к идеологии "нулевого" администрирования достигается за счет архитектуры MPP, наличия механизмов автоматической оптимизации, секционирования таблиц, определения сортировки хранения записей в таблицах, созданием к таблицам дополнительных оптимизированных моделей (проекций), а также распределением нагрузок через пулы ресурсов

Вместо выделенной штатной единицы постоянного администратора возможно удаленное администрирование сервера или администрирование архитектором, разработчиком ETL или BI

Администрирование HP Vertica сводится к следующему:

• Управление ролями и пользователями• Управление нагрузками на кластер - распределение ресурсов серверов HP Vertica по пулам ресурсов• Управление серверами кластера - добавление новых серверов в кластер, их замена или удаление• Восстановление работы кластера при помощи автоматизированной утилиты, позволяющей запустить или

заменить сбойный сервер• Обновление версии сервера путем размещения дистрибутива на один из серверов HP Vertica, временной

остановки сервера HP Vertica, запуска инсталляции обновления и обратного старта сервера HP Vertica• Оптимизация запросов при помощи HP Vertica Database Designer

Page 12: HP Vertica

12 www.i-teco.ruОбзор платформы HP Vertica

Программно-аппаратное обеспечение HP Vertica

• Процессоры – x86-64 (Intel/AMD)• Хранилище – SAS, SATA, SAN, SSD• Сеть – Gigabit Ethernet• ОС – Linux

RHELSUSE DebianCentOS

• При увеличении аппаратной платформы дополнительные затраты на приобретение лицензий HP Vertica не требуются

Quarter-Rack1 BladeSystem c7000

10TB Vertica license8 BL460c G7 server blades

96 cores576GB RAM

1 MDS60018.75TB usable capacity

Full-Rack2 BladeSystem c7000

50TB Vertica license32 BL460c G7 server

blades384 cores

2304GB RAM4 MDS600

75TB usable capacity

Half-Rack1 BladeSystem c700020TB Vertica license16 BL460c G7 server blades192 cores1152GB RAM2 MDS60037.5TB usable capacity

Page 13: HP Vertica

13 www.i-teco.ruОбзор платформы HP Vertica

Лицензирование HP Vertica

Модель лицензирования HP Vertica определяется объемом исходных данных, при этом никаких ограничений на использование технических средств не существует

Такая модель позволяет увеличить производительность кластера, просто докупив и подключив к нему новые сервера, не тратясь на дополнительные лицензии

Приобретение дополнительных лицензий потребуется только при условии, что объем исходных данных достиг планируемого при покупке лицензий объема и нет возможности удалить устаревшие архивные данные с целью высвобождения места

Существует также бесплатная полноценная версия HP Vertica Community Edition, позволяющая развернуть кластер из 3 серверов и загрузить в такое хранилище до 1 ТБ «сырых» данных

Page 14: HP Vertica

14 www.i-teco.ruОбзор платформы HP Vertica

Экосистема HP Vertica

Page 15: HP Vertica

15 www.i-teco.ruОбзор платформы HP Vertica

Заказчики HP Vertica (более 360)

Page 16: HP Vertica

16 www.i-teco.ruОбзор платформы HP Vertica

Потенциальные заказчики

• Любые организации, оперирующие большими объемами данных при формирования аналитической отчетности и испытывающие проблемы с производительностью в настоящем, или ожидающие возникновения подобных проблем в будущем (хранилище данных - узкое место). В данном случае Vertica позиционируется как замена уже развернутого в организации хранилища c миграцией на Vertica имеющихся в нем данных с сохранением их логической структуры.

• Любые организации, планирующие внедрение хранилища данных в рамках разработки решения BI с нуля.

Page 17: HP Vertica

17 www.i-teco.ruОбзор платформы HP Vertica

Использованные материалы

Презентационные, публицистические и технические материалы портала HP Vertica – http://www.vertica.com

Публицистические материалы архитектора DWH Алексея Константинова - http://ascrus.blogspot.ru/

Публицистические материалы порталов

А также иные источники информации

http://habrahabr.ru http://sql.ru http://citforum.ru

Page 18: HP Vertica

www.i-teco.ru

Спасибоза внимание

Отделение Ай-Теко Бизнес КонсалтингКомпания «Ай-Теко»Тел. +7 (495) 777-1095E-mail: [email protected]