18
Знакомство с Hadoop Докладчик: Плакса Е.А.

Cостав дистрибутва Hortonworks data platform 2.3

  • Upload
    -

  • View
    512

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cостав дистрибутва Hortonworks data platform 2.3

Знакомство с Hadoop

Докладчик: Плакса Е.А.

Page 2: Cостав дистрибутва Hortonworks data platform 2.3

2/18

Исполнитель: Плакса Е.А.

№ Наименование темы доклада Время

1 что такое HadoopИз чего состоит дистрибутив Hadoop - HDP 2.3.2 Начало работы с Hadoop Бонус и вопросы

10:00 - 11:00

Кофе-брейк 11:00 - 11:15

2 Обзор архитектуры 9 проектов ПриватБанка использующих Hadoop в режиме вопрос-ответ.

11:15 - 12:30

Повестка мастер класса “Знакомство с Hadoop”

Page 3: Cостав дистрибутва Hortonworks data platform 2.3

3/18

Исполнитель: Плакса Е.А.

Hadoop Common[⇨] (связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов)

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.

что такое Hadoop?

2013система для планирования заданий и управления кластером

Page 5: Cостав дистрибутва Hortonworks data platform 2.3

5/18

Исполнитель: Плакса Е.А.

Hortonworks Data Platform 2.3.2

● Управление данными

● Доступ к данным

● Интеграция данных и планирование● Администрирование , мониторинг и безопасность

Page 6: Cостав дистрибутва Hortonworks data platform 2.3

6/18

Исполнитель: Плакса Е.А.

Управление даннымиОбработка огромного количества данных, масштабировать нагрузку можно линейно

● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN, MapReduce)

● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce за счет усовершенствования процедуры выполнения графовой модели. Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.

● Apache Slider 0.80.0 - Окружение предназначенное для систем реального времени таких как hbase и storm.

Page 7: Cостав дистрибутва Hortonworks data platform 2.3

Исполнитель: Плакса Е.А.

Доступ к данным

Взаимодействия с данными от пакетной обработки до работы в реальном времени

Пакетная обработка

● Apache Pig 0.15.0 -это высокоуровневый процедурный язык, предназначенный для выполнения запросов к большим слабоструктурированным наборам данных.○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские

функции UDF)

● Apache Hive 1.2.1 - Система управления большими наборами данных. Используется для создания выборок с помощью SQL-подобного языка (HQL) В качестве источников данных можно использовать структурированные и не структурированные хранилища. Hive может быть использован теми, кто знает язык SQL.!!!

7/18

Page 8: Cостав дистрибутва Hortonworks data platform 2.3

8/18

Исполнитель: Плакса Е.А.

Доступ к данным

Взаимодействия с данными от пакетной обработки до работы в реальном времени

Работа в реальном времени

● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для записи/чтения большого объема данных в системах реального времени ○ Apache Phoenix 4.4.0 - SQL оболочка для HBase

● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение построенная на концепции Google BigTable ( Разработано АНБ США)

● Apache Storm 0.10.0-beta система ориентированная на распределенную обработку больших потоков данных в реальном времени

● 80К(300К) /мин ● avg 5-20мс

Page 9: Cостав дистрибутва Hortonworks data platform 2.3

9/18

Исполнитель: Плакса Е.А.

Доступ к данным

Взаимодействия с данными от пакетной обработки до работы в реальном времени

● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucene.

● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо диска. Ключевым понятием в Spark-е является RDD (resilient distributed dataset) — указатель на ленивую распределённую колекцию данных. Большинство операций над RDD не приводит к каким-либо вычислениям, а только создаёт очередную обёртку, обещая выполнить операции только тогда, когда они понадобятся

Page 10: Cостав дистрибутва Hortonworks data platform 2.3

10/18

Исполнитель: Плакса Е.А.

Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи

● Apache Falcon 0.6.1 - упрощает конфигурацию движения данных и позволяет установить политику для: сохранения и репликации данных

● Apache Flume 1.5.2 - используется для потоковой передачи данных из нескольких источников с возможностью по резервированию и восстановлению

● Hortonworks DataFlow (Apache nifi) - предназначен для автоматизации работы с потоками большого количества данных в разнородных системах (Разработано АНБ США Onyara)

Page 11: Cостав дистрибутва Hortonworks data platform 2.3

11/18

Исполнитель: Плакса Е.А.

Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи

● Apache Kafka 0.8.2 - распределённая система обмена сообщениями с высокой пропускной способностью

● Apache Sqoop 1.4.6 -утилита для быстрого копирования данных между Hadoop и RDBMS

● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально спроектирован для объединения отдельных MapReduce работ в единый конвеер и запуска их по расписанию

● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа к Hdfs, Hive, Pig, Oozie, storm

Page 12: Cостав дистрибутва Hortonworks data platform 2.3

12/18

Исполнитель: Плакса Е.А.

Администрирование, мониторинг и безопасность основные инструменты администраторов

● Apache Knox 0.6.0 - обеспечивает единую точку аутентификации / доступа для кластера

● Apache Ranger 0.5.0 - обеспечивает комплексный подход к безопасности и хранилище ключей

● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его мониторинг за счет удобного пользовательского веб-интерфейса и интерфейса REST API

● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud Platform и OpenStack

● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации, хотя его возможности гораздо шире

Page 13: Cостав дистрибутва Hortonworks data platform 2.3

13/18

Исполнитель: Плакса Е.А.

1. http://hortonworks.com/products/hortonworks-sandbox/#install

или https://aws.amazon.com/ru/

2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery3. Документация & hadoop summit & google search

Hadoop с чего начать ?

Page 15: Cостав дистрибутва Hortonworks data platform 2.3

15/18

Исполнитель: Плакса Е.А.

Hue

.

Page 16: Cостав дистрибутва Hortonworks data platform 2.3

16/18

Исполнитель: Плакса Е.А.

Linux console & ….

hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,

Page 17: Cостав дистрибутва Hortonworks data platform 2.3

17/18

Исполнитель: Плакса Е.А.

Hadoop training & certification

$2800

$250

hadoopexam.com