Cостав дистрибутва Hortonworks data platform 2.3

Знакомство с Hadoop

Докладчик: Плакса Е.А.

2/18

Исполнитель: Плакса Е.А.

№ Наименование темы доклада Время

1 что такое HadoopИз чего состоит дистрибутив Hadoop - HDP 2.3.2 Начало работы с Hadoop Бонус и вопросы

10:00 - 11:00

Кофе-брейк 11:00 - 11:15

2 Обзор архитектуры 9 проектов ПриватБанка использующих Hadoop в режиме вопрос-ответ.

11:15 - 12:30

Повестка мастер класса “Знакомство с Hadoop”

https://docs.google.com/presentation/d/1hTFVI8mbrJiujimRqRz9IN3VRWmducScVAIjc9uaVB0/edit



3/18


Hadoop Common[⇨] (связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов)

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.

что такое Hadoop?

2013система для планирования заданий и управления кластером

https://ru.wikipedia.org/wiki/Hadoop#Hadoop_Common

https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D1%8F%D0%B7%D1%83%D1%8E%D1%89%D0%B5%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D0%B5%D1%81%D0%BF%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5

https://ru.wikipedia.org/wiki/Apache_Software_Foundation

https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D0%BE%D0%B1%D0%BE%D0%B4%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D0%B5%D1%81%D0%BF%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5

https://ru.wikipedia.org/wiki/%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_(%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5)

https://ru.wikipedia.org/wiki/%D0%A4%D1%80%D0%B5%D0%B9%D0%BC%D0%B2%D0%BE%D1%80%D0%BA

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_(%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5)

https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80_(%D0%B3%D1%80%D1%83%D0%BF%D0%BF%D0%B0_%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BE%D0%B2)

https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80_(%D0%B3%D1%80%D1%83%D0%BF%D0%BF%D0%B0_%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BE%D0%B2)

https://ru.wikipedia.org/wiki/Yahoo!

https://ru.wikipedia.org/wiki/Facebook

https://ru.wikipedia.org/wiki/Hadoop#cite_note-.D0.92.D1.8D.D0.BD.D1.81.E2.80.942009.E2.80.94It_controls_the_top_search_engines_and_determines_the_ads_displayed_next_to_the_results._It_decides_what_people_see_on_Yahoo.E2.80.99s_homepage_and_finds_long-lost_friends_on_Facebook.E2.80.94-4

https://ru.wikipedia.org/wiki/Java

https://ru.wikipedia.org/wiki/MapReduce

https://ru.wikipedia.org/wiki/Hadoop

https://ru.wikipedia.org/wiki/Hadoop

4/18


Дистрибутивы Hadoop

● 2008 Cloudera - cdh 5.5

● 2009 MapR - MapR 5

● 2009 Amazon Elastic MapReduce

● 2011 Hortonworks - HDP 2.3

● 2011 microsoft HDInsight

● Teradata - Aster Big Analytics appliance

● Pivotal HD 3.0

● IBM - BigInsights 4.1

http://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support

http://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support

http://www.cloudera.com/

http://www.cloudera.com/content/www/en-us/downloads/cdh/5-5-0.html

http://mapr.com/

https://www.mapr.com/products/mapr-distribution-including-apache-hadoop

http://aws.amazon.com/elasticmapreduce

http://www.hortonworks.com/

http://hortonworks.com/hdp/whats-new/

https://azure.microsoft.com/ru-ru/documentation/services/hdinsight/

http://pivotal.io/big-data/pivotal-hd



http://ibm.com/bigdata

http://www-01.ibm.com/software/data/infosphere/biginsights/

http://ibm.com/bigdata

5/18


Hortonworks Data Platform 2.3.2

● Управление данными

● Доступ к данным

● Интеграция данных и планирование● Администрирование , мониторинг и безопасность

http://hortonworks.com/hadoop/

http://hortonworks.com/hadoop/

6/18


Управление даннымиОбработка огромного количества данных, масштабировать нагрузку можно линейно

● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN, MapReduce)

● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce за счет усовершенствования процедуры выполнения графовой модели. Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.

● Apache Slider 0.80.0 - Окружение предназначенное для систем реального времени таких как hbase и storm.

http://hadoop.apache.org/docs/r2.7.1/

http://hadoop.apache.org/docs/r2.7.1/

https://tez.apache.org/

https://slider.apache.org/


Доступ к данным

Взаимодействия с данными от пакетной обработки до работы в реальном времени

Пакетная обработка

● Apache Pig 0.15.0 -это высокоуровневый процедурный язык, предназначенный для выполнения запросов к большим слабоструктурированным наборам данных.○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские

функции UDF)

● Apache Hive 1.2.1 - Система управления большими наборами данных. Используется для создания выборок с помощью SQL-подобного языка (HQL) В качестве источников данных можно использовать структурированные и не структурированные хранилища. Hive может быть использован теми, кто знает язык SQL.!!!

7/18

http://pig.apache.org/docs/r0.15.0/

http://datafu.apache.org/

https://cwiki.apache.org/confluence/display/Hive/Home

8/18




Работа в реальном времени

● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для записи/чтения большого объема данных в системах реального времени ○ Apache Phoenix 4.4.0 - SQL оболочка для HBase

● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение построенная на концепции Google BigTable ( Разработано АНБ США)

● Apache Storm 0.10.0-beta система ориентированная на распределенную обработку больших потоков данных в реальном времени

● 80К(300К) /мин ● avg 5-20мс

http://hbase.apache.org/book.html

http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html

http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html

http://accumulo.apache.org/

http://storm.apache.org/index.html

9/18




● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucene.

● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо диска. Ключевым понятием в Spark-е является RDD (resilient distributed dataset) — указатель на ленивую распределённую колекцию данных. Большинство операций над RDD не приводит к каким-либо вычислениям, а только создаёт очередную обёртку, обещая выполнить операции только тогда, когда они понадобятся

http://wiki.apache.org/solr/

http://spark.apache.org/

10/18


Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи

● Apache Falcon 0.6.1 - упрощает конфигурацию движения данных и позволяет установить политику для: сохранения и репликации данных

● Apache Flume 1.5.2 - используется для потоковой передачи данных из нескольких источников с возможностью по резервированию и восстановлению

● Hortonworks DataFlow (Apache nifi) - предназначен для автоматизации работы с потоками большого количества данных в разнородных системах (Разработано АНБ США Onyara)

http://falcon.apache.org/

http://flume.apache.org/FlumeUserGuide.html

http://nifi.apache.org/

11/18


Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи

● Apache Kafka 0.8.2 - распределённая система обмена сообщениями с высокой пропускной способностью

● Apache Sqoop 1.4.6 -утилита для быстрого копирования данных между Hadoop и RDBMS

● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально спроектирован для объединения отдельных MapReduce работ в единый конвеер и запуска их по расписанию

● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа к Hdfs, Hive, Pig, Oozie, storm

http://kafka.apache.org/documentation.html

http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html

http://oozie.apache.org/docs/4.2.0/index.html

http://gethue.com/hadoop-tutorial-new-impala-and-hive-editors/

http://hortonworks.com/hadoop/ambari/#section_4

12/18


Администрирование, мониторинг и безопасность основные инструменты администраторов

● Apache Knox 0.6.0 - обеспечивает единую точку аутентификации / доступа для кластера

● Apache Ranger 0.5.0 - обеспечивает комплексный подход к безопасности и хранилище ключей

● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его мониторинг за счет удобного пользовательского веб-интерфейса и интерфейса REST API

● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud Platform и OpenStack

● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации, хотя его возможности гораздо шире

http://knox.apache.org/

http://knox.apache.org/

http://ranger.incubator.apache.org/

http://ranger.incubator.apache.org/

http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.2.1/index.html

http://hortonworks.com/hadoop/cloudbreak/

http://zookeeper.apache.org/

13/18


1. http://hortonworks.com/products/hortonworks-sandbox/#install

или https://aws.amazon.com/ru/

2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery3. Документация & hadoop summit & google search

Hadoop с чего начать ?

http://hortonworks.com/products/hortonworks-sandbox/#install

http://hortonworks.com/products/hortonworks-sandbox/#install

https://aws.amazon.com/ru/

http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery

http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery

http://2016.hadoopsummit.org/

14/18


Ambari

.



http://10.61.129.144:8080/#/login

http://10.61.129.144:8080/#/login

15/18


Hue

.

http://10.61.129.144:8000/beeswax/execute/

http://10.61.129.144:8000/beeswax/execute/

16/18


Linux console & ….

hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,

17/18


Hadoop training & certification

$2800

$250

hadoopexam.com

http://hortonworks.com/training/

http://hortonworks.com/training/certification/

http://www.hadoopexam.com/

http://www.hadoopexam.com/

ВОПРОСЫ?

БОНУС ● 14 лекций по Hadoop от Mail.ru● Скрижали->Разработчикам ПО -> работа с

NoSql

Докладчик: Плакса Е.А.

https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD

https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD

https://itwiki.privatbank.ua/wiki/%D0%9F%D1%80%D0%B8%D0%B5%D0%BC%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F

https://itwiki.privatbank.ua/wiki/NoSql



Data & Analytics

Cостав дистрибутва Hortonworks data platform 2.3