Upload
-
View
512
Download
0
Embed Size (px)
Citation preview
Знакомство с Hadoop
Докладчик: Плакса Е.А.
2/18
Исполнитель: Плакса Е.А.
№ Наименование темы доклада Время
1 что такое HadoopИз чего состоит дистрибутив Hadoop - HDP 2.3.2 Начало работы с Hadoop Бонус и вопросы
10:00 - 11:00
Кофе-брейк 11:00 - 11:15
2 Обзор архитектуры 9 проектов ПриватБанка использующих Hadoop в режиме вопрос-ответ.
11:15 - 12:30
Повестка мастер класса “Знакомство с Hadoop”
3/18
Исполнитель: Плакса Е.А.
Hadoop Common[⇨] (связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов)
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.
что такое Hadoop?
2013система для планирования заданий и управления кластером
4/18
Исполнитель: Плакса Е.А.
Дистрибутивы Hadoop
● 2008 Cloudera - cdh 5.5
● 2009 MapR - MapR 5
● 2009 Amazon Elastic MapReduce
● 2011 Hortonworks - HDP 2.3
● 2011 microsoft HDInsight
● Teradata - Aster Big Analytics appliance
● Pivotal HD 3.0
● IBM - BigInsights 4.1
5/18
Исполнитель: Плакса Е.А.
Hortonworks Data Platform 2.3.2
● Управление данными
● Доступ к данным
● Интеграция данных и планирование● Администрирование , мониторинг и безопасность
6/18
Исполнитель: Плакса Е.А.
Управление даннымиОбработка огромного количества данных, масштабировать нагрузку можно линейно
● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN, MapReduce)
● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce за счет усовершенствования процедуры выполнения графовой модели. Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.
● Apache Slider 0.80.0 - Окружение предназначенное для систем реального времени таких как hbase и storm.
Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными от пакетной обработки до работы в реальном времени
Пакетная обработка
● Apache Pig 0.15.0 -это высокоуровневый процедурный язык, предназначенный для выполнения запросов к большим слабоструктурированным наборам данных.○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские
функции UDF)
● Apache Hive 1.2.1 - Система управления большими наборами данных. Используется для создания выборок с помощью SQL-подобного языка (HQL) В качестве источников данных можно использовать структурированные и не структурированные хранилища. Hive может быть использован теми, кто знает язык SQL.!!!
7/18
8/18
Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными от пакетной обработки до работы в реальном времени
Работа в реальном времени
● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для записи/чтения большого объема данных в системах реального времени ○ Apache Phoenix 4.4.0 - SQL оболочка для HBase
● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение построенная на концепции Google BigTable ( Разработано АНБ США)
● Apache Storm 0.10.0-beta система ориентированная на распределенную обработку больших потоков данных в реальном времени
● 80К(300К) /мин ● avg 5-20мс
9/18
Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными от пакетной обработки до работы в реальном времени
● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucene.
● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо диска. Ключевым понятием в Spark-е является RDD (resilient distributed dataset) — указатель на ленивую распределённую колекцию данных. Большинство операций над RDD не приводит к каким-либо вычислениям, а только создаёт очередную обёртку, обещая выполнить операции только тогда, когда они понадобятся
10/18
Исполнитель: Плакса Е.А.
Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи
● Apache Falcon 0.6.1 - упрощает конфигурацию движения данных и позволяет установить политику для: сохранения и репликации данных
● Apache Flume 1.5.2 - используется для потоковой передачи данных из нескольких источников с возможностью по резервированию и восстановлению
● Hortonworks DataFlow (Apache nifi) - предназначен для автоматизации работы с потоками большого количества данных в разнородных системах (Разработано АНБ США Onyara)
11/18
Исполнитель: Плакса Е.А.
Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи
● Apache Kafka 0.8.2 - распределённая система обмена сообщениями с высокой пропускной способностью
● Apache Sqoop 1.4.6 -утилита для быстрого копирования данных между Hadoop и RDBMS
● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально спроектирован для объединения отдельных MapReduce работ в единый конвеер и запуска их по расписанию
● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа к Hdfs, Hive, Pig, Oozie, storm
12/18
Исполнитель: Плакса Е.А.
Администрирование, мониторинг и безопасность основные инструменты администраторов
● Apache Knox 0.6.0 - обеспечивает единую точку аутентификации / доступа для кластера
● Apache Ranger 0.5.0 - обеспечивает комплексный подход к безопасности и хранилище ключей
● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его мониторинг за счет удобного пользовательского веб-интерфейса и интерфейса REST API
● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud Platform и OpenStack
● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации, хотя его возможности гораздо шире
13/18
Исполнитель: Плакса Е.А.
1. http://hortonworks.com/products/hortonworks-sandbox/#install
или https://aws.amazon.com/ru/
2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery3. Документация & hadoop summit & google search
Hadoop с чего начать ?
14/18
Исполнитель: Плакса Е.А.
Ambari
.
15/18
Исполнитель: Плакса Е.А.
Hue
.
16/18
Исполнитель: Плакса Е.А.
Linux console & ….
hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,
17/18
Исполнитель: Плакса Е.А.
Hadoop training & certification
$2800
$250
hadoopexam.com
ВОПРОСЫ?
БОНУС ● 14 лекций по Hadoop от Mail.ru● Скрижали->Разработчикам ПО -> работа с
NoSql
Докладчик: Плакса Е.А.