BigПочта: как мы строили DataLake в Почте России / Алексей...

BigПочтаАлексей Вовченко

Кейс из жизни

2012 год – посылка из США под новый год, с подарками всем друзьям•27 ноября - экспорт из США•25 декабря - появилась у нас на границе•30 декабря – поездка в центральный офис EMS

вызволять (5 часов)

Ответ – Матрешка

Что такое почта?

Ритейл

Логистика

Нельзя терять данные

47 тыс. отделений2 млн. новых отправлений в день200-400 млн. событий в сутки

ДанныеПочтыРоссии

Задача - Построить отказоустойчивую инфраструктуру для решения задач почты

Получение Хранение Очистка Валидация

Обработка Аналитика Экспорт

Требования

• OpenSource• Exadata + OracleBI

• уже работает, нужно лучше

Задачи на релиз 0

1. Получить данные от всех логистических систем

2. Построить модель данных (матрешка)

3. Построить отчет «Остатки» состояние на вчера

4. Предоставить доступ к отчету пользователям

Front REST(in)

Map-Reduce

Front REST(in)

Map-Reduce

Front REST(in)

Map-Reduce

Front REST(in)

Релиз 0

Map-Reduce

Front REST(in)

Новые задачи • Нагрузкапользователей

• Доступ к данным по ключу

• Обработки данных не укладываются в реляционную логику

Выбор SQL движка

• Загрузка из HDFS

• Нагрузка – много пользователей

• Тяжелые OLAP запросы

Выбор SQL движка – выводы:

Все SQL движки над HDFS – медленные

Лидеры

Map-Reduce

Front REST(in)

было

Map-Reduce

Front REST(in)

стало

• Доступ к данным по ключу

Доступ к данным по ключу

по ID из 100млрд записей найти 10-100 нужных (pochta.ru)

• Решение key-value базы• Пробовали SparkSQL

• Пробовали Hadoop/Hive/in-memory/Vertica

• Кандидаты:

Релиз 1

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Новые задачи

• А теперь давайте считать real-time…

Выбор streaming

Задачи:• Kafka -> Kafka

• Kafka -> Cassandra

• Kafka -> Hadoop (Hive)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Проблемы Spark Streaming

Producer ?? Consumer

Producer Message Message Consumer

Producer Message Consumer

At-Most-Once

At-Least-Once

Exactly-Once

Проблемы Spark Streaming

Producer Message Message Consumer

• Spark checkpoint когда изменился код• Offsets Zookeeper – медленно

• Spark Kafka Direct API

• Spark checkpoint

• Реализовали свой механизм• PostgreSQL (ключ: topic, clientid, partition id, value: offset)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

• Данные в batch != streaming

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

было

Релиз 2

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

• Pentaho не держит нагрузку

• Прием не держит пики

• SparkThrift +Cassandra – не стабильны

• Spark Streaming -высокодоступность

Масштабируемость фронтов

Map-Reduce

Cluster

DockerFront REST(out)

REST(in)

Высокодоступность SparkStreaming

• Ночью кластер занят на 100%

• Если streaming-job падает, он не может подняться

• Yarn очереди – жалко терять ресурсы

Map-Reduce

Cluster

REST(in)

Релиз 3

Map-Reduce

Cluster

Spark SQL Thrift

Front REST(in)

Map-Reduce

Cluster

REST(in)

Релиз 3

Пилотирование Yandex ClickHouse

•Очень быстрая база

•ClickHouse + docker

•Универсальный загрузчик данных (Spark+Scala+local-table+paritions)

Пилотирование Yandex ClickHouse

•Провели нагрузочное тестирование• Результат – для наших задач не подходит• Под нагрузкой – 100% (3600%)CPU• Скорость сопоставима с Vertica, но очень большая

нагрузка на оборудование

Пилотирование Flink

• Flume не всегда стабилен

• Flume сложно мониторить

• Шаг влево-вправо – сложно

• Решение – Flink

• Пробовали NiFi – не понравился

Map-Reduce

Cluster

REST(in)

Релиз 3

Map-Reduce

ClickHouse

Cluster

CH Front DockerFront REST

(out)REST

Релиз 3.5

Путь данных: Прием

Путь данных: Онлайн обработка

data data

Путь данных: Снова онлайн обработка

data data

Cluster

Путь данных: онлайн сохранение в Cassandra

Путь данных: вся онлайн обработка

data data

Cluster

export

Путь данных: batch обработка

Cluster

ClickHouse

Путь данных: batch экспорт

Front+Docker+nginx Node

(0.5X)

DataCloud front docker (Pentaho, rest, DC services)

KafkaVerticaNode (SAS 10k)

Kafka Cluster + Vertica Cluster + ClickHouse Cluster + Spark

Streaming Cluster

Cassandra (SSD)

Cassandra Cluster + HadoopControl (main ring)

DataNode (SATA)

Hadoop Cluster

DataNode (SATA)

А как же инфраструктура?

Одна инфраструктура

• DataLake (for RAW data)• Batch ETL• Real-time processing• Analytics OLAP/OLTP processing• High-load rest (export)• High-load rest (input)• DataBus• BI• ML

• Hortonworks HDP+HDF• Hadoop• Yarn• Hive(tez)• Spark (+streaming)• Flume• Kafka

• Vertica• ClickHouse• PostgreSQL• Cassandra• Pentaho BI• Docker (scalable rest)

Можно миксовать

Map-Reduce

ClickHouse

Cluster

(out)REST

Нет свободной аналитики

CH Front

ClickHouse

Map-Reduce

Cluster

REST(in)

Streaming only, no Hadoop

Map-Reduce

ClickHouse

Cluster

(out)REST

Hadoop only, no Streaming

Map-Reduce

OozieClickHouse

Cluster

(out)REST

Нет задач доступа по ключу

REST(out)

Cluster

Map-Reduce

OozieClickHouse

Hadoop only, нет задачи и BI

ClickHouse

CH Front REST(out)

Cluster

Map-Reduce

DockerFront REST(in)

Что осталось?

• Flink->prod

• More data -> more nodes

• CI/CD full automatic

• Monitoring/puppet everything

• Sleep at the nights!

Что дальше?

• DataLab (Spark ML, …)

• IgNite

• Spark structured streaming

Выводы

• Не нужно останавливаться на достигнутом

• Каждую задачу должен решать свой инструмент

• Не надо бояться расширять архитектуру за счет хороших и

подходящих инструментов

BigПочта – вопросы?Алексей Вовченко

AVovchenko@luxoft.comSkype: itsneinhttps://www.linkedin.com/comm/in/alexey-vovchenko-3a1b6744

BigПочта: как мы строили DataLake в Почте России / Алексей...

Engineering

Datalake and the rise of the microservices - Meetupfiles.meetup.com/4533812/Datalake and the rise of... · Data Lake and the rise of the Microservices. About Me ... • Orchestration

AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나

TeradataHortonworks Datalake White-Paper 20140410

Datalake de l'idée à la plateforme

ВЫПУСК 3 2010 CAT MAGAZINE · 2012. 10. 26. · С начала проекта мы строили доверительные отношения с клиентом и доказали

Data Lake Organization - azurebootcampdk.comazurebootcampdk.com/Presentations/DataLake-Organize.pdf · Data Lake Analytics Service IoT Hub Data Catalog Power BI Embedded Data Lake

с. 1-60 Кемеровской 2013, 1 · PDF fileКемерово -3 - -5 -6 ... города и села, строили новые за-воды, ... символики,

Intermediate Validation Results - Activage Project · 28 Nov 2018 0.2 SIL testing, AIoTES Management, Tools, Datalake 10 Dec. 2018 0.9 Version 1, for internal review 15 Jan. 2019

Azure Data Lake Customer Deckazurebootcampdk.com/presentations/DataLake-Organize-v2.pdf · Azure Data Lake How to organize Jan Cordtz, Microsoft Denmark jcordtz@Microsoft.com Cloud

Présentation du projet DatalakeCNES · datalake : focus catalogue Dépôt source données externes Modèle de donnée : quelle métadonnée ? • Identifier le sous-ensemble commun

Как мы строили Jelastic - облачную платформу (PaaS) нового поколения (Дмитрий Лазаренко)

Увлеченные делом или как мы строили процессы. Александр Кунташов

Как строили МГУ - phys.msu.ru fileбыло грамотно, по последнему слову науки, и для этого требовались сотни тысяч

Consuming The DataLake€¦ · AWS KMS AWS CloudTrail Manage & Secure AWS IAM Amazon CloudWatch AWS Snowball AWS Storage Gateway Amazon Kinesis Data Firehose AWS Direct Connect AWS

Building trust in your data - Atos · Atos Datalake Engine is a key component of Codex when it is about enabling organizations to become data-driven. Codex is providing a complete

Building a Self-Service Datalake to Enable Business Growthgo.qubole.com/rs/510-QPZ-296/images/Ibotta_Qubole... · Science, Analytics, Developers, Support, Sales and Finance). David

· Web viewСобор очень долго строили, было что то 6в, потом проект Арнольфо ди Камбио, Джотто, Андреа Пизано,

ВЫПУСК 3 2010 CAT MAGAZINEС начала проекта мы строили доверительные отношения с клиентом и доказали нашу способность

[AWS Black Belt Online Seminar] AWS IoT Analytics Deep Dive · S3 (DataLake) Amazon Kinesis Data Firehose MES/SCADA Protocol conversion Email SMS Factory Machines Vision Amazon Kinesis

Une infrastructure de stockage et sa suite analytique : Le duo gagnant du Datalake Foundation