Upload
svmgroup
View
249
Download
2
Embed Size (px)
Citation preview
Технологии Big Data в Телекоме. Единое федеральное операционное хранилище данных YOTA на платформе HP Vertica
Владимир Баранов, YOTA Networks, 2404.2013
О компании
Компания YOTA, основанная в 2007 году, стала первым российским оператором,
предложившим мобильный широкополосный доступ в интернет на основе технологии
передачи данных WiMAX, тестовый запуск которой состоялся в 2008 году. Спустя три года
компания вновь опередила конкурентов, запустив тестовую сеть четвертого поколения в
Казани. Эта сеть стала второй в мире сетью LTE. Осенью 2012 года на коммерческом
кластере из 20 БС в Москве YOTA впервые в мире продемонстрировала технологию LTE-A,
при использовании которой скорость в DL на абонентском устройстве достигла 300 Мбит/с
в реальных условиях.
В 2012 году Yota, один из крупнейших в мире операторов беспроводного интернета 4G,
включена в список самых ярких российских брендов последних лет согласно русской
версии журнала Forbes.
В июле 2012 года компания «Скартел», владеющая брендом YOTA, вошла в состав вновь
созданного холдинга Garsdale, который объединил 100% акций «Скартела» и более 50%
акций компании «МегаФон».
2 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
О компании
В настоящее время LTE-сети Yota развернуты в нескольких десятках российских
городов. В планах на ближайшие 2 года охватить покрытием LTE 180 городов.
3 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Цель проекта
Создание системы по сбору, обработке, хранению и анализу всех возможных
данных, которые генерирует сеть LTE YOTA с учетом дальнейшего
непрогнозируемого роста источников, объемов и типов данных с неизменно
жесткими требованиями по скорости их загрузки, обработки и анализа. В основе
такой системы – аналитическая СУБД, спроектированная под Big Data.
4 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Почему Big Data ?
Проблемы традиционных СУБД при условии использования больших данных:
• Скорость и объемы загрузки данных
• Объемы и время хранения данных
• Хранение и анализ произвольных данных
• Скорость и объемы анализа
• Постоянный поиск компромисса между требованиями бизнеса и возможностью их
реализации
Для принятия эффективных решений требуется обрабатывать все больше и больше
данных и зачастую в режиме, максимально приближенном к реальному времени,
объемы данных растут в геометрической прогрессии и традиционные СУБД уже не
в состоянии соответствовать возрастающим нагрузкам. На смену им приходят
СУБД, изначально спроектированные для Big Data.
5 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Предпосылки. Объем данных.
800 000 петабайт было сохранено в 2009 году во всем мире. По прогнозам к 2020 году
объем данных составит уже 35 зеттабайт. Сегодня за 2 дня в мире сохраняется такой
же объем данных, как за весь 2003 год.
6 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
1 килобайт (KB) = 1024 байт
1 мегабайт (MB) = 1024 килобайта
1 гигабайт (GB) = 1024 мегабайта
1 терабайт (TB) = 1024 гигабайта
1 петабайт (PB) = 1024 терабайта
1 экзабайт (EB) = 1024 петабайта
1 зеттабайт (ZB ) = 1024 экзабайта
1 йоттабайт (YB) = 1024 зеттабайта
Предпосылки. Многообразие данных.
Структурированные и
неструктурированные данные.
• Информация с датчиков
• Информация из логов
• xDR и т.п.
• Статистика
• Потоковый контент, аудио и видео
• Информация из социальных
сетей, эл.почты, SMS
• Неструктурированные документы
– формы, заявления, отчеты,
отсканированные изображения
7 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Предпосылки. Скорость обработки и анализа.
Batch
Periodic
Near online
Real time
8 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Что такое Big Data?
9 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Массивы данных, размер и тип
которых не позволяют
эффективно обрабатывать и
анализировать их с помощью
традиционных технологий и
инструментов.
Кто больше?
10 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
9 Vs of Big Data
Volume
Variety
Velocity
Veracity
Value Viscosity
Variability
Visualization
Virality
Volume
Variety
Velocity
Veracity
Value
Viscosity
Variability
Visualization
Virality
How much?
Numbers of types?
How fast?
How is the quality?
How leverageable?
How actionable?
How non-standard?
How flexible viewing?
How quickly data is spread and shared?
СУБД - основа Big Data
Какой должна быть СУБД?
1. Архитектура массивно-параллельных
вычислений MPP (Massive Parallel
Processing)
2. Отсутствие разделяемых компонентов
(Shared nothing)
3. Колонко-ориентированная
архитектура (Column oriented)
4. Компрессия данных
11 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Кластерная сеть
Внешняя сеть
Наши требования к СУБД
Основные наши требования к ХД:
1. Управляемая масштабируемость
2. Отказоустойчивость 24/7/365
3. Многопоточная загрузка данных в реальном времени
4. Нулевое администрирование
5. Автоматическое управление производительностью при выполнении ad-hoc запросов
6. Эффективная компрессия данных
7. Организация зон разработки и тестирования
12 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Наш выбор - HP Vertica
13 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Наш выбор - HP Vertica
14 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
YOTA case study – единое федеральное DWH
Источники данных:
1. Практически вся сетевая статистика
2. События и алармы
3. Абонентская база
4. Тарифы
5. CDR
6. EDR PCRF
7. Статистика DPI
8. Yota Access статистика
9. NAT трансляции
10.Configuration Management
11. Inventory
15 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Текущие показатели:
Объем данных: > 12 ТБ
Прирост: > 50 ГБ в день
Источники данных: более 30
Форматы данных: csv, xml, asn.1, hex, json,
dblink
Периодичность загрузки: near real time
Интеграция с другими ИС: более 10
Кол-во одновременных сессий: до 100
Кол-во запросов в минуту: до 2000
Потребители все подразделения, более 10 ИС
YOTA case study
PoC
на виртуальной
платформе
Production system
3 месяца
16 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Первое внедрение HP Vertica на территории
Центральной и Восточной Европы.
Без привлечения интеграторов/консультантов.
Strengths
Price/performance value. Vertica customers we interviewed
identified performance, compression and ease of deployment
as key advantages; ease of setup and automated database
design were mentioned frequently (one respondent's
organization, located in a country without technical
support personnel at the time of deployment, set up its
system entirely unaided).
Magic Quadrant for Data Warehouse Database Management Systems
2013
YOTA case study – GETL
17 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
ETL
Файлы
JDBC
Сервисы
• Работа с сложными и динамическими
структурами данных
• Интеллектуальные mapping и конвертация
данных в runtime
• Кодогенерация и компиляция на лету
• Простая иерархия классов API
• Декларативный язык описания источников
данных и процессов
• Интеграция с приложениями посредством Java
API
• Интеграция с Quartz Scheduler
• Интеграция с Talend ETL
• Разработка своих драйверов доступа к данным
• Отраслевые расширения
• Вся мощь Groovy и Java
• Open source проект (внутренний)
YOTA case study – Tableau Software
18 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
YOTA case study – Tableau Software
19 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Big Data - приобретенная выгода
20 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
1. Скорость анализа данных и построения отчетов выросла
до 100 раз
2. Загрузка данных в режиме, близком к реальному
времени
3. Можем позволить собирать и хранить больше данных
4. Стоимость владения сократилась
5. Отсутствуют риски упереться в потолок по
производительности
6. Снижена вероятность простоя ХД
Залог успеха
21 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
1. Правильно спроектировать модель данных (структура
таблиц)
2. Правильно организовать хранение данных (сегментирование,
партиционирование, сортировка)
3. Правильно распределить нагрузки между ролями
пользователей (ресурсные пулы)
4. Правильно организовать процессы загрузки и обновления
данных (избегать update и delete больших объемов записей)
5. Своевременно производить оптимизацию (обновление
статистики, дефрагментация таблиц, разработка
дополнительных проекций для запросов)
Постановление 538 – Big Brother
22 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
ИС СОРМ - Информационные системы, содержащие базы данных операторов связи,
необходимые для обеспечения проведения оперативно розыскных мероприятий на сетях
электросвязи, предназначены для накопления, хранения, обработки и предоставления
уполномоченным государственным органам, осуществляющим оперативно-розыскную
деятельность информации о пользователях услуг связи и предоставляемых им услугах связи.
ИС СОРМ должны представлять собой АПК, обеспечивающий процессы сбора, регистрации,
обработки, хранения и передачи уполномоченным органам информации о пользователях услуг
связи и предоставляемых им услугах связи, поступающей от одного или нескольких операторов
связи. Информация содержит данные о любых действиях пользователя при получении услуг
связи, о всех соединениях, в том числе попытки соединений, как состоявшихся, так и
несостоявшихся с участием пользователя услуг связи или адресованных ему, а также об
отправителе и получателе сообщений (текстовых, голосовых или мультимедийных), в том числе
о попытках отправки сообщений, доставленных или сохраненных на средствах связи данной
сети.
ИС СОРМ должно обеспечивать: организацию БД для накопления, хранения не менее 3-х лет
Постановление 538 – Big Brother
23 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
ИС СОРМ должна обеспечивать сбор и запись в БД ИС СОРМ :
• подключения/отключения абонента к сети передачи данных (ААА);
• HTTP-обращения к информационному ресурсу сети связи (посещение Интернет-страниц сайтов,
порталов и т.д.);
• передачи почтового e-mail сообщения (в т.ч. сообщения веб-почты);
• передачи мгновенных электронных сообщений между пользователями (Instant Messaging);
• голосовой связи посредством сети передачи данных;
• передачи файловых данных;
• терминального доступа к оборудованию для удаленного управления;
• прочих данных, принимаемых, получаемых пользователем при помощи закрытых протоколов обмена
(прочие UDP-датаграммы, TCP-потоки, другие IP-пакеты)
• входящих/исходящих телефонных соединениях;
• входящих/исходящих коротких текстовых сообщений (SMS, MMS и т.д.);
• служебных запросов (USSD и т.д.);
• соединения, совершенные абонентом в гостевых сетях (роуминг);
• прочие виды соединений;
• изменении местоположения абонентов;
Спасибо за внимание!
?
24 24.04.2013
Баранов Владимир / Future of Telecom / YOTA Networks
Владимир Баранов ......................................
M +7 (925) 411 62 11 E [email protected]