55
Управление сервисами дата- центра Дмитрий Карякин Системный инженер JNCIE #428

Управление сервисами дата-центра

Embed Size (px)

Citation preview

Управление сервисами дата-центра

Дмитрий Карякин

Системный инженер

JNCIE #428

Виртуальная коммутация

Управление сервисами дата-центра

Акселерация приложений

Аналитика и телеметрия

Виртуальная коммутация

Варианты реализации VXLAN

EVPN+

VXLAN

NSX/OVSDB+

VXLAN

Contrail+

VXLAN

VXLAN

Overlay

Что такое EVPN?

• Ethernet Virtual Private Network

• Мультивендорная поддержка: Juniper, ALU, Cisco, Bloomberg,

Verizon, ATT, Arktan

• План управления интерконнекта L2 доменов основан на

протоколе MP-BGP

• Поддержка инкапсуляций данных: VXLAN, MPLS, PBB

EVPN

Где используется EVPN?

• EVPN в качестве плана управления для оверлейной

технологии VXLAN

EVPN

VXLAN

Где используется EVPN?

• EVPN в качестве плана управления для оверлейной

технологии VXLAN

Spine

Leaf

Где используется EVPN?

• EVPN для интерконнекта VXLAN дата-центров

VXLAN VXLANEVPN/

MPLS

Multi-home All-active

• Устройство доступа подключается стандартной

агрегацией каналов (LAG)

• Применяется выделенное устройство коммутации для

устранения дублирования BUM трафика

• Все устройства коммутации используются в активном

режиме без применения MC-LAG

Гипервизор

MP-BGP

Spine

Leaf

Балансировка нагрузки

• Анонсируемый MAC адрес с PE1 может быть достижим через PE1 и PE2 в

одном сегменте ESI

• Удаленные PE устройства могут балансировать трафик между PE,

которые анонсируют одинаковый идентификатор ESI

Гипервизор

MP-BGP

Spine

LeafPE1 PE2

Гипервизор

VM MobilityМиграция mac-адресов виртуальных машин

• MAC, анонсируемый PE2, перемещается за PE3.

• PE3 анонсирует этот MAC с новым порядковым номером в ext. Community (seq#)

• Маршрут MAC обновляется на всех PE, при этом PE2 старую запись удаляет

ГипервизорГипервизор

MP-BGP

Spine

LeafPE1 PE2 PE3

Быстрая сходимость

• PE удаляет AD маршрут для неисправного ESI

• Остальные PE удаляют next-hop неисправной PE для всех

MAC/IP адресов, полученных для данного ESIГипервизор

MP-BGP

Spine

Leaf

Proxy ARP

• PE2 обладает ARP записями MAC/IP.

• PE2 детектирует ARP запрос для шлюза по-умолчанию и

напрямую формирует ARP ответ для своих пиров.

Гипервизор

MP-BGP

Spine

LeafPE1 PE2

Гипервизор

EVPN vs VPLS

Атрибуты протяженных L2-сервисов дата-центров EVPN VPLS

Гибкая топология физической сети (hub-n-spoke, mesh, ring)

Масштабируемость 100К+ хостов внутри и между несколькими дата-

центрами

Active-Active подключение хостов

VPN - безопасная изоляция, пересекающиеся MAC и IP адреса

Быстрая мобильность хостов без переназначения L2/L3 адресации

Охват VLAN между стойками с различным местоположением

Контролируемый процесс обучение MAC/IP с помощью политик

Минимизация или устранение неизвестного unicast трафика

Быстрая сходимость при сбоях на пограничных соединениях,

основанная на локальном восстановлении

Масштабируемость multicast сервисов

Дополнительно: Auto-Cfg, Non-ethernet каналы, FRR на транзитных

каналах

VXLAN с VMware NSXПоддержка OVSDB

Orchestration

NSX manager

REST API

VMware NSX

NSX vSphere Physical

Server

NSX OVS

With KVMPhysical

Server

NSX OVS

With XEN

NSX Edge

INTER-VXLAN маршрутизация

Non-VXLAN

IP Network

Hypervisor Hypervisor HypervisorPhysical

Server

Orchestration

NSX manager

REST API

VMware NSX

EVPN для VXLAN интерконнекта – BUM

IP Cloud

VLAN 1MAC1

VLAN 2MAC 2

VLAN 1MAC11

VLAN 2MAC22

BGP signaling on WAN

PE1

PE2

PE3

PE4TOR

TOR

IP CloudMPLS

SMAC Learning

BD Lookup

VXLAN Encap

VNI:1000

MCG – 239.1.1.1

S IP – 10.10.10.1

BD Identification

SMAC Learning

BD Lookup

VXLAN DECAP

VNI:1000

MCG – 239.1.1.1

S IP – 10.10.10.2

BD ID

EVPN/MPLS DECAP

BD Lookup EgressEVPN/MPLS

ENCAP

VNI:1001

MCG – 239.1.1.2

S IP – 11.10.10.1

VXLAN

ENCAP

VNI:1001

MCG – 239.1.1.2

S IP – 11.10.10.2

BD Identification

SMAC Learning

BD Lookup

VXLAN DECAP

@2@1

@6

@3

@4@5 @7

@8

@9

10

EVPN для VXLAN интерконнекта – unicast

IP Cloud

VLAN 1MAC1

VLAN 2MAC 2

VLAN 1MAC11

VLAN 2MAC22

BGP signaling on WAN

PE1

PE2

PE3

PE4TOR

TOR

IP CloudMPLS

SMAC Learning

BD ID

BD Lookup for DMAC

VXLAN ENCAP

BD Identification

SMAC Learning

BD Lookup

VXLAN DECAP

VXLAN Encap

EVPN/MPLS

EncapsulationEVPN/MPLS DECAP

BD ID

BD Lookup

BD ID

SMAC learning thru S-IP

VXLAN De-encapsulation

BD Lookup for DMAC

11

1213

17

15

16

14

Выводы

• NSX OVSDB предоставляет решение VXLAN, управляемое на основе контроллера

• EVPN+VXLAN – стандартное оверлейное сетевое решение без контроллера• Multi-home, multi-way активная коммутация

• Балансировка нагрузки

• MAC мобильность, и многое другое

• Contrail также предоставляет оверлейное решение, управляемое контроллером

Акселерация приложений

Решение акселерации приложений

Изменение фундаментальной архитектуры в направлении встраиваемых приложений в сеть для ухода от латентности

Размещение сетевых приложений в родной гостевой виртуальной

машине

Перераспределение обработки интенсивных вычислений и

критически важных приложений реального времени на FPGA

модуль

Двухуровневая доставкаприложений

Программируемый модуль на основе FPGA

Широко применяемый 40G коммутатор для дата-центов с родной

поддержкой гостевых ВМ

Интегрированные вычисления в сеть

Коммутатор QFX5100-AA с QFX-PFA модулем

Единственный в индустрии высокопроизводительный коммутатор с

FPGA в малом форм-факторе

Application Acceleration Switch

QFX5100-AA

Packet Flow Accelerator Module

QFX-PFA

Производительность и масштабируемость

Интегрированные вычисления в сеть

Двухуровневая доставка приложений

Энергетическая отрасль

Нефтегазовая промышленность

Государственный сектор

Финансовые службы

Целевые отрасли

• Применение для финансовых служб• Шлюз фондовой биржи и торговой

площадки

• Обработчик рыночных показателей

• Механизмы исполнения тейдинговых

операций

• Отметки времени в сообщениях

транзакций

• Государственный сектор• DPI

• Шифрование каналов

• СОРМ

Примеры применения

• Запуск сетевых приложений в гостевой

виртуальной машине• Мониторинг производительности и

приложения аналитики

• Агент Cloud Analytics Engine

• Текстовая версия Wireshark

• Поддержка контейнером запуска Docker

на CentOS

• Hadoop

Коммутатор акселерации приложений Коммутатор акселерации приложений и

FPGA модуль акселерации пакетных

потоков

Семейство QFX5100

QFX5100-48S

QFX5100-48T

QFX5100-96S

QFX5100-24Q

48 x 10GbE / 1GbE

+ 6 x 40GbE

1.44 Tbps / 1.08 Bpps

48 x 10GbE / 1GbE

+ 6 x 40GbE

1.44 Tbps / 1.08 Bpps

96 x 10GbE / 1GbE

+ 8 x 40GbE

2.56 Tbps / 1.44 Bpps

24 x 40GbE

+ 2 слота, каждый 4 x 40GbE

2.56 Tbps / 1.44 Bpps

QFX5100-24Q-AA

24 x 40GbE

+ слот для одного FPGA модуля

или 2 QIC модулей

2.56 Tbps / 1.44 Bpps

Сравнение QFX5100 и QFX5100-AA Характеристика QFX5100 QFX5100-AA

CPU Dual Core 1.5 Ghz Quad Core 2.5 Ghz

Memory 8GB 32 Gb

Storage 32GB 128GB

Guest VM I/O Bandwidth 1 Gbps 20 Gbps

MPLS Да Да

L3VPN Да Да

ISSU Да Да (без PFA модуля)

BGP Да Да

VxLAN Да Да

IS-IS Да Да

Virtual Chassis Да Нет

Virtual Chassis fabric Да Нет

IPCLOS fabric Да Нет

QFX5100-24Q-AAКоммутатор акселерации приложений

• Архитектура оптимизирована для FPGA

модуля

• Улучшенная подсистема центрального

процессора

• Intel IvyBridge X86 CPU

• 32GB DDR3 памяти

• 2 Micro SATA 64GB MLC hard drives

• Broadcom Trident2 PFE

• 24 QSFP+ порта

• 2.56T производительность

• Оптимизированное двойное 10Gb NIC

подключение между CPU и PFE

• Поддержка обхода ядра

Коммутация 2.56 Tbps L2/L3

производительность

~500 ns задержка

Cut through & store-

forward

Порты 24 x 40GbE QSFP+ ports

2 expansion slots

Интерфейсы 10GbE SFP+: 96/104 with

breakout cable

40GbE QSFP+: 24/32

Размеры и

мощность

1U, 161 W

Front-to-back или back-to-

front airflow

Ресурсы для

гостевой ВМ

Память: 4G

Диск: 50GB

Формат: qcow2 или raw

24x40GbE QSFP+ 4x40GbE FPGA

QFX-PFA-4QАкселератор пакетных потоков

• Форм-фактор двойного QIC модуля

• FPGA большой емкости Altera Stratix-V

AB

• 48GB DDR3 DRAM для пакетной

буферизации

• 4x QSFP+ порта на передней панели

• Вход и выход интерфейсов передачи

точного времени для поддержки

приложений PTP

Порты • 4x 40GbE QSFP+ interfaces

(data ports)

• QSFP+ LEDs for the link and

status indications

PTP

интерфейсы

• 1PPS In/Out: 2-SMB

• 10MHz In/Out: 2-SMB

• 10/100/1000BASE-T: RJ-45

port

• ToD Interface: RJ-45

Размеры • 17.02 см x 16.51 см

Память • 48GB DDR3 DRAM

• 72MB QDR2+ память для

операций с низкой

задержкой

Точное время и синхронизация

• Поддержка PTP End-to-End Transparent Clock

• Поддержка приема синхронизации от GPS через SMB

разъемы на передней панели

• Аппаратная поддержка SyncE

• Наличие высокоточного генератора и синхронизация

с Trident2/CPU

Аппаратная архитектура

Host OS: Juniper Linux

Guest VM

Hardware

User space

Kernel

KVM

VM: Juniper Device Mgr

Junos kernel (BSD)

Junos daemons

Broadcom

mgmt. 1x1GbE

SR-IOV + VTd

Direct Mapped to VMs

Juniper Abstraction Layer

Platform Forwarding

40GbE Ports

2x10G

NIC

CPUIntel IvyBridge

4 core

RAM32 GB

SSD128 GB

QFX-PFA

4X40GbE

Ports

PTP Ports

Модель интерфейсов

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

Модель интерфейсов: F-ports

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• 24 x40GbE QSFP + порты на передней панели коммутатора

• 40GbE могут быть разделены на 4x10G (channelized)

• Обозначение: 40GbE – “et-*”, 10G – “xe-*”

• Junos VM владеет и управляет F-портами

Модель интерфейсов: A-ports

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• Внутренние интерфейсы на PFE, которые подключаются к B-портам на

FPGA модуле QFX-PFA-4Q

• Порты конфигурируются как 10G интерфейсы (в будущем планируется

40G).

• Junos VM владеет и управляет A-портами

• Передача данных между PFE и

FPGA осуществляется по

стандартному Ethernet протоколу

• Порты не представлены на

внешней панели коммутатора

• Общее количество портов – 16 x

10G

Модель интерфейсов: B-ports

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• Внутренние интерфейсы на FPGA модуле QFX-PFA-4Q, которые подключаются к A-портам PFE

• Именование B-портов определяется гостевой ВМ

• Гостевая ВМ владеет и управляет A-портами

• Junos VM не обладает информацией об A-портах

• Передача данных между PFE и

FPGA осуществляется по

стандартному Ethernet протоколу

• Порты не представлены на

внешней панели коммутатора

• Общее количество портов – 16 x

10G

Модель интерфейсов: C-ports

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• 4 x 40GbE QSFP + порты на передней панели модуля QFX-PFA-4Q

• Гостевая ВМ владеет и управляет C-портами

• Гостевая ВМ может использовать порты в любом режиме (Ethernet, Infiniband и т.п.)

• Junos VM не обладает информацией о C-портах

Модель интерфейсов: D-ports

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• Соединения выполнены внутри устройства на аппаратном уровне

• Порты конфигурируются из JunOS CLI, их именование является

продолжением фронтальных интерфейсов

• Junos VM владеет и управляет D-портами

• 2 x 10GbE порты на PFE

используются для подключения

двухпортового сетевого

интерфейса гостевой

виртуальной машины

Коммутация пакетов через FPGA

QFX5100-24Q-AA

Host OS (Linux)

PFE QFX-PFA-4Q FPGA

Junos VMControl Plane

Guest VM

10GE Nic

PCIeJunos Host Path

GuestVM Host Path

F-ports

D-ports

C-ports

B-ports

A-ports

• Трафик перенаправить на QFX-PFA-4Q можно стандартными правилами

ACL

• Критерии ACL и действия могут быть различными в зависимости от типа

трафика: L2, L3, IPv4/v6

• ARP пакеты могут использоваться как критерий для ACL

Инструменты разработки QFX-PFA-4Q

• Технологический партнер: Maxeler

Technologies

• Среда разработки – MaxCompiler

• Поддержка языка программирования

Java

• Преднастроенный образ гостевой ВМ

доступен для загрузки

Аналитика и телеметрия

Увеличение сложности сетиВзгляд с точки зрения сети

S S S S

L L L L L L L L L L L LL L L L

Layer 3 IP Fabric

Сетевые устройства, ToR, агрегация и доступ

Коммутаторы + интерконнект порты + Порты доступа + Наложенные туннели

Увеличение сложности сетиВзгляд с точки зрения приложений

Критически важные сети

Web servers

Active DirectorySQL

VMware ESXZDC

License Server

Profile Server

Enterprise

Apps

vCenterOracle

Client

SAN

Switch

Что является первопричиной проблемы с сервисом? Сеть?

VM? AD? SQL? Storage? Profile Server?

Когда возникают проблемы…

Почему

приложение

работает

медленно?

Как измерить

производительность

приложения до его

внедрения?

Как получить события

перегрузки очередей и

отчеты о задержках?

Как эффективно

осуществить поиск

неисправностей?

CLOUD ANALYTICS: ЗНАНИЕ – ЭТО СИЛА!

Аналитика в виртуализированной сетевой среде

Коррелированный обзор по слоям

Расширенные возможности поиска и устранения неисправностей

Трассировка сетевых путей и анализ потоков

NSX-MH

Tunnel end points &

Statistics

Logical port statistcs

Overlay path tracing

Track Host &

VM

Bandwidth

utilizationОве

рл

ей

Основа

Cloud Analytics

Engine

IP Fabric

Virtual Network

L3

Network Director

Junos Space Network Director

ВИЗУАЛИЗАЦИЯ

АНАЛИЗ

КОНТРОЛЬ

Целостный и коррелированный обзор

Кампусные и ЦОД технологии

Визуализация корреляций между основным и наложенным уровнями

Связность физической и виртуальной среды

Интеллектуальные и проактивные сети

Встроенный механизм сбора и корреляции данных

Анализ первопричины проблемы

Сетевая телеметрия для наложенного и основного сетевых уровней

Жизненный цикл и автоматизация рабочих

процессов

Автоматизация и управление фабрикой

Масштабируемое и гибкое управление множеством площадок

Управление фабрикой дата-центра

Open API Open Schema

REST API

Сетевая инфраструктура дата-центра

ORCHESTRATION (ND)

Data Learning Engine

QFX / EX

JUNOS NDA Физический хост с гипервизором

CA

Физический хост с гипервизором

CAQFX / EX

JUNOS NDA

QFX / EX

JUNOS NDA

Компоненты Cloud Analytics Engine

Механизм аналитики в PFE

• Микровсплески трафика (micro-burst)

• Перегрузка очередей

• Корреляция перегрузки сети

• Высокочастотное профилирование трафика

Встроенный AE (Analytic Engine) в PFE

• Выделенная процессорная мощность

• Выделенная память

• Время обработки - наносекунды

AE

Визуализация и анализ пути приложения

Уровень аналитики и управления

Вычислительный

узел A

Вычислительный

узел B

S

1

S2

S3

S4

Путь потока

Red App: S1 S2 S4

Green App: S1 S3 S4

Blue App: S1S2

S3S4

REST вызов

к

Compute

Agent

Отображение пути для выбранного потока

Сквозная задержка и по каждому узлу

Информация об устройствах

Тип и загрузка ресурсов

Статистика по трафику

Воспроизведение трассировки потока

Детектирование и визуализация изменения пути

Сбор статистики по приложениям и интерфейсам

ERSPAN зеркалирование для оффлайн анализа

Визуализация и анализ пути приложения

Атрибуты пути приложения

Уровень аналитики и управления

Вычислительный

узел A

Вычислительный

узел B

S

1

S2

S3

S4

Путь потока

Red App: S1 S2 S4

Green App: S1 S3 S4

Blue App: S1S2

S3S4

• Временная метка пробников

• Задержка на каждом узле

• Входящий интерфейс

• Исходящий интерфейс на основе хэш-суммы

• Статистика по буферу и очереди

• Статистика по ошибкам на интерфейсе

• Загрузка полосы для входящего и исходящего трафика

• Утилизация ECMP

• Загрузка процессора

• Загрузка памяти

Сетевая статистика

Статистика по хосту

Сетевая телеметрияЗагрузка полосы по каждой виртуальной машине

Сетевая телеметрияСтатистика загрузки за период времени

Сетевая телеметрияЗагрузка полосы по сетевым интерфейсам хост-систем

Поиск неисправностей на оверлейном сетевом уровне

Ping & Traceroute на

оверлейном уровне

• Детектирование сбоев и изоляция на виртуализированномналоженном уровне

• OAM пакеты проходят тот же путь, что и пакеты данных приложений

• Проверка синхронизации между планом управления и передачей данных

L3

L2

Вопросы?

Материал презентации и

обратная связь:

http://goo.gl/JQxr8K

Дмитрий Карякин

[email protected]