企 事 录 · t e s t l a b . c o m . c n
NVMe SSD的物理形态与服务器设计
张广彬 企事录技术服务公司
企 事 录 · t e s t l a b . c o m . c n
概要
•NVMe 新的驱动力
•NVMe SSD 三种物理形态及相互转变
•新一代服务器平台上的 M.2 (NVMe) SSD
•从 U.2 到 U.3
•CPU 集成 NVMe RAID
企 事 录 · t e s t l a b . c o m . c n
NVMe 升级存储
CPU
SAS HBA
PCH
HDD Head &
Disk
DDR DRAM
SAS/
SATA
SSD
NAND
Flash
NVMe
SSD NAND
Flash
PCIe
SAS/
SATA
SATA
I/O延迟
ns
µs
ms
1. SAS/SATA 遭遇瓶颈
• SATA 已停止发展
• SAS 过于复杂,生态系统太小
2. NVMe 是 SSD 的未来
• PCIe 上的存储标准协议
• 更高带宽,更低延迟
• G2M 预计,到2020年,过半企业级
服务器配备 NVMe 驱动器仓位
企 事 录 · t e s t l a b . c o m . c n
NVMe 带动 SSD 市场增长
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2015 2016 2017 2018 2019 2020
PCIe/NVMe(出货量)增势最猛
PCIe SATA SAS DDR Other 来源:IDC, 2016
企 事 录 · t e s t l a b . c o m . c n
新一代服务器 CPU 拥有更多 PCIe 信道,可支持更多 NVMe
SSD
Intel Skylake:40→48,双路=96
AMD EPYC:单双路均为128
更多 PCIe lane,更多 NVMe SSD
24 x U.2 15mm per 2 RU Server w/o PCIe Switch
48 x U.2 7mm per 2RU Server
w/ PCIe Switch
PCIe switches
企 事 录 · t e s t l a b . c o m . c n
外观(类型) 条(M.2) 卡(AIC) 盘(U.2/U.3)
PCIe x4/x2 x4, x8, x16 x4/2x2
主要规格 2260/2280/22110 半高半长、全高半长 (2.5英寸)厚15mm/7mm
性能潜力 中低 中高 中
容量 低 中高 中(2.5英寸)高(3.5英寸)
维护性 差 差 好
供电/能耗 低 高 中
适用性 板载M.2插槽或转接卡 任何服务器 背板支持
优势应用场景 空间受限、hyperscale 高性能、大容量 驱动器仓位,前端维护
NVMe SSD的三种物理形态
企 事 录 · t e s t l a b . c o m . c n
• 同一产品经常有卡(AIC)和盘(U.2)两种版本,共享控制器*
• U.2 限制 AIC 为 PCIe x4
双态:AIC与U.2
* M.2 因尺寸受限, 控制器通常需单独设计
企 事 录 · t e s t l a b . c o m . c n
变态(1):M.2→AIC(容量性能可兼顾)
60mm 80mm 110mm
PCIe x8
M.2 2 x4 无带宽收敛 成本低
M.2 2 x4 或 4 x2 有带宽收敛 PCIe交换增加成本
PCIe x16
M.2 4 x4 无带宽收敛 需 x16 插槽
企 事 录 · t e s t l a b . c o m . c n
变态(2):M.2→U.2(扩大容量,便于维护)
3.5英寸 2.5英寸
优点:支持 22110 缺点:硬盘导向
缺点:仅支持 2280 优点:SSD导向
企 事 录 · t e s t l a b . c o m . c n
M.2实例(1):微软Project Olympus 1U服务器
企 事 录 · t e s t l a b . c o m . c n
Skylake主板:多达 16 × M.2 NVMe SSD
M.2 Riser (2 × 2)
板载 (4)
+ OCP M.2 扩展模块 (2 × 4)
• PCIe 全高半长 (FHHL)
• 支持 4 个 M.2 模块 (22110)
企 事 录 · t e s t l a b . c o m . c n
M.2实例(2):Facebook下一代单路服务器存储扩展
6× M.2 22110 (NVMe)
企 事 录 · t e s t l a b . c o m . c n
M.2实例(3):仓储型服务器
企 事 录 · t e s t l a b . c o m . c n
M.2 小结及展望
• M.2已在微软Azure为代表的hyperscale客户获得大量应用
• 作为Boot Disk(引导盘)的选项,适用于hyperscale(如
Facebook)和企业级应用
• 引导盘:SATADOM/SD卡→mSATA→M.2 SATA→M.2
NVMe ?
• M.2 NVMe用作企业级服务器Boot Disk的挑战:
• 热维护?
• RAID?
• 性能过剩?
企 事 录 · t e s t l a b . c o m . c n
重温U.2/SFF-8639
SATA
SAS
SFF-8639
PCIe 填满了连接器的剩余空间
企 事 录 · t e s t l a b . c o m . c n
U.2 还没混熟,又变 U.3 了?
Single Port Dual Port
企 事 录 · t e s t l a b . c o m . c n
U.2 NVMe SSD与SAS/SATA硬盘共存范例
CPU1 PCIe x8
SAS x4
SAS x4
EXP
HDD 0
HDD 1
HDD 2
HDD 3
……
……
……
……
HDD / NVMe SSD
HDD / NVMe SSD
HDD / NVMe SSD
HDD / NVMe SSD
Drive Backplane
SAS HBA
CPU2 PCIe x16
PCIe x4 PCIe x4
PCIe x4
PCIe x4
PCIe Retimer
企 事 录 · t e s t l a b . c o m . c n
缘起 Tri-Mode?
Tri-Mode控制器的主要价值是为NVMe SSD提供(硬)RAID 然而……在NVMe时代,“硬”的定义是否需要调整了?
企 事 录 · t e s t l a b . c o m . c n
• 前 (Xeon) E5 时代:
• Intel CPU集成XOR/P+Q功能,
以加速RAID 5/6运算
• 配套ADR/NTB,保护数据,提
高可用性
• 存储I/O控制器(SAS)分离
• Xeon (E5) 横扫存储行业
• 后 (Xeon) E5 时代……?
回顾历史:RAID 应该在哪里?
企 事 录 · t e s t l a b . c o m . c n
展望未来:NVMe (RAID) 控制权之争
CPU
PCIe
SAS
SATA
Tri-Mode
HDD Head &
Disk
DDR DRAM
SAS/
SATA
SSD
NAND
Flash
NVMe
SSD NAND
Flash
PCIe
SAS/
SATA
SATA
I/O延迟
ns
µs
ms
• CPU的优势:
• 天然集成PCIe控制器
• I/O路径更短
• 计算能力更强
• 重新定义“硬”RAID
• I/O带计算!
• 计算带I/O?
• Onloading vs. Offloading
企 事 录 · t e s t l a b . c o m . c n
Onloading与Offloading的另类战场
企 事 录 · t e s t l a b . c o m . c n
Thanks
北京企事录技术服务公司