中国の最新 GPU ディープラーニング事例のご紹介

NVIDIA GPU在中国

人工智能领域的

应用案例

2

阿里云HPC介绍

• 中国首个推出公共云上的HPC产品• 中国首个推出云上Maxwell架构的Tesla GPU，单节点单精度计算能力超过16Tflops

• 阿里云HPC团队• 集团内客户GPU集群建设、客服服务和应用优化• 公共云上HPC运营、客户服务和应用优化• 异构云平台预研

• 致力于满足深度学习用户的高性能计算需求

• 初创型新兴用户：随着人工智能市场的蓬勃发展，创业企业如雨后春笋般涌现出来，他们对高性能计算的需求非常强烈

• 互联网企业也加入深度学习的浪潮，对高性能计算的需求与日俱增• 传统GPU用户 + 深度学习：渲染（虚拟现实）、游戏、图形图像处理、视频处理• 传统HPC用户 + 深度学习：气象、医疗图像处理、计算金融、碰撞模拟、流体力学、基因测序等

阿里云HPC加速人工智能的发展

阿里深度学习业务场景

• 商品分类• 商品风格预测• 商品质量控制• 拍照购• 反黄• 人脸识别• 图像搜索• OCR

• ICDAR Robust Reading top1

• 语音识别• 阿里小Ai

阿里深度学习集群

• 业务• 大规模深度学习训练• 在线、离线预测

• 建设统一化资源管理、调度、监控• 规模: 上千片K40/M40 GPU，Infiniband

网络• 资源调度系统• 弹性: docker容器服务• 多租户隔离

• 部署自动化训练、预测服务• 部署针对特定GPU架构的深度学习优化实现

深度学习性能优化

• 系统层面

• 多机多卡训练优化• 预测的吞吐量优化• 通信优化（MPI overlap、Direct RDMA）

• 针对GPU优化

• CUDA Kernel优化• Multi-stream优化• PTX、Native指令优化• 显存节约• 数据传输优化• 工具增强优化

GPU极致性能优化工具-AsKepler

• 世界唯一公开Kepler原生汇编器• 目前支持SM35，SM37• 自由使用原生指令• 自由寄存器映射• 自由控制指令调度

• 了解微架构，进而指导人工优化或编译器后端优化

Kepler GPU上2D卷积性能优化

• 目前Kepler GPU上世界最快• Native指令直接实现Img2col + sgemm，减少数据中转• 尽量使用shared memory，减少全局内存访问• 循环展开：增加shared memory的使用，指令并行• 寄存器数量和shared memory的权衡，提高occupancy• 充分利用dual issue• 边界处理，避免warp内分支• 性能：

• ourConv_sass vs. cuDNNv2: 2.1倍• ourConv_sass vs. cuDNNv3_FFT: 1.75倍

语音识别优化案例

• 语音识别应用• 客服电话语音识别• YunOS语音识别• 云栖大会语音识别

• 难点• 只有CPU代码，需要向GPU移植• 需要GPU上多路语音并行• CPU、GPU数据传输频繁• GPU计算效率低

• 优化方法• 移植到GPU：创建CUDA相关矩阵类，封装CUDA相

关矩阵操作• 并行优化：不同路语音绑定到不同的CUDA stream

上• 数据传输优化：减少CPU、GPU数据传输次数• 微架构优化：提高矩阵乘法、矩阵向量乘法效率• LSTM凑batch优化：把不同请求的语言凑在一起过

网络• 优化结果

• 双M40卡比32核CPU 5倍路数比• 云栖大会语音识别• 小Ai机器人

1

5

0

1

2

3

4

5

6

CPU GPU

语音识别路数对比

路数比

阿里云HPC深度学习基础设施

• CPU + GPU + ECS计算服务 + 阿里云众多产品服务• OSS，分布式存储• NAS，并行文件系统• ODPS，实现高性能计算和大数据计算结合• ECS，在线预测服务器• CDN，图像、视频在线、离线预测• SLB，高吞吐在线预测

深度学习基础设施

CPU + GPU + ECS计算服务

RDS数据库 …… ODPS

大数据

SLB负载均衡

OSS/NAS存储

CDN内容分发

阿里云HPC深度学习资源编排• 一键资源编排• 打通深度学习上下游，形成数据闭环链路

离线训练

离线预测

在线预测

特征提取标注

离线训练训练的模型

分类分类

分类

训练的模型

原始数据

分类数据

分类数据

阿里云HPC深度学习工具开箱即用

• 通过主机自带或者Docker镜像提供• Caffe• cuDnn v4• Tensorflow• Mxnet• Torch• Theano

• 易用性高• 按量计费• 资源编排• 一键部署• 弹性伸缩

阿里云HPC加速深度学习

Tesla M40

DNN – all fully connected layersCNN – some convolutional layersRNN – recurrent neural network, LSTM

金融服务中的深度学习与人工智能--从问题识别到对话机器人

Case演示

我的客服首页（猜你问题）

猜你问题

左滑或点击头像进入对话

机器人问答

智能客服产品：我的客服

版权归属于蚂蚁金服

猜你问题：深度神经网络的读心术

用户行为轨迹问题推荐列表

用户点击数据

人造特征

客户服务轨迹

数据闭环

深度神经网络分类模型

机器人问答：数据的逻辑

花呗什么还款？密码忘了怎么办？余额宝收益什么时候到？

原始对话记录用户问题

答案

人工客服对话机器人客服对话

数据挖掘

运营专家

问题，答案

问题匹配

知识生产知识库知识消费

优化反馈

机器人问答：问题匹配

N-gram距离模型

问题相似度计算

花呗怎么还款？

密码忘了怎么办？

余额宝收益什么时候到？

用户问句：我的花呗该如何还款呢？

神经网络语义模型词向量语义模型语义结构模型

多种文本相似度计算的融合

完整的对话机器人

聊天

Q:世界最高峰是什么？A:珠穆朗玛

通用知识问答

Q：怎么才能变漂亮？A：多读书多看报,少吃零食多睡觉。

Q:花呗怎么还款？A:花呗还款有这几种方式 …

产品知识问答

Q:我想订明天的飞机票A:请问你想到哪里？

完成任务

Q:我20岁，是个学生，该买什么保险？A:请问您的月消费是多少？

金融服务

多目标系统拟人化智慧解决问题个人助手普惠服务


多技术融合

聊天通用知识问答产品知识问答完成任务金融服务

深度学习信息检索数据挖掘自然语言处理知识表示金融模型

人工智能技术


参数服务器：超大DNN训练

参数矩阵

稀疏输入

计算节点 1

参数服务器 1 参数服务器 2

计算节点 3计算节点 2

按需参数传递

DNN模型(in Caffe)

搜索、推荐、广告超大规模的离散稀疏向量输入。一亿个参数到千亿个参数

JD.com is China’s largest online retailer and its biggest overall retailer. It offers customers the best online shopping experience. The company is a member of the Fortune Global

500.

京东

大数据

数据

预处理

线下模型训练线上优化服务

产品应用

线下训练端： Tesla M40+

线上服务端： Tesla M4

面向GPGPU的人工智能计算平台

科大讯飞张致江

人工智能嘴巴-语音合成

2006-2013 比赛语种英语

2012年英语合成自然度首次超过普通发音人

2014-2015 比赛语种印地语

2016 英文故事合成多维度主观感受全面领先

4.7

4.2

3.6 3.5

3.1

2.52.3 2.3 2.3

1.71.5

0

1

2

3

4

5

A C I F B G D H J K E

自然语音

自然度

科大讯飞：唯一自然度大于4分的系统

30

32

34

36

38

40

愉悦感

停顿节奏

重读

声调

情感

耐听性

L讯飞系统第二名系统

《Hansel And Gretel》That night, Gretel had nightmares about

monsters in the woods."I'm scared," she said, from under the

covers."What are we going to do?“"Don't worry," said Hansel, who was lying

wide awake."I have an idea." Quietly, he tiptoed

outside.

STOP

实时会议转写-讯飞听见

讯飞自创的FSMN框架，很好地解决了篇章级、口语化的语音识别难题，满足在演讲、即

兴发言、自由讨论等多种转写场景下的使用。

演讲即兴发言自由讨论

89.8%

85.6%

70.7%

92.8%

89.6%

80.3%

多种转写场景效果显著提升

单向LSTM FSMN

客服机器人-晓嫚

、

软银Pepper机器人• 产品特点：

情绪识别、智能语音、关节灵活；根据场景可定制机器人显示屏APP功能

• 应用场所：软银营业厅：迎宾、促销员商场、超市：促销活动、导览旅游游客中心：介绍景点信息

• 效果反馈：Softbank东京银座营业厅，在放置Pepper机器人后，客流量较放置前提高了87%

晓曼向总书记问好

2016.04.26 2016.05.22 2016.07.01

晓曼给刘总当秘书晓曼参与录制人工智能系列纪录片

晓曼在中国智能客服峰

会首次担当主持人

大堂经理“晓曼”的”大智慧“获得新闻联播的垂青

2016.07.22 2016.07.23

-讯飞“晓曼”机器人：

• 成为业界关注度最高的首个实用服务机器人

类人答题机器人

• 科技部启动首个中国人工智能的重大项目“类人答题机器人”

2014年8月，讯飞作为该项目的总牵头单位，正式启动讯飞超脑计划，研发基于

类人神经网络的认知智能系统

目标：机器人也能考上大学！

语言理解

知识表示

联想推理

自主学习

最新进展：口语评测机器可替代老师

0.987

0.979

0.978

0.977 0.977 0.977

0.976 0.976 0.976

0.975 0.975

0.968

0.97

0.972

0.974

0.976

0.978

0.98

0.982

0.984

0.986

0.988

机器分评分员7 评分员2 评分员1 评分员10 评分员6 评分员5 评分员4 评分员8 评分员9 评分员3

总分相关度

1.98

2.38 2.38 2.4 2.43 2.45 2.45 2.47 2.5 2.52 2.52

0

0.5

1

1.5

2

2.5

3

机器分评分员1 评分员7 评分员2 评分员10 评分员6 评分员8 评分员5 评分员4 评分员9 评分员3

总分平均误差

口语评测技术已在广东省高考英语口语考试中大规模应用

讯飞开放平台-语音云

讯飞超脑

语音识别

语音合成

人脸识别

手势识别

语音评测

口语翻译

开放平台带动语音云快速增长

讯飞云总用户数日均交互次数第三方合作伙伴或创业团队

7亿 20亿 15万

4.4亿 4.8亿 3万2015.3

2016.6

+59% +317% +400%

讯飞人工智能计算平台

离线学习在线服务

模型

数据

集群调度系统

高密GPGPU服务器+文件系统高密CPU服务器+文件系统

集群调度系统

统一资源监控

各种训练任务

GPGPU资源池CPU资源池

并行算法优化

加速比

13.7

15

27

55

0

10

20

30

40

50

60

1 4 14 32 64

加速比

GPGPU数量

基础函数优化

TorchTensorFlowCNTKCaffe……

Tesla K20mTesla K40Tesla M40Tesla P40……

参考了大量的开源代码深入学习不同GPGPU的架构阅读了大量的论文

常规训练

以前现在

30

1.5

训练时间（天）

常规数万小时训练只需要1.5天！

在线语音云

Tesla K8

Tesla M4

Tesla M40

单节点机器500+路的并发！

NVIDIA GPU加速中国

人工智能的应用

Technology

中国の最新 GPU ディープラーニング事例のご紹介