48
NVIDIA GPU 在中国 人工智能 领域的 应用案例

中国の最新 GPU ディープラーニング事例のご紹介

Embed Size (px)

Citation preview

Page 1: 中国の最新 GPU ディープラーニング事例のご紹介

NVIDIA GPU在中国

人工智能领域的

应用案例

Page 2: 中国の最新 GPU ディープラーニング事例のご紹介

2

Page 3: 中国の最新 GPU ディープラーニング事例のご紹介

阿里云HPC介绍

• 中国首个推出公共云上的HPC产品• 中国首个推出云上Maxwell架构的Tesla GPU,单节点单精度计算能力超过16Tflops

• 阿里云HPC团队• 集团内客户GPU集群建设、客服服务和应用优化• 公共云上HPC运营、客户服务和应用优化• 异构云平台预研

• 致力于满足深度学习用户的高性能计算需求

• 初创型新兴用户:随着人工智能市场的蓬勃发展,创业企业如雨后春笋般涌现出来,他们对高性能计算的需求非常强烈

• 互联网企业也加入深度学习的浪潮,对高性能计算的需求与日俱增• 传统GPU用户 + 深度学习:渲染(虚拟现实)、游戏、图形图像处理、视频处理• 传统HPC用户 + 深度学习:气象、医疗图像处理、计算金融、碰撞模拟、流体力学、基因测序等

阿里云HPC加速人工智能的发展

Page 4: 中国の最新 GPU ディープラーニング事例のご紹介

阿里深度学习业务场景

• 商品分类• 商品风格预测• 商品质量控制• 拍照购• 反黄• 人脸识别• 图像搜索• OCR

• ICDAR Robust Reading top1

• 语音识别• 阿里小Ai

Page 5: 中国の最新 GPU ディープラーニング事例のご紹介

阿里深度学习集群

• 业务• 大规模深度学习训练• 在线、离线预测

• 建设统一化资源管理、调度、监控• 规模: 上千片K40/M40 GPU,Infiniband

网络• 资源调度系统• 弹性: docker容器服务• 多租户隔离

• 部署自动化训练、预测服务• 部署针对特定GPU架构的深度学习优化实现

Page 6: 中国の最新 GPU ディープラーニング事例のご紹介

深度学习性能优化

• 系统层面

• 多机多卡训练优化• 预测的吞吐量优化• 通信优化(MPI overlap、Direct RDMA)

• 针对GPU优化

• CUDA Kernel优化• Multi-stream优化• PTX、Native指令优化• 显存节约• 数据传输优化• 工具增强优化

Page 7: 中国の最新 GPU ディープラーニング事例のご紹介

GPU极致性能优化工具-AsKepler

• 世界唯一公开Kepler原生汇编器• 目前支持SM35,SM37• 自由使用原生指令• 自由寄存器映射• 自由控制指令调度

• 了解微架构,进而指导人工优化或编译器后端优化

Page 8: 中国の最新 GPU ディープラーニング事例のご紹介

Kepler GPU上2D卷积性能优化

• 目前Kepler GPU上世界最快• Native指令直接实现Img2col + sgemm,减少数据中转• 尽量使用shared memory,减少全局内存访问• 循环展开:增加shared memory的使用,指令并行• 寄存器数量和shared memory的权衡,提高occupancy• 充分利用dual issue• 边界处理,避免warp内分支• 性能:

• ourConv_sass vs. cuDNNv2: 2.1倍• ourConv_sass vs. cuDNNv3_FFT: 1.75倍

Page 9: 中国の最新 GPU ディープラーニング事例のご紹介

语音识别优化案例

• 语音识别应用• 客服电话语音识别• YunOS语音识别• 云栖大会语音识别

• 难点• 只有CPU代码,需要向GPU移植• 需要GPU上多路语音并行• CPU、GPU数据传输频繁• GPU计算效率低

• 优化方法• 移植到GPU:创建CUDA相关矩阵类,封装CUDA相

关矩阵操作• 并行优化:不同路语音绑定到不同的CUDA stream

上• 数据传输优化:减少CPU、GPU数据传输次数• 微架构优化:提高矩阵乘法、矩阵向量乘法效率• LSTM凑batch优化:把不同请求的语言凑在一起过

网络• 优化结果

• 双M40卡比32核CPU 5倍路数比• 云栖大会语音识别• 小Ai机器人

1

5

0

1

2

3

4

5

6

CPU GPU

语音识别路数对比

路数比

Page 10: 中国の最新 GPU ディープラーニング事例のご紹介

阿里云HPC深度学习基础设施

• CPU + GPU + ECS计算服务 + 阿里云众多产品服务• OSS,分布式存储• NAS,并行文件系统• ODPS,实现高性能计算和大数据计算结合• ECS,在线预测服务器• CDN,图像、视频在线、离线预测• SLB,高吞吐在线预测

深度学习基础设施

CPU + GPU + ECS计算服务

RDS数据库 …… ODPS

大数据

SLB负载均衡

OSS/NAS存储

CDN内容分发

Page 11: 中国の最新 GPU ディープラーニング事例のご紹介

阿里云HPC深度学习资源编排• 一键资源编排• 打通深度学习上下游,形成数据闭环链路

离线训练

离线预测

在线预测

特征提取标注

离线训练 训练的模型

分类分类

分类

训练的模型

原始数据

分类数据

分类数据

Page 12: 中国の最新 GPU ディープラーニング事例のご紹介

阿里云HPC深度学习工具开箱即用

• 通过主机自带或者Docker镜像提供• Caffe• cuDnn v4• Tensorflow• Mxnet• Torch• Theano

• 易用性高• 按量计费• 资源编排• 一键部署• 弹性伸缩

Page 13: 中国の最新 GPU ディープラーニング事例のご紹介

阿里云HPC加速深度学习

Tesla M40

DNN – all fully connected layersCNN – some convolutional layersRNN – recurrent neural network, LSTM

Page 14: 中国の最新 GPU ディープラーニング事例のご紹介

金融服务中的深度学习与人工智能--从问题识别到对话机器人

Page 15: 中国の最新 GPU ディープラーニング事例のご紹介

Case演示

我的客服首页(猜你问题)

猜你问题

左滑或点击头像进入对话

机器人问答

智能客服产品:我的客服

版权归属于蚂蚁金服

Page 16: 中国の最新 GPU ディープラーニング事例のご紹介

猜你问题:深度神经网络的读心术

用户行为轨迹 问题推荐列表

用户点击数据

人造特征

客户服务轨迹

数据闭环

深度神经网络分类模型

Page 17: 中国の最新 GPU ディープラーニング事例のご紹介

机器人问答:数据的逻辑

花呗什么还款?密码忘了怎么办?余额宝收益什么时候到?

原始对话记录用户问题

答案

人工客服对话 机器人客服对话

数据挖掘

运营专家

问题,答案

问题匹配

知识生产 知识库 知识消费

优化反馈

Page 18: 中国の最新 GPU ディープラーニング事例のご紹介

机器人问答:问题匹配

N-gram距离模型

问题相似度计算

花呗怎么还款?

密码忘了怎么办?

余额宝收益什么时候到?

用户问句:我的花呗该如何还款呢?

神经网络语义模型 词向量语义模型 语义结构模型

多种文本相似度计算的融合

Page 19: 中国の最新 GPU ディープラーニング事例のご紹介

完整的对话机器人

聊天

Q:世界最高峰是什么?A:珠穆朗玛

通用知识问答

Q:怎么才能变漂亮?A:多读书多看报,少吃零食多睡觉。

Q:花呗怎么还款?A:花呗还款有这几种方式 …

产品知识问答

Q:我想订明天的飞机票A:请问你想到哪里?

完成任务

Q:我20岁,是个学生,该买什么保险?A:请问您的月消费是多少?

金融服务

多目标系统拟人化 智慧 解决问题 个人助手 普惠服务

版权归属于蚂蚁金服

Page 20: 中国の最新 GPU ディープラーニング事例のご紹介

多技术融合

聊天 通用知识问答 产品知识问答 完成任务 金融服务

深度学习 信息检索数据挖掘 自然语言处理 知识表示 金融模型

人工智能技术

版权归属于蚂蚁金服

Page 21: 中国の最新 GPU ディープラーニング事例のご紹介

参数服务器:超大DNN训练

参数矩阵

稀疏输入

计算节点 1

参数服务器 1 参数服务器 2

计算节点 3计算节点 2

按需参数传递

DNN模型(in Caffe)

搜索、推荐、广告超大规模的离散稀疏向量输入。一亿个参数到千亿个参数

Page 22: 中国の最新 GPU ディープラーニング事例のご紹介

JD.com is China’s largest online retailer and its biggest overall retailer. It offers customers the best online shopping experience. The company is a member of the Fortune Global

500.

Page 23: 中国の最新 GPU ディープラーニング事例のご紹介
Page 24: 中国の最新 GPU ディープラーニング事例のご紹介

京东

大数据

数据

预处理

线下模型训练线上优化服务

产品应用

线下训练端: Tesla M40+

线上服务端: Tesla M4

Page 25: 中国の最新 GPU ディープラーニング事例のご紹介
Page 26: 中国の最新 GPU ディープラーニング事例のご紹介
Page 27: 中国の最新 GPU ディープラーニング事例のご紹介
Page 28: 中国の最新 GPU ディープラーニング事例のご紹介
Page 29: 中国の最新 GPU ディープラーニング事例のご紹介
Page 30: 中国の最新 GPU ディープラーニング事例のご紹介
Page 31: 中国の最新 GPU ディープラーニング事例のご紹介
Page 32: 中国の最新 GPU ディープラーニング事例のご紹介
Page 33: 中国の最新 GPU ディープラーニング事例のご紹介

面向GPGPU的人工智能计算平台

科大讯飞张致江

Page 34: 中国の最新 GPU ディープラーニング事例のご紹介

人工智能嘴巴-语音合成

2006-2013 比赛语种英语

2012年英语合成自然度首次超过普通发音人

2014-2015 比赛语种印地语

2016 英文故事合成多维度主观感受全面领先

4.7

4.2

3.6 3.5

3.1

2.52.3 2.3 2.3

1.71.5

0

1

2

3

4

5

A C I F B G D H J K E

自然语音

自然度

科大讯飞:唯一自然度大于4分的系统

30

32

34

36

38

40

愉悦感

停顿节奏

重读

声调

情感

耐听性

L讯飞系统 第二名系统

《Hansel And Gretel》That night, Gretel had nightmares about

monsters in the woods."I'm scared," she said, from under the

covers."What are we going to do?“"Don't worry," said Hansel, who was lying

wide awake."I have an idea." Quietly, he tiptoed

outside.

STOP

Page 35: 中国の最新 GPU ディープラーニング事例のご紹介

实时会议转写-讯飞听见

讯飞自创的FSMN框架,很好地解决了篇章级、口语化的语音识别难题,满足在演讲、即

兴发言、自由讨论等多种转写场景下的使用。

演讲 即兴发言 自由讨论

89.8%

85.6%

70.7%

92.8%

89.6%

80.3%

多种转写场景效果显著提升

单向LSTM FSMN

Page 36: 中国の最新 GPU ディープラーニング事例のご紹介

客服机器人-晓嫚

软银Pepper机器人• 产品特点:

情绪识别、智能语音、关节灵活; 根据场景可定制机器人显示屏APP功能

• 应用场所: 软银营业厅:迎宾、促销员 商场、超市:促销活动、导览 旅游游客中心:介绍景点信息

• 效果反馈:Softbank东京银座营业厅,在放置Pepper机器人后,客流量较放置前提高了87%

晓曼向总书记问好

2016.04.26 2016.05.22 2016.07.01

晓曼给刘总当秘书 晓曼参与录制人工智能系列纪录片

晓曼在中国智能客服峰

会首次担当主持人

大堂经理“晓曼”的”大智慧“获得新闻联播的垂青

2016.07.22 2016.07.23

-讯飞“晓曼”机器人:

• 成为业界关注度最高的首个实用服务机器人

Page 37: 中国の最新 GPU ディープラーニング事例のご紹介

类人答题机器人

• 科技部启动首个中国人工智能的重大项目“类人答题机器人”

2014年8月,讯飞作为该项目的总牵头单位,正式启动讯飞超脑计划,研发基于

类人神经网络的认知智能系统

目标:机器人也能考上大学!

语言理解

知识表示

联想推理

自主学习

Page 38: 中国の最新 GPU ディープラーニング事例のご紹介

最新进展:口语评测机器可替代老师

0.987

0.979

0.978

0.977 0.977 0.977

0.976 0.976 0.976

0.975 0.975

0.968

0.97

0.972

0.974

0.976

0.978

0.98

0.982

0.984

0.986

0.988

机器分 评分员7 评分员2 评分员1 评分员10 评分员6 评分员5 评分员4 评分员8 评分员9 评分员3

总分相关度

1.98

2.38 2.38 2.4 2.43 2.45 2.45 2.47 2.5 2.52 2.52

0

0.5

1

1.5

2

2.5

3

机器分 评分员1 评分员7 评分员2 评分员10 评分员6 评分员8 评分员5 评分员4 评分员9 评分员3

总分平均误差

口语评测技术已在广东省高考英语口语考试中大规模应用

Page 39: 中国の最新 GPU ディープラーニング事例のご紹介

讯飞开放平台-语音云

讯飞超脑

语音识别

语音合成

人脸识别

手势识别

语音评测

口语翻译

Page 40: 中国の最新 GPU ディープラーニング事例のご紹介

开放平台带动语音云快速增长

讯飞云总用户数 日均交互次数 第三方合作伙伴或创业团队

7亿 20亿 15万

4.4亿 4.8亿 3万2015.3

2016.6

+59% +317% +400%

Page 41: 中国の最新 GPU ディープラーニング事例のご紹介

讯飞人工智能计算平台

离线学习 在线服务

模型

数据

Page 42: 中国の最新 GPU ディープラーニング事例のご紹介

集群调度系统

高密GPGPU服务器+文件系统 高密CPU服务器+文件系统

集群调度系统

统一资源监控

各种训练任务

GPGPU资源池CPU资源池

Page 43: 中国の最新 GPU ディープラーニング事例のご紹介

并行算法优化

Page 44: 中国の最新 GPU ディープラーニング事例のご紹介

加速比

13.7

15

27

55

0

10

20

30

40

50

60

1 4 14 32 64

加速比

GPGPU数量

Page 45: 中国の最新 GPU ディープラーニング事例のご紹介

基础函数优化

TorchTensorFlowCNTKCaffe……

Tesla K20mTesla K40Tesla M40Tesla P40……

参考了大量的开源代码深入学习不同GPGPU的架构阅读了大量的论文

Page 46: 中国の最新 GPU ディープラーニング事例のご紹介

常规训练

以前 现在

30

1.5

训练时间(天)

常规数万小时训练只需要1.5天!

Page 47: 中国の最新 GPU ディープラーニング事例のご紹介

在线语音云

Tesla K8

Tesla M4

Tesla M40

单节点机器500+路的并发!

Page 48: 中国の最新 GPU ディープラーニング事例のご紹介

NVIDIA GPU加速中国

人工智能的应用