35
2015/7/22 1 www.transwarp.io confidential 星环科技大数据技术探索与应用实践 [email protected] 星环科技 www.transwarp.io

吕潇 星环科技大数据技术探索与应用实践

Embed Size (px)

Citation preview

Page 1: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 1 www.transwarp.io confidential

星环科技大数据技术探索与应用实践

吕 潇 [email protected]

星环科技

www.transwarp.io

Page 2: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 2 www.transwarp.io confidential

• 中国最久的Hadoop核心开发团队

• 成功完成近亿元级别的A轮融资

• 国内技术最领先的大数据基础软件

• 超越硅谷的企业级架构及功能模块

• 国内最多的落地应用案例

• 2014年进入中央政府采购网

2

参考CSDN的技术报道:【云先锋】星环TDH:性能大幅领先于开源Hadoop2的技术架构赏析

http://www.csdn.net/article/2014-09-03/2821532-Hadoop-TranswarpDataHub-Spark

Page 3: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 3 www.transwarp.io confidential

孙元浩

创始人兼CTO

星环科技的技术开发团队来自Intel, Google, Microsoft, IBM, NVidia、

Oracle、EMC、百度等知名科技公司,以及南京大学、复旦大学、

上海交通大学、中国科学技术大学、美国普渡大学等多个知名学府,

也包括放弃海外知名企业 优厚待遇回国创业的成员。星环科技的核

心团队参与部署了国内最早的企业级Hadoop集群。

佘晖

总经理

核心团队

方之熙

CRO

曾任英特尔中国OEM/渠道业务总经理,负责英特尔®IA架构产品(包括英特尔®处理器、服务器,网络产品等)在中国大陆地区的销售和市场推广。

Hadoop技术专家,曾是英特尔软件部亚太区CTO,

是英特尔Hadoop发行版的创始人。孙元浩及其团队在

中国成功建立数十个Hadoop成功案例。

曾任英特尔副总裁,英特尔中国研究院院长,领导嵌

入式系统的深入研究并带领英特尔中国研究院开发突

破性技术。是编译器和CPU体系架构领域科学家。

股东大会

董事会

总经理

监事会

营销

基础研发

综合

市场

应用咨询

技术服务

北京 广州 南京 人力 财务 行政 北京 上海

Page 4: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 4 www.transwarp.io confidential

• 公司新近完成A轮和A+轮融资

– 2014年6月,A轮融资由方广资本领投,联合恒生电子、信雅达等上市公司共同完成,获得

业界广泛关注,除几乎全部的IT主流媒体外,腾讯、网易、和讯、金融界、中金在线、中国

证券网等主流财经媒体及门户均进行相关报道

– 时隔半年,2015年1月,A+ 轮融资由著名风投启明创投(QimingVenturePartners)领投,

上轮投资者包括知名VC方广资本(F&GVenture)、恒生电子及信雅达等上市公司这轮全部

继续跟投,反映了投资人对于星环的一致看好

• 与浪潮信息签署战略合作协议,携手打造中国自主的大数据核心技术平台。该携手填补国内空白,完整实现大数据基础技术由内到外的高水平全国产化

近期公司大事记

Page 5: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 5 www.transwarp.io confidential

• 2014年10月,公司在纽约召开的Strata+Hadoop World大会上发

布了Transwarp Data Hub 3.4新版本Hadoop发行版软件

– 这次Strata是近年来规模最大的大数据盛会,有5500多人参加这次

大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛

会标志着hadoop已经真正成为大数据处理技术的主流地位。这也

是星环首次在美国-大数据的大本营-发布大数据最新产品

– 在这次大会上公司发布了最新的性能数据,相对于Cloudera

Impala,性能更好,SQL支持更完整

• 2014年12月,公司在北京召开的年度大数据大会BDTC上,发布了TDH4.0最新版本,全面升级了各组件的功能,同时全方位提升了平台性能

• 2015年4月16日,公司在中国数据库大会上发布TDH4.1版本,更好地支持数据仓库应用。同时宣布在6月底发布TOS1.0版本,进入Hadoop on Docker时代。

近期公司大事记

CCTV采访 DTCC专访 Databricks CEO Ion Stoica

HBase PMC Chairman Michael Stack

2014/12 2015/04

Cloudera Founder Mike Olson

Strata Conference New York 2014/10

Tony Baer, Big Data Analyst at NY

Cloudera Founder Mike Olson

Tony Baer, BigData Analyst @NewYork

Page 6: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 6 www.transwarp.io confidential

星环科技典型案例 (落地案例最多)

金融证劵 银行+证券

电信运营商 移动、联通、电信

交通公安 山东、辽宁、浙江等

能源 国网+南网

互联网 电商+CDN

政府 工商+税务

物流快递 EMS

广播电视 华数+卫视

Page 7: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 7 www.transwarp.io confidential

我们的部分客户

Page 8: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 8 www.transwarp.io confidential

Spark成为最受欢迎的计算引擎

source: http://databricks.com/certified-on-spark-distribution

全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本

Page 9: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 9 www.transwarp.io confidential

Transwarp Data Hub (TDH) 架构图

9

Transwarp Proprietary

流处理

引擎

Stream

NoSQL数据库 搜索、图计算

Hyperbase

Transwarp Manager

交互式分析引擎 数据挖掘

Inceptor including Apache Spark

资源管理 YARN 2.5 (内置Transwarp Extension)

优化存储 HDFS 2.5 (内置Transwarp Erasure Code)

批处理 Pig 0.13

批处理框架 Map/Reduce2

协作服务 Zookeeper 3.4.5

机器学习 Mahout 0.9

工作流 Oozie 4.0.1

日志采集 Flume 1.4

全文搜索 Elastic

Search 1.3.1

数据集成

Sqoop 1.4.5

一站式数据存储平台

TDH通过内存计算技术、高效索引、执行计划优化和高度

容错的技术,使得一个平台能够处理从GB到PB的数据,

并且在每个数量级上,都能比现有技术提供更快的性能;

企业客户不再需要混合架构,不需要孤立的多个集群,

TDH可以伴随企业客户的数据增长,动态不停机扩容,避

免MPP或传统架构数据迁移的棘手问题。

一站式资源管理平台

TDH在统一存储上建立资源管理层,提供企业用户统一的

计算资源管理、动态资源分配、多部门之间资源配置和动

态共享,灵活支持多部门多应用在统一平台上平滑运行。

一站式数据分析平台

TDH支持批处理统计分析、交互式SQL分析、在线数据检

索、R语言数据挖掘、机器学习、实时流处理、全文搜索

和图计算,为企业客户提供广泛的计算支持能力,客户无

需切换平台或架构即可完成复杂的任务。

一站式管理平台:

TDH作为企业级解决方案,开发了用户友好的管理界面、

提供了系统安装、集群配置,安全访问控制、监控及预警

等多方面支持,在可管理性方面优势显著。

>

>

>

>

Apache Projects

Page 10: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 10 www.transwarp.io confidential

交互式分析引擎Inceptor架构图

Apache Spark 基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处

理大数据像“光速”一样快,比Hadoop Map/Reduce快10x倍。

Holodesk 跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供

Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的

交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全

内存存储的分析性能。

SQL引擎 高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速

处理缓存在Holodesk上的列式数据。兼容ANSI SQL 2003, HiveQL和

PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型

语法,方便应用迁移。

统计库 并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省/异常值、

归一化、统计分布等,是机器学习或数据挖掘的基础工具包。

机器学习库 并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器

学习算法。可用于构建高精度的推荐引擎或者预测引擎。

R 语言/R Studio 强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。

通过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统

计。

丰富的工具支持 支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO,

Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。

Transwarp HDFS2 分布式持久化数据存储

cache

Transwarp Hyperbase 分布式实时数据库

cache

Transwarp Holodesk 分布式内存列式存储

R – statistical computing

Distributed Execution Engine 分布式执行引擎 including Apache Spark

编译器 SQL 2003 + PL/SQL COMPILER

优化器 COST BASED OPTIMIZER

代码生成 CODE GENERATOR

Interactive SQL Engine Transwarp

Statistics Library

并行统计算法库

Transwarp Machine Learning

Library 机器学习算法库

JDBC 4.0 SHELL ODBC 3.5

Page 11: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 11 www.transwarp.io confidential

实时NoSQL数据库Hyperbase

Transwarp HBase – Hadoop Database

分布式 Big Table

Transwarp Hyperdrive – SQL backend engine between Inceptor & Hyperbase

Real-time OLTP + OLAP + BATCH + Search + Graph Traversal Application

Mixed Workload 混合负载业务

Graph language

Scalable Graph

Database

图形

数据库

Transaction SQL & API

Transaction Execution

Engine

分布式事务

处理引擎

Index SQL & API

Global/Local Index

全局/局部

索引

日志

文本

关系

数据库

二进制文件

图像

OLTP 支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。 结合Inceptor SQL引擎,可以支持通过SQL进行高并发的CRUD。 支持分布式事务处理。 支持常见数据类型,可更高效的存取数据。

OLAP 支持多种索引(global/local/high-dimensional index)。 结合Inceptor,可进行行列存储转换,进行秒级高效分析。 支持复杂查询条件,自动利用索引加速数据检索,无需指定索引。

批处理 可以对数据进行全量高速统计,会比M/R运行在HBase上快5-10倍。 可通过Inceptor SQL进行全量统计。 支持通过SQL进行BulkLoad批量装载数据

内嵌搜索引擎 实时同步创建索引 实现秒级关键字搜索

图数据库 支持高并发图遍历和检索

多类型支持 结构化记录 半结构化文档(JSON/BSON) 非结构化数据(图片、音频、二进制文档等) 支持混合结构数据的存储、搜索、统计、分析 支持SQL访问关系表和层次化文档

sqoop

flum

e

Elastic Search 分布式全文索引

Document SQL & API

Document

Store

json/bson

文档存储

Object SQL & API

Object Store

image/files, etc

对象存储

Search SQL & API

Distributed Full-text Search

全文搜索

Transwarp Inceptor

Page 12: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 12 www.transwarp.io confidential

Stream流处理产品

Transwarp Hyperbase 分布式NoSQL数据库

高速查询或搜索

/20130101/…

/20130102/…

在线自动分类 时间窗口统计 实时告警

分布式消息队列

安全的K

afk

a

Distributed Execution Engine 分布式执行引擎

Streaming Data Driver

流数据 接收驱动器

Streaming Machine Learning

流式机器学习 算法库(支持R语言)

Streaming Engine 流式计算引擎

Streaming SQL (via Inceptor)

流式SQL 执行引擎

Transwarp Stream Web Console 流式任务Web控制器

Outlier异常检测 实时事件

流式任务管理服务

Stre

am

ing

Job

Serve

r

Transwarp Holodesk 分布式内存/SSD缓存

高速SQL/R探索分析

Page 13: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 13 www.transwarp.io confidential

Transwarp Inceptor是第一个 也是目前唯一一个支持PL/SQL的SQL on Hadoop引擎

名称 计算引擎 ANSI SQL支持程度 存储过程 第一个版本发布时间

Cloudera Impala 类Dremel,类MPP引擎 SQL92子集 + SQL2003扩展(<40%) 不支持 2011/10

Hortonworks

Tez/Stinger

Map/Reduce改进 SQL92子集 + SQL2003扩展(<50%) 不支持 2012/5

Transwarp Inceptor Spark SQL2003 (>90%) Oracle Compatible

PL/SQL

2013/11

Databricks SparkSQL Spark HiveQL (SQL92子集, <40%) 不支持 2014/6

MapR Drill 改进自OpenDremel SQL92子集 (<40%) 不支持 2012/6立项,2014/11发布

IBM BigSQL v3 DB2/DPF like MPP Engine over HDFS SQL 2003 不支持 2014/6

Pivotal HAWQ Greenplum like MPP Engine over

HDFS

SQL 2003(<90%) 不支持 2013/2

Splice Machine Apache Derby + HBase SQL 1999 不支持 2015 GA

Actian Vortex MPP Engine over HDFS SQL 2003 不支持 2014

Page 14: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 14 www.transwarp.io confidential

PL/SQL支持程度

基本语句 • 赋值语句

• SQL语句

• 匿名块执行

• 存储过程调用

• UDF/UDAF调用

数据类型 • 标量类型

• 集合类型及其方法(COUNT()/LIMIT()/etc.)

• RECORD类型

• 隐/显式类型转换

流程控制语句 • IF/ELSE IF/ELSE语句

• GOTO语句

• LOOP循环

• FOR循环

• FORALL循环

• WHILE循环

• CONTINUE(WHEN)语句

• EXIT(WHEN)语句

游标支持 • 显式CURSOR及其基本操作:OPEN/FETCH(BULK

COLLECT)/NOTFOUND/etc.

• 隐式游标(FOR 循环)

• SELECT (BULK COLLECT) INTO语句

• PACKAGE

• 包内全局变量

• 包内类型

• 包内函数

• 参数和变量属性 • NOT NULL

• IN/OUT

• DEFAULT VALUE

• 变量声明时赋值

• 异常 • 声明时赋值PARGMA EXCEPTION_INIT

• 内置函数RAISE_APPLICATION_ERROR/SOLCODE/SQLERRM/FORALL ... SAVE EXCEPTIONS

• 其他系统预定义异常的抛出点

异常 • 支持用户自定义异常和系统预定义异常

• 支持RAISE语句

• 支持WHEN (OR) THEN (OTHERS)异常处理

• 支持存储过程内部和存储过程之间的异常传播

• 部分系统预定义异常抛出点

• 部分编译时刻错误检测

部分系统函数 • PUT_LINE()

待支持的功能

Page 15: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 15 www.transwarp.io confidential

我们的核心优势:SQL功能和性能远超国外友商

四种不同的SQL引擎在独立发展

名称 计算引擎 SQL支持程度 第一个版本发布时间

Cloudera Impala 类Dremel,类MPP引擎 SQL92子集+SQL2003扩展(窗口函数) 2011/10

Hortonworks Tez/Stinger Map/Reduce改进 SQL92+SQL2003扩展(窗口函数) 2012/5

Transwarp Inceptor Spark SQL2003+PL/SQL(存储过程、游标) 2013/11

Databricks SparkSQL Spark HiveQL (SQL92子集) 2014/6

MapR Drill 改进自OpenDremel SQL92子集 2012/6立项,2014/11发布

图中纵坐标小于1表示Impala性能超过Inceptor,而大于1则表示Inceptor性能更好。对于Impala不能支持的SQL,我们就标记这个性能比为100。 从图中可见,在Impala支持的19个SQL中,只有8个SQL的表现超过Inceptor,另外11个SQL 在Inceptor的表现比Impala更好。

Page 16: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 16 www.transwarp.io confidential

– Slice

– Dice

– Rollup

– Drill Up

– Drill Down

– Pivot

交互式OLAP分析:Distributed Cube

Holodesk – A Columnar Store on SSD cache layer

Executor

Inceptor Server

Executor Executor Executor

Columnar Store API

Cu

be (D

1, D

2, D

3)

INDEX

Co

lum

n D

1

INDEX

Co

lum

n D

2

INDEX

Co

lum

n D

3

INDEX

Co

lum

n M

1

Cu

be (D

1, D

2), (D

2, D

3), (D

1, D

3)

Columnar Store API

Cu

be (D

1, D

2, D

3)

INDEX

Co

lum

n D

1

INDEX

Co

lum

n D

2

INDEX

Co

lum

n D

3

INDEX

Co

lum

n M

1

Cu

be (D

1, D

2), (D

2, D

3), (D

1, D

3)

Columnar Store API

Cu

be (D

1, D

2, D

3)

INDEX

Co

lum

n D

1

INDEX

Co

lum

n D

2

INDEX

Co

lum

n D

3

INDEX

Co

lum

n M

1

Cu

be (D

1, D

2), (D

2, D

3), (D

1, D

3)

Columnar Store API

Cu

be (D

1, D

2, D

3)

INDEX

Co

lum

n D

1

INDEX

Co

lum

n D

2

INDEX

Co

lum

n D

3

INDEX

Co

lum

n M

1

Cu

be (D

1, D

2), (D

2, D

3), (D

1, D

3)

如何定义一个Cube?

Cube Size 256KB固定大小

ZK Cluster

• Cube on Transwarp Holodesk

• Cube是OLAP分析的常用技术

create table store_sales tblproperties( ‘cache’=‘ram’, ‘holodesk.dimensions’=‘product, cities, time’ ) as select * from store_sales;

计算下沉到存储层 Compute and filters pushed down to storage layer

Page 17: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 17 www.transwarp.io confidential

0.9

9.8 12.4 12.1 14.0

1.3 8.8

12.7 20.2

43.3

58.9

86.6

136.1

1.4

55.2 56.5

0

20

40

60

80

100

120

140

160

1 2 3 4 5 6 7 8

执行时间(秒)

w/ cube w/o cube

Holodesk Cube带来的性能加速

Operation SQL query

q1 count select count(*) from store_sales

q2 measure select sum(ss_sales_price) from store_sales

q3 aggregation select sum(ss_sales_price) from store_sales group by ss_customer_sk

q4 drill down select sum(ss_sales_price) from store_sales group by ss_sold_date_sk

q5 drill down select sum(ss_sales_price) from store_sales group by ss_customer_sk, ss_sold_date_sk

q6 slice select sum(ss_sales_price) from store_sales_r where ss_customer_sk=5000 group by ss_customer_sk,ss_sold_date_sk

q7 dice select sum(ss_sales_price) from store_sales where ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk

q8 pivot

select sum(ss_sales_price) from store_sales where ss_customer_sk > 5000 and ss_sold_date_sk between 2450629 and 2451816 group by ss_customer_sk,ss_sold_date_sk

40亿条记录 共500GB驻留内存 4台两路普通服务器 每台服务器 内存:256GB CPU:E5-2620v2 网络:万兆网络

Page 18: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 18 www.transwarp.io confidential

为SSD设计专有格式 - Holodesk

1 W A

2 X B

3 Y C

4 Z D

5 O E

6 P F

7 Q G

8 R H

Holodesk – A Columnar Store on SSD cache layer

Spark

1 W A

GL

OB

AL

IND

EX

2 X B

Dic

tion

ary

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

3 Y C

4 Z D

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

Dic

tion

ary

5 O E

6 P F

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

Dic

tion

ary

7 Q G

8 R H

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

BITMAP

INDEX

FILTER

Dic

tion

ary

HDFS Storage Layer

HDFS Text or ORC or Parquet Files Memory Tier

SSD Tier

• HDFS Storage Tier – 让应用程序来选择存储层

– Memory as storage tier

– SSD Storage Tier

• 但是,现有的Text以及行列混合(ORC or Parquet)等文件格式都不足以利用SSD的高性能。

Executor

Spark Context

Executor Executor Executor

Columnar Store API Columnar Store API Columnar Store API Columnar Store API

File System API

CREATE TABLE t1

TBLPROPERTIES(

"cache"=“SSD”,

“filters”=“hashbucket(360):c1”

) AS

SELECT *

FROM src

DISTRIBUTE BY c1;

• Off-Heap • Columnar store • Secondary index • Table format/access • SSD as cache

ZK Cluster

Page 19: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 19 www.transwarp.io confidential

不同格式在SSD上的性能对比

测试项 格式 硬件介质 存储引擎 性能提升

text(disk) SequenceFile Hard Disk HDFS 基准

text(ssd) SequenceFile PCI-e SSD HDFS 1.5倍

orc(ssd) ORC File PCI-e SSD HDFS 4倍

holodesk(ssd) Columnar Store PCI-e SSD Holodesk 8倍

结论 • 采用文本格式,PCI-e SSD较磁盘仅带来的性能提升仅1.5倍

• 采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍

• 采用转为内存和SSD设计的Holodesk列式存储

• 比SSD上的ORC文件格式提升2倍;

• 比SSD上的文本格式提升6倍 ;

• 比硬盘上的文本格式提升8倍以上。

0

5

10

15

20

25

30

35

40

45

50

q5 q12 q17 q19 q22 q25 q42 q49 q51 q52 q55 q56 q58 q60 q66 q96 q98 q100 q101 q102 q103 q104

text(disk)

text(ssd)

orc(ssd)

holodesk(ssd)

提升倍数 TPC-DS中I/O密集的测试集

Page 20: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 20 www.transwarp.io confidential

Cost Based Optimizer

20

Table A 100M

Records

kurt

mary

john

smith

622523454095243

622550042034568

622544334568763

622534878982324

v_name Card_id

1

2

……

9999999

10000000

No.

Table B 100M records

JOIN ON A.card_id=B.card_id

Cost based optimizer

Table size

Immediate result size

Data skew Value

distribution

selectivity

Map Join

Lookup Join

Hash Join

Query Plan

Common Join

Co-Group Join

Page 21: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 21 www.transwarp.io confidential

与数据可视化工具良好对接

在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如 Tableau,SAP

Business Objects, Oracle Business Intelligence等,使得基于大数据分析的商业决策更

易被理解和接受,从而将大数据的潜在价值最大化。

业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。

Page 22: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 22 www.transwarp.io confidential

对R语言的完整支持

R package

from Transwarp

R – SQL

Interface

from Transwarp

Tables

Distributed Columnar

Store on SSD

Statistics Library Machine Learning

Library

Files

Hadoop Distributed File

System

R – Spark

Interface

from Transwarp

Spark RDD

Resilient Distributed

Dataset in Memory

Call parallelized algorithms

Call SQL

call sequential algorithm for distributed dataset

算法名称 TDH MLlib

Min/Max YES YES

Mean/Variance YES YES

Normalization YES YES

Standard scaling YES YES

Correlation YES YES

Histogram YES NO

Bining YES NO

Percentile YES NO

Median YES NO

Boxplot YES NO

Screen YES NO

Cardnality YES NO

Logistic Regression YES YES

Naive Bayes YES YES

SVM YES YES

KMeans YES YES

Collaborative Filtering YES YES

Linear Regression YES YES

Ridge Regression YES YES

Lasso Regression YES YES

GLM YES NO

DecisionTree YES YES

Apriori YES NO

Asocciation rules YES NO

Gradient Boosted Trees YES NO

Random Forest YES NO

Deep Learning YES NO

R Studio

Page 23: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 23 www.transwarp.io confidential TRANSWARP © 2014

应用与实践 星环信息科技(上海)有限公司

Page 24: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 24 www.transwarp.io confidential

智慧城市中的大数据

智能楼宇

智能电网

污染监控

移动医疗影像设备

急救车上 传感器

手机附加 传感器

智慧城市

智能医院

智能工厂

智能交通

车载传感器

智能电表

工业自动化

感应传感器

电子警察

气象监控

三大特点:7x24小时不断产生的数据;数据量大、并发度高、处理延时要求高;模式分析和挖掘成为必需

Page 25: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 25 www.transwarp.io confidential

物联网传感器数据分析

Kafka

SQL aggregation

Outlier detection

batch @ t+1 batch @ t

报警

data mining on streams

100k records/s/node

1KB/record

transwarp stream

0 2 4 6 8

1 3 5 7 9

… …

table_per_day

Ad-hoc Analysis using ANSI SQL

Data mining using R

transwarp inceptor

Columnar Store on SSD

Predicting using CFD Algorithms

… …

Page 26: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 26 www.transwarp.io confidential

统计类应用:利用基站数据进行人流分析

通过基站数据定位用户的活动区域 通过基站上网数据分析用户的关注点、出行目的、出行时间

通过人群密集度算法,算出时间、经纬度、人群密度 等关键指标,分析出人群迁移和密度变化趋势

Page 27: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 27 www.transwarp.io confidential

统计类应用:商圈人群密度分析

ID 名称 ID 名称 ID 名称

1 五角场 6 徐家汇 11 大柏树

2 浦东建材市场 7 静安寺-南京路-人民广场 12 娄山关路

3 金沙江路中环路口 8 虹莘路 13 新世界

4 漕河泾 9 金沙江路祁连山路 14 长寿路

5 中山公园 10 陆家嘴

• 实时刷卡信息(来自银联) • 定义商圈 • 商圈聚类模型分析与选择 • 模型拟合 • 动态商圈区域即时呈现,收缩变化一目了然 • 二级商圈的挖掘 • 人群密度趋势研判

Page 28: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 28 www.transwarp.io confidential

基于流的垃圾短信分类

特征提取

朴素贝叶斯模型预测

SVM模型预测

在线并发数据挖掘

基于Transwarp Data Hub的实时垃圾短信分析报警系统

N

Y 报警 Kafka

训练离线模型

分词

报警

过滤器

短消息

短消息

短消息

短消息

Page 29: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 29 www.transwarp.io confidential

金融实时交易风险评估系统

• Logistic regression • Decision tree • Random forest • Cost sensitive LR • SVM

交易数据 交易数据 交易数据

聚类/分类检测

直接交易

正常

可疑

正常交易

可疑交易 交易时间、 地点、金额、商家等信息

神经网络模型

每笔交易

Page 30: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 30 www.transwarp.io confidential

持卡人行为分析应用

训练数据采样某银行

2012年的04~09半年

的交易流水

总共约2亿条记录,

506万个独立持卡人,

数据大小约80GB

并行360度用户画像

在2分钟内完成对506

万独立持卡人的画像

消费频繁度

消费水平

美食爱好

旅游爱好

体育爱好

电子爱好

IT爱好 年轻活力

男性

女性

商人

开车一族

电话达人

差旅人士

Page 31: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 31 www.transwarp.io confidential

内部服务接口

平台数据

O

域 B

OS

S

系统

Gn信令

业务订购 使用行为

数据

Mc信令

通信详单

营帐资料 渠道数据 政企数据

网络 覆盖数据

GIS 地图服务

LTE信令

Inceptor SQL 编译解析器

流量运营平台 SPARK集群

自助分析平台 SPARK集群

经营分析系统 M/R集群

渠道运营平台 M/R集群

… 客户标签库

在线数据 查询服务

Hyperbase

基于位置的 实时事件营销 Stream集群

八大数据源 新增4TB/天

Flum

e

FTP

O

ver H

DFS

分布式消息队列

Rab

bitM

Q

Or S

ock

et

CLI 命令行接口

外部服务接口

PL/SQL JDBC/ODBC

REST 编程接口

文件接口 JAVA

编程接口

权限访问控制

SSD

数据流程

运营商的大数据运营中心

Data source

• 8 data sources including

network signaling, billing

records, CRM, and

subscription behaviors,

etc.

• 4TB added every day.

Applications

13 analytic applications

including:

• Targeted data plan

• Network optimization

• Location-based ads

• Customer analysis

Deployed Cluster

• 20 server nodes

• 5x faster than 4 mini-

computer + DB2 cluster

统一资源调度和管理YARN

统一的大数据存储平台HDFS

流量经营平台

Page 32: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 32 www.transwarp.io confidential

Typical Case: Streaming in Intelligent Transportation System

Inceptor Hyperbase

Real time database

• Real time picture serving for road segments

• Legacy applications

• Real time road condition • Average speed estimation • Regulation Check … …

• Traffic info online serving • Traffic pattern mining

Streaming Cluster

Inceptor

Kafka

Distributed

Message

Queue

Result tables stored in hyperbase

Deployed for ITS of Shandong Province in China

End to end latency is < 2 seconds,

streaming cluster with >30 nodes

Message

cluster with >10

nodes

>30 nodes

30 million events/day,

10000 events/second in rush

hours

Page 33: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 33 www.transwarp.io confidential

Transwarp Data Hub 核心优势

无限水平扩展 系统可线性扩充存储容量或提高处理性能,只需要简单的向集群中

增加机器,无需停机。有效解决企业由于数据增长导致的处理性能

缓慢或频繁迁移数据的问题。

统一数据处理平台 改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架,

动态创建SQL统计、数据挖掘、机器学习、流处理等计算集群,满

足企业多部门资源统一管理的需求。

高速SQL分析 Inceptor交互式内存分析引擎,同时支持SQL’99和R语言,满足数

据交互式分析和挖掘需求,加快企业决策速度。内置改进后的

Apache Spark,SQL执行性能比Apache Hadoop 快10倍左右。

灵活数据处理 Hyperbase实时数据库支持结构化、半结构化、非结构化等多种类

型数据的OLTP在线存储、OLAP检索、全文搜索、图分析和批处理

统计业务等全方位需求。

实时流计算 Stream分布式实时流处理引擎提供强大的流计算表达能力,可支持

复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和

挖掘等应用需求。

超高性价比 采用普通商用服务器构建集群,最大程度降低成本;内置Erasure

Code先进编码技术,提供两倍存储效率和两倍容错能力;高效支持

内存/闪存/硬盘混合存储,可提供最佳性价比存储配置。

Transwarp Proprietary

流处理

引擎

Stream

NoSQL数据库 搜索、图计算

Hyperbase

Transwarp Manager

交互式内存分析 数据挖掘

Inceptor including Apache Spark

资源管理 YARN (内置Transwarp Extension)

优化存储 HDFS2 (内置Transwarp Erasure Code)

批处理 Pig

批处理框架 Map/Reduce2

协作服务 Zookeeper

机器学习 Mahout

工作流 Oozie

日志采集 Flume

全文搜索 Elastic Search

数据集成

Sqoop

Apache Projects

Page 34: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 34 www.transwarp.io confidential

Welcome to Join Us!

Page 35: 吕潇 星环科技大数据技术探索与应用实践

2015/7/22 35 www.transwarp.io confidential TRANSWARP © 2014