Upload
others
View
20
Download
0
Embed Size (px)
Citation preview
1 1
数据集成为Hadoop保驾护航
久经验证的降低数据管理成本
的创新之路
2 Informatica Corporation Confidential – Do Not Distribute
2
“到2015年,那些将高价值、多样和最新的信息类型及来源集成到统一连贯的
信息管理基础设施的组织,其财务表现将较业内同行优越20%以上。”, Neil Chandler, Gartner
“当前部署的85%数据仓库项目,都不能适当扩展规模以满足
新的信息数量和复杂性要求”,“ Mark Beyer, Gartner
3 Informatica Corporation Confidential – Do Not Distribute
3
大 v
实施久经验证
的创新之路
随着数据呈指数级增长,降低大数据成本
4 Informatica Corporation Confidential – Do Not Distribute
4
您如何权衡创新&成本?
5 Informatica Corporation Confidential – Do Not Distribute
5
您打算如何利用大数据来开发创新产品和服务?
欺诈侦查,
风险 & 投资组合分析
投资推荐
互联车辆 预测维护维修
基于位置的服务
实时数据审计
医疗保险交易
合规性
国家安全
治疗效果预测
患者监护
个性化医疗
合规性
主动客户沟通交流 药物识别
基因测序
合规性
忠诚度计划
游戏遥测
6 Informatica Corporation Confidential – Do Not Distribute
6
源数据 分析系统
社交媒体和网络日志
科学机器设备
文档和电子邮件
批量 ETL
交易,
OLTP, OLAP 企业数据仓库
原始数据或不经常使用的数据耗费能力
批量窗口已到极限,
SLA处于危险之中
数据库和数据仓库迅速
力不从心
数据量持续增长,您如何降低 & 控制成本?
数据集市
ODS
7 Informatica Corporation Confidential – Do Not Distribute
7
企业数据仓库 交易,
OLTP, OLAP
网格计算
传统
• 将原始数据临时存储在低成本的商用硬件上
• 将 ETL/ELT 处理转移到低成本的商用硬件上
降低数据管理成本
8 Informatica Corporation Confidential – Do Not Distribute
8
企业数据仓库
交易,
OLTP, OLAP
实时数据集成
传统
• 借助实时数据集成,平滑实现ETL处理
• 借助高速数据复制,从源系统中卸载处理
降低数据管理成本
高速数据复制
大型机 ODS
9 Informatica Corporation Confidential – Do Not Distribute
9
• 借助通用的IDE,将生产效率提升两倍。开发人员通过一次开发,即可实现随地部署。
降低数据管理成本
企业数据仓库
图形开发工具 ODS
Co
mm
on
ID
E
(Bu
ild
on
ce,
dep
loy a
nyw
here
+ R
ap
id p
roto
typ
ing
)
Traditional Grid
在低成本商用硬件上执行
在本地或云中部署
下推至RDBMS
主数据管理
10 Informatica Corporation Confidential – Do Not Distribute
10
Data
Mart
Data
Mart Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
Data
Mart
企业数据仓库
BI 报告 / 报表
数据虚拟化
ODS 主数据管理
• 消除数据副本,通过数据虚拟化提升数据仓库能力
降低数据管理成本
11 Informatica Corporation Confidential – Do Not Distribute
11
活跃数据
性能
时间
数据库规模
企业数据仓库
低成本
存储
归档
交易,
OLTP, OLAP
低成本
存储
归档
• 识别休眠数据
• 将不活跃数据归档至低成本存储
降低数据管理成本
不活跃数据
12 Informatica Corporation Confidential – Do Not Distribute
12
您如何实现大数据的最大回报?
大交易数据 大交互数据
在线交易处理(OLTP)
Oracle
DB2
Ingres
Informix
Sysbase
SQL Server
…
云
Salesforce.com
Concur
Google App Engine
Amazon
…
其他交互数据
图像/文本
科学
基因/制药
医疗
医疗/设备
传感器/仪表
RFID 标记
CDR/移动设备
…
社交媒体&网页数据
Youtube
…
大数据处理
在线分析处理(OLAP) &
数据仓库设备
Teradata
Redbrick
EssBase
Sybase IQ
Netezza
Exadata
HANA
Greenplum
DataAllegro
Asterdata
Vertica
Paraccel …
大数据集成
网页应用
博客
论坛
社区
合作伙伴门户
…
容量
种类
速度
13 Informatica Corporation Confidential – Do Not Distribute
13
… 以及将大数据项目风险降至最低 Informatica, 数据集成领域的绝对领导者
欺诈侦查
风险&投资组合分析
投资推荐
基于位置的服务
医疗费用
医疗保险交易
合规性
国家安全
互联车辆
预测维护维修
治疗效果预测
主动客户沟通交流
药物识别 基因测序
忠诚度计划
14 Informatica Corporation Confidential – Do Not Distribute
14
实施久经验证的创新之路 通过快速原型法和合作获得更快的洞察力
数据科学团队
协同合作发现洞察力
欺诈侦查 下一个最佳购物建议 流失的可能性
解析
分阶段
集成
通用化
屏蔽
标准化
清洗
NLP,
提取
匹配
15 Informatica Corporation Confidential – Do Not Distribute
15
PowerCenter 大数据版 降低大数据项目成本
交易
OLTP, OLAP
社交媒体和网络日志
科学机器设备
文档和电子邮件
企业数据仓库
ODS
主数据管理
传统网格
将处理卸载至低成本的
商用硬件
快速上载新的数据类型
16 Informatica Corporation Confidential – Do Not Distribute
16
设计一次
随地部署
分析师 &
数据科学家
开发人员
传统网格
PowerCenter 大数据版 提高生产率,降低风险
生产率提高近3倍
17 Informatica Corporation Confidential – Do Not Distribute
17
PowerCenter 大数据版 大数据之旅安全畅通
大交易数据 大交互数据
在线交易处理(OLTP)
Oracle
DB2
Ingres
Informix
Sysbase
SQL Server
…
云
Salesforce.com
Concur
Google App Engine
Amazon
…
社交媒体和网页数据
Youtube
…
大数据处理
在线分析处理(OLAP) &
数据仓库程序
Teradata
Redbrick
EssBase
Sybase IQ
Netezza
Exadata
HANA
Greenplum
DataAllegro
Asterdata
Vertica
Paraccel …
网页应用程序
博客
论坛
社区
合作伙伴门户
通用数据访问
高速数据存入和提取
ETL on Hadoop
Hadoop平台数据剖析
Hadoop平台
复杂数据分析
虚拟数据机
(设计一次,随地部署)
无代码生产力
Business-IT 合作
统一管理
其他交互数据
图像/文本
科学
基因/制药
医疗
医疗/设备
传感器/仪表
RFID 标记
CDR/移动设备
… Hadoop平台实体提取和数据分类
18 Informatica Corporation Confidential – Do Not Distribute
18
HADOOP核心:MAPREDUCE 分布式计算框架
1
2
3
4
5
2
4
5
MR
1
2
5
1
3
4
2
3
5
1
3
4
在多个节点并行处理大量工作,并整合结果。
来源:Cloudera
19 Informatica Corporation Confidential – Do Not Distribute
19
交易,
OLTP, OLAP
社交媒体
网络日志
文档和电子邮件
科学机器设备
最大化大数据投资回报 Hadoop 补充现有基础设施
数据仓库 主数据管理
运营系统 分析系统 数据资产 数据产品
数据集市
ODS
OLTP
OLTP
访问 &
存入
解析 &
准备
识别 &
剖析
转化&
清洗
提取 &
交付
管理 (例如安全、性能、治理 和协作)
& 其他 NoSQL
20 Informatica Corporation Confidential – Do Not Distribute
20
3. 在 Hadoop 中解析和准备数据
(MapReduce)
1. 将数据存入 Hadoop
4. 在 Hadoop 中转换和清洗/标准化数据 (MapReduce)
监控
和管
理(
Hadoop 或
非 H
adoop 作
业/流
程)
编排
工作
流(
Hadoop 或
非 H
adoop 作
业/流
程)
6. 从 Hadoop 提取数据
2. 发现 Hadoop 数据的异常、关系和域类型
5. 在 Hadoop 上调用自定义业务分析
配置文件
数据
销售和市场营销
数据集市
客户服务门户
账户交易
2012年12月
立即可用 通过Informatica 释放Hadoop的强大功能
Informatica 公司机密 – 未经许可,不得发布。
提供产品和服务 客户配置文件 社交媒体 客户服务日志和调查 营销活动
21 Informatica Corporation Confidential – Do Not Distribute
21
数据仓库
主数据管理
应用程序
交易,
OLTP, OLAP
社交媒体
网络日志
文档和电子邮件
行业标准
科学机器设备
数据存入和抽取 每小时移动数十TB的交易数据、交互数据 和流数据
Replicate
Streaming
Batch Load
Extract
Archive Extract
低成本存储
22 Informatica Corporation Confidential – Do Not Distribute
22
CUSTOMER_ID example
国家代码示例
3. 追溯分析(Hadoop 数据)
2. 值和 模式 分析
Hadoop 数据
1. 剖析统计数据: 最小值/最大值,空值 推导的数据类型等
邮政编码示例
追溯实际数据值来检验整个数据集中的结果,包括可能的 重复
值和模式频率与不一致的/脏数据或意外模式隔离 Hadoop 数据剖析结果 ——通
过浏览器 接触企业中的任何人员
标识数据中的异常和反常现象的统计数据
Hadoop 数据剖析结果
Informatica 公司机密 – 未经许可,不得发布。
23 Informatica Corporation Confidential – Do Not Distribute
23
24 Informatica Corporation Confidential – Do Not Distribute
24
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY, customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(ORDERKEY2) GROUP BY
CUSTKEY;
Informatica Hadoop 路线图 Hadoop MapReduce 处理
Hive HQL
Informatica 开发人员 1. Informatica 映射转换成优化的 Hive
HQL和用户自定义功能 2. 优化的 HQL 转换为 MapReduce 3. 在 Hadoop 上执行 MapReduce 用
户自定义功能
Data Node Data Node Data Node 数据节点
UDF MapReduce
Informatica 数据转换引擎
Entire mapping logic (all transformations) can be executed on Hadoop
Informatica 公司机密 – 未经许可,不得发布。
25 Informatica Corporation Confidential – Do Not Distribute
25
4. The DT engine can immediately use this service to process data.
The DT Engine is fully embeddable and can be invoked using any of the supported APIs.
Java, C++, C, .NET, web services
For simple integration, a command line interface is available to invoke services. Internal custom applications can embed transformation services using the various APIs.
PowerCenter leverages DT via the Unstructured Data Transformation (UDT).
This is a GUI transformation widget in Powercenter which wraps around the DT API and engine.
DT can also be embedded in other middleware technologies.
For some (WBIMB, WebMethods, BizTalk) INFA provides similar GUI widgets (agents) for the respective design environments.
For others the API layer can be used directly.
DT can be invoked in two general ways:
1. Filenames can be passed to it, and DT will directly open the file(s) for processing. On the output side, DT can also directly write to the filesystem.
2. The calling application can buffer the data and send buffers to DT for processing. On the output side, DT can also write back to memory buffers which are returned to the calling application.
Though not shown below, the engine fully supports multiple input and output files or buffers as needed by the transformation.
Engine invocation is a shared library. The DT engine runs fully within the process of the calling application.
It is not an external engine. This removes any overhead from passing data between processes, across the network, etc. The engine is also dynamically invoked and does not need to be „started up‟ or maintained externally.
The DT engine is also thread-safe and re-entrant.
This allows the calling application to invoke DT in multiple threads to increase throughput.
A good example is DT‟s support of PowerCenter partitioning to scale up processing.
As shown below, the actual transformation logic is completely independent of any calling application.
This means you can develop a transformation once, and leverage it in multiple environments simultaneously resulting in reduced development and maintenance times and lower impact of change.
1. Developer uses Studio to develop a transformation 2. Developer deploys transformation to local service repository (directory).
All files needed for the transformation are moved.
3. To deploy to the server, this service folder is moved to the server via FTP, copy, script, etc.
NOTE: If the server file system is mountable from the developer machine directly, then step 2 would deploy directly to the server.
Informatica HParser 处理各种各样的大数据
S
Svc Repository
S
平面文件和文档 交互数据 行业标准 XML
最广范围的大数据
^/>限定<\^
定位
名称 = 价值
社交
科学设备/传感器
生产力
• 直观解析环境
• 预定义转换
任何 DI/BI 体系架构
PIG EDW
MDM
26 Informatica Corporation Confidential – Do Not Distribute
26
hadoop … dt-hadoop.jar
… My_Parser /input/*/input*.txt
1. 在 HParser 可视化工作室中定义解析器
2. 在 Hadoop 分布式文件系统 (HDFS) 上部署解析器
3. 运行 HParser 提取数据,并在 Hadoop 产生表格格式
在Hadoop上解析和准备数据 工作原理如何?
27 Informatica Corporation Confidential – Do Not Distribute
27
混合工作流编排 在Hadoop和本地环境中运行任务工作流同一
Cmd_选择上传路径
MT_上传至Hadoop
+ 解析
Cmd_上传至
Hadoop MT_解析
Cmd_剖析数据 MT_清洗
MT_数据分析 通知
名称 类型 默认值 描述
$User.LoadOptionPath Integer 2 Load path for workflow, depending on output of cmd task
$User.DataSourceConnection String HiveSourceConnection Source connection object
$User.ProfileResult Integer 100 Output from “profiling” commnad task.
增加
修改
删除
变量列表:
Informatica 公司机密 – 未经许可,不得发布。
28 Informatica Corporation Confidential – Do Not Distribute
28
单个 M/R 作业的可跟踪性。作业跟踪器链接 URL
查看 Hive 查询详情
作业跟踪器状态摘要
监控 – Hive 查询追溯 M/R
Informatica 公司机密 – 未经许可,不得发布。
29 Informatica Corporation Confidential – Do Not Distribute
29
监控 – Hive 查询计划详情
开发人员工具中同样可用的 hive 查询
Informatica 公司机密 – 未经许可,不得发布。
30 Informatica Corporation Confidential – Do Not Distribute
30
数据沿袭和业务术语表 元数据管理路线图
Informatica 公司机密 – 未经许可,不得发布。
31 Informatica Corporation Confidential – Do Not Distribute
31
先进技术转化为常规IT部署
• 重复性
• 可预测、可重复的部署和方法
• 与快速的 Hadoop 变化隔离
• 经常推出新版本和项目
• 避免对错误的技术下注
• 现有资产的重复使用
• 应用现有集成逻辑向 Hadoop 加载数据
• 重新使用现有数据质量规则验证 Hadoop 数据
• 现有技能的重复使用
• 使 ETL 开发人员能够利用 Hadoop 的功能
• 治理
• 执行并验证数据安全性、数据质量和法规遵从政策
• 可管理
Informatica 公司机密 – 未经许可,不得发布。
32 Informatica Corporation Confidential – Do Not Distribute
32
网络日志
传统网格
近乎实时
挑战:随着数据量和处理负荷的迅速增长,对更快的数据驱动型决策的需求不断增加
解决方案 结果
• 经济高效地拓展性能
• 降低硬件成本
• 通过在统一数据集成平台上的标准化,增加了灵活度
RDBMS
RDBMS
RDBMS
数据集市
数据集市
数据仓库
阶段 2
扩展ETL 并控制成本 为大数据分析奠定基础
大型国际金融机构
33 Informatica Corporation Confidential – Do Not Distribute
33
挑战:为“互联车辆”计划,在年底前实现实时收集汽车数据
解决方案 结果
• 助力实现互联车辆的目标:
• 嵌入移动技术提升客户体验
• 预测维修维护和提高燃料效率
• 电话道路救援和自动调度服务
• 持续收集所有车辆的所有信息
• 所有车辆在年底时,都将把数据传送到中央Teradata数据仓库
• 利用PowerCenter, CDC和CEP 实现实时数据集成
互联车辆项目 开发创新产品和服务
业务报告
企业数据仓库
复杂事件处理
(CEP)
Power Center
大型国际汽车制造商
34 Informatica Corporation Confidential – Do Not Distribute
34
PowerCenter 大数据版
加速创新产品和服务的上市速度
降低大数据项目成本
将 Hadoop扩展至整个企业
将采用新技术的风险降至最低
35 Informatica Corporation Confidential – Do Not Distribute
35
Informatica助您
实现大数据的
最大回报
www.informatica.com.cn