78
智能数据湖运营平台 DAYU 快速入门 文档版本 02 发布日期 2020-03-16 华为技术有限公司

快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

  • Upload
    others

  • View
    27

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

智能数据湖运营平台 DAYU

快速入门

文档版本 02

发布日期 2020-03-16

华为技术有限公司

Page 2: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

版权所有 © 华为技术有限公司 2020。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明

和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司地址: 深圳市龙岗区坂田华为总部办公楼 邮编:518129

网址: https://www.huawei.com

客户服务邮箱: [email protected]

客户服务电话: 4008302118

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 i

Page 3: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

目 录

1 DAYU 使用流程简介.................................................................................................................. 1

2 步骤 1:准备工作....................................................................................................................... 5

3 步骤 2:创建数据连接和数据库................................................................................................6

4 步骤 3:数据集成....................................................................................................................... 9

5 步骤 4:规范设计.....................................................................................................................22

6 步骤 5:数据开发.....................................................................................................................40

7 步骤 6:数据质量监控............................................................................................................. 53

8 步骤 7:数据资产采集与监控................................................................................................. 58

9 步骤 8:数据服务 API 开发.....................................................................................................64

智能数据湖运营平台 DAYU快速入门 目 录

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 ii

Page 4: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

1 DAYU 使用流程简介

本文档是一个DAYU入门教程,介绍了如何在DAYU控制台完成端到端的全流程数据运营。

智能数据湖运营平台(DAYU)是具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

使用 DAYU 的用户角色

根据DAYU使用人员的职能进行划分,使用DAYU的用户角色主要可以分为以下四类。四类角色具有不同的DAYU权限,详情请参见DAYU权限列表。

● 管理员

面向熟悉业务并具有管理、决策、审核权限的管理人员。管理员具有除工作空间管理之外的其他所有DAYU权限,包括开发者权限、审核人员权限、工作空间成员管理、数据资产管理、配置管理等权限。例如,在规范设计、数据服务模块中,审核人员可以对开发人员发布的数据模型、API等数据对象进行审核,把好质量关。

● 开发者

面向数据建模师、熟悉脚本开发的开发人员。DAYU为开发者提供了从管理中心、规范设计、数据集成、数据开发、数据质量、数据资产到数据服务的端到端开发和运营流程,帮助您快速、简单且高效地构建一个智能数据系统。

数据系统构建完成后,其他开发人员就可以通过SDK的方式调用DAYU提供的数据服务API进行数据分析。

开发者具有除审核人员权限、工作空间及其成员管理等少数权限以外的大部分DAYU权限。

● 运维者

面向运维人员。运维者主要具有查看详细信息、运维调度、资源监控等权限。DAYU的数据资产360度全链路可视化,数据质量可检验,数据使用可控、可追溯,帮助运维人员实现端到端的作业调度和监控,从数据采集到数据消费运维一条龙。

● 访客

访客仅具备只读权限,可以查看详细信息。

智能数据湖运营平台 DAYU快速入门 1 DAYU 使用流程简介

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 1

Page 5: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

DAYU 使用流程简介

DAYU典型的端到端数据运营流程如下图所示:

图 1-1 DAYU 使用流程

表 1-1 DAYU 数据运营流程

主流程 说明 子任务 操作指导

步骤1:准备工作

如果您是第一次使用DAYU,需要先完成注册华为云账号、创建IAM用户、进入DAYU控制台购买DAYU实例、创建工作空间、添加工作空间成员和角色等一系列操作。

- 步骤1:准备工作

步骤2:创建数据连接和数据库

根据自身的业务特点和源数据类型,进行数据存储与分析系统的选型,选取合适的云服务用于存储源数据并进行数据查询和分析。然后,创建该云服务相应的数据连接。

创建数据连接 1. 选择用于数据存储与分析的云服务

2. 创建数据连接

在“数据开发”模块中,创建用于存储源数据的目标数据库。

创建数据库 创建数据库

智能数据湖运营平台 DAYU快速入门 1 DAYU 使用流程简介

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 2

Page 6: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

主流程 说明 子任务 操作指导

步骤3:数据集成

通过DAYU平台将源数据上传或者接入到云上。

● 批量数据迁移:提供同构/异构数据源之间批量数据迁移的服务,支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。

批量数据迁移 1. 将源数据上传到OBS

2. 创建访问密钥(AK和SK)

3. 创建数据迁移的目标表

4. 新建数据迁移的源连接、目的连接和迁移作业

步骤4:规范设计

规范设计以关系建模、维度建模理论支撑实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

添加审核人 添加审核人

建立业务分层 建立业务分层

码表管理 本示例不涉及

制定数据标准 本示例不涉及

关系建模 1. 设计表模型

2. 审核人员审核对象

维度建模 本示例不涉及

步骤5:数据开发

可管理多种大数据服务,提供一站式的大数据开发环境。

使用DAYU数据开发,用户可进行数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

脚本开发 脚本开发

开发批处理作业

开发批处理作业导入历史数据

步骤6:数据质量监控

对业务指标和数据指标进行监控。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的清洗和标准化,能够根据数据标准自动生成清洗和标准化的质量规则。支持周期性的监控和清洗。

业务指标监控 1. 新建指标

2. 新建规则

3. 新建业务场景

4. 运行业务场景并查看监控结果

数据质量监控 本示例不展开描述。

智能数据湖运营平台 DAYU快速入门 1 DAYU 使用流程简介

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 3

Page 7: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

主流程 说明 子任务 操作指导

步骤7:数据资产采集与监控

在DAYU数据资产模块中,可以对所有的业务资产和技术资产进行元数据采集和监控。业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。

- 步骤7:数据资产采集与监控

步骤8:数据服务API开发

统一管理对内对外的API服务,提供快速将数据表生成数据API的能力,同时支持将现有的API快速注册到数据服务平台以统一管理和发布。

添加审核人 添加审核人

新建API并发布

创建API并发布API审核人员审核API

授权/申请权限

添加授权

调用API 调用API

运营管理 本示例不展开描述。

智能数据湖运营平台 DAYU快速入门 1 DAYU 使用流程简介

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 4

Page 8: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

2 步骤 1:准备工作

使用 DAYU 前的准备

如果您是第一次使用DAYU,请参考准备工作,完成注册华为云账号、创建IAM用户、进入DAYU控制台购买DAYU实例、创建工作空间、添加工作空间成员和角色等一系列操作。然后找到对应的工作空间,即可开始数据开发与运营。

本入门示例,为了演示DAYU数据运营的全流程,在添加工作空间成员和角色时,需要添加2位成员,添加一位成员并将其设置为开发者角色,另外再添加一位成员,将其设置为管理员角色。

使用开发者角色即可开始数据开发和运营,但是DAYU的很多流程需要审核人审批,开发者不具备添加审核人的权限,只有管理员才具备添加审核人的权限。

准备源数据

本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的总收入。我们将创建一个事实表用于存储原始数据,创建一个汇总表用于存储统计结果。

在本示例中,我们将通过以下地址,下载某市出租车出行数据的csv文件:

● 2017年度的数据:用于模拟公司历史数据

https://data.cityofnewyork.us/Transportation/2017-Yellow-Taxi-Trip-Data/biws-g3hs

智能数据湖运营平台 DAYU快速入门 2 步骤 1:准备工作

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 5

Page 9: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

3 步骤 2:创建数据连接和数据库

根据业务需求以及业务数据的特点,选择用于数据存储与分析的云服务。然后,我们就可以创建数据连接和存储源数据的目标数据库了。

选择用于数据存储与分析的云服务

DAYU平台当前支持的数据连接类型有以下几种,在本示例中,我们选择数据湖探索(DLI)服务:

● 数据仓库服务(DWS)

● 数据湖探索(DLI)

● MapReduce服务(MRS HBase)

● MapReduce服务(MRS Hive)

● MySQL

创建数据连接

在使用DAYU进行数据开发时,我们将会连接所选取的云服务并一步一步创建数据对象,因此,我们首先要在“管理中心”模块中创建数据连接,同时还要在“数据开发”模块中创建用于存储源数据的数据库。

步骤1 登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“更多> 管理中心”,进入管理中心页面。

图 3-1 空间管理

步骤2 在左侧导航树上,单击“数据连接”,进入页面后,单击“创建数据连接”按钮。

智能数据湖运营平台 DAYU快速入门 3 步骤 2:创建数据连接和数据库

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 6

Page 10: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 3-2 数据连接

步骤3 在弹出窗口中,参考如下配置,完成配置后,单击“确定”完成数据连接的创建。

图 3-3 创建数据连接

----结束

创建数据库

步骤1 在DAYU控制台左上角,单击模块下拉列表并选择“数据开发”,进入数据开发页面。

图 3-4 选择子模块

智能数据湖运营平台 DAYU快速入门 3 步骤 2:创建数据连接和数据库

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 7

Page 11: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

步骤2 在数据开发页面,单击左上角的 按钮展开左侧导航树,单击“脚本开发”,进入相应页面后,如下图所示在数据连接列表中找到已创建的数据连接,右键单击该数据数据连接,然后选择菜单“新建数据库”。

图 3-5 管理数据连接

步骤3 在弹出窗口中,输入数据库名称,例如transport,然后单击“确定”完成数据库的创建。

创建成功后,展开数据连接,即可看到新建的数据库。

图 3-6 新建数据库

----结束

智能数据湖运营平台 DAYU快速入门 3 步骤 2:创建数据连接和数据库

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 8

Page 12: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

4 步骤 3:数据集成

本章节将介绍如何通过DAYU平台将源数据上传或者接入到云上。

我们将在“数据集成”模块使用批量数据迁移将历史数据迁移上云,步骤如下:

1. 将源数据上传到OBS2. 创建访问密钥(AK和SK)3. 创建数据迁移的目标表

4. 新建数据迁移的源连接、目的连接和迁移作业

将源数据上传到 OBS

为了将源数据迁移到云上,您可以先将源数据上传到OBS桶中,然后再使用DAYU批量数据迁移将数据迁移到其他云服务中。

步骤1 获取源数据。

通过以下地址,下载某市出租车出行数据:

● 2017年度的数据:用于模拟公司历史数据

https://data.cityofnewyork.us/Transportation/2017-Yellow-Taxi-Trip-Data/biws-g3hs打开以上链接后,单击“Export”并选择“CSV”下载数据,数据量较大,约有10GB,您也可以下载几MB后停止下载,然后将未下载完成的临时文件名称改为“2017_Yellow_Taxi_Trip_Data.csv”,打开该文件查看最后一条记录是否完整,如不完整可以将该条记录删除。

步骤2 将数据上传到OBS服务。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 9

Page 13: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

1. 登录控制台,然后单击页面上方的“服务列表 > 对象存储服务”,进入OBS控制台。

2. 在页面右上角单击“创建桶”,然后根据页面提示配置参数,创建一个名称为“dayu-demo-obs”的OBS桶。

其中,区域请选择和DAYU实例相同的区域。

3. 使用OBS服务的客户端工具OBS Browser将2017年度的源数据上传到OBS桶“dayu-demo-obs”中,具体操作请参见OBS Browser入门。

使用OBS控制台上传文件,对文件大小有限制,因此如果文件较大建议使用OBSBrowser工具上传文件。

----结束

创建访问密钥(AK 和 SK)用户通过客户端或API、SDK等方式访问OBS时,需要通过AK/SK认证方式进行认证鉴权,因此,我们必须先创建访问密钥(AK和SK)。

● Access Key Id(AK):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。

● Secret Access Key(SK):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。

在创建访问密钥前,请确保登录控制台的帐号已通过实名认证。创建访问密钥(AK和SK)操作步骤如下:

步骤1 登录DAYU控制台。

步骤2 鼠标移动至右上角用户名,在弹出菜单中单击“我的凭证”。

图 4-1 用户名

步骤3 在左侧导航树单击“访问密钥”。

在访问密钥列表中,可以查看已有的访问密钥ID(即Access Key ID),但是,SecretAccess Key只有在新增访问密钥时所下载的密钥文件中才可以获取到。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 10

Page 14: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

步骤4 单击“新增访问密钥”。

每个用户最多可创建两个有效的访问密钥,如果当前已存在2个访问密钥,只能先删除现有的访问密钥,然后再重新创建。删除时,需要输入当前用户的登录密码、邮箱或手机短信的验证码,验证通过才能成功删除。

步骤5 在弹出的对话框中,输入登录密码和对应验证码,然后单击“确定”。

● 用户如果未绑定邮箱和手机,则只需输入登录密码。

● 用户如果同时绑定了邮箱和手机,可以选择其中一种方式进行验证。

步骤6 在弹出的“下载确认”提示框中,单击“确定”保存密钥文件。

说明

● 为了账号安全性,建议您定期更换并妥善保存访问密钥。

步骤7 打开下载下来的“credentials.csv”文件即可获取到访问密钥(Access Key ID和SecretAccess Key)。

----结束

创建数据迁移的目标表

在DAYU数据开发模块中,编写SQL脚本创建一个源数据表,用于存储原始数据,再创建一个脏数据表,用于存储一些无效数据、错误数据或者不符合标准和规范的数据。

步骤1 在DAYU控制台左上角,单击模块下拉列表并选择“数据开发”,进入数据开发页面。

图 4-2 选择子模块

步骤2 在左侧导航栏中,单击“脚本开发”,然后右键单击“脚本”选择菜单“新建目录”。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 11

Page 15: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-3 脚本

在弹出框中输入目录名称例如“transport”,选择目录存放位置,然后单击“确定”完成脚本目录的创建。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 12

Page 16: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-4 新建目录

步骤3 鼠标移动到“新建SQL脚本”上,在弹出的选项中单击“DLI”。

图 4-5 新建 SQL 脚本

步骤4 在新建的DLI_untitled脚本中,选择数据连接、数据库、队列后,输入脚本内容。该脚本用于创建用于存放原始数据的源数据表和脏数据表。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 13

Page 17: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-6 编辑脚本

CREATE TABLE IF NOT EXISTS taxi_trip_data_temp(`VendorID` STRING COMMENT '',`tpep_pickup_datetime` TIMESTAMP COMMENT '',`tpep_dropoff_datetime` TIMESTAMP COMMENT '',`passenger_count` SMALLINT COMMENT '',`trip_distance` FLOAT COMMENT '',`ratecodeid` STRING COMMENT '',`store_fwd_flag` STRING COMMENT '',`PULocationID` STRING COMMENT '',`DOLocationID` STRING COMMENT '',`payment_type` STRING COMMENT '',`fare_amount` FLOAT COMMENT '',`extra` FLOAT COMMENT '',`mta_tax` FLOAT COMMENT '',`tip_amount` FLOAT COMMENT '',`tolls_amount` FLOAT COMMENT '',`improvement_surcharge` FLOAT COMMENT '',`total_amount` FLOAT COMMENT '');

CREATE TABLE IF NOT EXISTS taxi_trip_data_err(`VendorID` STRING COMMENT '',`tpep_pickup_datetime` TIMESTAMP COMMENT '',`tpep_dropoff_datetime` TIMESTAMP COMMENT '',`passenger_count` SMALLINT COMMENT '',`trip_distance` FLOAT COMMENT '',`ratecodeid` STRING COMMENT '',`store_fwd_flag` STRING COMMENT '',`PULocationID` STRING COMMENT '',`DOLocationID` STRING COMMENT '',`payment_type` STRING COMMENT '',`fare_amount` FLOAT COMMENT '',`extra` FLOAT COMMENT '',`mta_tax` FLOAT COMMENT '',`tip_amount` FLOAT COMMENT '',`tolls_amount` FLOAT COMMENT '',`improvement_surcharge` FLOAT COMMENT '',`total_amount` FLOAT COMMENT '');

步骤5 单击“运行”执行脚本。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 14

Page 18: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-7 运行脚本

步骤6 运行通过后,单击“保存”按钮,在弹出框中输入脚本名称如:create_trip_data_temp_and_err,选择保存的脚本路径后,单击“确定”完成创建源数据表和脏数据表的脚本保存。

图 4-8 另存脚本

----结束

新建数据迁移的源连接、目的连接和迁移作业

步骤1 在DAYU控制台左上角,单击模块下拉列表并选择“数据集成”,进入数据集成页面。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 15

Page 19: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-9 选择数据集成

步骤2 单击左上角的 按钮展开左侧导航栏,单击“集群管理”进入“集群管理”页面。在集群列表中找到所需要的集群(集群名称是以DAYU实例名称开头的),单击“作业管理”。

图 4-10 集群管理

步骤3 进入作业管理后,选择“连接管理”。

图 4-11 连接管理

步骤4 创建两个连接,一个源连接OBS连接,用于读取存储在OBS上的原始数据,一个目的连接DLI连接,用于将数据写入DLI数据库中。

单击“新建连接”,进入相应页面后,选择连接器类型“对象存储服务(OBS)”,单击“下一步”,然后如下图所示配置连接参数,单击“保存”。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 16

Page 20: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-12 创建 OBS 连接

再次单击“新建连接”,进入相应页面后,选择连接器类型“数据湖探索(DLI)”,单击“下一步”,然后如下图所示配置连接参数,单击“保存”。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 17

Page 21: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-13 创建 DLI 连接

步骤5 如果所创建的连接器类型是DLI连接,还需要在DLI服务中创建一个队列。数据迁移作业需要用到队列。创建队列时,区域请选择和DAYU实例相同的区域。

1. 在控制台页面的最上方,单击“服务列表”,选择“EI企业智能 > 数据湖探索”进入DLI控制台页面。

2. 单击“SQL作业”区域中的“创建作业”进入“作业编辑器”页面。

3. 单击上方的“队列管理”,进入页面后,再单击“购买队列”。

4. 在“购买队列”页面,根据页面提示完成参数配置后,单击“下一步”,再单击“立即创建”完成队列的创建。

图 4-14 购买 DLI 队列

步骤6 返回DAYU数据集成的“作业管理”页面,单击“表/文件迁移”,再单击“新建作业”。

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 18

Page 22: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-15 表/文件迁移

步骤7 按照如下步骤完成作业参数的配置。

完成源端作业配置并单击“显示高级属性”根据原始数据格式配置高级属性,在本示例中高级属性中的“首行为标题行”需设置为“是”,然后完成目的端作业配置,再单击“下一步”。

图 4-16 作业配置

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 19

Page 23: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-17 源端高级属性

配置字段映射以及日期字段格式的转换(日志字段转换格式:MM/dd/yyyyHH:mm:ss),然后单击“下一步”:

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 20

Page 24: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 4-18 字段映射

根据需要配置任务的重试和定时执行:

图 4-19 任务配置

步骤8 单击“保存”完成作业的创建。

返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。

----结束

智能数据湖运营平台 DAYU快速入门 4 步骤 3:数据集成

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 21

Page 25: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

5 步骤 4:规范设计

在使用DAYU智能数据湖运营平台做业务开发时,首先,我们要根据业务需求对原始数据进行分析和数据建模,数据模型建立好了,后续的数据开发、数据质量、数据资产、数据服务等过程才可以顺利开展。DAYU规范设计以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

在本章节中,我们将为您介绍如何在DAYU平台的“规范设计”模块中实现数据的关系建模。

示例数据说明

出租车出行数据的原始数据格式如下图所示,数据包含出租车供应商,上下车地点,行程距离,乘客数量,付款方式,费率,费用明细等相关字段。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 22

Page 26: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-1 出租车出行数据字段描述

数据分析与建模

DAYU规范设计的流程如下:

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 23

Page 27: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-2 规范设计流程

● 数据调研

本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的总收入。我们首先需要创建一个原始表用于存储原始数据,还需要创建一个汇总表用于存储统计结果。为了统计某出租车供应商2017年度的总收入,需要根据出租车供应商的维度,统计原始数据中上车时间为2017年的记录的费用总和。

● 规范设计

根据规范设计流程,我们要自下而上进行规范设计将需求落地。

– SDI贴源层

我们首先需要创建一个原始表用于存储原始数据。在DAYU平台中,可以使用批量数据迁移将原始数据迁移到云上。这个操作在步骤3:数据集成中,我们已经完成。

– DWI层多源整合

在本示例中,我们需要根据关系建模的方法设计以下关系表,DAYU规范设计提供了图形化操作界面,可以快速创建这些表。

▪ 出租车供应商关系表:用于存储供应商ID、供应商名称等基础信息。

▪ 付款方式关系表:用于存储付款方式ID、付款方式名称等基础信息。

▪ 费率关系表:用于存储费率ID、费率名称等基础信息。

▪ 出租车行程数据关系表:我们需要将原始数据经过数据清洗后,存入出租车行程数据关系表中。

比较复杂的数据清洗过程,我们可以在DAYU数据开发中通过开发SQL脚本实现。对于比较简单的数据过滤,我们可以使用DAYU数据开发提供的ETL节点进行处理。

– DWR明细数据层

DWI层和DWR层依据项目规格可以只存在一层。本示例业务比较简单,可以不用维度建模。

– 设计技术指标

本示例技术指标就是每一次出租车行程的总费用。使用DAYU平台,我们还可以在DAYU数据质量中对技术指标进行数据质量监控,当数据存在质量问题时,可以触发告警。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 24

Page 28: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

– DM数据集市层

我们需要创建一个汇总表用于存储出租车供应商的年度总收入。在本入门示例,年度总收入的汇总表是在DAYU数据开发中进行创建的。

添加审核人

在规范设计中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。只有管理员才具有添加审核人的权限。

步骤1 使用管理员角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“规范设计”,进入规范设计页面。

图 5-3 空间管理

步骤2 在规范设计页面,单击左侧导航树中的“配置中心”,进入相应页面后,选择“审核人管理”页签,然后单击“添加”按钮。

图 5-4 审核人管理

步骤3 选择审核人(管理员或开发者),输入正确的手机号码和电子邮箱,单击“确定”完成审核人添加。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 25

Page 29: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-5 添加审核人

步骤4 根据需要,可以添加多个审核人。

----结束

建立业务分层

步骤1 使用开发者角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“规范设计”,进入规范设计页面。

图 5-6 空间管理

步骤2 在规范设计页面,单击左侧菜单栏的“业务分层”,进入相应页面后,单击“新建主题域分组”按钮创建主题域分组。

图 5-7 业务分层

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 26

Page 30: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

在弹出窗口中,按下图所示填写参数,然后单击“确定”完成主题域分组的创建。

图 5-8 新建主题域分组

步骤3 在主题域分组列表中,单击已建好的主题域分组右侧的按钮 新建主题域。

图 5-9 主题域分组

在弹出窗口中,按下图所示填写参数,然后单击“确定”完成主题域的新建。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 27

Page 31: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-10 新建主题域

步骤4 在主题域列表中,单击已建好的主题域右侧的按钮 新建业务对象。

图 5-11 主题域

在弹出窗口中,按下图所示填写参数,然后单击“确定”完成业务对象新建。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 28

Page 32: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-12 新建业务对象

再新建一个业务对象,命名为“原始数据层”。

图 5-13 原始数据层

----结束

设计表模型

步骤1 在规范设计页面,单击左侧导航树中的“关系建模”,如果当前未创建过关系模型,系统会弹出提示框,单击“创建模型”创建一个关系模型。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 29

Page 33: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-14 关系建模

在“新建模型”对话框中,配置如下参数,单击“确定”。

图 5-15 新建模型

步骤2 展开模型下的业务分层,通过逆向数据库,导入原始表。

选定业务对象“原始数据层”,单击“逆向数据库”。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 30

Page 34: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-16 模型树

在“逆向数据库”窗口中,配置如下所示参数,然后单击“确定”。在本示例中选择全部数据表,在实际业务中您可以根据需求选择部分所需要的表。

图 5-17 逆向数据库

逆向数据库成功后,可在列表中查看导入的表:

图 5-18 查看表

步骤3 设计关系模型。展开模型下的业务分层,选定一个业务对象进行表设计。

选定业务对象“出租车”,单击“新建”依次新建以下4个表:费率关系表、付款方式关系表、出租车供应商关系表、出租车行程数据关系表。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 31

Page 35: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-19 新建表

新建费率关系表,配置如下,配置完成后单击“保存”。

图 5-20 费率表

新建付款方式关系表,配置如下,配置完成后,单击“保存”。

图 5-21 付款方式表

新建出租车供应商关系表,配置如下,配置完成后单击“保存”。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 32

Page 36: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-22 出租车供应商表

新建出租车行程数据关系表,配置如下:

图 5-23 行程数据表基本配置

图 5-24 行程数据表字段 1

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 33

Page 37: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-25 行程数据表字段 2

通过新建关系设计表与表之间的关系:

图 5-26 行程数据表与付款方式表的关系

图 5-27 行程数据表和供应商表之间的关系

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 34

Page 38: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

关系添加完成后,显示如下:

图 5-28 关系

通过新建映射设计表的数据来源:

图 5-29 新建映射

按如下所示设置字段映射,前面三个字段的“源表”分别选择供应商表、付款方式表和费率表,源字段选择相应的字段。其余字段的源表选择原始数据表,源字段选择相应的字段。

说明

此处设置的映射是为开发人员提供数据的ETL流向,并不会执行ETL操作。开发人员在做数据开发的过程中,可以参考此处的映射关系编写SQL。

图 5-30 字段映射 1

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 35

Page 39: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-31 字段映射 2

出租车行程数据表配置完成后,单击“保存”。

步骤4 发布表模型。

返回关系模型页面后,在列表中,选中刚才新建的表,再单击“发布”进行批量发布。对于步骤2中通过逆向数据库导入的表,也可以进行发布,发布后,就可以通过DAYU对这些表进行管理和监控。

图 5-32 发布表

选择审核人,然后单击“确认提交”提交审核人审核。审核通过后,系统将会自动在相应的数据源下创建表。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 36

Page 40: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-33 批量发布

步骤5 等待审核人审核通过。审核人员的审批操作请参见审核人员审核对象。

步骤6 当审核人审批通过后,使用开发人员账号登录DAYU实例的规范设计,进入关系模型页面可以查看表的“状态”和“同步状态”。

发布是一个异步操作,您可以单击刷新按钮 刷新状态。“同步状态”中若显示“创建表: 创建成功”说明该表在对应的数据源下已经创建成功,如果显示“创建表:创建失败”,可以先刷新状态,如果仍失败,可以单击“更多 > 发布日志”查看失败原因。

图 5-34 查看表状态

在列表中单击表名,可以查看表的详情,其中“数据源”显示了表的位置。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 37

Page 41: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-35 表详情

----结束

审核人员审核对象

步骤1 使用审核人员账号,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“规范设计”,进入规范设计页面。

图 5-36 空间管理

步骤2 在左侧导航树中,单击“审核中心”,选择“待审核”页签,在列表中选中需要审核的对象,然后单击“批量审核”。

图 5-37 审核

步骤3 输入审核意见后,单击“批量通过”完成审核。

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 38

Page 42: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 5-38 批量审核

----结束

智能数据湖运营平台 DAYU快速入门 5 步骤 4:规范设计

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 39

Page 43: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

6 步骤 5:数据开发

DAYU数据开发模块可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

使用DAYU数据开发,用户可进行数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

在DAYU数据开发模块中,我们将完成以下步骤:

1. 脚本开发

2. 开发批处理作业导入历史数据

a. 历史数据到源数据表,使用批量数据迁移将历史数据从OBS导入到源数据表。

b. 历史数据清洗,使用数据开发的ETL Job将源数据表清洗之后导入明细层出租车出行数据表。

c. 将基础数据插入关系表中。

d. 数据汇总,通过DLI SQL将出租车行程数据关系表中的数据进行汇总并写入汇总表。

脚本开发

步骤1 在DAYU控制台左上角,单击模块下拉列表并选择“数据开发”,进入数据开发页面。

步骤2 在左侧导航栏中,单击“脚本开发”,再右键单击“脚本”选择“新建目录”,在弹出框中输入目录名称例如“transport”,然后单击“确定”。

如果已经创建过目录了,可以跳过这一步。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 40

Page 44: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-1 脚本页面

步骤3 在脚本目录树中,右键单击指定的目录名称,选择菜单“新建DLI SQL脚本”。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 41

Page 45: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-2 新建 SQL 脚本

步骤4 在新建的DLI_untitled脚本中,选择数据连接、数据库、队列后,输入脚本内容。

图 6-3 编辑脚本

该脚本用于将付款方式的基本信息写入到付款方式关系表中。脚本内容如下:

INSERT INTO payment_type VALUES ("1","Credit card");INSERT INTO payment_type VALUES ("2","Cash");INSERT INTO payment_type VALUES ("3","No charge");INSERT INTO payment_type VALUES ("4","Dispute");INSERT INTO payment_type VALUES ("5","Unknown");INSERT INTO payment_type VALUES ("6","Voided trip");

步骤5 单击“运行”按钮,测试脚本是否正确。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 42

Page 46: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-4 运行脚本

步骤6 测试通过后,单击“保存”按钮,在弹出框中输入脚本名称如:Payment_type_prepare,选择保存的脚本路径后,单击“确定”完成脚本的保存。

图 6-5 另存脚本

步骤7 重复步骤4~步骤6的步骤,完成如下脚本的创建。

1. 脚本名称:RateCode_prepare,该脚本用于将费率基本信息写入费率关系表中。脚本内容如下:INSERT INTO rate VALUES ("1","Standard rate");INSERT INTO rate VALUES ("2","JFK");INSERT INTO rate VALUES ("3","Newark");INSERT INTO rate VALUES ("4","Nassau or Westchester");

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 43

Page 47: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

INSERT INTO rate VALUES ("5","Negotiated fare");INSERT INTO rate VALUES ("6","Group ride");

2. 脚本名称:Vendor_prepare,该脚本用于将出租车供应商基本信息写入到供应商关系表中。脚本内容如下:INSERT INTO vendor VALUES ("1","Creative Mobile Technologies, LLC");INSERT INTO vendor VALUES ("2","VeriFone Inc.");

3. 脚本名称:dws_company_income,该脚本用于统计一年的总收入并将结果写入汇总表中。DROP TABLE IF EXISTS `dws_company_income`;

CREATE TABLE IF NOT EXISTS dws_company_income(`Date` TIMESTAMP COMMENT '',`totalincome` FLOAT COMMENT '',`VendorID` STRING COMMENT '');

INSERT INTO dws_company_income select Date, totalincome, vendor_id from(select date_format(tpep_dropoff_datetime, 'yyyy') AS Date, SUM(total_amount) as totalincome, vendor_id from dwd_taxi_trip_data GROUP BY date_format(tpep_dropoff_datetime, 'yyyy'), vendor_id ORDER BY date_format(tpep_dropoff_datetime, 'yyyy')) t WHERE t.Date = '${date}';

SELECT * FROM dws_company_income;

该脚本中包含了${date}参数,在测试运行该脚本时,需要给这个参数临时设置一个测试值,否则运行会报错:

图 6-6 参数测试值

----结束

开发批处理作业导入历史数据

1. 在DAYU数据开发页面的左侧导航栏中,单击“作业开发”,然后右键单击“作业”选择菜单“新建目录”,在目录树下根据需要创建作业目录,例如“transport”。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 44

Page 48: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

2. 右键单击作业目录,在弹出菜单中单击“新建作业”。

图 6-7 作业

3. 在弹出弹框中输入“作业名称”如dayu_demo_batch,“作业类型”选择“批处理”,其他参数保留默认值,单击“确定”完成批作业创建。

图 6-8 新建批处理作业

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 45

Page 49: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

4. 如下图所示,编排批作业。

图 6-9 批处理作业开发

每个节点配置如下:

– 第1个节点:为DLI节点,用于创建行程数据的原始数据表和脏数据表。

图 6-10 节点 1

– 第2~4个节点:向规范设计模块中创建的关系表供应商表、付款方式表、费率表中插入基础数据。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 46

Page 50: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-11 节点 2 - vendor

图 6-12 节点 3 - payment_type

图 6-13 节点 4-rate

– 第5个节点:为CDM节点,通过CDM将OBS上的历史数据导入到DLI的行程数据原始表中:

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 47

Page 51: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-14 节点 2:CDM 数据迁移

– 第6个节点:为ETL节点,用于清洗过滤DLI上原始表中的数据,将合法数据写入规范设计中建好的出租车行程数据关系表dwd_taxi_trip_data中。

图 6-15 节点 6:ETL_raw_to_dwd

图 6-16 节点 6 - ETL 配置

“过滤条件”配置为:

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 48

Page 52: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

trip_distance > 0 and total_amount >0 and payment_type in (1,2,3,4,5,6) and VendorID in (1,2) and ratecodeid in (1,2,3,4,5,6) and tpep_pickup_datetime<tpep_dropoff_datetime and tip_amount >= 0 and fare_amount >= 0 and extra >= 0 and mta_tax >= 0 and tolls_amount >= 0 and improvement_surcharge >= 0 and total_amount >= 0 and (fare_amount+extra+mta_tax+tip_amount+tolls_amount+improvement_surcharge) = total_amount

图 6-17 节点 6 - 设置字段映射

– 第7个节点:为ETL节点,过滤DLI上原始表中的错误数据,存入脏数据表中。

图 6-18 节点 7:ETL_raw_to_err

图 6-19 节点 7 - ETL 配置

“过滤条件”配置为:

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 49

Page 53: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

trip_distance <= 0 or total_amount <= 0 or payment_type not in (1,2,3,4,5,6) or VendorID not in (1,2) or ratecodeid not in (1,2,3,4,5,6) or tpep_pickup_datetime>=tpep_dropoff_datetime or tip_amount < 0 or fare_amount < 0 or extra < 0 or mta_tax < 0 or tolls_amount < 0 or improvement_surcharge < 0 or total_amount < 0 or (fare_amount+extra+mta_tax+tip_amount+tolls_amount+improvement_surcharge) != total_amount

图 6-20 节点 7 - ETL 字段映射

– 第8个节点:按供应商维度统计汇总一年的收入。

图 6-21 节点 8:汇总

– 第9个节点:不做任何事情,作为作业结束的标记。

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 50

Page 54: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-22 节点 9-dummy

5. 作业编排好之后,通过测试运行来测试作业编排是否正确。测试OK之后可以根据需要配置调度方式,单击“执行调度”来启动作业的运行。

图 6-23 测试运行

图 6-24 执行调度

在数据开发的“作业监控”页面,查看作业监控信息:

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 51

Page 55: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 6-25 作业监控

执行查询,返回类似如下的结果:

图 6-26 查询结果

智能数据湖运营平台 DAYU快速入门 6 步骤 5:数据开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 52

Page 56: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

7 步骤 6:数据质量监控

数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的清洗和标准化,能够根据数据标准自动生成清洗和标准化的质量规则。支持周期性的监控和清洗。

在DAYU数据质量模块中,可以对业务指标和数据质量进行监控。本章节以业务指标监控为例介绍如何进行监控。业务指标的监控流程如下,以下步骤可以仍然使用开发者角色的用户进行操作:

1. 新建指标

2. 新建规则

3. 新建业务场景

4. 运行业务场景并查看监控结果

新建指标

步骤1 在DAYU控制台左上角,单击模块下拉列表并选择“数据质量”,进入数据质量页面。

步骤2 在左侧导航树上单击“指标管理”,再单击“新建”。

图 7-1 指标管理

步骤3 在弹出的对话框中,配置相关参数,示例如下:

智能数据湖运营平台 DAYU快速入门 7 步骤 6:数据质量监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 53

Page 57: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 7-2 新建指标

步骤4 单击“试跑”测试指标是否可以正常运行。运行通过后,单击“保存”完成指标的创建。

----结束

新建规则

步骤1 在数据质量页面的左侧导航树上,单击“规则管理”,再单击“新建”。

图 7-3 规则管理

步骤2 在弹出的对话框中,配置相关参数,示例如下:

智能数据湖运营平台 DAYU快速入门 7 步骤 6:数据质量监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 54

Page 58: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 7-4 新建规则

在“定义关系”中可以定义指标和数值间或者指标和指标间的逻辑表达式。单击“添加”可以插入多个指标。

步骤3 单击“保存”完成规则的创建。

----结束

新建业务场景

步骤1 在数据质量页面的左侧导航树上,单击“业务场景管理”,再单击“新建”。

图 7-5 业务场景管理

智能数据湖运营平台 DAYU快速入门 7 步骤 6:数据质量监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 55

Page 59: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

步骤2 在新建业务场景页面,请根据页面提示配置参数,示例如下:

图 7-6 基本配置

在图7-7所示的“规则组配置”中可以定义规则间的逻辑表达式。单击“添加”可以插入多个规则。

图 7-7 规则组配置

在图7-8所示的“订阅配置”中,“通知类型”就是触发条件,“触发告警”勾选时表示该业务场景的运行结果为“告警”或“异常”时发送消息通知。“运行成功”勾选时表示该业务场景的运行结果为“正常”时,发送消息通知。

智能数据湖运营平台 DAYU快速入门 7 步骤 6:数据质量监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 56

Page 60: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 7-8 订阅配置

图 7-9 调度配置

步骤3 单击“提交”完成业务场景的创建。

----结束

运行业务场景并查看监控结果

步骤1 在数据质量页面的左侧导航树上,单击“业务场景管理”。

步骤2 在业务场景列表中,找到所需要的业务场景,然后单击其所在行的“运行”。

运行后,调度状态为“运行中”,当状态变为“运行成功”时,说明监控任务运行成功。

步骤3 单击“查看结果”,可以查看监控结果。您也可以在“运维中心”页面,查看指定业务场景的运行结果和日志。

运行结果如下图所示,如果该业务场景的规则结果为True,则运行结果为“正常”,规则结果为False则运行结果为“告警”,如果运行失败则运行结果为“异常”:

图 7-10 运行结果

----结束

智能数据湖运营平台 DAYU快速入门 7 步骤 6:数据质量监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 57

Page 61: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

8 步骤 7:数据资产采集与监控

在DAYU数据资产模块中,可以对所有的业务资产和技术资产进行元数据采集和监控。业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。

本章节介绍如何在数据资产中对技术资产的元数据进行采集并监控,您可以仍然使用开发者角色的用户进行操作。

采集并监控元数据

1. 在DAYU控制台左上角,单击模块下拉列表并选择“数据资产”,进入数据资产页面。

2. 在左侧导航栏单击“任务管理”,然后在任务树上单击鼠标右键,选择菜单“新建目录”,根据需要创建采集任务目录,例如“transport”。

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 58

Page 62: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 8-1 任务管理

3. 单击“新建”按钮,开始新建采集任务。

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 59

Page 63: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 8-2 新建任务

4. 按如下配置完成采集策略配后,单击“下一步”。

图 8-3 新建采集任务

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 60

Page 64: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 8-4 新建采集任务 02

5. 根据需要配置调度方式,配置完成后单击“提交”,完成采集任务的创建。

图 8-5 调度方式

6. 在采集任务列表中,找到刚才新建的采集任务,单击其所在行的“启动调度”按钮,启动周期采集任务。

图 8-6 启动调度

7. 单击“任务监控”,查看采集任务是否成功。

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 61

Page 65: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 8-7 查看监控任务

8. 在左侧导航栏单击“数据目录”,选择“技术资产”页签,然后在筛选条件中选择对应的数据连接,将显示符合条件的所有的元数据。

图 8-8 技术资产

9. 单击所需要的元数据名称,即可查看详情信息:

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 62

Page 66: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 8-9 元数据详情

智能数据湖运营平台 DAYU快速入门 8 步骤 7:数据资产采集与监控

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 63

Page 67: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

9 步骤 8:数据服务 API 开发

DAYU数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。

开发API提供数据服务的流程如下:

1. 添加审核人

2. 创建API并发布API3. 审核人员审核API4. 添加授权

5. 调用API

添加审核人

如果数据服务模块当前还未添加审核人,请先添加审核人,因为创建API需要提交审核人审核。

步骤1 使用管理员角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“更多 > 数据服务”,进入数据服务页面。

图 9-1 空间管理

步骤2 单击左侧导航栏中的“审核中心”,进入相应页面后,选择“审核人管理”页签,然后单击“新建”按钮。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 64

Page 68: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-2 审核人管理

步骤3 选择审核人,输入正确的手机号码和电子邮箱,单击“确认”完成审核人的添加。审核人添加完成后,新建API等流程会以短信和邮件的形式通知审核人审核。

图 9-3 新建审核人

步骤4 根据需要,可以添加多个审核人。

----结束

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 65

Page 69: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

创建 API 并发布 API

步骤1 使用开发者角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“更多 > 数据服务”,进入数据服务页面。

图 9-4 空间管理

步骤2 单击左侧导航栏的“API目录”,然后单击“新建”下拉框,选择“新建目录”,在弹出框中输入目录名称,例如demo,单击“OK”完成API目录的创建。

图 9-5 新建 API 目录

步骤3 单击左侧导航栏的“API管理”,再单击“新建”开始新建API。

图 9-6 API 管理页面

步骤4 按下图所示,完成基本配置后,单击“下一步”。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 66

Page 70: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-7 API 基本配置

步骤5 在取数逻辑页面中,完成以下配置:

1. 如下图所示配置数据连接、数据库、表和队列,然后单击“添加”按钮。

图 9-8 配置连接参数

2. 在“添加参数”页面中,勾选vendor_id字段后的“请求参数”复选框,勾选“返回参数”前的复选框返回所有字段,然后单击“确定”。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 67

Page 71: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-9 添加参数

3. 在请求参数中“绑定参数”选择vid字段来绑定字段vendor_id,操作符选择“=”后,单击“下一步”。

图 9-10 绑定参数

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 68

Page 72: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

步骤6 在测试页面,输入vid的值1后,单击“开始测试”按钮,测试API是否OK。

图 9-11 测试接口

步骤7 如果在页面左侧的响应中返回“200 Success”说明测试成功。测试成功后,单击“确定”按钮。

图 9-12 测试成功

步骤8 返回“API管理”页面后,在API列表中找到刚才创建的API,单击其所在行的“更多 >发布”,提交该API的审核。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 69

Page 73: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-13 发布 API

步骤9 请联系审核人员审核API,等待审核通过。审核通过后,API就创建成功了。

----结束

审核人员审核 API

如果您是审核人员,请参考以下步骤审核API。如果API是审核人员新建和发布的,则API发布后无需审核,您可以跳过这个步骤。

步骤1 使用审核人员账号,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“更多 > 数据服务”,进入数据服务页面。

图 9-14 空间管理

步骤2 单击左侧导航栏中的“审核中心”,进入相应页面后,选择“待审核”页签。

步骤3 在列表中找到需要审核的对象,然后在该对象所在行单击“审核”按钮。

图 9-15 审核

步骤4 选择审核结果,输入审核意见,然后单击“确认”完成审核。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 70

Page 74: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-16 确认审核

----结束

添加授权

步骤1 使用开发者角色的用户,登录DAYU控制台。找到已创建的DAYU实例,单击实例卡片上的“进入控制台”。然后选择“空间管理”页签,在工作空间列表中,找到已创建的工作空间,单击“更多 > 数据服务”,进入数据服务页面。

图 9-17 空间管理

步骤2 单击左侧导航栏的“应用管理”,然后单击“新建”按钮,在弹出框中输入应用名称,单击“确定”完成应用的创建。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 71

Page 75: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-18 新建应用

步骤3 单击左侧导航栏的“API管理”,在API列表中,找到刚才新建的API,单击其所在行的“查看授权”。

图 9-19 查看授权

步骤4 单击“授权”按钮,并在弹出框中设置截止时间,选择刚才新建的应用,然后单击“确认授权”。

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 72

Page 76: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-20 添加授权

步骤5 完成授权后,可以单击“调试”按钮,并在测试页面输入参数的测试值,单击“开始测试”验证API是否正确。

----结束

调用 API数据服务提供APP认证方式,API调用者通过APP认证方式调用API。使用APP认证时,需要通过SDK访问。数据服务提供了基于Java、Go、Python、JavaScript、C#、PHP、C++、C、Android等多种语言的SDK包。本示例以Java SDK为例说明如何调用API。

步骤1 在数据服务页面,单击左侧导航栏的“SDK”,然后下载Java SDK。

图 9-21 下载 SDK

步骤2 解压SDK包,并在Eclipse中导入SDK工程。导入成功后,打开main.java文件,修改如下图红框所示的内容:

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 73

Page 77: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

图 9-22 修改 main.java

如下参数分别设置AppKey和AppSecret,可参考图9-23进行获取。

request.setKey("eb605ff134ed44e1b0dc2ea6bd3d9657"); // Modifying the setKey function's input value to the Appkey of the applicationrequest.setSecret("cc5074666e214acfaa418755f04171d4");// Modifying the setSecret function's input value to the AppSecret of the application

图 9-23 查看 AppKey 和 AppSecret

如下参数设置API的ID和URL,可参考图9-24进行获取。

request.setUrl("http://2798ffb980054e5db4a4ee4b3ab09272.apigw.cn-north-1.huaweicloud.com/TaxiTripData/1"); // URL in API details in the Service Market.request.addHeader("x-api-id","afbdc5a3b338f423cee29b07cd3dcdec");// ID in API details in the Service Market.

图 9-24 查看 ID 和 URL

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 74

Page 78: 快速入门 · 2019-12-14 · dayu使用流程简介 dayu典型的端到端数据运营流程如下图所示: 表1-1 dayu数据运营流程 主流程 说明 子任务 操作指导

以下两个参数,请设置为以下值:

Header[] authorization = signedRequest.getHeaders("Authorization");signedRequest.addHeader("x-Authorization",authorization[0].getValue());

由于API获取的数据量有限,默认情况下会返回500个数据。如果想获得500条以上的数据,则需要使用分页方法获取,分页设置示例如下:

request.addQueryStringParam("page_size", "100"); // The size of the data obtained per page request.addQueryStringParam("page_num", "1"); // Get the data on which page

步骤3 配置完成后,运行程序,并查看结果:

图 9-25 运行 API

----结束

智能数据湖运营平台 DAYU快速入门 9 步骤 8:数据服务 API 开发

文档版本 02 (2020-03-16) 版权所有 © 华为技术有限公司 75