ODPS(MaxCompute)基础教程

ODPS(MaxCompute)基础教程,第1张

1. 什么是ODPS

简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。

本命其实叫 MaxCompute ,本文介绍统称为ODPS 

官方文档链接: https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.542.17ae65d4wAeKXV

DataWorks 开发套件

是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。

官方文档链接: https://help.aliyun.com/document_detail/73015.html?spm=a2c4g.11186623.2.13.5ef65b9cBmTZdQ#concept-wqv-qbp-r2b

2. 登录篇(阿里云子账号)

子账号登录地址: https://signin.aliyun.com/login.htm

产品列表:数加 · DataWorks

账号赋权:如需要进行数据开发,需要根据业务需求,赋对应缓枯握的工作空间的对应权限。

进入DataWorks> 扰庆工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)

2.使用篇

目前数据仓败尘库的整体概况

目前承载的业务

业务 *** 作日志备份分析

其他日志:系统运行日志

BI 数据分析相关(市场部BI)

开发前环境准备

开通DataWorks 权限的子账号

创建项目(1)

官方的文档: https://help.aliyun.com/document_detail/27815.html?spm=a2c4g.11186623.6.568.60d01df0XvZAoh

目前我们的工作空间

新建调度资源(2)

一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)

需要进行特殊的数据集成、数据 *** 作时会用到自定义资源

PyOdps 资源组:执行py脚本的资源组

mongoDB 资源组:进行MongDb -->ODPS 时会用到资源进行数据同步。

新增数据源(3)

路径:选择项目 ->选择数据集成 ->同步资源管理 ->数据源

按照官方文档新增即可

数据源列表

批量数据上云(4)

路径:选择项目 ->选择数据集成 ->同步资源管理 ->数据源 ->整库数据迁移

数据开发前准备工作完成,可以进入开发阶段。

3 开发篇

数据开发

基本概念:

业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。

解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。

其他的概念: https://help.aliyun.com/document_detail/73017.html?spm=a2c4g.11186623.6.543.3b757c78aHPhAD

数据开发流程:

数据开发流程:

选取两个现有的业务进行数据开发演示

财务部门需求

数据埋点分析

流程图如下

4 运维

运维中心:

命令格式如下:

其中,各字段代表含义如下:

• Owner(表的属主)。

• Project:纤州表所属的项目空间。

• CreateTime:创建时间。

• LastDDLTime:最后一次DDL *** 作时间。

• LastModifiedTime:表中昌含的数据最后一次被改动的时间。

• InternalTable:表示被描述的毁迅蔽对象是表,总是显示YES。

• Size:表数据所占存储容量压缩后的大小,压缩比一般为5倍,单位Byte。

• Native Columns:非分区列的信息,包括列名、类型和备注。

• Partition Columns:分区列信息,包括分区名、类型和备注。

• Extended Info:外部表StorageHandler 、Location等信息。

SQL语句查询时,可使用的关键字:

命令格式如下:

如果需要整个项目都允许全表扫描,可以通过开关自行打开或关闭(true/false),命令如下:

查询的对象是另外一个Select *** 作,如:

UNION ALL:将两个或多察纤答个Select *** 作返回的数据集联合成一个数据集,如果结果有重复行时,会返回所有符合条件的行,不进行重复行的去重败慧处理。

UNION [DISTINCT]:其中DISTINCT可忽略。将两个或多个Select *** 作返回的数据集联合成一个数据集,如果结果有重复行时,将进行重复行的去重处理。

UNION ALL示例如下:

UNION示例如下:

--执行的效果相当于

left join:左连接,会从左表(shop)中返回所有的记录,即使在右表(sale_detail)中没有匹配的行。

right outer join:右连接,返回右表中的所有记录,即使在左表中没竖散有记录与它匹配。

示例如下:

full outer join:全连接,返回左右表中的所有记录。

示例如下:

inner join:在表中存在至少一个匹配时,inner join返回行。关键字inner可省略。

命令格式如下:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/bake/11979852.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存