Hive是什么，Hive与关系型数据库的区别_工具

全不同应用场景吧，HBase

速度比

Hive

快了不知道多少。HBase

是非关系型数据库（KV型），

对

key

做索引，查询速度非常快（相比较

Hive

），适合实时查询；而Hive是关系型数据结构，适合做后期数据分析。和单机的MySQL，Oracle比较的话，Hive的优点是可以存储海量数据，只是查询速度比较慢。

当遇到存在以下划线开头的字段的表时，例如“_c1”，如图所示

常规的无引号字段查询会报错，如图所示：

所以在Hive中使用SQL语句时，查询 *** 作最好将字段用“`”引用起来，避免查询以下划线开头字段的时候出现错误。

目标：

1、掌握hive基础语法、常用函数及其组合使用

2、掌握一些基本业务指标的分析思路与实现技巧

1）某次经营活动中，商家发起了“异性拼团购”，试着针对某个地区的用户进行推广，找出匹配用户。

注意：如果该表是一个分区表，则where条件中必须对分区字段进行限制

2）选出在2018年12月31日，购买的商品品类是food的用户名、购买数量、支付金额

3）试着对本公司2019年第一季度商品的热度与价值度进行分析。

"2019年一月到三月，每个品类有多少人购买，累计金额是多少"

GROUP BY HAVING（分类汇总过滤）

4）找出在2019年4月支付金额超过5万元的用户，给这些VIP用户赠送优惠券

5）2019年4月，支付金额最多的TOP5用户

查看Hive中的函数：show functions；

查看具体函数的用法：1）desc function 函数名；2）desc function extended函数名；

6）

7）用户的首次激活时间，与2019年5月1日的日期间隔。

datediff(string enddate,string startdate):结束日期减去开始日期的天数

拓展:日期增加函数（增加天数）、减少函数（减少天数） —— date_add、date_sub（类型要是string类型的）

date_add（string startdate,int days)、date_sub（string startdate,int days)

case when 函数

8）统计以下四个年龄段20岁以下、20-30岁、30-40岁、40岁以上的用户数

case when 的时候不用加group by，只有在聚合函数的时候才需要group by

if 函数

9）统计每个性别的用户等级高低分布情况（假设level大于5为高级，注意列名不能使用中文的）

10）分析每个月都拉新情况

substring(stringA,INT start,int len),substr(stringA,INT start,int len)，截取起始位置和截取长度

extra1需要解析json字段，然后用$key取出想要获取的value;

extra2使用的是中括号加引号的方式进行字段提取和分组；

两种写法要看字段类型的不同采取不同的方式

11）求不同手机品牌的用户数

12）ELLA用户的2018年的平均每次支付金额，以及2018年最大的支付日期和最小的支付日期的间隔

13）2018年购买的商品品类在两个以上的用户数

步骤总结：

1、先求出每个人购买的商品品类书

2、筛选出购买商品品类书大于2的用户

3、统计符合条件的用户有多少个

14）用户激活时间在2018年，年龄段在20-30岁和30-40岁的婚姻情况分布

步骤总结：

1、先选出激活时间在2018年的用户，并把他们所在的年龄段计算好，并提取出婚姻状况；

如何select后面没有进行聚合，则可以不用使用group by，直接使用where进行过滤就可以；

2、取出年龄段在20-30岁和30-40岁的用户，把他们的婚姻状况转义成可理解的说明；

3、聚合计算，针对年龄段，婚姻状况的聚合

以上就是关于Hive是什么，Hive与关系型数据库的区别全部的内容，包括:Hive是什么，Hive与关系型数据库的区别、Hive SQL中关于反引号的使用、HiveSQL核心技能之常用函数等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/sjk/10185129.html

Hive是什么，Hive与关系型数据库的区别

发表评论

评论列表（0条）