4-网站日志分析案例-日志数据统计分析

4-网站日志分析案例-日志数据统计分析,第1张

4-网站日志分析案例-日志数据统计分析

文章目录
  • 4-网站日志分析案例-日志数据统计分析
    • 一、环境准备与数据导入
      • 1.开启hadoop
      • 2.导入数据
    • 二、借助Hive进行统计
      • 1.1 准备工作:建立分区表
      • 1.2 使用HQL统计关键指标
    • 总结

4-网站日志分析案例-日志数据统计分析 一、环境准备与数据导入 1.开启hadoop

如果在lsn等虚拟环境中开启需要先执行格式化

hadoop namenode -format

启动Hadoop

start-dfs.sh
start-yarn.sh

查看是否启动

jps
2.导入数据

将数据上传到hadoop集群所在节点

创建hdfs目录

hadoop fs -mkdir -p /sx/cleandlog

将数据上传到hdfs上,并重命名为log2015_05_30

hadoop fs -put /home/ubuntu/Code/part-r-00000 /sx/log2015_05_30
二、借助Hive进行统计 1.1 准备工作:建立分区表

HIVE
为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)

hive>CREATE EXTERNAL TABLE logtable (ip string, atime string, url string) PARTITIonED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' LOCATION '/sx/cleandlog';

建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150530这一天的日志进行分区)

hive>ALTER TABLE logtable ADD PARTITION(logdate='2015_05_30') LOCATION '/sx/cleanedlog/2015_05_30'; 

hive>LOAD DATA INPATH '/sx/log2015_05_30' INTO TABLE logtable PARTITION (logdate ='2015_05_30');
1.2 使用HQL统计关键指标

(1)关键指标之一:PV量

页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。这里,我们只需要统计日志中的记录个数即可,HQL代码如下:

hive>CREATE TABLE logtable_pv_2015_05_30 AS SELECt COUNT(1) AS PV FROM logtable WHERe logdate='2015_05_30';

select * from logtable_pv_2015_05_30;

(2)关键指标之二:注册用户数

该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。因此,这里我们只需要统计出日志中访问的URL是member.php?mod=register的即可,HQL代码如下:

hive>CREATE TABLE logtable_reguser_2015_05_30 AS SELECt COUNT(1) AS REGUSER FROM logtable WHERe logdate='2015_05_30' AND INSTR(url,'member.php?mod=register')>0;  

select * from logtable_reguser_2015_05_30;

(3)关键指标之三:独立IP数

一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可,在SQL中我们可以通过DISTINCT关键字,在HQL中也是通过这个关键字:

hive>CREATE TABLE logtable_ip_2015_05_30 AS SELECt COUNT(DISTINCT ip) AS IP FROM logtable WHERe logdate='2015_05_30';

select * from logtable_ip_2015_05_30 ;

(4)关键指标之四:跳出用户数

只浏览了一个页面便离开了网站的访问次数,即只浏览了一个页面便不再访问的访问次数。这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为跳出用户。将这些用户的数量相加,就得出了跳出用户数,HQL代码如下:

hive>CREATE TABLE logtable_jumper_2015_05_30 AS SELECt COUNT(1) AS jumper FROM (SELECt COUNT(ip) AS times FROM logtable WHERe logdate='2015_05_30' GROUP BY ip HAVINg times=1) e;

select * from logtable_jumper_2015_05_30 ;

PS:跳出率是指只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。这里,我们可以将这里得出的跳出用户数/PV数即可得到跳出率。

(5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL

为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:

hive>CREATE TABLE logtable_2015_05_30 AS SELECt '2015_05_30', a.pv, b.reguser, c.ip, d.jumper FROM logtable_pv_2015_05_30 a JOIN logtable_reguser_2015_05_30 b ON 1=1 JOIN logtable_ip_2015_05_30 c ON 1=1 JOIN logtable_jumper_2015_05_30 d ON 1=1;

select * from logtable_2015_05_30 ;

使用Sqoop导入到MySQL以及可视化展示部分不再介绍,详细可参考
https://www.cnblogs.com/edisonchou/p/4464349.html

总结

本文为网站日志分析案例的第4部分,基于MR清洗后的数据导入HIVE中,然后进行统计分析。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/zaji/5682109.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存