当前位置: 首页> 科技> 名企 > 大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

时间:2025/7/17 16:06:58来源:https://blog.csdn.net/Blueeyedboy521/article/details/139737502 浏览次数:2次

目录

  • 参考
  • 业务需求
  • 数据介绍
  • 处理数据
  • 导入数据
    • 创建表
    • 导入数据
    • 查询前10条数据
    • 查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列
    • 分析链接排名与用户点击的相关性
    • 分析一天中上网用户最多的时间段
    • 查询同一个域名用户的点击数量最高的前10个

参考

https://www.bilibili.com/video/BV1qC4y1Y7ye?p=74&spm_id_from=pageDriver&vd_source=2030c834d24fc054a345b6d54b05edbe)

业务需求

使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Hive,将数据封装到RDD中
进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php

  • 查询前10条数据
  • 查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列
  • 分析链接排名与用户点击的相关性
  • 分析一天中上网用户最多的时间段
  • 查询同一个域名用户的点击数量最高的前10个

数据介绍

1)、数据介绍:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页
查询需求及用户点击情况的网页查询日志数据集合。
2)、数据格式
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
在这里插入图片描述

处理数据

(2)将数据文件 SogouQ.reduced 的编码改为“utf-8”,然后保存。
(3)将文件 SogouQ.reduced上传到 Hive 所在服务器,例如上传到目录home/hadoop.进入数据文件所在目录,执行以下命令,将文件中的制表符和空格全部替换为英文逗号

$ sed -i "s/\t/,/g" SogouQ.reduced
$ sed -i "s/ /,/g" sogouQ.reduced

上述命令解析:

//替换掉ile文件所有的字符串
sed -i 's/原字符串/新字符串/g' file

(4)查看文件的前10条数据

head -10 SogouQ.reduced

导入数据

创建表

hive > create table activelog(time String, user_id string, keyword string, page_rank int ,click_order int ,url string)
> row format delimited fields terminated by ',';

导入数据

hive> load data local inpath '/opt/data/SogouQ.reduced' into table activelog;

查询前10条数据

查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列

hive> select user id,count(*)as num from activelog
> group by user id
> order by num desc
> limit 10;

分析链接排名与用户点击的相关性

select page_rank,count(*) as num from activelog
group by page_rank order by num desc
排名 点击次数
1 5645
2 4578
3 3242

由此可见,排名靠前的,点击次数越多

分析一天中上网用户最多的时间段

只需要时间段和访问量

select substr(time,1,2),count(*)as num from activelog group by substr(time,1,2) order by num desc limit 10:

查询同一个域名用户的点击数量最高的前10个

select substr(url,1,instr(url,"/")-1) hostname, count(*) num from activelog
gourp by substr(url,1,instr(url,"/")-1)
order by num desc
limit 10;
关键字:大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: