搜狗实验室:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料
目录
原数据展示
业务需求
业务逻辑
分词工具
Maven依赖
代码实现
效果展现
搜狗搜索日志官网:http://www.sogou.com/labs/resource/q.php
迷你版日志下载链接:http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.mini.zip
注:由于进行测试使用,迷你版数据就可以满足需求
原数据展示
注:原数据存在10000条 ,字段分别为:访问时间 用户ID [查询词] 该URL在返回结果中的排名 用户点击的顺序号 用户点击的URL
业务需求
需求说明: 对SougouSearchLog进行分词并统计如下指标:
- 热门搜索词
- 用户热门搜索词(带上用户id)
- 各个时间段搜索热度
业务逻辑
业务逻辑:针对SougoQ用户查询日志数据中不同字段,使用SparkContext读取日志数据,封装到RDD数据集中,调用Transformation函数和Action函数进行处理不同业务统计分析
分词工具
HanLP官网:http://www.sogou.com/labs/resource/q.php
HanLP主要功能:基于HanLP最新技术,使用亿级通用语料库训练,直接API调用,简单高效!
Maven依赖
HanLP入门案例
控制台打印效果
代码实现
效果展现
注:对SougouSearchLog进行分词并统计出了如下指标,热门搜索词,用户热门搜索词(带上用户id),各个时间段搜索热度,此效果与预期想法基本一致