文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

m3e69

https://sicmodule.kub2b.com/comm3e69/

相关列表
文章列表
  • 暂无文章
推荐文章
六十五、Spark-综合案例(搜狗搜索日志分析)
发布时间:2024-12-20        浏览次数:0        返回列表

搜狗实验室搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料

目录

原数据展示

业务需求

业务逻辑

分词工具

Maven依赖

代码实现

效果展现


搜狗搜索日志官网http://www.sogou.com/labs/resource/q.php

迷你版日志下载链接http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.mini.zip

         注:由于进行测试使用,迷你版数据就可以满足需求

原数据展示

        注:原数据存在10000条 ,字段分别为:访问时间 用户ID [查询词] 该URL在返回结果中的排名 用户点击的顺序号   用户点击的URL

业务需求

需求说明 对SougouSearchLog进行分词并统计如下指标:

  1. 热门搜索词
  2. 用户热门搜索词(带上用户id)
  3. 各个时间段搜索热度

 

业务逻辑

业务逻辑针对SougoQ用户查询日志数据中不同字段,使用SparkContext读取日志数据,封装到RDD数据集中,调用Transformation函数和Action函数进行处理不同业务统计分析

分词工具

HanLP官网http://www.sogou.com/labs/resource/q.php

 

         HanLP主要功能基于HanLP最新技术,使用亿级通用语料库训练,直接API调用,简单高效

Maven依赖

 

HanLP入门案例

 
 

控制台打印效果

 

代码实现

 

效果展现

         注:对SougouSearchLog进行分词并统计出了如下指标,热门搜索词,用户热门搜索词(带上用户id),各个时间段搜索热度,此效果与预期想法基本一致