商务服务
38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)
2024-11-10 09:52

概述 对于上述的工作,我们发现需要手动去写hql语句从而完成离线数据的ETL,但每天都手动来做显然是不合适的,所以可以利用hive的文件调用与占位符来解决这个问题。

38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hba<em></em>se)

Hive文件的调用 实现步骤: 1)编写一个文件,后缀名为 .hive, 比如我们现在我们创建一个01.hive文件 目的是在 hive的weblog数据库下,创建一个tb1表

01.hive 文件编写示例:

 

2)进入hive安装目录的bin目录 执行: 注:-f 参数后跟的是01.hive文件的路径

3)测试hive的表是否创建成功

Hive占位符的使用 我们现在想通过hive执行文件,将 "tb1"这个表删除 则我们可以这样做

1)创建02.hive文件 编写示例:

 

2)在bin目录下,执行:

 

结合业务的实现 在hive最后插入数据时,涉及到一个日志的分区是以每天为单位,所以我们需要手动去写这个日期,比如 2017-8-20。

现在,我们学习了Hive文件调用和占位符之后,我们可以这样做

1)将hql语句里的日期相关的取值用占位符来表示,并写在weblog.hive文件里 编写示例:

 

2.在hive 的bin目录下执行:

 

对于日期,如果不想手写的话,可以通过linux的指令来获取:

 

所以我们可以这样来执行hive文件的调用: date “+%G-%m-%d” (注:是键盘左上方的反引号) 也可以写为:

 

Linux Crontab 定时任务 在工作中需要数据库在每天零点自动备份所以需要建立一个定时任务。 crontab命令的功能是在一定的时间间隔调度一些命令的执行。

可以通过 crontab -e 进行定时任务的编辑

crontab文件格式:

  •  

minute hour day month week command 分 时 天 月 星期 命令 在这里插入图片描述

 

每隔1分钟,执行一次任务 编写示例:

 

每隔一分钟,删除指定目录的 1.txt文件


实现步骤: 1.启动zk集群 2.启动kafka集群 指令: 3.配置flume的agent

 

配置示例:

 

启动 4.创建kafka的topic 执行:

 

5.创建kafak的consumer,测试是否能够收到消息 执行: 6.执行测试: 访问页面——>flume——>kafka


实现步骤:

  1. 创建java工程
  2. 导入storm依赖jar包、kafka依赖包、storm-kafka依赖包及相关依赖 在这里插入图片描述 3.移除重复的jar包 在这里插入图片描述 注意:删除1.75,留1.72的
  3. 开发代码

Storm业务处理说明 数据清洗: 去除多余的字段 只保留 有用的字段 并且对于ss字段做拆分 url、urlname、uvid、ssid、sscount、sstime、cip

WebLogTopology代码:

 

PrintBolt代码:

    以上就是本篇文章【38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/301.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
过年无忧 | 一键get这些春节话术!
一键Get这些春节话术~过年无忧新年快乐春节将至,年味渐浓在这温馨又热闹的节日氛围里我们既能品尝各式各样的美味佳肴沉浸于味
2025在新加坡生活的我们将迎来“至暗时刻”:房租飙涨、每个月入不敷出…
聚焦新加坡真是开年暴击!2025年刚开始,还没过新年呢,万事通就出了一身冷汗:今年又是一个物价涨涨涨的年份。在网上一搜“新加
太抽象!太抽象!2024年游戏行业简直太抽象!
年末,DataEye研究院今天整点活,轻松一波。——用数据、新闻盘点2024年国内游戏业有多抽象。回首2024年有产品研发8年烧了数亿,
TikTok会如何收场
TikTok的命运再次悬而不决。在美国下架12小时又恢复运营之后,1月20日,美国总统特朗普签署行政命令,要求TikTok「不卖就禁」法
今天上午10:00,成绩发布!
早安,东台!‍今天是2025年1月22日‍星期三(农历腊月廿三)大美东台,活力满满进取创新、奋斗拼搏最近有哪些新动态?和小东一
农村土地托管服务的理论基础
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
头上三尺有神明,每个人头顶都有一颗星,当星光消失人也就消失!
每当夜晚降临后,我们抬头看天空,会看到满天的星星,自古以来,人们从没有停止过对星象的观测和研究。古人观测星象,一则是为了
运营师抖音代运营
运营师抖音代运营:掌握流行短视频潮流的神奇职业短视频平台已经成为人们娱乐、学习和社交的重要方式。在众多的短视频平台中,抖
微短剧,2024年“最大赢家”? | 年终盘点
2024,短剧行业大变样。作者 | 张语格编辑 | 趣解商业文娱组“互联网大厂争相入局。”“98%的短剧制作方都在亏钱。”“用户被免
同类第一!20%弹性的人工智能 ETF 科创(588760)今日上市,一键布局科创板优质AI龙头
  最新公告内容显示,广发上证科创板交易型开放式指数投资基金(基金代码:588760;扩位简称: ETF 科创)已于 2025 年 1 月 1