38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)

日期：2024-11-10 作者：izped caijiyuan 评论：0 移动：http://changmeillh.kub2b.com/news/301.html

核心提示：概述对于上述的工作，我们发现需要手动去写hql语句从而完成离线数据的ETL，但每天都手动来做显然是不合适的，所以可以利用hive

概述对于上述的工作，我们发现需要手动去写hql语句从而完成离线数据的ETL，但每天都手动来做显然是不合适的，所以可以利用hive的文件调用与占位符来解决这个问题。

38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hba<em></em>se)

Hive文件的调用实现步骤： 1）编写一个文件，后缀名为 .hive，比如我们现在我们创建一个01.hive文件目的是在 hive的weblog数据库下，创建一个tb1表

01.hive 文件编写示例：

2）进入hive安装目录的bin目录执行：注：-f 参数后跟的是01.hive文件的路径

3）测试hive的表是否创建成功

Hive占位符的使用我们现在想通过hive执行文件，将 "tb1"这个表删除则我们可以这样做

1）创建02.hive文件编写示例：

2）在bin目录下，执行：

结合业务的实现在hive最后插入数据时，涉及到一个日志的分区是以每天为单位，所以我们需要手动去写这个日期，比如 2017-8-20。

现在，我们学习了Hive文件调用和占位符之后，我们可以这样做

1）将hql语句里的日期相关的取值用占位符来表示，并写在weblog.hive文件里编写示例：

2.在hive 的bin目录下执行：

对于日期，如果不想手写的话，可以通过linux的指令来获取：

所以我们可以这样来执行hive文件的调用： date “+%G-%m-%d” (注：是键盘左上方的反引号）也可以写为：

Linux Crontab 定时任务在工作中需要数据库在每天零点自动备份所以需要建立一个定时任务。 crontab命令的功能是在一定的时间间隔调度一些命令的执行。

可以通过 crontab -e 进行定时任务的编辑

crontab文件格式：

minute hour day month week command 分时天月星期命令在这里插入图片描述

每隔1分钟，执行一次任务编写示例：

每隔一分钟，删除指定目录的 1.txt文件

实现步骤： 1.启动zk集群 2.启动kafka集群指令： 3.配置flume的agent

配置示例：

启动 4.创建kafka的topic 执行：

5.创建kafak的consumer，测试是否能够收到消息执行： 6.执行测试：访问页面——>flume——>kafka

实现步骤：

Storm业务处理说明数据清洗：去除多余的字段只保留有用的字段并且对于ss字段做拆分 url、urlname、uvid、ssid、sscount、sstime、cip

WebLogTopology代码：

PrintBolt代码：

标签： 项目网站统计

更多>同类最新资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐最新资讯

点击排行