对于seo而言,关键词的排名对网站优化起到决定性作用,关键词排名情况,流量来源、以及同行的网站数据,都可以通过SEO来查询。常见的爱站站长工具,站长工具以及5118都是不错的网站。
当然现今比较全,以及用得比较广泛的就是5118!
从数据而言,以及功能上来看,5118是非常强大的!
有条件的话还是付费吧!
5118的反爬做的还是非常不错的!
需要登录才能采集,发现5118更新过一次!
比如登录账号需要经过滑块验证码的反爬限制,关键词指数等方面的数据都是图片加密的形式来展现,本渣渣头秃也是破解不来,怕了怕了。。
不过,有些数据还是可以拿来参考的!so,python搞起来!
我们来查询一个设计网站,设计癖的关键词情况
爬取网址:
https://www.5118.com/seo/baidupc/www.shejipi.com
不是付费会员的话,只能查看前一百页数据!
不少数据都是反爬限制,比较可惜!
虽然5118会员登录存在滑块验证码的情况,但是cookies登录还是非常好用的!
我们通过手动添加cookies来登录采集想要的数据。
几个关键点:
1、添加协议头
当然这是一个完整的协议头,有些可以删除的,可自行尝试!
2、zip函数的使用以及格式化数据处理
3、排名波动的情况处理
通过源码查询可知,green为排名上升,red为排名下降,这里写了判断来获取!
4、关键词数据写入csv
写了一个案例,以及找了两个参考案例
5、查询网站相关关键词数据写入excel表格
由于页码也是js生成,没有找到,所以页码自行输入吧!
输入查询网站网址格式为:www.xxx.com/cn 爬取后数据存储文件取用了主域名!
附完整代码: