热门推荐
搜狗微信添加搜索工具爬虫
2024-12-21 15:20

前言

之前也有做过搜狗微信的爬虫,但是,在加入搜索工具的时候需要加入上一步的cookie,但是我们每次的cookie会有时效性。而且经常被封锁,这是一个很让人头疼的事情。就算使用了scrapy中的cookiejar也同样表现出了不稳定。而且还需要维持一个cookie池,就在我写cookie池代码的时候发现了这样的一个事情。实际上我们在请求搜索工具的时候是需要上一步的链接的,表名我们这一步是从哪一个页面过来的。Referer参数起着关键性的作用。

说明

当我们爬取搜狗微信时,往往是根据自己的关键字来爬去相关内容,同时,我们也需要通过搜狗微信自带的搜索工具来更加精准的获取我们需要的数据。

注意事项

1、从首页我们需要输入关键字才可以到达选择搜索工具的页面

2、添加过搜索工具的链接,是不能够粘贴出来再打开的(会回到首页

分析过程

1、在首页输入关键字,此时还没有加入搜索工具。

 2、加入搜索工具

 

可以看出这一步相对于上一步链接中主要的变化是tsn参数。

废话不说了,直接上干货。

通过对搜索工具这一步进行抓包

此时很惊讶的发现这两个链接和上面请求的链接是一样的。referer是不带搜索工具的,request url是带有搜索工具的链接。所以就突发奇想,是不是只是在每一次的请求中带有这个referer就可以访问了,果真如此。然后就可以就行爬取带有搜索工具的链接了。就不用使用cookie就可以完成。

使用scrapy的核心代码如下

 使用requests的核心代码如下

代码很凌乱,毕竟这个requests的代码是打草稿用的,不喜勿喷。

微信公众号:微分析下

    以上就是本篇文章【搜狗微信添加搜索工具爬虫】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/9992.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评