使用工具:Fiddler+基础爬虫
官方网站:https://www.telerik.com/fiddler
网页基本都会爬了,现在开始要想想如何去爬手机app里的内容了,爬取手机内容的方式也有很多,今填就介绍一个比较简单的组合,使用Fiddler+基础爬虫的形式来爬取,主要的案例就是来爬取知乎app内的热榜内容。
首先简单的介绍一下一些网站以及一些手机app的原理,很多网站和手机app基本都是先把架子写好,然后往架子里填充数据,然而这些数据基本都是通过手机app或者网站向服务器发起请求,之后服务器返回json或者xml数据,然后网站或者手机app对数据进行解析到各个地方。之前我写过的一个微信小程序经纬我查查就是通过这种方式来操作的,通过小程序获取用户当前的地址,之后将地址传到服务器进行坐标转换再将结果传回解析到相应的位置。
1.设置Fiddler
先去官方网站下载一个fiddler,具体怎么下载就不说了,下边直接开始说关于如何设置的问题。
2.对手机进行设置
我拿了一个iphone举例子,android机的操作也是类似的,找到无线局域网点圈的位置,android是记入高级设置(要确保计算机和手机在同一局域网内)。
3.抓包
打开fiddler之后,在手机上打开知乎app,之后在fiddler内会出现很多http连接
GET https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0
200 OK (application/json)
掐头去尾就得到了api的网址
https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0
拿到网址之后赶紧放到浏览器里试一下看看有什么收获
开始写爬虫
5.总结
这个案例拆分之后可以作为爬取知乎热榜练习,爬取手机app内的信息唯一的好处就是不需要去管什么反爬措施,如果直接通过web网页去爬这个热榜就涉及到登录等相关问题。本案例算是一个比较简单的爬取app内信息的实战。fiddler的作用非常大,在遇到反爬做的比较好的网站也可以使用fiddler进行分析各种传送的参数,在写爬虫的时候fiddler是一个非常实用的工具。
下面宣传一下自己的公众号:Bert的理想国,关于爬虫实战案例从 requests到selenium最后到scrapy框架以及scrapy-redis。