各位老铁好,现如今移动端抓取数据是一种趋势化,今天我以抓取移动端搜狐视频为例向大家做一个抓取移动端数据的示例
1.首先下载Fiddler抓包工具:
链接: https://pan.baidu.com/s/1_3l6POqbRFoQjJT02YQ8DQ 提取码: d4n2 复制这段内容后打开百度网盘手机App,操作更方便哦
2.下载夜神浏览器:
链接: https://pan.baidu.com/s/1PTitEggSY26KsTSHi8Q9-w 提取码: dtzu 复制这段内容后打开百度网盘手机App,操作更方便哦
3.下载好工具后做配置:
4.打开Fiddler抓包工具
5.打开夜神浏览器
6.点击搜狐新闻安装包
7.点击推荐(点击之前先将Fiddler抓包工具清除所有抓到的数据包,Remove All)
8.获取到动态加载的数据
9.新闻内容url的获取
for i in list:
'https://api.k.sohu.com/api/news/v5/article.go?' + i['link'].split('://')[1]
10.获取图片的时候需要注意视频图片
11.找到视频新闻的内容url
12.访问视频新闻的url,获取到图片的真是url
'https://api.k.sohu.com/api/news/v5/article.go?' + i['link'].split('://')[1]
13.爬取过程中,或得到的视频新闻图片数据是
data-thumbnail="https://media-platform.bjcnc.img-internal.sohucs.com/images/20190411/a42212a334e443d18f7ed70fa009fcff.jpeg"
所以需要我们做一个replace替换
以上便是我爬取过程中遇到的问题
代理IP
数据库
爬虫
UA