- 通用网络爬虫(搜索引擎使用,遵守robopts协议)
robots协议:网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,通用网络爬虫需要遵守robots协议(君子协议)
查看网站的robots协议: https://www.baidu.com/robots.txt - 聚焦网络爬虫:自己写的爬虫程序
- 确定需要爬取的URL地址
- 由请求模块向URL地址发出请求,并得到网站的响应
- 利用解析模块从响应内容中提取所需数据
所需数据,保存
页面中有其他需要继续跟进的URL地址,则继续第2步去发请求,如此循环
代码举例:
结果:
User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36
结果:
静态爬取一般步骤:
结果:
相关操作一定要在法律允许的范围内进行!
如果你对Python感兴趣的话,可以试试我整理的这份Python全套学习资料,微信扫码免费领取
😝朋友们如果有需要的话,可以V扫描下方二维码免费领取🆓
二、Python基础学习
1. 开发工具
2. 学习笔记
3. 学习视频
三、Python小白必备手册
四、数据分析全套资源
五、Python面试集锦
1. 面试资料
2. 简历模板
以上就是本篇文章【python爬虫快速入门(零基础也看得懂)】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/18483.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多