最新动态
【Python从零到壹】学习Python爬虫前,你需要先掌握这些内容
2025-01-03 02:03

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Python知识点,真正体系化

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

正文

在http协议中定义了8中请求方式,常见的是get和post请求

get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。

请求的时候关注

  • url

  • 请求方式

  • 请求头

post请求: 向服务器发送数据(登陆,上传文件等,会对服务器资源产生影响的时候,会使用post请求。

不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。

常见的请求头参数

http协议中,向服务器发送一个请求,数据分为三部分

  • 把数据放在url中

  • 数据放在body中(post请求

  • 数据放在head中

常见的请求头参数

  • user-agent :浏览器名称

  • referer: 当前这个请求从哪个url过来的

  • cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。

常见的相应状态码

  • 200 请求正常,服务器正常返回数据

  • 301 永久重定向

  • 404 请求的url在服务器上找不到

  • 418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据

  • 500 服务器内部错误,可能是服务器出现了bug

HTTP的请求相应过程

使用浏览器进行网站分析

我们要分析的网站为: movie.douban.com

  • Elements: 用于分析网站的结构

    在页面上的呈现的内容,在Elements都会有相应的元素。

  • Console: 这里会打印招聘信息,警告等等。
  • Sources

  • Network : 在显示页面的时候,产生的所有请求

    headers 头部信息

session 与cookie

session代表的是服务器和浏览器的一次会话过程

👉一、Python所有方向的学习路线

👉二、Python必备开发工具

👉 四、实战案例

👉五、Python练习题

👉六、面试资料

👉因篇幅有限,仅展示部分资料,这份完整版的Python全套学习资料已经上传

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长
需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python
[外链图片转存中…(img-KrirRTEV-1713427436434)]

    以上就是本篇文章【【Python从零到壹】学习Python爬虫前,你需要先掌握这些内容】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/18285.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评