业界动态
Python爬虫入门教程,这才是小白都能懂的爬虫教程
2024-11-19 02:57

关于爬虫是什么,怎样保证爬虫的合法性小编在这就不再过多的阐述,从本章起,小编将和大家一起分享在学习python爬虫中的所学,希望可以和大家一起进步,也希望各位可以关注一下我! 首先我们来初步了解下如何使用开发者工具进行抓包。以 https://fanyi.baidu.com/ 为例。在网页界面右键点击检查,或使用CTRL+SHIFT+I打开。 Python爬虫入门教程,这才是小白都能懂的爬虫教程

Python爬虫入门教程,这才是小白都能懂的爬虫教程

如图打开了开发者工具后我们点击网络得到如上界面。接着按照提示按CTRL+R进行刷新。刷新后如下图所示Python爬虫入门教程,这才是小白都能懂的爬虫教程

此时我们即可看到我们获取到了很多很多的数据包,但是想要完成一个爬虫程序的第一步就是在这众多的包中,找到正确的API数据接口。通俗点将就是你想要获得一个小球,而这个小球藏在一个小箱子里,而此时有很多很多个小箱子,想要获得小球则需要找出小球究竟藏在哪个箱子里。一般在实际操作中我们只需要使用到上图小编圈出来的两个地方,一个是全部、另一个是Fetch/XHR。在全部中会显示所有请求获取到的包其中包括:网页源码、css、js、图片、ajax等。而在Fetch/XHR中则只能看到ajax请求所获得的数据包。ajax请求一般是对动态数据进行请求,即前端向后端发起请求,动态请求到后端数据库中的数据,并将这些数据展示在前端网页中。(可能会感觉听起来云里雾里,没关系哦,后面根据一个一个的例子可以更好的了解,或者小编以后更新django框架时会细讲ajax请求

接下来我们进入爬虫的第一个程序(百度翻译的单词爬虫)

在百度翻译中我们可以输入一个单词,然后网页会动态的在界面上给我们展示这个单词的意思,因此我们可以非常非常非常自信的确定,单词意思的数据是通过动态请求得到的,既然说动态请求得到的,那么又可以确定这八成就是一个ajax请求。因此我们选中Fetch/XHR。 Python爬虫入门教程,这才是小白都能懂的爬虫教程

根据观察此时看到Fetch/XHR中只有这三个数据包,但点开查看其响应(即返回值)时确发现好像没有我们需要的数据。这个什么呢,不必慌张,因为我们并还没有在左边输入单词的框中输入过单词,于是我们可以在左边随意的输入一个英文单词进行测试Python爬虫入门教程,这才是小白都能懂的爬虫教程

当我们输入完一个单词后发现,右边又抓到了很包,对这些抓到的包进行分析可以找到如下这个数据包Python爬虫入门教程,这才是小白都能懂的爬虫教程

Python爬虫入门教程,这才是小白都能懂的爬虫教程

Python爬虫入门教程,这才是小白都能懂的爬虫教程

由上述三种图可以看出,这个包中就藏着我们想要的数据。通过查看该包的标头可以确定,请求数据的请求URL是:https://fanyi.baidu.com/sug,且发起的请求方式为POST,且根据Content-Type: application/json可以得出请求的返回值为json格式,在payload中可以分析出该POST请求需要携带一个名为kw的参数,参数的值为我们需要查询的单词。这时我们即可以弄清楚该网站查询单词的运行机制了:我们在查询框中输入英文单词,网页前端拿到我们输入的单词,通过ajax请求向https://fanyi.baidu.com/sug发起请求,并将我们输入的英文单词作为表单数据传输给后端,后端根据我们输入的单词在数据库中查询该单词,拿到该单词的意思然后再次返回给前端并展示出来。接下来就进入令人激动的coding代码部分。

代码部分 1、安装requests包(在cmd命令行中输入以下语句进行自动下载安装前提需要电脑上已经装有python且配置了环境变量

 

Python爬虫入门教程,这才是小白都能懂的爬虫教程

2、导入requests包并确定url

 

3、进行UA伪装

 

UA伪装:可以理解为将我们的爬虫程序伪装起来,增加请求成功的可能性。 Python爬虫入门教程,这才是小白都能懂的爬虫教程

只需在数据包的标头中,拉到最下面,即可以找到这个User-Agent,将其复制下来,像小编一样在python用字典进行封装即可。 4、确定参数,并对数据接口发起请求获得返回结果

 

结果如下Python爬虫入门教程,这才是小白都能懂的爬虫教程 至此一个最最最简单的爬虫程序就写完了,是不是很简单!接下来我们对程序进行完善,所有代码如下

 

Python爬虫入门教程,这才是小白都能懂的爬虫教程

这样一个简单的基于爬虫的单词查询器就完成啦!其中对json数据进行提取的代码如果有看不懂的小伙伴可以去学习一个python的字典。 希望该文章可以帮助到你!如果觉得有用可以关注一下我哦!后序会写更多的例子。

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析学习等教程。带你从零基础系统性的学好Python

    以上就是本篇文章【Python爬虫入门教程,这才是小白都能懂的爬虫教程】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/604.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
002187,异动、拉升、涨停!
今日早盘,A股市场整体横盘震荡。医药、汽车板块出现调整,拖累创业板指走弱。银行股再现升势,带动沪指相对强势。A股主要股指早
今日道历 | 每日一道
每日一道福生無量天尊道历四七二一年甲辰年 十二月二十日不联系,就不要傻傻惦记有些人,心变了,就不要强求;有些人,离开了,
1月22日行业要闻早餐
国际 动 态1、商务部征求对澳大利亚贸易政策审议关注和评论根据世贸组织贸易政策审议机构工作安排,世贸组织对澳大利亚第九次贸
西安油价最新调整(1月16日24时)
点击↑上方蓝字在菜单栏戳【微信办事】【今日特惠】【春节|灯会】获取你想看的内容各位准备加油的车主注意啦新一轮油价调整已经
确认了!今晚涨价!
  国家发改委刚刚发布!  根据近期国际市场油价变化情况  按照现行成品油价格形成机制  自2025年1月2日24时起  国内汽
今晚24时,油价上调!附长春最新油价
新一轮油价调整又来了!今晚24时,油价上调!长春最新油价公布一起来了解下2025年1月2日国内成品油价格按机制调整根据近期国际市
阳江华涛不锈钢管
10月10日,丽水市生态环境局松分局受理受理关于浙江科艺特种管业年产230万米超洁净、80万件超洁净件新材料项目环评文件并对外进
金价涨了
  周二,美国总统特朗普就职首日发表的贸易言论以及采取的行动,比市场最初预期的要温和,可以说是让华尔街“松了一口气”,美
玉溪奔驰GLE年末降价狂欢!优惠16万,今日钜惠
【汽车之家玉溪优惠促销频道】目前正在进行优惠促销活动,玉溪地区的消费者可以享受到高达16万元的优惠。当前,奔驰GLE的最低起