业界动态
2024年Python爬虫:一些常用的爬虫技巧总结_python爬虫常用的技术(1)
2025-01-01 04:43

爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

1、基本抓取网页

get方法

 

post方法

 

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP

在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段

 

3、cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.

代码片段

 

关键在于cookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对cookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

手动添加cookie

 

4、伪装成浏览器

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况

对有些 header 要特别留意,Server 端会针对这些 header 做检查

  1. User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request
  2. Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下

 

5、页面解析

对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址

正则表达式入门:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表达式在线测试:http://tool.oschina.net/regex/

其次就是解析库了,常用的有两个lxml和BeautifulSoup,对于这两个的使用介绍两个比较好的网站

lxml:http://my.oschina.net/jhao104/blog/639448

BeautifulSoup:http://cuiqingcai.com/1319.html

对于这两个库,我的评价是,都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;lxmlC语言编码,高效,支持Xpath

6、验证码的处理

对于一些简单的验证码,可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码,比如12306,可以通过打码平台进行人工打码,当然这是要付费的。

7、gzip压缩

👉一、Python所有方向的学习路线

👉二、Python必备开发工具

👉 四、实战案例

👉五、Python练习题

👉六、面试资料

👉因篇幅有限,仅展示部分资料,这份完整版的Python全套学习资料已经上传

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

    以上就是本篇文章【2024年Python爬虫:一些常用的爬虫技巧总结_python爬虫常用的技术(1)】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14135.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
为什么现在人们都在做自媒体,真的能挣到钱吗?还是别的原因呢?
只有极少一部分人能挣到钱,连百分之一也不到。一个月你能挣到100块钱,你已经算是出类拔翠的了。许多人忙了整整一年,也很有可
TikTok闯关,小红书躺赢?
这年头,谁人不为流量发愁。两家不同风格的社交平台,正因此陷入各自的应战状态。1月14日,来自TikTok难民的泼天的流量,正在疯
盐城城南新区热搜小区榜:万科悦达·翡翠云台为何成用户心头好?
在当前房地产市场风起云涌的背景下,每一个小区的热搜情况都将映射出购房者的心理和市场趋势。上周(1月13日-1月19日),盐城城
AI智能体:天工AI,解放双手,高效写作
#### 二、解放双手,高效创作的秘密武器在快节奏的工作和生活中,时间是最宝贵的资源。天工AI通过自动化处理大量重复性劳动,如
2024年度榜单TOP20|聚焦三大领域两大人群
2024年,发现报告平台累计更新了817,467篇报告,3,934,125条数据,156个报告专题;大家在发现报告共搜索了17,764,708次,其中AIG
致欧科技进驻小红书:如何借助年轻消费趋势重塑品牌形象
在当今消费市场,年轻人正在引领潮流,尤其是在社交媒体平台如小红书上,他们的影响力不容小觑。金融界在1月20日的报道中提到,
抖音移动营销推广-抖音推广营销广告
在当今数字化时代,移动营销推广已成为企业拓展市场、提升品牌知名度和增加销售额的重要手段,而抖音,作为全球(黑帽seo)的短视
经验总结“微信链接拼三张开挂技巧辅助器工具”分享装挂详细步骤
尊敬的微信链接拼三张游戏爱好者们,你是否曾经在游戏中遇到过难以逾越的关卡、强大的对手,或是一直无法获得胜利而感到沮丧?现
小红书用户画像深度解析:90后女性主导,Z世代与都市潮人引领潮流
小红书增长迅速,月活跃用户数高达2亿,创作者数量超过4300万。用户群体画像鲜明,对于想要在小红书上开展运营的新手来说,这具
2025年第3周:食品饮料行业周度市场观察
食品丨市场观察 本周看点: -食品饮料2024 “健康”成为胜负手; -六大类目,谁是2024市场份额增长TOP5? -2025年食饮营销有哪些