业界动态
3天时间速成Python并爬取公众号文章,我是如何做到的?
2024-12-16 23:43

通过这篇文章,我想和你分享,

1)我的思考过程

2)我的完整爬虫过程

文末附微信公众号文章下载工具

1.

为什么我能够把这件事做成?

其实是因为做对了两个维度的努力

1)做对的事情

2)把事情做对

这两个维度本质上是一个关于面积的计算:

把事做成=做对的事情 x 把事情做对

我相信这些小伙伴一定没好好学过概率论,因为假如一件事情成功的概率是20%,只要能持续重复14次,就可以把这件事情成功的概率提高到95%。

推导过程如下:

做一次失败的概率为:1-20%=80%=0.8

重复做n次至少有一次成功的概率是95%,就相当于重复做n次每一次都不成功的概率是5%,

重复做n次都不成功:80%^n=1-95%=5%=0.05

n=log(0.8,0.05)=13.42

所以重复做13.42次,你成功的概率能达到95%。

所以正确事情重复做,大概率是会成功的。

下面就来和你分享一下我的解题过程:

所以正确事情重复做,大概率是会成功的。

问题是落差,是理想结果与现状之间的落差。

我的理想结果:导出竞品账号公众号的历史数据,这里的数据需要包含「标题」、「文章链接」、「阅读数」、「点赞数」、「在看数」。我的现状:并不清楚如何导出这些数据。

第二步,寻找对策

生活中我们所遇到的所有问题都可以囊括成两类问题,一类问题是你见过类似的,但是以前的解决方法无效。一类问题是你从来没有遇见过的,摸不着头脑,没有经验可循。
如何寻找对策?
我们可以运用系统思维来解决问题。
所谓的系统思维,就是通过构建、选择以及改善模型来帮助我们更加高效地表达和思考的思维方式。

针对这个故事背景,构建出来的模型无非两个维度,如果有现成的数据就直接用别人的数据,如果实在找不到现成的数据,再考虑自己手动爬取。

「1.找现成的数据」

我想到了几个方案,

01 借助壹伴插件导出公众号历史文章

壹伴是可以直接导出个人公众号的历史数据的,但研究发现,它并不支持导出其他公众号的历史数据。

02 借助第三方公众号数据平台

1) 新榜

搜索公众号-点击进入详情页-点击右上角「内容列表」

能查看历史数据,但是仅支持查看最近7天内的推文,显然也不能满足我的需求。

其他相似平台,如清博大数据、西瓜数据都存在相应的局限。

03 某宝付费

淘宝的主流店铺都支持将公众号文章导出为「Word、PDF、HTML格式」,少部分店铺支持导出为Excel格式,价格普遍在4.9元/1000篇左右。

问了几个店铺都不支持导出阅读量等数据,如果你只需要将文章导出为PDF,淘宝付费无疑是很好的选择。

「2.手动爬取数据」

**01 找可以下载公众号文章的软件 **

这里提到的软件,文末会附获取方式

通过查询【公众号文章】、【下载】等关键词,我成功找到了几个可以下载公众号文章的软件。

缺点:软件需要付费,目前会员价格49元/年,获取阅读量、评论数、点赞数、在看数据需要付费调用接口25元/1000次。

如果需要爬取的公众号数量不多,这个方案是可以考虑的。

既然上面的方法都不能完美的满足我的需求,于是我产生了一个大胆的想法,干脆自己手动爬虫。

02手动爬虫

最直接想到的就是用Python进行爬虫,

可是问题在于,我并不会Python呀!

于是又构成了一个新的问题,

1)澄清问题

我的理想结果:借助python爬取公众号数据,数据需要包含「标题」、「文章链接」、「阅读数」、「点赞数」、「在看数」。

我的现状:并不会使用Python进行爬虫

2)寻找对策

我猜测互联网上一定有人用Python爬取过公众号的文章数据,

我需要的并不是从头学习python,

而是从别人的成功案例入手,

研究如何复刻。

综合考虑,最后选择用「Python爬取公众号文章」。

❶ 搜集Python爬取公众号文章的案例

我猜想你比较好奇的是,我是如何搜到这些内容的?

这里先卖个关子,后文揭晓答案。

❷ 安装Python并配置开发环境

这部分内容其实很容易通过B站搜索到相应的教程,配置Python的开发环境以及安装Pycharm大概2个小时内就可以搞定。

❸ 用Fiddler抓包微信接口

1.登录个人微信公众号后台-新的创作-写新图文进入文章编辑页面

使用WIN+R,输入‘cmd',进入个人计算机的dos系统,

输入命令'pip install requests',回车,等候电脑安装requests库。

不懂的可以百度,都有详细说明。

❺ 将网页爬取的「fakied」、「token」、「cookie」、「user-agent」值,以及Fiddler爬取的「Key」、「Pass_ticket」、「appmasg_token」、「cookie」、「User-Agent」值替换进下方代码。


❻ 运行Python,等待爬取结束。

第五步,复盘归档

虽然问题得到了解决,

但还远没结束。

我们还需要进行一次复盘。

复盘的意义在于从过去获得力量,

来帮助我们更好的面对未来。

通过这次活动,

1)我掌握了用Fiddler和Chalers进行抓包的知识;

2)成功的用Python完成了一个小项目,

获得正反馈后以后学习Python更有动力;

3)掌握了下载公众号文章的几种方法(稀缺的技能往往具备高价值);

4)之后如果需要用Python爬取其他内容例如豆瓣的信息,可以如法炮制。

在研究Python爬虫的过程中,

我还探索了另一种解决问题的方案,

采用无代码爬虫的方式。

这些工具并不能解决该场景提到的问题,

所以我没有展开介绍。

但在进行网页爬虫的时候,

反而会比Python来的更便捷。

上面就是我的解题过程,

你可能还有几个问题想问我,

我一并回答。

1)你可能会觉得,这些操作也太浪费时间了吧?

可是,东西贵不贵,不仅取决于价格,还要看你的收益。

看起来,我这一次解决问题的过程,花费了很多时间,但是我的收获却比别人更巨大。

比如我以前爬虫知乎的时候,

用的是「Web Scraper」这款插件,

但是这次我在探索其他爬虫工具的时候,

我发现「后羿采集器」更好用,这就积累了经验。

成甲老师说“如果我们学习是为了提升自己的认知,形成更准确的决策判断力,那么,花时间在构建更系统的知识体系上,就是非常划算的事情。”

2)你可能会问我,“你是如何找到这些软件,以及Python爬取公众号文章的案例的?”

其实是经验的积累,基于经验的学习,

是对每个人而言最基本、最重要的方式。

你搜索的次数多了,

自然就会知道哪些渠道容易找到好东西。

你每次搜索资料的时候10分钟就搜不下去了,

我却要搜2个小时,你说谁更容易精进搜索技能?

第一类,经验技巧型的策略往往源自个人有限的经验总结,
而第二类方法流程型的思维模型往往来自更大样本的归纳提炼,
第三类的学科原理型源于经过科学方法验证的规律,
第四类的哲学视角型是人类理性思辨思考问题的方式。
这四种思考深度没有绝对的高下好坏之分,而是有各自的使用场景。

——《好好思考》

经过这次爬虫探索,

我掌握了很多新的技巧和方法,

这都会变成我的个人经验。

但是我把它梳理成一篇文章,

或者绘制成一张流程图这就变成了方法流程,

我可以用这套方法解决更多相似的问题。

对我而言它又属于零边际成本的产品,

所以我可以无限售卖,让它变成我的杠杆。

    以上就是本篇文章【3天时间速成Python并爬取公众号文章,我是如何做到的?】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/8647.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
盘点2024西安荣耀时刻!“西”引力爆表!
从传统文化的深厚积淀到旅游行业的蓬勃发展从非遗艺术的薪火相传到现代潮流的创新融合……今天,和文旅君一起回顾2024年古都西安
惠山街道2024年工作总结和2025年工作思路
2024年工作回顾2024年惠山街道始终坚持以习近平新时代中国特色社会主义思想为指导,认真落实区委、区政府决策部署,坚持稳中求进
天气|明日“小寒”!最冷“三九”就要来!
今日天气实况今日迎来2025年的首个双休日天气状况还不错天空晴朗,阳光温暖,风力微弱15时全市各区气温在7℃左右明天迎来小寒节
枝江市2025年“十大民生项目”公布!
枝江市第七届人民代表大会第五次会议于2025年1月10日票决产生了枝江市2025年度重大民生实事项目一起来看看↓↓↓一、枝江市枫杨
原来是这样 | 又上热搜!最近很火的“煮苹果水”,到底怎么喝更有用?
鄠邑区是中国科协命名的“全国科普示范区”,为进一步弘扬科学精神、普及科学知识、传播科学思想,鄠邑区科学技术协会联合鄠邑区
惊掉下巴!他俩在一起了???
新发色迎新年 2025鸿运当头拉满仪式感从头开始换个气场NOUGAT ,欧美名媛凯特王妃最爱的纯有机老牌洗护自然原生植萃护不伤头皮、
第一批鸡娃英语的妈妈,都后悔了……
虽然科大大同事们都说不卷,但又悄咪咪卷(啪啪打脸中…)的家长,2年级用上倾听者不算晚!说真的,有了它,吼孩子都少了!产品
发改委:推进户用光伏发展,助力农民拓宽增收新路径
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
泉州百度爱采购运营介绍
百度爱采购入驻条件有哪些:商家需持有工商行政管理局颁发的营业执照,并且执照在6个月有效期内;厂家商品真实在营且符合国家相
抖音feed是什么 feed广告投放流程
feed是什么?feed流(又称信息流)它是穿插在App内容中的广告,具有原生沉浸式体验,支持多种展现形式。feed可以进行线索收集,