有读者在公众号后台询问爬取小红书,今天他来了。
本文可以根据关键词,在小红书搜索相关笔记,并保存为excel表格。
爬取的字段包括笔记标题、作者、笔记链接、作者主页地址、作者头像、点赞量。
运行我写的爬虫,实验了几十次,都可以顺利爬到数据,每次大概可以爬取到 200 条笔记保存到 excel 表格。
遇到的坑都在实验过程中解决了,可以说,这个爬虫很好用。
以“繁花”为关键词,去搜索小红书相关笔记,保存到本地 excel 文件。打开 excel 查看详情如下,笔记是根据点赞量降序排列的。
以“上海旅游”为关键词,去搜索小红书相关笔记,保存到本地 excel 文件。打开 excel 查看详情如下,笔记是根据点赞量降序排列的。
以“春节”为关键词,去搜索小红书相关笔记,保存到本地 excel 文件。打开 excel 查看详情如下,笔记是根据点赞量降序排列的。
由于小红书反爬机制很严格,很难批量获取小红书的大量数据。用爬虫去爬小红书数据,还有被小红书封号的风险。
但是我这个方法是纯模拟人的操作,以人的操作习惯去搜索和刷新数据,不会触发小红书的反爬机制。
分析爬虫思路,概括如下:
1、打开小红书主页
2、登录
3、根据关键词搜索笔记
4、提取页面数据
5、循环刷新页面,循环获取数据
6、处理获取到的数据,去重,排序
7、保存到本地 excel 文件
使用 DrissionPage 库,打开小红书主页,设置 20 秒延时,这时可以使用手机扫码登录账号。
只有第 1 次运行代码需要登录,浏览器会保存登录状态信息。第 2 次之后再运行代码,就免登录了,可以把 sign_in()步骤注释掉。
设置关键词 keyword,并通过 urllib 库,将关键词转为 url 编码
根据设置的关键词,打开搜索页面,搜索相关笔记
使用 DrissionPage 库定位元素方法,定位到包含笔记信息的 sections、 定位标题、作者、点赞等信息。
为了防止被检测到,每次下滑页面设置一个 0.5,秒至 1.5 秒之前的随机睡眠时间。使用 DrissionPage 库 scroll.to_bottom()操作页面方法,将页面划到底部,小红书会刷新出新的数据。
调用 get_info()函数自动提取页面数据,调用 page_scroll_down()函数自动下滑页面。设置向下滑动 20 次页面,就可以自动刷新数据、提取数据了。
创建一个 contents 列表,用来存放所有爬取到的信息。
使用 pandas 库,将 contents 列表转为 Dataframe 数据类型,保存为 excel 文件。
这里可以进行细节处理,比如删除重复数据。数据类型转换,将点赞量字符串类型转为 int 类型。根据点赞量降序排序,方便查看热门笔记。
由于笔记标题和作者名称包含的字数较多,可以自动调整这 2 列宽度满足数据在 excel 表格中不被遮挡,可以全部展示出来。
笔记链接、作者主页链接、作者头像链接全是链接,也很长,但是不需要全部展示,可以将这几列设置固定列宽。
以一个爬取过程为例,录屏如下:
视频可以在我公众号同名文章查看。
由于代码太长,在这里只给出主函数代码,有兴趣的读者可以根据上述信息自己补全代码。
小红书是商业化很成功的平台,我知道有很多小伙伴在小红书平台做副业,收入甚至超过主业。
我的这个代码,可以帮助你选题、找热点,找流量博主学习。
小红书的数据应该很有价值,特别有兴趣的小伙伴可以在公众号私聊我,以一杯瑞幸咖啡的价格获取全部代码(毕竟我写代码写了一下午~~~)。
我还会继续写小红书别的内容的爬虫,本次付费可以免费获得后续更新的代码。名额有限,仅限前5位小伙伴,先到先得。