经常有新手小白在学习完 Python 的基础知识之后,不知道该如何进一步提升编码水平,那么此时找一些友好的网站来练习爬虫可能是一个比较好的方法,因为高级爬虫本身就需要掌握很多知识点,以爬虫作为切入点,既可以掌握巩固 Python 知识,也可能在未来学习接触到更多其他方面的知识,比如分布式,多线程等等,何乐而不为呢!
下面我们介绍几个非常简单入门的爬虫项目,相信不会再出现那种直接劝退的现象啦!
豆瓣作为国民级网站,在爬虫方面也非常友好,几乎没有设置任何反爬措施,以此网站来练手实在是在适合不过了。
我们以如下地址为例子
https://movie.douban.com/subject/3878007/
可以看到这里需要进行翻页处理,通过观察发现,评论的URL如下:
https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l
每次翻一页,start都会增长20,由此可以写代码如下
使用range函数,步长设置为20,同时通过title等于“没有访问权限”来作为翻页的终点。
下面继续分析评论等级
豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析
其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。
最后把得到的数据保存到文件里
这里使用jieba来分词,使用wordcloud库制作词云,还是分成三类,同时去掉了一些干扰词,比如“一部”、“一个”、“故事”和一些其他名词,操作都不是很难,直接上代码
对于海报的爬取,其实也十分类似,直接给出代码
这是一个国外的电影影评网站,也比较适合新手练习,网址如下
https://www.rottentomatoes.com/tv/game_of_thrones
我们就以权力的游戏作为爬取例子
我这里选取的是如下网站
http://db.18183.com/
好了,今天先分享这三个网站,咱们后面再慢慢分享更多好的练手网站与实战代码!
对于初学者想更轻松的学好Python开发,爬虫技术,Python数据分析,人工智能等技术,这里也给大家准备了一套系统学习资源
文中所展示的资料全部都是免费分享,点击下方链接添加微信即可免费获取!
戳这里 👉 【读者福利】Python经典学习资料免费分享,领走不谢! 👈
👉 1.确定好自己的学习路线 👈
无论做什么事,或者学什么技能,在一开始就要有所规划,所以我们要事先确定好自己的学习路线,这是非常重要的,能够在我们学习的时候使得我们的思路更为清晰。
👉 2.Python必备开发工具 👈
工欲善其事必先利其器,既然我们要学习Python,那么想与之的开发工具必须要先行安装好,利用好工具能让我们事半功倍。
👉 3、Python学习视频合集 👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉 4.实战案例 👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉 5.一百道Python练习题 👈
学而不练则罔,练而不学则殆,检查学习结果,是优秀人员必备的。
👉 资料领取 👈
文中所展示的资料全部都是免费分享,点击下方链接添加微信即可免费获取!
戳这里 👉 【读者福利】Python经典学习资料免费分享,领走不谢! 👈