目录
1. requests库发送请求,获取响应内容的字符串格式
2.Beautifulsoup解析并获取指定的内容
简单讲一下在网页上查看html的源码
(1)首先,先进入网站
(2)随意选一个位置 --> 点击鼠标右键 --> 点击检查
2.Beautifulsoup解析并获取指定的内容
Beautifulsoup是python第三方库,可以从HTML或XML文件中根据我们设定的条件提取我们想要的数据。
Beautifulsoup将复杂的HTML文档转换成一个复杂的树形结构,即一个Beautifulsoup对象,其每个结点都是
python对象,当我们获取网页内容就是提取对象里面的内容。
个人简单理解:Beautifulsoup将python语言不能直接处理的HTML文档树转换成一个python对象,也以树状结
构进行存储。在python里面对这个对象进行操作就可以了。
激动人心的时刻到了,赶紧打开选股宝网站看看。
当执行此行代码时会自动打开浏览器,浏览器会在桌面上弹出,不需要进行操作,等待就可以了
(1)模拟浏览器行为
主要是向下滑动和点击加载更多,这个是selenium本身就已经制定好了规则,只需拿来使用就可以了,方便、快速。
这段代码只是下拉到浏览器网页最下面并点击了一次,对其进行循环就可以设定点击加载的次数了,即加载多少页
修改后的get_Html函数
最后运行结果
可以看出比之前多了一些股票名称的信息,如果循环点击加载,就可以获得更多的股票的状态,不过等待的时间也
就会更加长。还有可以用withopen()对读取到的数据进行txt文本存储,在这我就不详细介绍了。
第一次写博客,希望大家能多多谅解,如果有需要改正的地方和能提高bi格的方法,可以在博客下方指点一下