最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。
HTML格式解析:
我们发现电影信息存储在上图所示的地方,那我们只需要对这一层进行解析获取数据即可。用Jsoup中的select方法定位至这一区域,再用attr方法逐层选择需要的信息,比如我们获取了”href”下的电影链接、”title”下的电影名字,”src”下的电影图片等等。
总体代码如下
最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。
HTML格式解析:
我们发现电影信息存储在上图所示的地方,那我们只需要对这一层进行解析获取数据即可。用Jsoup中的select方法定位至这一区域,再用attr方法逐层选择需要的信息,比如我们获取了”href”下的电影链接、”title”下的电影名字,”src”下的电影图片等等。
总体代码如下