文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

iblhd

https://sicmodule.kub2b.com/comiblhd/

相关列表
文章列表
  • 暂无文章
推荐文章
python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
发布时间:2024-12-01        浏览次数:0        返回列表
python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url 搜索引擎

如题:python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url

最近因为做《信息检索》homework,需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接,判断前30个是否相关,然后评价该搜索引擎的性能。蛋疼的一个个点进去链接,然后看网页搜索的内容是否和想要查询的query相关,从而进行下一步工作。于是想到解析网页,找到搜索引擎返回的链接的url,等做完了作业才做这个,无碍。目前分析了百度的源代码,进行了分析工作。对于其他搜索引擎的任务再分析。

解析百度返回过来的页面的源代码。通过查看源代码分析url特征

1.返回的源代码里链接一大堆,但是却有个唯一的东西,对应着某page的10个链接。“ id="0"”、“ id="1"”、....“ id="9"”这些是唯一的(注意id前面有空格,0-9分别代表这10个页面)。

2.找到那些唯一的标识,在源代码中其后的几行内必定有如下之类的

 

 

 

 

取出href到query之间的字符串,然后做些处理,取出来即可。

 

  解析url字符串函数myurldecode(),没有用上场,无碍。因为觉得转码后的url太难看了,解码回来后更好看些,但是没必要,最终还是会被转回去,无碍。以后需要解析的时候再参考这次写的函数。