iblhd

https://sicmodule.kub2b.com/comiblhd/

相关列表

python解析百度网页源代码：取搜索引擎返回的前page_num＊10个链接的url

文章列表

暂无文章

推荐文章

首页 > 文章中心

python解析百度网页源代码：取搜索引擎返回的前page_num＊10个链接的url

发布时间：2024-12-01 浏览次数：0 返回列表

python解析百度网页源代码：取搜索引擎返回的前page_num＊10个链接的url 搜索引擎

如题：python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

最近因为做《信息检索》homework，需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接，判断前30个是否相关，然后评价该搜索引擎的性能。蛋疼的一个个点进去链接，然后看网页搜索的内容是否和想要查询的query相关，从而进行下一步工作。于是想到解析网页，找到搜索引擎返回的链接的url，等做完了作业才做这个，无碍。目前分析了百度的源代码，进行了分析工作。对于其他搜索引擎的任务再分析。

解析百度返回过来的页面的源代码。通过查看源代码分析url特征：

1.返回的源代码里链接一大堆，但是却有个唯一的东西，对应着某page的10个链接。“ id="0"”、“ id="1"”、....“ id="9"”这些是唯一的（注意id前面有空格，0-9分别代表这10个页面）。

2.找到那些唯一的标识后，在源代码中其后的几行内必定有如下之类的：

取出href到query之间的字符串，然后做些处理，取出来即可。

解析url字符串函数myurldecode()，没有用上场，无碍。因为觉得转码后的url太难看了，解码回来后更好看些，但是没必要，最终还是会被转回去，无碍。以后需要解析的时候再参考这次写的函数。

管理入口| 返回顶部

声明：企库往特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。