业界动态
《Web Search Engines》翻译
2025-01-03 01:30
<@Aattention Content="本Blog原创文章,转载或引用请注明转载" From="Robby.cnblogs.com"@>      
      最近很忙啊,今天抽空上来写点。
      上次的文章中向大家推荐了一篇老外的文章《Web Search Engines》,新手入门看不错,于是将自己的翻译搬上来给不熟鸟语的同志们参考参考(目前只翻译了前半部分),翻译的比较仓促,翻译的好坏就不管了,能让大家看懂而不误导大家就行了,HoHo。

—————————————————————割—————————————————————————

原文:Web search engines Part_1

我的翻译:

大卫·霍金(David Hawking

澳大利亚国家科学与工业研究组织 ICT中心

如果这些还不够说明搜索引擎的重要性,那么再来看看现在主要的搜索引擎提供了更好的查询质量。对大多数使用者来说,这些搜索引擎非常好的将查询结果分级、展示,在变更搜索内容的时候反映更加迅速,并且有效的消除死链(Dead links)、冗余页面、和一些无意义的信息。

在本文的两部分中,我们将透过这些现象来解释这样一个数据处理“神话”是怎样变成现实的。我们的关注点在于对整个互联网的搜索,其实这和一些企业级的搜索工具和搜索接口等用的大多数都是同样的数据结构和算法。

搜索引擎无法也不应该将互联网的每一个页面都索引。毕竟,我们要感谢动态网页生成器,比如自动日历,这使得网页的数量是无限的。

提供一个有用的并且成本效率较高的服务,搜索引擎必须拒绝尽可能多的低价值的自动生成的内容。另外,它可以忽略一些大容量的网上数据,比如海洋温度、天文气象等,以使得数据搜索能更有效率。最后,网络搜索引擎并不能取得受限的内容,如企业内部网的网页数据。

接下来的内容并不是对那些严密保守其商业机密的商业搜索引擎的深入介绍,而是对现今所有的网络搜索引擎所面临的问题的描述和对解决这些问题的方法、技术的解释。

 

    (图1)展示了一个一般的搜索引擎的构架。对于冗余和容错,大型的搜索引擎运作于多样的分布式的数据中心。在一个数据中心里,服务是由集群的PC机构成的。这些集群中PC机的类型取决于价格、CPU的速度、内存和硬盘容量、热量散发、可靠性和体型大小。 nnecttype="rect" gradientshapeok="t" o:extrusionok="f">http://labs.google.com/papers/googlecluster-ieee.pdf )。据报道,现在最大的搜索引擎的所有服务器的数量达到了几十万。
     在一个数据中心里,集群的或者单独的服务器都可以用来实现一个专门的功能,比如说抓取、索引、查询处理、产生摘录、链表计算、结果的缓存或者插入广告内容。(表1)提供了网络搜索引擎的专用术语定义。

大比例的复制需要对必须吞吐量的控制。举个例子,如果一套特定的硬件能够每500毫秒响应一次查询,那么搜索引擎公司必须要千倍的复制这个硬件来达到每秒2000次查询的吞吐量。在这些复制的集群中分担负荷就需要高吞吐量,高可靠性的网络环境。
    通常来说,搜索引擎抓取和索引的网络数据量是400TB,即400000GB,这给服务器和网络带来了沉重的负担。一次完整的爬行抓取会填满一个10Gbps的网络连接超过10天。这些数据的索引结构也会达到100TB,导致数据中心的主要挑战成为了维护索引的健全和坚固。从一个数据中心将一整套索引复制至另一个数据中心需要在每秒10GB的网络上传输1天以上。

最简单的爬行算法使用一组要被访问的URL和一个能够快速确定是否浏览过该URL的机制。这需要非常庞大的数据结构-一个1TB以上,包含了200亿URL的目录。

爬行器从一个或者多个“源”URL出发来初始化URL队列。一个高质量的源URL会链接至许多高质量的网站,举个例子,www.dmoz.org或者 wikipedia.org

爬行进程通过发出HTTP请求来取得URL列表中的第一个URL。当爬行器取得网页后,它扫描网页内容以寻求通向其他URL的链接并把之前没有的URL加入到队列中。最后,爬行器保存网页内容用于索引。爬行器会一直工作,知道URL队列为空。

实践中,这个爬行器算法的演示必须要扩展以支持以下的功能。

速度。如果每个HTTP请求需要花费1秒钟去完成-毕竟有些会用更长的时间或者响应失败-简单的爬行器每天能抓取86400个网页以上。以这个速度,爬行200亿的网页将会耗去634年的时间。实践中,爬行是由上百个分布式的爬行器来实现的。

一个哈希函数用来明确哪个爬行器来负责哪个特定的URL。如果一个爬行器遇到一个不是它所负责的URL时,它会传递URL给负责这个URL的爬行器。

哪怕是上百倍的平行处理都无法充分满足必须的爬行速率。因此每个爬行器都拓展了更高级别的内部平行处理,即用千百个的线程去发出请求和等待响应。

有礼貌的。除非特殊照顾,平行爬行器会产生单个的网络服务器遭受HTTP请求的轰击而变得负荷过重的风险。爬行算法被设计成要确保对于一个网络服务器同一时间里只有一个请求并且在两个请求间还有一个礼貌性的时间延迟。这同时还必须考虑到互联网的瓶颈;举个例子,搜索引擎爬行器要有充分的带宽去完成对全国网络链接的遍历。

相同内容。同样的内容频繁的出现在不同的URL中。简单的查询比较就能精确的检测到重复,但是当一个网页包含了自己的URL,用户计数器,或者数据时,就需要更多有效的识别方法。

爬行器能通过识别和尽早的排除重复从而保存大量的资源,因为未识别的重复网页会包含指向其他重复内容的整个家族的相关链接。

连续的爬行。以固定的时间间隔完成完整的爬行意味着对互联网上的重要变动的不敏感。这同样也意味着爬行器会连续的抓取那些低价值的和静态的网页,因此招致实质性的损失而没有有意义的好处。举个例子,企业网站的2002年的媒体很少发布,万一需要爬行。

很有趣的是,当提交“current time New York(翻译:现在纽约的时间)”的查询时,GYM引擎显示出这些引擎每过几天都会去爬行www.timeanddate.com/ worldclock网站。然而,不管搜索引擎多么频繁的去爬行这个网站,搜索的结果总是显示错误的时间。

用一个优先队列来替代简单队列,增加爬行的有效性。处于队列最前部分的URL有最高的被爬行优先级,基于例如变化频繁,引入链接计数,点击频繁等事实。当一个URL被爬行后,它按照它的评估优先级被重新插入到队列中。在这个模型里,爬行不需要停止。

拒绝垃圾信息。原始的垃圾信息技术,像在浏览者可以查看的网页里插入有误导性的关键词-举个例子,在白色的背景上写白色的字,0号大小的字,或者meta标签-很容易被检测到。无论如何,现在基于链接内容的排名机制使得它们变得无效(www-db.stanford.edu/pub/papers/google.pdf)。

搜索引擎公司用人工和自动的方法分析链接模版和内容,从而判别哪个是垃圾信息网站,进而将其放入一个黑名单中。爬行器能拒绝指向在黑名单中的URL的链接,并且能拒绝或者降低那些链接向、被链接于黑名单网站的网页的优先级。

 

设计一个网络级的爬行器不是无技能和胆小的人能做的。爬行器是一个高度复杂的平行系统,和数百万的不同的网络服务器通信,在它们之间能发现每一个可能的失败方式,所有有准备的和意外的爬行器陷阱方式,和每一个发布标准中变化多样的拒绝事件。因此,Mercator爬行器的作者发现写下他们自己低级系统软件的版本号,从而实现必须的性能和可靠性是必须的(www. research. Compaq.com/SRC/mercator/papers/www/paper.html)。

发现一个爬行器被锁上,中断,崩溃,毁坏了整个网络传输的预算,或者不小心攻击了网络服务器造成网络堵塞并且使得那个网络操作员非常愤怒,已经不是稀有的事了。。。。。。。。。

    以上就是本篇文章【《Web Search Engines》翻译】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14968.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
30米内可穿墙? 明基W1075无线影院体验手机端「30米内可穿墙? 明基W1075无线影院体验」
  [中关村在线投影机频道原创]家用经过近几年的发展,市场份额开始不断扩大,尤其是近两年,越来越多的用户开始接受私人家庭影
120W神仙秒充1亿像素手机「120W神仙秒充」
热门手机数码资讯早知道,快来关注作者。 编辑|孙凤新 审核|文峥 Redmi(红米)手机是小米品牌主打高性价比的子品牌,深受全球
2024年折叠屏降温 AI加速渗透手机 传音OV竞逐全球四五名ai手机「2024年折叠屏降温 AI加速渗透手机 传音OV竞逐全球四五名」
2024年是智能手机市场复苏的一年。近日,市场研究机构Canalys发布报告预测,2024年全球智能手机出货量预计为12.2亿部,同比上升6
2022年三星与华为最新款手机上市,科技新篇章的开启最新手机上市「2022年三星与华为最新款手机上市,科技新篇章的开启」
2022年5月2022年5月2022年新款三星GalaxyZFold45G韩版,生产日期为2022年5月,整机质保年限6个月,机身内存256GB全新GalaxyZFold
## 标题,iPhone恢复出厂设置后的数据恢复指南手机恢复出厂设置后怎么还原数据「## 标题,iPhone恢复出厂设置后的数据恢复指南」
许多iPhone用户可能会因各种原因需要将手机恢复到出厂设置,这个操作虽然可以解决存储空间不足、系统运行缓慢等问题,但同时也会
盘点2024西安荣耀时刻!“西”引力爆表!
从传统文化的深厚积淀到旅游行业的蓬勃发展从非遗艺术的薪火相传到现代潮流的创新融合……今天,和文旅君一起回顾2024年古都西安
惠山街道2024年工作总结和2025年工作思路
2024年工作回顾2024年惠山街道始终坚持以习近平新时代中国特色社会主义思想为指导,认真落实区委、区政府决策部署,坚持稳中求进
天气|明日“小寒”!最冷“三九”就要来!
今日天气实况今日迎来2025年的首个双休日天气状况还不错天空晴朗,阳光温暖,风力微弱15时全市各区气温在7℃左右明天迎来小寒节
枝江市2025年“十大民生项目”公布!
枝江市第七届人民代表大会第五次会议于2025年1月10日票决产生了枝江市2025年度重大民生实事项目一起来看看↓↓↓一、枝江市枫杨
原来是这样 | 又上热搜!最近很火的“煮苹果水”,到底怎么喝更有用?
鄠邑区是中国科协命名的“全国科普示范区”,为进一步弘扬科学精神、普及科学知识、传播科学思想,鄠邑区科学技术协会联合鄠邑区