业界动态
主流网络爬虫机器人/蜘蛛详解
2024-12-29 22:46

本文转载自:https://docs.fuyeor.com/various-spiders

 

所有网站都会有很多网络漫游器来爬取页面,其中越优秀的网站蜘蛛越多,不过我们要区分蜘蛛的真伪,同时了解各种蜘蛛,屏蔽一些对网站无用的蜘蛛,避免养“蛛”为患。

必应集成了多个独特功能,包括每日首页美图,与 Windows 操作系统深度融合的超级搜索功能,以及崭新的搜索结果导航模式等。用户在内置于 Windows 操作系统的搜索栏,或 Edge 默认搜索引擎均可直达必应的网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务。

随着 Edge 浏览器的流行、windows 超大的市场占有率,必应搜索引擎在国内份额将进一步提升。

识别百度蜘蛛(Baiduspider)的简单步骤

百度应用 UA:

Bytespider 这个爬虫是字节跳动旗下头条搜索的爬虫,其爬虫 UA 为:

我的网站遇到 Bytespider 爬虫该怎么办?

  • 屏蔽头条搜索爬虫

如果不想头条搜索爬取自己的网站,可采用以下两种方法屏蔽头条搜索的爬虫:

  • 头条搜索优化

头条搜索的站点配图一般是使用 og:image 标签(Open Graph Protocol meta)来识别的,因此想要网页旁边出现漂亮合理的配图可在网页 <head></head> 中添加 Open Graph Protocol meta 标签。关于 OPG 标签是什么,请参考以下文章:

俄罗斯搜索巨头Yandex的蜘蛛,

Yandex 搜索引擎收录优化

Yandex 搜索引擎如何加快收录?

360搜索蜘蛛

PetalBot 是华为自研搜索引擎的爬虫,叫做花瓣蜘蛛,将来或许也会在国内再杀出一个搜索引擎。现华为花瓣搜索引擎仅对欧洲用户开放。

PetalBot 符合 Internet 机器人协议。您可以使用 robots.txt 文件完全阻止 PetalBot 访问您的网站,或阻止 PetalBot 访问您网站上的某些文件。

为了获得对目标资源更好的检索结果,PetalBot 需要保持一定程度的网站爬网。我们力求不给网站带来不合理的负担,我们将根据服务器容量,网站质量和网站更新等综合因素进行调整。如果 PetalBot 的访问有任何不合理的行为,请将您的疑虑发送至 search@aspiegel.com。

搜狗搜索引擎的蜘蛛。

AhrefsBot 是国外网站的一个蜘蛛程序,那么 Ahrefs 是什么网站呢,这个是国外一个网络营销类的网站,有点类似于国内的5118、站长网之类,在 SEO 界比较有名的。AhrefsBot数据库里面有超过12万亿条链接,每天它就在不断的执行和监控Ahrefs的在线营销活动,每24小时就要访问超过60亿个网页,每15-30分钟就要更新一次索引。

根据一项调查显示,AhrefsBot是仅次于谷歌蜘蛛(Googlebot)的世界第二大活跃蜘蛛爬虫程序。

AhrefsBot 会增加你服务器的负担外,并不会对你的网站造成什么影响,它既不会触发网站上的广告,也不会在统计中增加流量。建议屏蔽 AhrefsBot

SemrushBot 是 SEMrush 的蜘蛛爬虫。

SEMrush是一家老牌的提供搜索引擎优化数据的公司,是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。

建议网站屏蔽掉它的爬行,首先因为这个蜘蛛爬行并不会给网站带来流量,只会占用服务器资源,其次是这是已经数据分析公司的爬虫,它爬的数据会成为你竞争对手的分析利器。

如何屏蔽SemrushBot呢?

Blexbot是WebMeUp的蜘蛛爬虫,Blexbot每天可以抓取上百亿个页面来收集反向链接数据,并将该数据提供给其链接索引(在SEO SpyGlass中使用的链接索引)。

WebMeUp是美国的一家外链反向链接查询工具网站,他一般的形式是

Mozilla / 5.0(兼容; BLEXBot / 1.0; + http://webmeup-crawler.com/)

Adsbot是谷歌 Google AdWords 的蜘蛛,也就是广告联盟的。

MJ12bot 是英国的一家老牌的搜索引擎营销网站 Majestic 的爬虫,他有专门的中文站,对外链查询等很多 SEO 数据查询提供数据支撑,做过外链的都知道,获取外链资源是一项基本能力,这个网站可以查询网站的外链资源数,不过很多公司看到日志里有这个 MJ12bot 蜘蛛,一般是选择直接屏蔽掉(MJ12bot 是 Majestic-12 分布式搜索引擎的爬虫)

官方给了一个修改 robots 的方法,就是在 robots.txt 文件中加入:

DotBot是Moz的网络爬虫程序,Moz旗下链接分析网站opensiteexplorer专门用来分析网站SEO外链数据,BotBot蜘蛛爬虫就是为Moz服务,在互联网上抓取大量的网页进行各种数据分析。

如果我们不希望Dotbot抓取自己的网站,可以使用robots.txt进行屏蔽。DotBot遵robots.txt协议。

 

DotBot蜘蛛爬虫原型

Moz蜘蛛爬虫UA:”Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)”

网站如何禁止DotBot抓取

在我们的网站根目录中的robots.txt文件中写上如下代码:

Applebot 是 Apple 推出的网络爬虫工具。“Siri 建议”和“聚焦建议”等产品均使用 Applebot。这个工具遵循惯用的 robots.txt 规则和 robots 元标签,并且源自 17.0.0.0 网络块。

用户代理字符串包含“Applebot”和其他代理信息。示例如下:

CCbot,全称为Common Crawl Bot,是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。

二. 你如何处理CCbot蜘蛛?

方法1. 使用robots.txt

使用robots.txt文件来允许或禁止蜘蛛访问页面的权限。robots.txt是放在网站根目录中,蜘蛛来访问时会先查找并查看robots.txt文件,并遵守robots协议来访问网站上的内容,允许访问则访问,不允许访问蜘蛛则离开。

DuckDuckGoBot 是著名元搜索引擎 DuckDuckGo 的爬虫,另外还有 DuckDuckGo Favicons Bot 是用来获取网站 Favicon.ico 图标的蜘蛛。

DuckDuckGo 是美国的一个互联网搜寻引擎,其总部位于美国宾州Valley Forge市。DuckDuckGo强调在传统搜寻引擎的基础上引入各大Web 2.0站点的内容。其办站哲学主张维护使用者的隐私权,并承诺不监控、不记录使用者的搜寻内容。DuckDuckGo-Favicons-Bot

一般默认的形式是 

yacy 搜索引擎蜘蛛。

DataForSEO 网站的蜘蛛。由于访问速率太大,建议小型网站进行屏蔽。

自从我们推出 DataForSEO 以来,我们的使命就是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来公平竞争。

DataForSEO 机器人是确保 SEO 社区的每个成员 – 无论口袋大小都可以访问 Google 排名算法的核心元素。我们正在开发网络上最大的可用反向链接数据库,包括您在内的社区每个成员都可以使用该数据库并从中受益。

Backlinks API 是我们正在开发的新产品的名称,其目的只有一个:为网站所有者、网站站长和 SEO 专业人员提供分析网站优化和反向链接的关键组件的机会。

为了实现这个雄心勃勃的目标,我们需要建立一个类似于谷歌 PageRank 算法的系统,并确保它的工作原理。在过去的一年里,我们的团队一直在研究、规划、构建和重述这个系统。

我们每月订阅访问此特定 API(直到今年 12 月 8 日,价格为 30 美元,在此日期之后将没有折扣,您必须支付访问费的全部费用,每月 100 美元)

    以上就是本篇文章【主流网络爬虫机器人/蜘蛛详解】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/12550.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
发改委:推进户用光伏发展,助力农民拓宽增收新路径
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
泉州百度爱采购运营介绍
百度爱采购入驻条件有哪些:商家需持有工商行政管理局颁发的营业执照,并且执照在6个月有效期内;厂家商品真实在营且符合国家相
抖音feed是什么 feed广告投放流程
feed是什么?feed流(又称信息流)它是穿插在App内容中的广告,具有原生沉浸式体验,支持多种展现形式。feed可以进行线索收集,
抖音投流怎么投?找到最合适的优化路线,实现精准引流与高效转化!
在如今竞争激烈的市场中,抖音广告已经成为商家吸引流量、增加曝光和转化的重要工具。很多企业都在问:“抖音投流怎么投,才能真
提升脸书播放/浏览量:Facebook Workplace的策略
以下介绍:提升脸书播放/浏览量:Facebook Workplace的策略关于提升脸书播放/浏览量:Facebook Workplace的策略所提到的问题请大
想换07年左右的老车,值得吗?
百车全说别人研究车,而我研究你!问:想买一辆2007年左右,绿色(丨), 3.0。主要是喜欢这种雪茄车身,想留着自己偶尔开一下,家
年度盘点丨西安:2024年度十大交通精细化治理案例
​​2024年,西安公安交警深入践行以人民为中心的发展思想,聚焦群众反映强烈的交通问题,坚持缓堵保畅、全域治理,坚持小切口入
怎样才能很好的提高百度SEO的排名呢
怎样使自己的网站在百度等搜索引擎排名靠前  提高用户体验确保网站加载速度快,移动设备友好,并提供良好的用户互动体验。利用
《人工智能:未来世界的“智慧引擎”》
在当今这个科技飞速发展的时代,人工智能(Artificial Intelligence,简称AI)正以前所未有的速度重塑
未来直播技术的创新与发展方向
随着信息技术的快速发展和移动互联网的广泛普及,直播已经成为当今互联网领域的重要应用之一。从最初的娱乐直播到现在的教育直播