推广 热搜： page 关键词红书链接搜索获取哪些数据数据分析服务

【转载】打算屏蔽百度蜘蛛,可以尝试以下方法

日期：2025-01-03 作者：2l0g1 caijiyuan 评论：0 移动：https://sicmodule.kub2b.com/mobile/news/15190.html

核心提示：　　好像现在屏蔽baiduspider已经成为一种时尚，难道这玩意也跟着纳斯达克变?　　首先我自己不会屏蔽baiduspider，

　　好像现在屏蔽baiduspider已经成为一种时尚，难道这玩意也跟着纳斯达克变?

　　首先我自己不会屏蔽baiduspider，也不大相信baiduspider会故意忽略robots.txt，但如果你真的想屏蔽 baiduspider，可尝试以下方法：

　　1. 上传一个robots.txt到根目录，内容为：

　　User-agent: baiduspider

　　Disallow: /

　　一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表，baiduspider还无法高级到故意忽略某些网站的robots.txt，不知道baiduspider怎么折腾才能让robots.txt失效。

　　2. 如果仅仅因为服务器吃不消，不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。

　　3. 如果还没有办法，可尝试.htaccess屏蔽，上传一个.htaccess文件到根目录，内容为：

　　SetEnvIfNoCase User-Agent "^baiduspider" ban_bot

　　deny from env=ban_bot

　　还可以扩大这个列表，屏蔽那些Email提取爬虫、网站克隆爬虫等(小偷一般不守法，但总比自己什么都不做强)：

　　SetEnvIfNoCase User-Agent "^baiduspider" ban_bot

　　SetEnvIfNoCase User-Agent "^HTTrack" ban_bot

　　SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot

　　SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot

　　SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot

　　SetEnvIfNoCase User-Agent "^Offline" ban_bot

　　SetEnvIfNoCase User-Agent "^WebCopier" ban_bot

　　SetEnvIfNoCase User-Agent "^Webdupe" ban_bot

　　SetEnvIfNoCase User-Agent "^WebZIP" ban_bot

　　SetEnvIfNoCase User-Agent "^Web Downloader" ban_bot

　　SetEnvIfNoCase User-Agent "^WebAuto" ban_bot

　　SetEnvIfNoCase User-Agent "^WebCapture" ban_bot

　　SetEnvIfNoCase User-Agent "^WebMirror" ban_bot

　　SetEnvIfNoCase User-Agent "^WebStripper" ban_bot

　　deny from env=ban_bot

　　.htaccess要用文本方式上传，有些Apache配置比较怪异，防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常，再用FlashGet模拟baiduspider测试这个.htaccess是否工作，方法是：

　　FlashGet->工具->选项->协议，把HTTP用户代理改成用户自定义：baiduspider;然后用FlashGet下载该网站任意页面，在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功.

　　本文章转自[中国建站论坛] http://www.jianz.cn 为中国站长提供动力。

　　站长网新闻榜 www.admin5.com/top

补充robots知识：

搜索引擎Robots协议，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义：

首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置Robots协议文件：
一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，
设置代码如下：
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：
User-agent:
MsnbotDisallow: /

例如想禁止MSN的蜘蛛抓取就设为，

Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：
百度的蜘蛛：baiduspider
Google的蜘蛛： Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛：Yahoo Slurp
Msn的蜘蛛：Msnbot
Altavista的蜘蛛：Scooter
Lycos的蜘蛛： Lycos_Spider_(T-Rex)

三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/

本文地址：https://sicmodule.kub2b.com/news/15190.html 企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

先一步开启“年味”：鲸灵羽绒季&年货节刷新品牌战绩

最新动态

推荐图文

最新资讯

点击排行

• 30米内可穿墙？明基W1075无线影院体验手机端「	• 120W神仙秒充1亿像素手机「120W神仙秒充」
• 2024年折叠屏降温 AI加速渗透手机传音OV竞逐全	• 2022年三星与华为最新款手机上市，科技新篇章的
• ## 标题，iPhone恢复出厂设置后的数据恢复指南	• 盘点2024西安荣耀时刻！“西”引力爆表！
• 惠山街道2024年工作总结和2025年工作思路	• 天气｜明日“小寒”！最冷“三九”就要来！
• 枝江市2025年“十大民生项目”公布！	• 原来是这样｜又上热搜！最近很火的“煮苹果水