业界动态
【转载】打算屏蔽百度蜘蛛,可以尝试以下方法
2025-01-03 10:42

  好像现在屏蔽baiduspider已经成为一种时尚,难道这玩意也跟着纳斯达克变?

  首先我自己不会屏蔽baiduspider,也不大相信baiduspider会故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可尝试以下方法

  1. 上传一个robots.txt到根目录,内容为

  User-agent: baiduspider

  Disallow: /

  一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表,baiduspider还无法高级到故意忽略某些网站的robots.txt,不知道baiduspider怎么折腾才能让robots.txt失效。

  2. 如果仅仅因为服务器吃不消,不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。

  3. 如果还没有办法,可尝试.htaccess屏蔽,上传一个.htaccess文件到根目录,内容为

  SetEnvIfNoCase User-Agent "^baiduspider" ban_bot

  deny from env=ban_bot

  还可以扩大这个列表,屏蔽那些Email提取爬虫、网站克隆爬虫等(小偷一般不守法,但总比自己什么都不做强)

  SetEnvIfNoCase User-Agent "^baiduspider" ban_bot

  SetEnvIfNoCase User-Agent "^HTTrack" ban_bot

  SetEnvIfNoCase User-Agent "^EmailCollector" ban_bot

  SetEnvIfNoCase User-Agent "^EmailWolf" ban_bot

  SetEnvIfNoCase User-Agent "^ExtractorPro" ban_bot

  SetEnvIfNoCase User-Agent "^Offline" ban_bot

  SetEnvIfNoCase User-Agent "^WebCopier" ban_bot

  SetEnvIfNoCase User-Agent "^Webdupe" ban_bot

  SetEnvIfNoCase User-Agent "^WebZIP" ban_bot

  SetEnvIfNoCase User-Agent "^Web Downloader" ban_bot

  SetEnvIfNoCase User-Agent "^WebAuto" ban_bot

  SetEnvIfNoCase User-Agent "^WebCapture" ban_bot

  SetEnvIfNoCase User-Agent "^WebMirror" ban_bot

  SetEnvIfNoCase User-Agent "^WebStripper" ban_bot

  deny from env=ban_bot

  .htaccess要用文本方式上传,有些Apache配置比较怪异,防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常,再用FlashGet模拟baiduspider测试这个.htaccess是否工作,方法是

  FlashGet->工具->选项->协议,把HTTP用户代理改成用户自定义:baiduspider;然后用FlashGet下载该网站任意页面,在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功.

  本文章转自[中国建站论坛] http://www.jianz.cn 为中国站长提供动力。

  站长网新闻榜 www.admin5.com/top


补充robots知识

搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义

首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件
一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问
设置代码如下
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下
User-agent:
MsnbotDisallow: /

例如想禁止MSN的蜘蛛抓取就设为

Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)

三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/ 
    以上就是本篇文章【【转载】打算屏蔽百度蜘蛛,可以尝试以下方法】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/15190.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
30米内可穿墙? 明基W1075无线影院体验手机端「30米内可穿墙? 明基W1075无线影院体验」
  [中关村在线投影机频道原创]家用经过近几年的发展,市场份额开始不断扩大,尤其是近两年,越来越多的用户开始接受私人家庭影
120W神仙秒充1亿像素手机「120W神仙秒充」
热门手机数码资讯早知道,快来关注作者。 编辑|孙凤新 审核|文峥 Redmi(红米)手机是小米品牌主打高性价比的子品牌,深受全球
2024年折叠屏降温 AI加速渗透手机 传音OV竞逐全球四五名ai手机「2024年折叠屏降温 AI加速渗透手机 传音OV竞逐全球四五名」
2024年是智能手机市场复苏的一年。近日,市场研究机构Canalys发布报告预测,2024年全球智能手机出货量预计为12.2亿部,同比上升6
2022年三星与华为最新款手机上市,科技新篇章的开启最新手机上市「2022年三星与华为最新款手机上市,科技新篇章的开启」
2022年5月2022年5月2022年新款三星GalaxyZFold45G韩版,生产日期为2022年5月,整机质保年限6个月,机身内存256GB全新GalaxyZFold
## 标题,iPhone恢复出厂设置后的数据恢复指南手机恢复出厂设置后怎么还原数据「## 标题,iPhone恢复出厂设置后的数据恢复指南」
许多iPhone用户可能会因各种原因需要将手机恢复到出厂设置,这个操作虽然可以解决存储空间不足、系统运行缓慢等问题,但同时也会
盘点2024西安荣耀时刻!“西”引力爆表!
从传统文化的深厚积淀到旅游行业的蓬勃发展从非遗艺术的薪火相传到现代潮流的创新融合……今天,和文旅君一起回顾2024年古都西安
惠山街道2024年工作总结和2025年工作思路
2024年工作回顾2024年惠山街道始终坚持以习近平新时代中国特色社会主义思想为指导,认真落实区委、区政府决策部署,坚持稳中求进
天气|明日“小寒”!最冷“三九”就要来!
今日天气实况今日迎来2025年的首个双休日天气状况还不错天空晴朗,阳光温暖,风力微弱15时全市各区气温在7℃左右明天迎来小寒节
枝江市2025年“十大民生项目”公布!
枝江市第七届人民代表大会第五次会议于2025年1月10日票决产生了枝江市2025年度重大民生实事项目一起来看看↓↓↓一、枝江市枫杨
原来是这样 | 又上热搜!最近很火的“煮苹果水”,到底怎么喝更有用?
鄠邑区是中国科协命名的“全国科普示范区”,为进一步弘扬科学精神、普及科学知识、传播科学思想,鄠邑区科学技术协会联合鄠邑区