当前位置: 首页 > 编程日记 > 正文

如何写网站的robots.txt和meta name robots的配置

robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# All robots will spider the domain
User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问blog.2fool.cn站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
其中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

转载于:https://www.cnblogs.com/jes_shaw/archive/2009/07/08/1519081.html

相关文章:

mysql innodb_data_file_path_关于innodb_data_file_path设置

关于innodb_data_file_path设置启动Mysql时报错,无法正常启动,通过日志发有数据文件大小错误,日志如下截图:[ERROR] InnoDB: auto-extending data file /usr/local/mysql/data/ibdata1 is of a different size 768 pages (rounded…

BM提供支持云的量子计算平台,以加速创新

IBM研究院日前首次宣布公众可试用IBM量子处理器。从5月4日开始,IBM通过云服务,使所有有兴趣亲自实践的人们可以接触到量子处理器,帮助科学家和科研社区加速科技创新,并在该领域激发出更多的前沿应用。 这仅仅是量子计算时代的开始…

Matlab数据的可视化 -- 图形格式的设置

本篇微信图文主要介绍Matlab数据可视化方面的内容。title、x,y,zlabel、legend、title、axis、text等

(转)koogra--Excel文件读取利器

koogra是一个.net平台下开源的excel读取程序,可以在开源社区下载它。使用它我们无需office就可以读取excel文件。尽管这个程序已经停止了更新,但是它还是很好用的。下面介绍怎么使用它。下载到该程序的源代码,编译生成Net.SourceForge.Koogra…

mysql切换系统盘命令_mysql常用命令

一、连接MySQL格式: mysql -h主机地址 -u用户名 -p用户密码1、例1:连接到本机上的MYSQL。首先在打开DOS窗口,然后进入目录 mysqlbin,再键入命令mysql -uroot -p,回车后提示你输密码,如果刚安装好…

Matlab数据的可视化 -- 视角与色彩控制

本篇微信图文主要介绍Matlab数据可视化方面的内容。view,colormap

大数据、智慧城市成生态贵州新名片

2016年中国贵州内陆开放型经济试验区跨境投资贸易洽谈会将于11月10日在贵安新区正式开幕。据主办方介绍,此次洽谈会邀请了来自美国、澳大利亚等24个国家和地区的100多家境外企业,以及1000多家国内企业参加,预计签约总金额或超过1400亿元。 9日…

提升网络安全 十大策略全面巩固企业内网

几乎所有企业对于网络安全的重视程度一下子提高了,纷纷采购防火墙等设备希望堵住来自Internet的不安全因素。然而,Intranet内部的攻击和入侵却依然猖狂。事实证明,公司内部的不安全因素远比外部的危害更恐怖。 大多企业重视提高企业网的边界安…

oracle mysql事物隔离级别_Oracle数据库事物隔离级别

事务隔离级别:一个事务对数据库的修改与并行的另一个事务的隔离程度。两个并发事务同时访问数据库表相同的行时,可能存在以下三个问题:1、幻想读:事务T1读取一条指定where条件的语句,返回结果集。此时事务T2插入一行新…

Matlab数据的可视化 -- 柱形立体图

本篇微信图文主要介绍Matlab数据可视化方面的内容。cylinder

中国大陆光伏中上游触底反弹 台湾省亦酝酿涨势

太阳能需求在中国十一长假前回温,厂商受限于人力的调配,难以立即将稼动率全开,使得短期供给无法立即上升以呼应需求,因而中国大陆市场从多晶硅至电池片价格出现短暂触底反弹的情形,台湾省厂商也正酝酿涨价动能。 多晶硅…

js版的box2D

http://sourceforge.net/projects/box2d-js/files/ 受不了了 转载于:https://www.cnblogs.com/vilyLei/articles/1522800.html

mysql 安装 se_mysql的安装过程

(1)下载mysql。(2)解压文件到特定位置。我解压到:/home/jim/Software(3)创建Mysql组和用户。mysql中的一个用户名就是链接mysql服务器时指定的用户名,该名字不必与linux登陆名联系起来,但是必须是linux系统下建立的用户。命令为:g…

创新类编辑推荐:Sequence iBPMS平台

创新类编辑推荐是Sequence,一个“iBPMS”工作流管理平台。本文介绍了该产品以及用户是如何成功使用该平台的。 SearchSOA的编辑会定期为创新性和市场影响而表彰应用集成和现代化技术。PNMsoft的Sequence iBPMS是2016年4月份的编辑推荐。 产品名称: Seque…

Matlab数据的可视化 -- 简易表面图

本篇微信图文主要介绍Matlab数据可视化方面的内容。ezsurf

PL/SQL学习笔记-常量变量及数据类型初步

一:常量和变量 开始之前,还是照例做个经典的例子,如下: declare mydate varchar2(16) : hellow world; begindbms_output.put_line(mydate); end; declare是声明部分我在这个部分声明了varchar2类型的变量,名字叫myda…

python邮件发送哪个好_最全总结!聊聊 Python 发送邮件的几种方式

1. 前言邮件,作为最正式规范的沟通方式,在日常办公过程中经常被用到我们都知道 Python内置了对 SMTP 的支持,可以发送纯文本、富文本、HTML 等格式的邮件本文将聊聊利用 Python 发送邮件的 3 种方式2. 准备以 126 邮箱为例,在编码…

数据库与操作系统时区更改

ORACLE 11G 新部署的环境,刚使用GOLDENGATE 进行完数据迁移和同步,发现ORACLE 自动收集的任务时间  并不是设定的晚上22点启动。检查AIX 时区发现设置的CDT ,数据库的TIMEZONE 是CST6CDT,与系统管理  员沟通,他答复…

Matlab数据的可视化 -- 三维表面图

本篇微信图文主要介绍Matlab数据可视化方面的内容。surf

为自定义控件添加页面响应事件

ascx:<asp:Button ID"Button1" runat"server" Text"Button" OnClick"Button1_Click" />ascx.cs:(1)public delegate void PostBackDelegate(); //定义委托类型public event PostBackDelegate PostBackEvent; //定义委托对象pr…

trogan连接不上_解决连接不上网(Connection not connected).doc

解决连接不上网(Connection not connected).doc解决连接不上网(Connection not connected)The computer doesnt connect to broadband and has a large collection of code problemsSome broadband connection error handlingBroadband connection error 691 (denied access du…

ASP.NET 3.5揭秘-读书笔记1

ASP.NET和.NET FrameworkASP.NET是微软.NET Framework的一部分。.NET Framework由两部分组成&#xff1a;框架类库(Framework Class Library)和公共语言运行库。框架类库&#xff1a;实现了各种各样功能的类的集合,使编程更简单。命名空间程序集(Assembly): 类在硬盘上的表现—…

【C#串口编程计划】串口编程简介

介绍C#串口编程的基本知识。

中国电信换将 三家运营商未来将如何争战

中国电信长期缺董事长的尴尬终于得到解脱&#xff0c;新任董事长走马上任&#xff0c;当然&#xff0c;也不是新人&#xff0c;已经代理工作很长时间的总经理而已。如此&#xff0c;新一代的电信运营商领导层再一次完整&#xff0c;下一步会怎么走呢&#xff1f; 对于资本市场来…

java hanoi_Hanoi问题java解法

用什么语言解法都差不多&#xff0c;思路都是一样&#xff0c;递归&#xff0c;这其中只要注重于开始和结果的状态就可以了&#xff0c;对于中间过程&#xff0c;并不需要深究。(我细细思考了一下&#xff0c;还是算了。_)代码其实很简单注重的是思路。问题描述&#xff1a;有一…

C#下载远程文件到本地

usingSystem;namespaceDownRemoteFile{ classDownFile { #region成员变量privatestringsavePath; privateboolnewName; #endregion#region属性publicstringSavePath { set{ savePathvalue.Replace("/"…

智慧城市锁定创新,智能AI助力智慧健康

近日&#xff0c;上海中医药大学的校园里出现了一台智能机器人&#xff0c;而在学校创新中心&#xff0c;这台名叫“大医”的智能机器人现场演示了健康咨询及判断结果显示等功能&#xff0c;则让师生产生了极大的兴趣。 上海中医药大学副校长季光教授表示&#xff0c;具备医疗思…

【C#串口编程计划】如何避免关闭串口时软件死锁

本文分析了关闭串口时软件死锁的原因并提出了解决方案。

java实现redis缓存_java实现redis缓存功能

一、安装redis1.mac安装&#xff0c;如果有安装brew 可以直接快捷安装&#xff1a;brew install redis2.linux下载安装wget http://download.redis.io/releases/redis-2.8.17.tar.gztar xzf redis-2.8.17.tar.gzcd redis-2.8.17make二、redis常用命令redis-cli // 进入命令行/u…

notepad++及Scintilla

notepad是一个不错的源代码编辑的软件, 其内部使用了 Scintilla 作为UI的实现, notepad源代码可在在http://notepad-plus.sourceforge.net/tw/site.htm下载, 里面已经有Scintilla 的源代码了Scintilla 的文档在http://www.scintilla.org/ScintillaDoc.html作为一个功能强大的源…