robots协议是什么 网站根目录的robots.txt怎么写

Auth:admin       Date:2019/09/7       Cat:SEO百科

robots协议就是我们常常说的爬虫协议,你的网站如果有一些目录不想被爬虫抓取,可以将这些目录加入到robots.txt文件,保护你的隐私。简而言之,它的作用就是告知搜索引擎,能抓取的目录有哪些,不能抓取的目录有哪些。robots协议是什么?Robots.txt文件怎么写?武汉SEO为大家讲解。

robots协议

一、robots协议是什么

Robots协议由荷兰籍网络工程师Martijn Koster于1994年首次提出,是一个被放置在网站中的.TXT文件,为搜索引擎爬虫做出提示,设置允许与不允许两种语句,网络爬虫据此“自觉地”抓取或者不抓取该网页内容。但Robots并不是一个规范,而只是一个约定俗成的协议。Robots协议创始人明确提出Robots协议是一个未经标准组织备案的非官方标准,不属于任何商业组织。

二、robots协议有什么作用

1、保护隐私。有些页面信息不想或者说不能让外界看到,单搜索引擎并不知道这些情况,它还是会照常抓取、展现。如果我们通过设置robots做了限制,搜索引擎蜘蛛就会放弃抓取,外界就不能通过搜索引擎了解到这些隐秘信息。

2、调节页面抓取量。我们都知道每个网站蜘蛛抓取的配额都是有限的,如果我们通过robots.txt文件禁止一些不重要的页面被抓取,那么就节约了配额,让那些重要的页面得到更多的抓取机会。

三、robots协议怎么写

rotots协议会放置在robots.txt文档内,有允许和不允许两种,不用区分搜索引擎,统一写。

1、 禁止所有搜索引擎访问网站

User-agent: *

Disallow: /

2、允许所有搜索引擎访问网站

User-agent: *

Allow: /

这是最基本的用法,robots协议的用法还有很多,笔者建议大家翻阅一下百度百科的robots协议定义。

四、robots.txt文件位置和生成方式

robots.tx一般会放在网站根目录下,在链接url的显示就是:https://www.ruangseo.com/robots.txt,其中www.ruangseo.com替换成你的网址即可。

有一些SEO新手会使用robots生成工具写robots协议,这种方式没必要,手动填写就行。

五、robots协议的误区

1、网站上的所有文件都需要蜘蛛抓取,那就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面

每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以应该在网站中添加一个robots.txt

2、在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率

网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件

robots协议并不复杂,但是经常容易被运营者忽略,结果大量的隐私信息被蜘蛛抓取,给自己造成损失。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注