robots协议就是我们常常说的爬虫协议,你的网站如果有一些目录不想被爬虫抓取,可以将这些目录加入到robots.txt文件,保护你的隐私。简而言之,它的作用就是告知搜索引擎,能抓取的目录有哪些,不能抓取的目录有哪些。robots协议是什么?Robots.txt文件怎么写?武汉SEO为大家讲解。
一、robots协议是什么
Robots协议由荷兰籍网络工程师Martijn Koster于1994年首次提出,是一个被放置在网站中的.TXT文件,为搜索引擎爬虫做出提示,设置允许与不允许两种语句,网络爬虫据此“自觉地”抓取或者不抓取该网页内容。但Robots并不是一个规范,而只是一个约定俗成的协议。Robots协议创始人明确提出Robots协议是一个未经标准组织备案的非官方标准,不属于任何商业组织。
二、robots协议有什么作用
1、保护隐私。有些页面信息不想或者说不能让外界看到,单搜索引擎并不知道这些情况,它还是会照常抓取、展现。如果我们通过设置robots做了限制,搜索引擎蜘蛛就会放弃抓取,外界就不能通过搜索引擎了解到这些隐秘信息。
2、调节页面抓取量。我们都知道每个网站蜘蛛抓取的配额都是有限的,如果我们通过robots.txt文件禁止一些不重要的页面被抓取,那么就节约了配额,让那些重要的页面得到更多的抓取机会。
三、robots协议怎么写
rotots协议会放置在robots.txt文档内,有允许和不允许两种,不用区分搜索引擎,统一写。
1、 禁止所有搜索引擎访问网站
User-agent: *
Disallow: /
2、允许所有搜索引擎访问网站
User-agent: *
Allow: /
这是最基本的用法,robots协议的用法还有很多,笔者建议大家翻阅一下百度百科的robots协议定义。
四、robots.txt文件位置和生成方式
robots.tx一般会放在网站根目录下,在链接url的显示就是:https://www.ruangseo.com/robots.txt,其中www.ruangseo.com替换成你的网址即可。
有一些SEO新手会使用robots生成工具写robots协议,这种方式没必要,手动填写就行。
五、robots协议的误区
1、网站上的所有文件都需要蜘蛛抓取,那就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以应该在网站中添加一个robots.txt
2、在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件
robots协议并不复杂,但是经常容易被运营者忽略,结果大量的隐私信息被蜘蛛抓取,给自己造成损失。