txt是一个协议。
机器人协议的全名(也称为爬虫协议、机器人协议等)是\\“爬虫排除标准”(机器人排除协议)。通过机器人协议,网站告诉搜索引擎哪些页面可以被爬行,哪些页面不能被爬行。
robots.txt文件的作用
当搜索蜘蛛访问一个站点时,它首先检查站点根目录中是否存在robots.txt,如果有搜索机器人,则根据文件的内容确定访问范围;如果该文件不是在所有搜索蜘蛛中,它将能够访问站点上未受密码保护的所有页面。
如果您认为站点是酒店中的一个房间,robots.txt是由房主在房间前面暂停的\\“请勿打扰\\”提示。这份文件告诉访问搜索引擎哪些房间可以访问和访问,哪些房间不向搜索引擎开放,因为它们存储贵重物品或可能涉及家庭和访问者的隐私。
但是,robots.txt不是命令,也不是防火墙,而且网关管理员无法阻止盗贼等恶意入侵者。
机器人协议可以屏蔽网站中的一些较大文件,如图片、音乐、视频等内容,节省服务器带宽;还可以屏蔽一些指向网站的死链接,禁止搜索引擎爬行。