首页 > 其他分享> > robots.txt文件

robots.txt文件

2019-07-27 16:56:30 作者：互联网

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取。Robots.txt协议全称“网络爬虫排除标准”。一般情况下，该文件以一行或多行User-agent记录开始，后面再跟若干行Disallow记录。

User-agent：该项的值用于描述搜索引擎robot的名字，robots.txt中至少有一条User-agent记录，如果该项的值为“ * ”，则该协议对任何搜索引擎有效。

Disallow：robots.txt中至少有一条User-agent记录。该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分路径。任何一条Disallow记录为空，则说明所有内容允许被访问。

Allow：描述希望被访问的一组URL，一个网站所有URL默认是Allow的

标签：文件,URL,robots,agent,Disallow,User,txt
来源： https://www.cnblogs.com/lwfiwo/p/11255717.html