首页 > 其他分享> > robots 协议介绍

robots 协议介绍

2021-02-08 15:34:10 作者：互联网

robots.txt怎么写
　　1、允许所有搜索引擎访问
　　User-agent: *
　　Disallow:
　　或者
　　User-agent: *
　　Allow: /
　　在这里大家要注意下，可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
　　2、禁止所有搜索引擎访问
　　User-agent: *
　　Disallow: /
　　或者
　　User-agent: *
　　allow:
　　3、禁止所有搜索引擎访问网站中的几个部分，在这里我用a、b、c目录来代替
　　User-agent: *
　　Disallow: /a/
　　Disallow: /b/
　　Disallow: /c/
　　如果是允许，则是
　　Allow: /a/
　　Allow: /b/
　　Allow: /c/
　　4、禁止某个搜索引擎的访问，我用w来代替
　　User-agent: w
　　Disallow: /
　　或
　　User-agent: w
　　Disallow: /d/*.htm
　　在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL，包含子目录。
　　5、只允许某个搜索引擎的访问，我用e来代替
　　User-agent: e
　　Disallow:
　　在Disallow：后面不加任何东西，意思是仅允许e访问该网站。
　　6、使用”$”限制访问url
　　User-agent: *
　　Allow: .htm$
　　Disallow: /
　　意思是仅允许访问以”.htm”为后缀的URL
　　7、禁止访问网站中所有的动态页面
　　User-agent: *
　　Disallow: /*?*
　　8、禁止搜索引擎F抓取网站上所有图片
　　User-agent: F
　　Disallow: .jpg$
　　Disallow: .jpeg$
　　Disallow: .gif$
　　Disallow: .png$
　　Disallow: .bmp$
　　意思是只允许引擎抓取网页，禁止抓取任何图片（严格来说，是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。）
　　9、只允许搜索引擎E抓取网页和.gif格式图片
　　User-agent: E
　　Allow: .gif$
　　Disallow: .jpg$
　　Disallow: .jpeg$
　　Disallow: .png$
　　Disallow: .bmp$
　　意思是只允许抓取网页和gif格式图片，不允许抓取其他格式图片

标签：协议,抓取,介绍,robots,agent,Disallow,访问,User,Allow
来源： https://www.cnblogs.com/luchuntao/p/14389021.html