网站robots规则应该怎么写-robots文件写法解析 - 长江博客

网站robots规则应该怎么写-robots文件写法解析

2年前更新

0631

一般来说，网站或多或少都存在一些对排名没意义甚至有害的页面。对于站长来说是不希望被搜索引擎检索的，而robots.txt文件则承担了这项功能。当蜘蛛访问网站会优先抓取robots.txt，遵循站长配置的规则不再抓取不利于SEO的内容。

网站robots规则

robots.txt文件位置

robots文件往往放置于根目录下

robots.txt文件格式

Disallow:该项的值用于描述不希望被访问的一组URL

Allow:该项的值用于描述希望被访问的一组URL

User-agent:该项的值用于描述搜索引擎robot的名字

例如：

User-Agent:YisouSpider // 配置YisouSpider

Disallow: / // 不允许YisouSpider抓取网站任何内容

User-Agent:* // 配置所有搜索引擎

Allow: / // 允许抓取网站任何内容

更多

Disallow: /abc //禁止抓取含abc目录及子目录的所有页面

注意：有些地方注释为“禁止抓取abc目录及子目录中的内容”百度官方有举例，\”Disallow:/help\”禁止robot访问/help.html、/helpabc.html、/help/index.html

Disallow: /abc/ //禁止抓取含abc目录的所有页面

百度官方有举例，\”Disallow:/help/\”则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。

robots.txt通配符的使用

\”*\” 匹配0或多个任意字符

\”$\” 匹配行结束符。

举例：

Disallow: /*?* //禁止抓取网站中所有的动态页面

Disallow: /*.htm$ // 禁止抓取所有以.htm为后缀的URL页面 /abc.htm/index 不匹配

区别于Disallow: /*.htm // /abc.htm/index 也匹配

更多robots.txt，可以参照百度站长站长平台关于robots.txt

网站哪些内容不建议被抓取

对于这个思想这个小白也懂的不多，一般取决于内容是否利于SEO的原则。

例如，博客的搜索结果页，没做好优化的tags页都禁止抓取了。

而对于企业站来说，如果不打算可以优化公司名称的关键词，关于、联系、企业新闻等一些内容都可以考虑禁止。

还有一点值得注意的事，有很多站长反馈说百度不遵循robots.txt协议，抓取不该抓取的内容。长江也感觉不是很靠谱，所以也可以考虑在一些页面设置meta name=\”robots\”

百度的解释理解起来或许有所偏差，如果有不对，大家可以指正、交流。

本站代码模板仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负！

© 版权声明

本站声明本网站名称： 长江博客
本站永久网址： www.73bk.com
本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ3645181916进行删除处理。
1 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
2 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
3 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容