robots.txt文件

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
Robots协议是国际互联网界通行的道德规范，基于以下原则建立：
1、搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

一个典型的robots.txt文件内容如下：

User-agent: *
Disallow:
Sitemap: http://www.websiteurl.com/sitemap.xml

如果网站不存在robots.txt文件，那么搜索引擎默认抓取所有不受密码保护的网页内容，但也有搜索引擎(百度)建议，如果存在不希望被抓取的内容时，才需要建立robots.txt。因此，具体情况具体分析对待。

PDF

转载请注明：王杭州的个人网页 » robots.txt文件

与本文相关的文章

Hi，您需要填写昵称和邮箱！