Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
一个典型的robots.txt文件内容如下:
User-agent: *
Disallow:
Sitemap: http://www.websiteurl.com/sitemap.xml
如果网站不存在robots.txt文件,那么搜索引擎默认抓取所有不受密码保护的网页内容,但也有搜索引擎(百度)建议,如果存在不希望被抓取的内容时,才需要建立robots.txt。因此,具体情况具体分析对待。
转载请注明:王杭州的个人网页 » robots.txt文件