最新消息:

robots.txt文件

资料 王杭州 3204浏览 0评论 [编辑]

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

一个典型的robots.txt文件内容如下:

User-agent: *
Disallow:
Sitemap: http://www.websiteurl.com/sitemap.xml

如果网站不存在robots.txt文件,那么搜索引擎默认抓取所有不受密码保护的网页内容,但也有搜索引擎(百度)建议,如果存在不希望被抓取的内容时,才需要建立robots.txt。因此,具体情况具体分析对待。

转载请注明:王杭州的个人网页 » robots.txt文件

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址