第 14 篇:robots.txt 协议 —— 尊重站长的规则

📅 2026/6/26 8:13:41
第 14 篇:robots.txt 协议 —— 尊重站长的规则
一、什么是 robots.txt?robots.txt是网站放在根目录下的一份纯文本文件,告诉搜索引擎和爬虫:🤖哪些页面可以抓🚫哪些页面不要抓⏰抓取频率建议历史上,robots.txt 是搜索引擎的"君子协议"。虽然法律强制力有限,但:✅ 遵守 robots.txt 是行业惯例✅ 大部分 ToS 引用了 robots.txt✅ 司法实践中,违反 robots.txt 会加重责任✅ 礼貌爬虫先读 robots.txtURL:https://目标网站/robots.txt二、robots.txt 的完整语法2.1 一个真实示例(以豆瓣为例)# robots.txt for Douban # 2019-04-24 User-agent: * Disallow: /subject_search Disallow: /shop/ Disallow: /musi