12-3 · 爬虫管控与内容许可
一句话:放行还是封禁 AI 爬虫,是一笔账——封错了直接从 AI 答案里消失。关键是分清”训练爬虫”与”搜索爬虫”,并在封禁/授权/诉讼三条路里选对。
🤖 robots.txt:自愿协议,分清两类爬虫
- robots.txt 是自愿的:守规矩的 bot 听,恶意 bot 不听。
- 训练 vs 搜索是两个 bot(同一家公司):
- GPTBot = 训练 OpenAI 模型;OAI-SearchBot = 驱动 ChatGPT 实时搜索。
- 封一个对另一个零影响 → 想出现在 ChatGPT 搜索就放行 OAI-SearchBot,不想被训练就封 GPTBot。
- 排查见 P2-1-AI爬虫准入排查。
📊 现状(Cloudflare 网络,2026 Q1)
- GPTBot 是最常被封的 AI 爬虫,但也是最常被显式放行的——全网态度两极。
- top 1,000 站中 25% 封 GPTBot(2023 初仅 5%)。
- ClaudeBot 每 20,583 次抓取才回 1 次引荐;89.4% AI 爬虫流量是训练/混合用途,非搜索。
- Bytespider 最激进、最不守 robots → 用服务器级规则拦。
🕳️ 高危盲点:CDN 层”误封”
- Cloudflare(护全网约 20% 站)自 2024 起对新域默认封 AI 爬虫 → 约 27% B2B SaaS/电商站在 CDN 层”不知情地”封了主流 LLM 爬虫。
- 即使 robots.txt 写对,也要查 CDN/WAF 层——这是高优先体检项。
💰 三条路:封禁 / 授权 / 诉讼
- 授权:OpenAI 已签 18 家出版商(2025 末);News Corp 协议5 年最高 $250M(现金+额度);出版商换来署名 + 技术 → 媒体侧取舍见 09-5-媒体与出版。
- 诉讼:截至 2026-05,9 家起诉 Perplexity(CNN、NYT、News Corp/Dow Jones、NY Post、Chicago Tribune、Britannica、Merriam-Webster、Reddit、读卖);Bartz v. Anthropic(美史上最大版权和解,约 12 万作者)2025-09 获初步批准。
- 法规化:欧盟/WIPO 等在探索法定许可(强制 AI 付费用新闻)→ 12-6-合规与数据隐私。
⚠️ 坑
- 一刀切封所有 AI 爬虫 → 训练+搜索一起封 = 从 AI 答案消失。
- 只改 robots.txt、忘查 CDN 默认拦截 → “明明放行却仍隐身”。
- 把”被抓取”等同”被引可见”——两者机制不同 → 02-3-RAG与实时检索grounding。
相关
- 爬虫准入排查 → P2-1-AI爬虫准入排查;媒体取舍 → 09-5-媒体与出版
- 合规法规 → 12-6-合规与数据隐私