12-3 · 爬虫管控与内容许可

一句话:放行还是封禁 AI 爬虫,是一笔账——封错了直接从 AI 答案里消失。关键是分清”训练爬虫”与”搜索爬虫”,并在封禁/授权/诉讼三条路里选对。

🤖 robots.txt:自愿协议,分清两类爬虫

  • robots.txt 是自愿的:守规矩的 bot 听,恶意 bot 不听。
  • 训练 vs 搜索是两个 bot(同一家公司):
    • GPTBot = 训练 OpenAI 模型;OAI-SearchBot = 驱动 ChatGPT 实时搜索。
    • 封一个对另一个零影响 → 想出现在 ChatGPT 搜索就放行 OAI-SearchBot,不想被训练就封 GPTBot
  • 排查见 P2-1-AI爬虫准入排查

📊 现状(Cloudflare 网络,2026 Q1)

  • GPTBot 是最常被封的 AI 爬虫,但也是最常被显式放行的——全网态度两极。
  • top 1,000 站中 25% 封 GPTBot(2023 初仅 5%)。
  • ClaudeBot 每 20,583 次抓取才回 1 次引荐;89.4% AI 爬虫流量是训练/混合用途,非搜索。
  • Bytespider 最激进、最不守 robots → 用服务器级规则拦。

🕳️ 高危盲点:CDN 层”误封”

  • Cloudflare(护全网约 20% 站)自 2024 起对新域默认封 AI 爬虫 → 约 27% B2B SaaS/电商站在 CDN 层”不知情地”封了主流 LLM 爬虫
  • 即使 robots.txt 写对,也要查 CDN/WAF 层——这是高优先体检项。

💰 三条路:封禁 / 授权 / 诉讼

  • 授权:OpenAI 已签 18 家出版商(2025 末);News Corp 协议5 年最高 $250M(现金+额度);出版商换来署名 + 技术 → 媒体侧取舍见 09-5-媒体与出版
  • 诉讼:截至 2026-05,9 家起诉 Perplexity(CNN、NYT、News Corp/Dow Jones、NY Post、Chicago Tribune、Britannica、Merriam-Webster、Reddit、读卖);Bartz v. Anthropic(美史上最大版权和解,约 12 万作者)2025-09 获初步批准。
  • 法规化:欧盟/WIPO 等在探索法定许可(强制 AI 付费用新闻)→ 12-6-合规与数据隐私

⚠️ 坑

  • 一刀切封所有 AI 爬虫 → 训练+搜索一起封 = 从 AI 答案消失。
  • 只改 robots.txt、忘查 CDN 默认拦截 → “明明放行却仍隐身”。
  • 把”被抓取”等同”被引可见”——两者机制不同 → 02-3-RAG与实时检索grounding

相关