AEO 知识库

❯

12 前沿风险与治理

❯

12 3 爬虫管控与内容许可

12-3-爬虫管控与内容许可

2026年6月01日3分钟阅读

aeo-geo
风险
爬虫管控
robots
内容许可
licensing

12-3 · 爬虫管控与内容许可

一句话：放行还是封禁 AI 爬虫，是一笔账——封错了直接从 AI 答案里消失。关键是分清”训练爬虫”与”搜索爬虫”，并在封禁/授权/诉讼三条路里选对。

🤖 robots.txt：自愿协议，分清两类爬虫

robots.txt 是自愿的：守规矩的 bot 听，恶意 bot 不听。
训练 vs 搜索是两个 bot（同一家公司）：
- GPTBot = 训练 OpenAI 模型；OAI-SearchBot = 驱动 ChatGPT 实时搜索。
- 封一个对另一个零影响 → 想出现在 ChatGPT 搜索就放行 OAI-SearchBot，不想被训练就封 GPTBot。
排查见 P2-1-AI爬虫准入排查。

📊 现状（Cloudflare 网络，2026 Q1）

GPTBot 是最常被封的 AI 爬虫，但也是最常被显式放行的——全网态度两极。
top 1,000 站中 25% 封 GPTBot（2023 初仅 5%）。
ClaudeBot 每 20,583 次抓取才回 1 次引荐；89.4% AI 爬虫流量是训练/混合用途，非搜索。
Bytespider 最激进、最不守 robots → 用服务器级规则拦。

🕳️ 高危盲点：CDN 层”误封”

Cloudflare（护全网约 20% 站）自 2024 起对新域默认封 AI 爬虫 → 约 27% B2B SaaS/电商站在 CDN 层”不知情地”封了主流 LLM 爬虫。
即使 robots.txt 写对，也要查 CDN/WAF 层——这是高优先体检项。

💰 三条路：封禁 / 授权 / 诉讼

授权：OpenAI 已签 18 家出版商（2025 末）；News Corp 协议5 年最高 $250M（现金+额度）；出版商换来署名 + 技术 → 媒体侧取舍见 09-5-媒体与出版。
诉讼：截至 2026-05，9 家起诉 Perplexity（CNN、NYT、News Corp/Dow Jones、NY Post、Chicago Tribune、Britannica、Merriam-Webster、Reddit、读卖）；Bartz v. Anthropic（美史上最大版权和解，约 12 万作者）2025-09 获初步批准。
法规化：欧盟/WIPO 等在探索法定许可（强制 AI 付费用新闻）→ 12-6-合规与数据隐私。

⚠️ 坑

一刀切封所有 AI 爬虫 → 训练+搜索一起封 = 从 AI 答案消失。
只改 robots.txt、忘查 CDN 默认拦截 → “明明放行却仍隐身”。
把”被抓取”等同”被引可见”——两者机制不同 → 02-3-RAG与实时检索grounding。

相关

爬虫准入排查 → P2-1-AI爬虫准入排查；媒体取舍 → 09-5-媒体与出版
合规法规 → 12-6-合规与数据隐私

关系图谱

12-3 · 爬虫管控与内容许可
🤖 robots.txt：自愿协议，分清两类爬虫
📊 现状（Cloudflare 网络，2026 Q1）
🕳️ 高危盲点：CDN 层”误封”
💰 三条路：封禁 / 授权 / 诉讼
⚠️ 坑
相关

反向链接

C1-可爬性与爬虫准入
C3-渲染与内容可提取性
P2-1-AI爬虫准入排查
12-6-合规与数据隐私
12-前沿风险与治理
13-1-术语表Glossary

Created with Quartz v4.5.2 © 2026