C1 · 可爬性与爬虫准入(Crawlability & Bot Access)

一句话:AI 爬虫进不来 = 你不存在。这是整个漏斗的第一道闸门、一票否决——不过则 A/B 两簇做得再好也全盘归零。这是 C 簇的准入入口进得来(C1) → 读得到(C3) → 解析得了(C2)机制02-2-答案生成管线总览(②召回)·02-1-LLM基础-训练推理与知识截止 怎么做P2-1-AI爬虫准入排查 治理取舍12-3-爬虫管控与内容许可 证据13-2-研究与数据源索引 相邻信号C3-渲染与内容可提取性·C2-结构化数据Schema

🎯 TL;DR(30 秒)

问题一句话答案
是什么各 AI 引擎的爬虫进不进得来抓你的页;被 robots/CDN/WAF 拦 = 对该引擎隐形
多重要最高排查优先级——二元·一票否决,不过 = 后面所有信号归零(≠ 权重最高,是”否决”性质)
怎么算”强”robots 逐一放行 × CDN/WAF 未拦 × 服务器日志确实看到 bot 在抓
去哪做诊断在本页;逐项放行/查 CDN/验日志的打法 → P2-1-AI爬虫准入排查

只记一条:准入不是加分项,是开关——先把它清零(确认进得来),再谈任何内容/权威优化。放行 ≠ 真被抓,一切以服务器日志为准。

🧠 为什么是”进得来”(准入第一关·一票否决)

  • 它是漏斗的闸门、不是评分项02-2-答案生成管线总览②召回之前,引擎得先抓到你的页。抓不到,③排序/④抽取/⑤引用根本不会发生——A 簇(信得过)、B 簇(答得上)全部变成 0
  • 二元开关,不是连续加权:可爬性只有”通过/出局”两态。通过才有资格进入后续全部评估;不通过则直接出局。所以它优先级最高、最先查,但这≠它”权重最高”(它根本不在加权体系里)→ 04-可见性影响因素与排名信号 的”一票否决 vs 加权”。
  • 逐引擎、各自的爬虫:每个引擎用不同爬虫,拦了 A 引擎的 bot 只对 A 隐形,其他不受影响——必须逐一核对,不能只看一个。
  • 三层准入、缺一层就漏robots.txt(协议层声明)→ CDN/WAF(网络层实际拦截)→ 服务器日志(真实抓取证据)。前两层放行,最后一层没记录 = 没真的进来
  • 它是”必要非充分”:进得来只是拿到入场券;还要 C3-渲染与内容可提取性 读得到正文、C2-结构化数据Schema 解析得了,再叠加 A/B。准入过了不等于会被引

🔢 三层准入别只看一层(最常见的概念混淆)

是什么放行了 ≠最容易漏
robots.txt协议层”我允许谁抓”的声明≠ CDN/WAF 真放行只改这一层就以为完事
CDN / WAF(Cloudflare 等)网络层实际拦不拦≠ bot 真的来抓了Cloudflare 默认拦 AI bot,悄悄切断
服务器日志bot 真实抓取的唯一证据—(这是终判)放行后从不验证,误以为生效

关键:准入 = 三层全绿 + 日志可见,任一层拦截即出局。robots.txt 放行只是”嘴上允许”,真没真抓,看日志

📊 证据与量级(标级 · 只链不抄)

发现量级级别 · 去哪溯源
可爬性是二元开关,不过则全盘归零定性·硬约束B · 机制共识 → 02-2-答案生成管线总览
需放行的关键爬虫:GPTBot / PerplexityBot / ClaudeBot / Applebot / OAI-SearchBot / Google-Extended名单·随厂商更新C · 厂商文档(有时效)→ 13-2-研究与数据源索引
Cloudflare 默认配置改为拦 AI bot行业事件·有时效C · 厂商/行业 → 12-3-爬虫管控与内容许可·13-2-研究与数据源索引
任一爬虫被拦 = 对该引擎隐形定性·逐引擎B · 机制 → 03-0-平台横向对比矩阵

⚠️ 爬虫名单与默认策略有时效(厂商会增减 bot、CDN 会改默认)——本页只给方向,具体名单/配置以当期官方文档为准,定期复查。口径统一回 13-2-研究与数据源索引

🔬 诊断:我的页 AI 爬虫到底进不进得来?

本页只做诊断(判断进得来没有);判出”没进来”后去 P2-1-AI爬虫准入排查 逐项修。

自检清单

  • robots.txt 是否逐一放行上述各 AI bot(而非只放 Googlebot)?
  • Cloudflare / WAF / CDN 是否在默认拦截 AI bot?
  • 服务器日志里能否看到这些 bot 的真实抓取记录(放行≠真来)?
  • 是否逐引擎核对,而不是看一个就以为全通?
  • 关键页有没有被误伤(noindex / 404 / 跳转 / 速率限制踢掉 bot)?

实测 prompt(快速体检)

1. 直接抓:用 curl 带对应 UA 取你的页,看返回的是正文还是 403/挑战页:
   curl -A "GPTBot" -I https://你的域名/关键页
   → 200 = 初步放行;403/503/挑战 = 被 CDN/WAF 拦。
2. 反查日志:在服务器日志里 grep 这些 bot 名,最近有没有抓取记录。
3. 引擎侧:在 Perplexity 问一个只有你页才答得了的问题 → 它引得到你吗?
→ curl 被拦 / 日志无记录 / 引擎引不到 = 准入没过,先修 P2-1。

⚙️ 平台适配

❌ 误区 & ⚠️ 二阶误区

常见误区

  • ❌ “robots.txt 放行了就万事大吉” → 忽略 CDN/WAF 层的拦截(最常见盲区)。
  • ❌ “放行了就一定被抓” → 放行≠真抓,必须看服务器日志验证。

⚠️ 二阶误区(懂了”要放行”之后最容易犯)

🧩 与相邻页的边界

📌 关于本页(“成熟”级 · 复用叶子信号/诊断页范式):本页是 A2-品牌提及 所立 叶子信号/诊断页范式第八次复用(继 A1/A3/A4/B3/B1/B2/B4 之后),也是 C 簇(技术与可访问性 = 准入层/地基)的开篇——同一模板:是什么 + 为什么重要(证据标级)+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C1 在 C 簇里的定位是准入第一关(进得来):进得来(C1)→ 读得到(C3)→ 解析得了(C2)。它是全漏斗唯一纯二元一票否决的起点,团队照着就能先排掉”根本没进来”这个最致命、最易被忽略的问题。

相关