C1 · 可爬性与爬虫准入（Crawlability & Bot Access）

一句话：AI 爬虫进不来 = 你不存在。这是整个漏斗的第一道闸门、一票否决——不过则 A/B 两簇做得再好也全盘归零。这是 C 簇的准入入口：进得来(C1) → 读得到(C3) → 解析得了(C2)。机制 → 02-2-答案生成管线总览（②召回）·02-1-LLM基础-训练推理与知识截止　怎么做 → P2-1-AI爬虫准入排查　治理取舍 → 12-3-爬虫管控与内容许可　证据 → 13-2-研究与数据源索引　相邻信号 → C3-渲染与内容可提取性·C2-结构化数据Schema

🎯 TL;DR（30 秒）

问题	一句话答案
是什么	各 AI 引擎的爬虫进不进得来抓你的页；被 robots/CDN/WAF 拦 = 对该引擎隐形
多重要	最高排查优先级——二元·一票否决，不过 = 后面所有信号归零（≠ 权重最高，是”否决”性质）
怎么算”强”	robots 逐一放行 × CDN/WAF 未拦 × 服务器日志确实看到 bot 在抓
去哪做	诊断在本页；逐项放行/查 CDN/验日志的打法 → P2-1-AI爬虫准入排查

只记一条：准入不是加分项，是开关——先把它清零（确认进得来），再谈任何内容/权威优化。放行 ≠ 真被抓，一切以服务器日志为准。

🧠 为什么是”进得来”（准入第一关·一票否决）

它是漏斗的闸门、不是评分项：02-2-答案生成管线总览的 ②召回之前，引擎得先抓到你的页。抓不到，③排序/④抽取/⑤引用根本不会发生——A 簇（信得过）、B 簇（答得上）全部变成 0。
二元开关，不是连续加权：可爬性只有”通过/出局”两态。通过才有资格进入后续全部评估；不通过则直接出局。所以它优先级最高、最先查，但这≠它”权重最高”（它根本不在加权体系里）→ 04-可见性影响因素与排名信号的”一票否决 vs 加权”。
逐引擎、各自的爬虫：每个引擎用不同爬虫，拦了 A 引擎的 bot 只对 A 隐形，其他不受影响——必须逐一核对，不能只看一个。
三层准入、缺一层就漏：robots.txt（协议层声明）→ CDN/WAF（网络层实际拦截）→ 服务器日志（真实抓取证据）。前两层放行，最后一层没记录 = 没真的进来。
它是”必要非充分”：进得来只是拿到入场券；还要 C3-渲染与内容可提取性读得到正文、C2-结构化数据Schema 解析得了，再叠加 A/B。准入过了不等于会被引。

🔢 三层准入别只看一层（最常见的概念混淆）

层	是什么	放行了 ≠	最容易漏
robots.txt	协议层”我允许谁抓”的声明	≠ CDN/WAF 真放行	只改这一层就以为完事
CDN / WAF（Cloudflare 等）	网络层实际拦不拦	≠ bot 真的来抓了	Cloudflare 默认拦 AI bot，悄悄切断
服务器日志	bot 真实抓取的唯一证据	—（这是终判）	放行后从不验证，误以为生效

关键：准入 = 三层全绿 + 日志可见，任一层拦截即出局。robots.txt 放行只是”嘴上允许”，真没真抓，看日志。

📊 证据与量级（标级 · 只链不抄）

发现	量级	级别 · 去哪溯源
可爬性是二元开关，不过则全盘归零	定性·硬约束	B · 机制共识 → 02-2-答案生成管线总览
需放行的关键爬虫：GPTBot / PerplexityBot / ClaudeBot / Applebot / OAI-SearchBot / Google-Extended	名单·随厂商更新	C · 厂商文档（有时效）→ 13-2-研究与数据源索引
Cloudflare 默认配置改为拦 AI bot	行业事件·有时效	C · 厂商/行业 → 12-3-爬虫管控与内容许可·13-2-研究与数据源索引
任一爬虫被拦 = 对该引擎隐形	定性·逐引擎	B · 机制 → 03-0-平台横向对比矩阵

⚠️ 爬虫名单与默认策略有时效（厂商会增减 bot、CDN 会改默认）——本页只给方向，具体名单/配置以当期官方文档为准，定期复查。口径统一回 13-2-研究与数据源索引。

🔬 诊断：我的页 AI 爬虫到底进不进得来？

本页只做诊断（判断进得来没有）；判出”没进来”后去 P2-1-AI爬虫准入排查逐项修。

自检清单

robots.txt 是否逐一放行上述各 AI bot（而非只放 Googlebot）？
Cloudflare / WAF / CDN 是否在默认拦截 AI bot？
服务器日志里能否看到这些 bot 的真实抓取记录（放行≠真来）？
是否逐引擎核对，而不是看一个就以为全通？
关键页有没有被误伤（noindex / 404 / 跳转 / 速率限制踢掉 bot）？

实测 prompt（快速体检）

1. 直接抓：用 curl 带对应 UA 取你的页，看返回的是正文还是 403/挑战页：
   curl -A "GPTBot" -I https://你的域名/关键页
   → 200 = 初步放行；403/503/挑战 = 被 CDN/WAF 拦。
2. 反查日志：在服务器日志里 grep 这些 bot 名，最近有没有抓取记录。
3. 引擎侧：在 Perplexity 问一个只有你页才答得了的问题 → 它引得到你吗？
→ curl 被拦 / 日志无记录 / 引擎引不到 = 准入没过，先修 P2-1。

⚙️ 平台适配

逐引擎各自的爬虫（→ 03-0-平台横向对比矩阵）：拦了谁就对谁隐形，必须逐一核对放行。
ChatGPT（→ 03-1-ChatGPT）：训练侧（GPTBot）与联网检索侧（OAI-SearchBot）是两条线，想被联网引用要放 OAI-SearchBot。
Perplexity / Google AI Overviews（→ 03-3-Perplexity·03-2-Google-AIO与AI-Mode）：实时检索类边抓边答，准入一断当场就没有你，最敏感。
Cloudflare 用户：重点排查——默认策略可能已自动切断 AI bot → 12-3-爬虫管控与内容许可。

❌ 误区 & ⚠️ 二阶误区

常见误区

❌ “robots.txt 放行了就万事大吉” → 忽略 CDN/WAF 层的拦截（最常见盲区）。
❌ “放行了就一定被抓” → 放行≠真抓，必须看服务器日志验证。

⚠️ 二阶误区（懂了”要放行”之后最容易犯）

❌ “可爬性也是个加分项” → 错。它是二元否决不是加权：过了只是 0 分起步，不过直接出局 → 04-可见性影响因素与排名信号。
❌ “可爬 = 可见” → 进得来只是第一关，还要读得到(C3-渲染与内容可提取性)、解析得了(C2-结构化数据Schema)，再叠加 A/B。准入是必要非充分。
❌ “一次放行一劳永逸” → CDN 默认策略会变（Cloudflare 就改过），需定期复查 → 12-5-模型波动与监测预警。
❌ “全部放行最安全” → 放不放行是流量 vs 内容许可/版权的取舍，有治理考量，不是无脑全开 → 12-3-爬虫管控与内容许可。

🧩 与相邻页的边界

本页（C1）= 诊断：这个信号是什么 / 为何是一票否决 / 进没进得来怎么判。
怎么做（逐项放行 robots、排查 Cloudflare/WAF、验服务器日志、逐引擎核对）→ P2-1-AI爬虫准入排查；机器可读表面/llms.txt → P2-4-llms-txt与机器可读表面。
同簇下游：进得来（C1）→ C3-渲染与内容可提取性（读得到正文）→ C2-结构化数据Schema（解析得了）。
跨簇前置：C1 是所有信号的前置——它不过，A-实体与权威信号、B-内容与语义信号全部归零。
治理/取舍：放不放行 AI bot 的权衡、内容许可与版权 → 12-3-爬虫管控与内容许可；策略变动监测 → 12-5-模型波动与监测预警。
机制：二元开关在漏斗哪一关（②召回前的准入）→ 02-2-答案生成管线总览；爬虫/检索基础 → 02-1-LLM基础-训练推理与知识截止；衡量 → 07-1-指标体系-SoM与SoV；术语 → 13-1-术语表Glossary；数字/名单溯源 → 13-2-研究与数据源索引。
纪律：本页只诊断、不教操作、不抄名单；名单/配置一律标级 + 回链 + 标时效。

📌 关于本页（“成熟”级 · 复用叶子信号/诊断页范式）：本页是 A2-品牌提及所立 叶子信号/诊断页范式的第八次复用（继 A1/A3/A4/B3/B1/B2/B4 之后），也是 C 簇（技术与可访问性 = 准入层/地基）的开篇——同一模板：是什么 + 为什么重要（证据标级）+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C1 在 C 簇里的定位是准入第一关（进得来）：进得来（C1）→ 读得到（C3）→ 解析得了（C2）。它是全漏斗唯一纯二元一票否决的起点，团队照着就能先排掉”根本没进来”这个最致命、最易被忽略的问题。

AEO 知识库

探索

C1-可爬性与爬虫准入

C1 · 可爬性与爬虫准入（Crawlability & Bot Access）

🎯 TL;DR（30 秒）

🧠 为什么是”进得来”（准入第一关·一票否决）

🔢 三层准入别只看一层（最常见的概念混淆）

📊 证据与量级（标级 · 只链不抄）

🔬 诊断：我的页 AI 爬虫到底进不进得来？

⚙️ 平台适配

❌ 误区 & ⚠️ 二阶误区

🧩 与相邻页的边界

相关

关系图谱

目录

反向链接