C1 · 可爬性与爬虫准入(Crawlability & Bot Access)
一句话:AI 爬虫进不来 = 你不存在。这是整个漏斗的第一道闸门、一票否决——不过则 A/B 两簇做得再好也全盘归零。这是 C 簇的准入入口:进得来(C1) → 读得到(C3) → 解析得了(C2)。 机制 → 02-2-答案生成管线总览(②召回)·02-1-LLM基础-训练推理与知识截止 怎么做 → P2-1-AI爬虫准入排查 治理取舍 → 12-3-爬虫管控与内容许可 证据 → 13-2-研究与数据源索引 相邻信号 → C3-渲染与内容可提取性·C2-结构化数据Schema
🎯 TL;DR(30 秒)
| 问题 | 一句话答案 |
|---|---|
| 是什么 | 各 AI 引擎的爬虫进不进得来抓你的页;被 robots/CDN/WAF 拦 = 对该引擎隐形 |
| 多重要 | 最高排查优先级——二元·一票否决,不过 = 后面所有信号归零(≠ 权重最高,是”否决”性质) |
| 怎么算”强” | robots 逐一放行 × CDN/WAF 未拦 × 服务器日志确实看到 bot 在抓 |
| 去哪做 | 诊断在本页;逐项放行/查 CDN/验日志的打法 → P2-1-AI爬虫准入排查 |
只记一条:准入不是加分项,是开关——先把它清零(确认进得来),再谈任何内容/权威优化。放行 ≠ 真被抓,一切以服务器日志为准。
🧠 为什么是”进得来”(准入第一关·一票否决)
- 它是漏斗的闸门、不是评分项:02-2-答案生成管线总览 的 ②召回之前,引擎得先抓到你的页。抓不到,③排序/④抽取/⑤引用根本不会发生——A 簇(信得过)、B 簇(答得上)全部变成 0。
- 二元开关,不是连续加权:可爬性只有”通过/出局”两态。通过才有资格进入后续全部评估;不通过则直接出局。所以它优先级最高、最先查,但这≠它”权重最高”(它根本不在加权体系里)→ 04-可见性影响因素与排名信号 的”一票否决 vs 加权”。
- 逐引擎、各自的爬虫:每个引擎用不同爬虫,拦了 A 引擎的 bot 只对 A 隐形,其他不受影响——必须逐一核对,不能只看一个。
- 三层准入、缺一层就漏:
robots.txt(协议层声明)→CDN/WAF(网络层实际拦截)→服务器日志(真实抓取证据)。前两层放行,最后一层没记录 = 没真的进来。 - 它是”必要非充分”:进得来只是拿到入场券;还要 C3-渲染与内容可提取性 读得到正文、C2-结构化数据Schema 解析得了,再叠加 A/B。准入过了不等于会被引。
🔢 三层准入别只看一层(最常见的概念混淆)
| 层 | 是什么 | 放行了 ≠ | 最容易漏 |
|---|---|---|---|
| robots.txt | 协议层”我允许谁抓”的声明 | ≠ CDN/WAF 真放行 | 只改这一层就以为完事 |
| CDN / WAF(Cloudflare 等) | 网络层实际拦不拦 | ≠ bot 真的来抓了 | Cloudflare 默认拦 AI bot,悄悄切断 |
| 服务器日志 | bot 真实抓取的唯一证据 | —(这是终判) | 放行后从不验证,误以为生效 |
关键:准入 = 三层全绿 + 日志可见,任一层拦截即出局。
robots.txt放行只是”嘴上允许”,真没真抓,看日志。
📊 证据与量级(标级 · 只链不抄)
| 发现 | 量级 | 级别 · 去哪溯源 |
|---|---|---|
| 可爬性是二元开关,不过则全盘归零 | 定性·硬约束 | B · 机制共识 → 02-2-答案生成管线总览 |
| 需放行的关键爬虫:GPTBot / PerplexityBot / ClaudeBot / Applebot / OAI-SearchBot / Google-Extended | 名单·随厂商更新 | C · 厂商文档(有时效)→ 13-2-研究与数据源索引 |
| Cloudflare 默认配置改为拦 AI bot | 行业事件·有时效 | C · 厂商/行业 → 12-3-爬虫管控与内容许可·13-2-研究与数据源索引 |
| 任一爬虫被拦 = 对该引擎隐形 | 定性·逐引擎 | B · 机制 → 03-0-平台横向对比矩阵 |
⚠️ 爬虫名单与默认策略有时效(厂商会增减 bot、CDN 会改默认)——本页只给方向,具体名单/配置以当期官方文档为准,定期复查。口径统一回 13-2-研究与数据源索引。
🔬 诊断:我的页 AI 爬虫到底进不进得来?
本页只做诊断(判断进得来没有);判出”没进来”后去 P2-1-AI爬虫准入排查 逐项修。
自检清单
-
robots.txt是否逐一放行上述各 AI bot(而非只放 Googlebot)? - Cloudflare / WAF / CDN 是否在默认拦截 AI bot?
- 服务器日志里能否看到这些 bot 的真实抓取记录(放行≠真来)?
- 是否逐引擎核对,而不是看一个就以为全通?
- 关键页有没有被误伤(noindex / 404 / 跳转 / 速率限制踢掉 bot)?
实测 prompt(快速体检)
1. 直接抓:用 curl 带对应 UA 取你的页,看返回的是正文还是 403/挑战页:
curl -A "GPTBot" -I https://你的域名/关键页
→ 200 = 初步放行;403/503/挑战 = 被 CDN/WAF 拦。
2. 反查日志:在服务器日志里 grep 这些 bot 名,最近有没有抓取记录。
3. 引擎侧:在 Perplexity 问一个只有你页才答得了的问题 → 它引得到你吗?
→ curl 被拦 / 日志无记录 / 引擎引不到 = 准入没过,先修 P2-1。
⚙️ 平台适配
- 逐引擎各自的爬虫(→ 03-0-平台横向对比矩阵):拦了谁就对谁隐形,必须逐一核对放行。
- ChatGPT(→ 03-1-ChatGPT):训练侧(GPTBot)与联网检索侧(OAI-SearchBot)是两条线,想被联网引用要放 OAI-SearchBot。
- Perplexity / Google AI Overviews(→ 03-3-Perplexity·03-2-Google-AIO与AI-Mode):实时检索类边抓边答,准入一断当场就没有你,最敏感。
- Cloudflare 用户:重点排查——默认策略可能已自动切断 AI bot → 12-3-爬虫管控与内容许可。
❌ 误区 & ⚠️ 二阶误区
常见误区
- ❌ “
robots.txt放行了就万事大吉” → 忽略 CDN/WAF 层的拦截(最常见盲区)。 - ❌ “放行了就一定被抓” → 放行≠真抓,必须看服务器日志验证。
⚠️ 二阶误区(懂了”要放行”之后最容易犯)
- ❌ “可爬性也是个加分项” → 错。它是二元否决不是加权:过了只是 0 分起步,不过直接出局 → 04-可见性影响因素与排名信号。
- ❌ “可爬 = 可见” → 进得来只是第一关,还要读得到(C3-渲染与内容可提取性)、解析得了(C2-结构化数据Schema),再叠加 A/B。准入是必要非充分。
- ❌ “一次放行一劳永逸” → CDN 默认策略会变(Cloudflare 就改过),需定期复查 → 12-5-模型波动与监测预警。
- ❌ “全部放行最安全” → 放不放行是流量 vs 内容许可/版权的取舍,有治理考量,不是无脑全开 → 12-3-爬虫管控与内容许可。
🧩 与相邻页的边界
- 本页(C1)= 诊断:这个信号是什么 / 为何是一票否决 / 进没进得来怎么判。
- 怎么做(逐项放行 robots、排查 Cloudflare/WAF、验服务器日志、逐引擎核对)→ P2-1-AI爬虫准入排查;机器可读表面/llms.txt → P2-4-llms-txt与机器可读表面。
- 同簇下游:进得来(C1)→ C3-渲染与内容可提取性(读得到正文)→ C2-结构化数据Schema(解析得了)。
- 跨簇前置:C1 是所有信号的前置——它不过,A-实体与权威信号、B-内容与语义信号 全部归零。
- 治理/取舍:放不放行 AI bot 的权衡、内容许可与版权 → 12-3-爬虫管控与内容许可;策略变动监测 → 12-5-模型波动与监测预警。
- 机制:二元开关在漏斗哪一关(②召回前的准入)→ 02-2-答案生成管线总览;爬虫/检索基础 → 02-1-LLM基础-训练推理与知识截止;衡量 → 07-1-指标体系-SoM与SoV;术语 → 13-1-术语表Glossary;数字/名单溯源 → 13-2-研究与数据源索引。
- 纪律:本页只诊断、不教操作、不抄名单;名单/配置一律标级 + 回链 + 标时效。
📌 关于本页(“成熟”级 · 复用叶子信号/诊断页范式):本页是 A2-品牌提及 所立 叶子信号/诊断页范式的第八次复用(继 A1/A3/A4/B3/B1/B2/B4 之后),也是 C 簇(技术与可访问性 = 准入层/地基)的开篇——同一模板:是什么 + 为什么重要(证据标级)+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C1 在 C 簇里的定位是准入第一关(进得来):进得来(C1)→ 读得到(C3)→ 解析得了(C2)。它是全漏斗唯一纯二元一票否决的起点,团队照着就能先排掉”根本没进来”这个最致命、最易被忽略的问题。
相关
- 同簇:C2-结构化数据Schema · C3-渲染与内容可提取性 · 簇索引 C-技术与可访问性信号
- 打法 / 配合:P2-1-AI爬虫准入排查 · P2-3-服务端渲染与可提取性 · P2-4-llms-txt与机器可读表面
- 治理 / 监测:12-3-爬虫管控与内容许可 · 12-5-模型波动与监测预警
- 机制 / 衡量 / 术语:02-2-答案生成管线总览 · 02-1-LLM基础-训练推理与知识截止 · 07-1-指标体系-SoM与SoV · 13-1-术语表Glossary
- 平台 / 证据 / 误区:03-0-平台横向对比矩阵 · 03-1-ChatGPT · 03-3-Perplexity · 03-2-Google-AIO与AI-Mode · 13-2-研究与数据源索引 · 01-5-常见误区与认知陷阱