C3 · 渲染与内容可提取性（Rendering & Extractability）

一句话：进了门也得读得到正文——核心内容藏在 JS / 登录 / 付费墙后，引擎在检索阶段拿不到 = 等同隐形。这是 C 簇的第二关：进得来(C1) → 读得到(C3) → 解析得了(C2)。机制 → 02-2-答案生成管线总览（②召回→④抽取）·02-3-RAG与实时检索grounding　怎么做 → P2-3-服务端渲染与可提取性　证据 → 13-2-研究与数据源索引　相邻信号 → C1-可爬性与爬虫准入·B1-可答性与答案优先格式

🎯 TL;DR（30 秒）

问题	一句话答案
是什么	爬虫实际读不读得到正文：多数 AI 爬虫不执行 JS，CSR/登录/付费墙后的内容会被跳过
多重要	准入级·二元偏硬——核心正文读不到 = 核心隐形，C1 之后第二个最先排的硬伤
怎么算”强”	禁 JS 仍可见 × “查看源代码”能看到正文 × 关键内容不锁在登录/付费墙/交互后
去哪做	诊断在本页；SSR/去 JS 依赖/解锁正文的打法 → P2-3-服务端渲染与可提取性

只记一条：你（浏览器）看得到 ≠ 爬虫（多数不跑 JS）读得到——以”禁用 JS 后还剩什么 + 查看源代码有没有正文”为准，而不是以你屏幕上看到的为准。

🧠 为什么是”读得到”（准入第二关·二元偏硬）

它在 C1 之后、解析之前：C1-可爬性与爬虫准入解决”进不进得来”，C3 解决”进了能不能读到正文”。准入过了但正文是空壳，引擎在 02-2-答案生成管线总览的 ②召回阶段拿到的是没内容的页，等同隐形。
多数 AI 爬虫不执行 JS：它们不像浏览器那样跑脚本。客户端渲染（CSR）注入的正文，源码里根本没有——你眼睛看得到，爬虫读到的是空 DOM。
锁在墙后 = 拿不到：内容若锁在登录 / 付费墙 / 交互（点击展开、无限滚动）之后，检索阶段同样够不着正文。
二元偏硬、但有”程度”：与 C1 的纯二元不同——能读到多少就可能被引多少。但核心结论藏起来 = 核心隐形，所以实践上当准入级硬伤处理。
作用在哪一关：先卡 ②召回（正文进不进得到候选），再直接影响 ④抽取（读到了才谈抽得干不干净）。实时检索类边检索边作答，最吃这一关 → 02-3-RAG与实时检索grounding。

🔢 三种”看得到”别混（最常见的概念混淆）

维度	谁在看	看到的是	最容易错
浏览器可见	你 / 用户	JS 执行后的渲染结果	以为”我看得到 = 爬虫读得到”
源码可见	AI 爬虫（多数不跑 JS）	原始 HTML 里的文本	CSR 注入的正文，源码里没有
可抽取文本	引擎抽取器	纯文本（非图片、非交互后）	信息只在图里 / 锁在展开后

关键：判断标准是爬虫视角（禁 JS 的原始 HTML），不是你屏幕上看到的。图里的字、点击才出现的内容，约等于不存在。

📊 证据与量级（标级 · 只链不抄）

发现	量级	级别 · 去哪溯源
多数 AI 爬虫不执行 JS	定性·机制确定	B · 机制共识 → 02-2-答案生成管线总览
CSR/SPA 源码无正文 → 检索阶段拿不到	定性·硬约束	B · 机制 → 02-3-RAG与实时检索grounding
登录/付费墙/交互后的内容 = 检索隐形	定性·准入	B · 机制共识 → 13-2-研究与数据源索引
实时检索类受 JS 渲染问题影响最直接	定性·强	B · 机制 → 02-3-RAG与实时检索grounding·03-3-Perplexity

⚠️ 影响程度按页面架构浮动（纯 CSR 最惨、混合渲染居中、纯 SSR 无虞）——这是机制性硬约束而非可调百分比，别套数字。口径统一回 13-2-研究与数据源索引。

🔬 诊断：我的正文，爬虫到底读不读得到？

本页只做诊断（判断读不读得到）；判出”读不到”后去 P2-3-服务端渲染与可提取性修。

自检清单

禁用 JS 后刷新，核心正文是否仍然可见？
“查看源代码”（原始 HTML）里能否搜到正文文本？
关键内容是否锁在登录 / 付费墙 / 点击展开 / 无限滚动之后？
重要信息是否只存在于图片里（无等价文字）？
是否纯客户端渲染（CSR/SPA），源码近乎空壳？

实测 prompt（快速体检）

1. 禁 JS：浏览器关掉 JavaScript 再访问关键页 → 正文还在吗？空白=CSR 隐患。
2. 看源码：对页面"查看网页源代码"(Ctrl+U)，Ctrl+F 搜你的核心句子 →
   搜得到 = 在原始 HTML 里；搜不到 = 靠 JS 注入，爬虫读不到。
3. 引擎侧：在 Perplexity 问只有该页正文才答得了的细节 → 引得到完整内容吗？
→ 禁 JS 空白 / 源码搜不到 / 引擎只引到标题摘要 = 可提取性差，修 P2-3。

⚙️ 平台适配

Perplexity / Google AI Overviews（→ 03-3-Perplexity·03-2-Google-AIO与AI-Mode）：实时检索类边抓边答，受 JS 渲染问题影响最直接——C3 的主战场。
ChatGPT（→ 03-1-ChatGPT）：训练语料侧若源码无正文则当初就没学到；联网检索侧同样吃 JS 渲染。
付费墙媒体（→ 09-5-媒体与出版）：商业模式与可提取性的取舍——可放前置摘要/可索引片段兼顾。
通用：纯 SSR/预渲染最稳，纯 CSR 最吃亏 → 03-0-平台横向对比矩阵。

❌ 误区 & ⚠️ 二阶误区

常见误区

❌ “我浏览器能看到，爬虫当然也能” → 浏览器跑 JS，多数 AI 爬虫不跑。
❌ “内容发上去就行” → CSR 注入的正文源码里没有，等同没发。

⚠️ 二阶误区（懂了”要让爬虫读得到”之后最容易犯）

❌ “上了 SSR 就万事大吉” → 还要确认正文真在源码里、没又被锁在登录/交互后 → P2-3-服务端渲染与可提取性。
❌ “图做得清楚就够” → 引擎抽文字不抽图，图旁必须配等价文字结论 → B2-信息密度·P1-3-原创研究与专有数据。
❌ “点击展开/折叠面板更整洁” → 交互后才出现的内容，检索阶段拿不到。
❌ “读得到 = 抽得好” → 读得到只是进了 ④抽取的门；抽得干不干净是结构问题 → B1-可答性与答案优先格式。

🧩 与相邻页的边界

本页（C3）= 诊断：这个信号是什么 / 为何是准入第二关 / 正文读不读得到怎么判。
怎么做（关键内容 SSR/预渲染、去 JS 依赖、解锁正文、干净语义化 HTML、图配等价文字）→ P2-3-服务端渲染与可提取性；机器可读表面 → P2-4-llms-txt与机器可读表面。
同簇上下游：上游 C1-可爬性与爬虫准入（进得来）→ 本页 C3（读得到正文）→ 下游 C2-结构化数据Schema（解析得了”这是什么”）。
与 B1 的分工：C3 管”正文在不在源码里（能不能读到）“，B1-可答性与答案优先格式管”读到之后好不好被整段抽（结构）“——读不到则 B1 全白搭，先 C3 再 B1。
场景取舍：付费墙 vs 可见性 → 09-5-媒体与出版；爬虫管控的版权取舍 → 12-3-爬虫管控与内容许可。
机制：为何实时检索吃 JS 渲染 → 02-3-RAG与实时检索grounding；漏斗定位（②召回→④抽取）→ 02-2-答案生成管线总览；衡量 → 07-1-指标体系-SoM与SoV；术语 → 13-1-术语表Glossary；数字溯源 → 13-2-研究与数据源索引。
纪律：本页只诊断、不教操作、不抄数字；机制性约束标级 + 回链，不套可调百分比。

📌 关于本页（“成熟”级 · 复用叶子信号/诊断页范式）：本页是 A2-品牌提及所立 叶子信号/诊断页范式的第九次复用（继 A1/A3/A4/B3/B1/B2/B4/C1 之后）——同一模板：是什么 + 为什么重要（证据标级）+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C3 在 C 簇里的定位是准入第二关（读得到）：进得来（C1）→ 读得到（C3） → 解析得了（C2）。它把”你看得到 ≠ 爬虫读得到”这个最反直觉的技术坑摆在台面上，团队照着就能自查”为什么页面明明有内容，引擎却像没看见”。

AEO 知识库

探索

C3-渲染与内容可提取性

C3 · 渲染与内容可提取性（Rendering & Extractability）

🎯 TL;DR（30 秒）

🧠 为什么是”读得到”（准入第二关·二元偏硬）

🔢 三种”看得到”别混（最常见的概念混淆）

📊 证据与量级（标级 · 只链不抄）

🔬 诊断：我的正文，爬虫到底读不读得到？

⚙️ 平台适配

❌ 误区 & ⚠️ 二阶误区

🧩 与相邻页的边界

相关

关系图谱

目录

反向链接