C3 · 渲染与内容可提取性(Rendering & Extractability)
一句话:进了门也得读得到正文——核心内容藏在 JS / 登录 / 付费墙后,引擎在检索阶段拿不到 = 等同隐形。这是 C 簇的第二关:进得来(C1) → 读得到(C3) → 解析得了(C2)。 机制 → 02-2-答案生成管线总览(②召回→④抽取)·02-3-RAG与实时检索grounding 怎么做 → P2-3-服务端渲染与可提取性 证据 → 13-2-研究与数据源索引 相邻信号 → C1-可爬性与爬虫准入·B1-可答性与答案优先格式
🎯 TL;DR(30 秒)
| 问题 | 一句话答案 |
|---|---|
| 是什么 | 爬虫实际读不读得到正文:多数 AI 爬虫不执行 JS,CSR/登录/付费墙后的内容会被跳过 |
| 多重要 | 准入级·二元偏硬——核心正文读不到 = 核心隐形,C1 之后第二个最先排的硬伤 |
| 怎么算”强” | 禁 JS 仍可见 × “查看源代码”能看到正文 × 关键内容不锁在登录/付费墙/交互后 |
| 去哪做 | 诊断在本页;SSR/去 JS 依赖/解锁正文的打法 → P2-3-服务端渲染与可提取性 |
只记一条:你(浏览器)看得到 ≠ 爬虫(多数不跑 JS)读得到——以”禁用 JS 后还剩什么 + 查看源代码有没有正文”为准,而不是以你屏幕上看到的为准。
🧠 为什么是”读得到”(准入第二关·二元偏硬)
- 它在 C1 之后、解析之前:C1-可爬性与爬虫准入 解决”进不进得来”,C3 解决”进了能不能读到正文”。准入过了但正文是空壳,引擎在 02-2-答案生成管线总览 的 ②召回阶段拿到的是没内容的页,等同隐形。
- 多数 AI 爬虫不执行 JS:它们不像浏览器那样跑脚本。客户端渲染(CSR)注入的正文,源码里根本没有——你眼睛看得到,爬虫读到的是空 DOM。
- 锁在墙后 = 拿不到:内容若锁在登录 / 付费墙 / 交互(点击展开、无限滚动)之后,检索阶段同样够不着正文。
- 二元偏硬、但有”程度”:与 C1 的纯二元不同——能读到多少就可能被引多少。但核心结论藏起来 = 核心隐形,所以实践上当准入级硬伤处理。
- 作用在哪一关:先卡 ②召回(正文进不进得到候选),再直接影响 ④抽取(读到了才谈抽得干不干净)。实时检索类边检索边作答,最吃这一关 → 02-3-RAG与实时检索grounding。
🔢 三种”看得到”别混(最常见的概念混淆)
| 维度 | 谁在看 | 看到的是 | 最容易错 |
|---|---|---|---|
| 浏览器可见 | 你 / 用户 | JS 执行后的渲染结果 | 以为”我看得到 = 爬虫读得到” |
| 源码可见 | AI 爬虫(多数不跑 JS) | 原始 HTML 里的文本 | CSR 注入的正文,源码里没有 |
| 可抽取文本 | 引擎抽取器 | 纯文本(非图片、非交互后) | 信息只在图里 / 锁在展开后 |
关键:判断标准是爬虫视角(禁 JS 的原始 HTML),不是你屏幕上看到的。图里的字、点击才出现的内容,约等于不存在。
📊 证据与量级(标级 · 只链不抄)
| 发现 | 量级 | 级别 · 去哪溯源 |
|---|---|---|
| 多数 AI 爬虫不执行 JS | 定性·机制确定 | B · 机制共识 → 02-2-答案生成管线总览 |
| CSR/SPA 源码无正文 → 检索阶段拿不到 | 定性·硬约束 | B · 机制 → 02-3-RAG与实时检索grounding |
| 登录/付费墙/交互后的内容 = 检索隐形 | 定性·准入 | B · 机制共识 → 13-2-研究与数据源索引 |
| 实时检索类受 JS 渲染问题影响最直接 | 定性·强 | B · 机制 → 02-3-RAG与实时检索grounding·03-3-Perplexity |
⚠️ 影响程度按页面架构浮动(纯 CSR 最惨、混合渲染居中、纯 SSR 无虞)——这是机制性硬约束而非可调百分比,别套数字。口径统一回 13-2-研究与数据源索引。
🔬 诊断:我的正文,爬虫到底读不读得到?
本页只做诊断(判断读不读得到);判出”读不到”后去 P2-3-服务端渲染与可提取性 修。
自检清单
- 禁用 JS 后刷新,核心正文是否仍然可见?
- “查看源代码”(原始 HTML)里能否搜到正文文本?
- 关键内容是否锁在登录 / 付费墙 / 点击展开 / 无限滚动之后?
- 重要信息是否只存在于图片里(无等价文字)?
- 是否纯客户端渲染(CSR/SPA),源码近乎空壳?
实测 prompt(快速体检)
1. 禁 JS:浏览器关掉 JavaScript 再访问关键页 → 正文还在吗?空白=CSR 隐患。
2. 看源码:对页面"查看网页源代码"(Ctrl+U),Ctrl+F 搜你的核心句子 →
搜得到 = 在原始 HTML 里;搜不到 = 靠 JS 注入,爬虫读不到。
3. 引擎侧:在 Perplexity 问只有该页正文才答得了的细节 → 引得到完整内容吗?
→ 禁 JS 空白 / 源码搜不到 / 引擎只引到标题摘要 = 可提取性差,修 P2-3。
⚙️ 平台适配
- Perplexity / Google AI Overviews(→ 03-3-Perplexity·03-2-Google-AIO与AI-Mode):实时检索类边抓边答,受 JS 渲染问题影响最直接——C3 的主战场。
- ChatGPT(→ 03-1-ChatGPT):训练语料侧若源码无正文则当初就没学到;联网检索侧同样吃 JS 渲染。
- 付费墙媒体(→ 09-5-媒体与出版):商业模式与可提取性的取舍——可放前置摘要/可索引片段兼顾。
- 通用:纯 SSR/预渲染最稳,纯 CSR 最吃亏 → 03-0-平台横向对比矩阵。
❌ 误区 & ⚠️ 二阶误区
常见误区
- ❌ “我浏览器能看到,爬虫当然也能” → 浏览器跑 JS,多数 AI 爬虫不跑。
- ❌ “内容发上去就行” → CSR 注入的正文源码里没有,等同没发。
⚠️ 二阶误区(懂了”要让爬虫读得到”之后最容易犯)
- ❌ “上了 SSR 就万事大吉” → 还要确认正文真在源码里、没又被锁在登录/交互后 → P2-3-服务端渲染与可提取性。
- ❌ “图做得清楚就够” → 引擎抽文字不抽图,图旁必须配等价文字结论 → B2-信息密度·P1-3-原创研究与专有数据。
- ❌ “点击展开/折叠面板更整洁” → 交互后才出现的内容,检索阶段拿不到。
- ❌ “读得到 = 抽得好” → 读得到只是进了 ④抽取的门;抽得干不干净是结构问题 → B1-可答性与答案优先格式。
🧩 与相邻页的边界
- 本页(C3)= 诊断:这个信号是什么 / 为何是准入第二关 / 正文读不读得到怎么判。
- 怎么做(关键内容 SSR/预渲染、去 JS 依赖、解锁正文、干净语义化 HTML、图配等价文字)→ P2-3-服务端渲染与可提取性;机器可读表面 → P2-4-llms-txt与机器可读表面。
- 同簇上下游:上游 C1-可爬性与爬虫准入(进得来)→ 本页 C3(读得到正文)→ 下游 C2-结构化数据Schema(解析得了”这是什么”)。
- 与 B1 的分工:C3 管”正文在不在源码里(能不能读到)“,B1-可答性与答案优先格式 管”读到之后好不好被整段抽(结构)“——读不到则 B1 全白搭,先 C3 再 B1。
- 场景取舍:付费墙 vs 可见性 → 09-5-媒体与出版;爬虫管控的版权取舍 → 12-3-爬虫管控与内容许可。
- 机制:为何实时检索吃 JS 渲染 → 02-3-RAG与实时检索grounding;漏斗定位(②召回→④抽取)→ 02-2-答案生成管线总览;衡量 → 07-1-指标体系-SoM与SoV;术语 → 13-1-术语表Glossary;数字溯源 → 13-2-研究与数据源索引。
- 纪律:本页只诊断、不教操作、不抄数字;机制性约束标级 + 回链,不套可调百分比。
📌 关于本页(“成熟”级 · 复用叶子信号/诊断页范式):本页是 A2-品牌提及 所立 叶子信号/诊断页范式的第九次复用(继 A1/A3/A4/B3/B1/B2/B4/C1 之后)——同一模板:是什么 + 为什么重要(证据标级)+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C3 在 C 簇里的定位是准入第二关(读得到):进得来(C1)→ 读得到(C3) → 解析得了(C2)。它把”你看得到 ≠ 爬虫读得到”这个最反直觉的技术坑摆在台面上,团队照着就能自查”为什么页面明明有内容,引擎却像没看见”。
相关
- 同簇:C1-可爬性与爬虫准入 · C2-结构化数据Schema · 簇索引 C-技术与可访问性信号
- 打法 / 配合:P2-3-服务端渲染与可提取性 · P2-1-AI爬虫准入排查 · P2-4-llms-txt与机器可读表面 · B1-可答性与答案优先格式
- 机制 / 衡量 / 术语:02-3-RAG与实时检索grounding · 02-2-答案生成管线总览 · 07-1-指标体系-SoM与SoV · 13-1-术语表Glossary
- 平台 / 场景 / 证据 / 误区:03-3-Perplexity · 03-2-Google-AIO与AI-Mode · 03-1-ChatGPT · 03-0-平台横向对比矩阵 · 09-5-媒体与出版 · 12-3-爬虫管控与内容许可 · 13-2-研究与数据源索引 · 01-5-常见误区与认知陷阱