C3 · 渲染与内容可提取性(Rendering & Extractability)

一句话:进了门也得读得到正文——核心内容藏在 JS / 登录 / 付费墙后,引擎在检索阶段拿不到 = 等同隐形。这是 C 簇的第二关:进得来(C1) → 读得到(C3) → 解析得了(C2)。 机制02-2-答案生成管线总览(②召回→④抽取)·02-3-RAG与实时检索grounding 怎么做P2-3-服务端渲染与可提取性 证据13-2-研究与数据源索引 相邻信号C1-可爬性与爬虫准入·B1-可答性与答案优先格式

🎯 TL;DR(30 秒)

问题一句话答案
是什么爬虫实际读不读得到正文:多数 AI 爬虫不执行 JS,CSR/登录/付费墙后的内容会被跳过
多重要准入级·二元偏硬——核心正文读不到 = 核心隐形,C1 之后第二个最先排的硬伤
怎么算”强”禁 JS 仍可见 × “查看源代码”能看到正文 × 关键内容不锁在登录/付费墙/交互后
去哪做诊断在本页;SSR/去 JS 依赖/解锁正文的打法 → P2-3-服务端渲染与可提取性

只记一条:你(浏览器)看得到 ≠ 爬虫(多数不跑 JS)读得到——以”禁用 JS 后还剩什么 + 查看源代码有没有正文”为准,而不是以你屏幕上看到的为准。

🧠 为什么是”读得到”(准入第二关·二元偏硬)

  • 它在 C1 之后、解析之前C1-可爬性与爬虫准入 解决”进不进得来”,C3 解决”进了能不能读到正文”。准入过了但正文是空壳,引擎在 02-2-答案生成管线总览②召回阶段拿到的是没内容的页,等同隐形。
  • 多数 AI 爬虫不执行 JS:它们不像浏览器那样跑脚本。客户端渲染(CSR)注入的正文,源码里根本没有——你眼睛看得到,爬虫读到的是空 DOM。
  • 锁在墙后 = 拿不到:内容若锁在登录 / 付费墙 / 交互(点击展开、无限滚动)之后,检索阶段同样够不着正文。
  • 二元偏硬、但有”程度”:与 C1 的纯二元不同——能读到多少就可能被引多少。但核心结论藏起来 = 核心隐形,所以实践上当准入级硬伤处理。
  • 作用在哪一关:先卡 ②召回(正文进不进得到候选),再直接影响 ④抽取(读到了才谈抽得干不干净)。实时检索类边检索边作答,最吃这一关 → 02-3-RAG与实时检索grounding

🔢 三种”看得到”别混(最常见的概念混淆)

维度谁在看看到的是最容易错
浏览器可见你 / 用户JS 执行后的渲染结果以为”我看得到 = 爬虫读得到”
源码可见AI 爬虫(多数不跑 JS)原始 HTML 里的文本CSR 注入的正文,源码里没有
可抽取文本引擎抽取器纯文本(非图片、非交互后)信息只在图里 / 锁在展开后

关键:判断标准是爬虫视角(禁 JS 的原始 HTML),不是你屏幕上看到的。图里的字、点击才出现的内容,约等于不存在

📊 证据与量级(标级 · 只链不抄)

发现量级级别 · 去哪溯源
多数 AI 爬虫不执行 JS定性·机制确定B · 机制共识 → 02-2-答案生成管线总览
CSR/SPA 源码无正文 → 检索阶段拿不到定性·硬约束B · 机制 → 02-3-RAG与实时检索grounding
登录/付费墙/交互后的内容 = 检索隐形定性·准入B · 机制共识 → 13-2-研究与数据源索引
实时检索类受 JS 渲染问题影响最直接定性·强B · 机制 → 02-3-RAG与实时检索grounding·03-3-Perplexity

⚠️ 影响程度按页面架构浮动(纯 CSR 最惨、混合渲染居中、纯 SSR 无虞)——这是机制性硬约束而非可调百分比,别套数字。口径统一回 13-2-研究与数据源索引

🔬 诊断:我的正文,爬虫到底读不读得到?

本页只做诊断(判断读不读得到);判出”读不到”后去 P2-3-服务端渲染与可提取性 修。

自检清单

  • 禁用 JS 后刷新,核心正文是否仍然可见
  • “查看源代码”(原始 HTML)里能否搜到正文文本
  • 关键内容是否锁在登录 / 付费墙 / 点击展开 / 无限滚动之后?
  • 重要信息是否只存在于图片里(无等价文字)?
  • 是否纯客户端渲染(CSR/SPA),源码近乎空壳?

实测 prompt(快速体检)

1. 禁 JS:浏览器关掉 JavaScript 再访问关键页 → 正文还在吗?空白=CSR 隐患。
2. 看源码:对页面"查看网页源代码"(Ctrl+U),Ctrl+F 搜你的核心句子 →
   搜得到 = 在原始 HTML 里;搜不到 = 靠 JS 注入,爬虫读不到。
3. 引擎侧:在 Perplexity 问只有该页正文才答得了的细节 → 引得到完整内容吗?
→ 禁 JS 空白 / 源码搜不到 / 引擎只引到标题摘要 = 可提取性差,修 P2-3。

⚙️ 平台适配

  • Perplexity / Google AI Overviews(→ 03-3-Perplexity·03-2-Google-AIO与AI-Mode):实时检索类边抓边答,受 JS 渲染问题影响最直接——C3 的主战场。
  • ChatGPT(→ 03-1-ChatGPT):训练语料侧若源码无正文则当初就没学到;联网检索侧同样吃 JS 渲染。
  • 付费墙媒体(→ 09-5-媒体与出版):商业模式与可提取性的取舍——可放前置摘要/可索引片段兼顾。
  • 通用:纯 SSR/预渲染最稳,纯 CSR 最吃亏 → 03-0-平台横向对比矩阵

❌ 误区 & ⚠️ 二阶误区

常见误区

  • ❌ “我浏览器能看到,爬虫当然也能” → 浏览器跑 JS,多数 AI 爬虫不跑
  • ❌ “内容发上去就行” → CSR 注入的正文源码里没有,等同没发。

⚠️ 二阶误区(懂了”要让爬虫读得到”之后最容易犯)

🧩 与相邻页的边界

📌 关于本页(“成熟”级 · 复用叶子信号/诊断页范式):本页是 A2-品牌提及 所立 叶子信号/诊断页范式第九次复用(继 A1/A3/A4/B3/B1/B2/B4/C1 之后)——同一模板:是什么 + 为什么重要(证据标级)+ 易混辨析 + 诊断自检 + 平台适配 + 二阶误区 + 边界。C3 在 C 簇里的定位是准入第二关(读得到):进得来(C1)→ 读得到(C3) → 解析得了(C2)。它把”你看得到 ≠ 爬虫读得到”这个最反直觉的技术坑摆在台面上,团队照着就能自查”为什么页面明明有内容,引擎却像没看见”。

相关