P2 · 技术与基础设施(支柱二)
让爬虫进得来、读得到、解析得了。父域:06-执行与优化方法论 诊断依据:C-技术与可访问性信号
主线
本支柱按机器读取生命周期递进,与 C 簇一一对应:进得来(P2-1·一票否决) → 读得到正文(P2-3) → 解析得了(P2-2·加权带否决边) → 机器可读表面(P2-4·试验田)。 ⚠️ 技术准入是地基:前三关是 P0/P1 硬约束,P2-1 不通过则内容做得再好也白做(优先级最高、最先排查);P2-4 是低成本可选试验田,地基绿了再试,别本末倒置。
打法(按机器读取生命周期递进:进得来 → 读得到 → 解析得了 → 机器可读表面)
- P2-1-AI爬虫准入排查 成熟·进得来(P0·一票否决) — 三层放行(robots→CDN/WAF→日志),最先做
- P2-3-服务端渲染与可提取性 成熟·读得到(P0·二元偏硬) — 正文进原始 HTML,禁 JS+查看源代码双验
- P2-2-Schema部署与校验 成熟·解析得了(P1·加权带否决边) — 选型+零错校验+标记与正文一致
- P2-4-llms-txt与机器可读表面 成熟·机器可读表面(P2·试验田) — 低成本可选,地基优先、勿当银弹
诊断依据
→ C-技术与可访问性信号(C1 进得来 / C3 读得到 / C2 解析得了)
状态:簇索引(二级已展开);P2-1/P2-3/P2-2/P2-4 四篇打法全部成熟(进得来→读得到→解析得了→机器可读表面,复用 P1-1-answer-first写作与可抽取结构 打法页范式)——P2 技术支柱与 C 信号簇上下对齐、整支柱收口。