P2 · 技术与基础设施(支柱二)

让爬虫进得来、读得到、解析得了。父域:06-执行与优化方法论 诊断依据:C-技术与可访问性信号

主线

本支柱按机器读取生命周期递进,与 C 簇一一对应:进得来(P2-1·一票否决) → 读得到正文(P2-3) → 解析得了(P2-2·加权带否决边) → 机器可读表面(P2-4·试验田)。 ⚠️ 技术准入是地基:前三关是 P0/P1 硬约束,P2-1 不通过则内容做得再好也白做(优先级最高、最先排查);P2-4 是低成本可选试验田,地基绿了再试,别本末倒置。

打法(按机器读取生命周期递进:进得来 → 读得到 → 解析得了 → 机器可读表面)

诊断依据

C-技术与可访问性信号(C1 进得来 / C3 读得到 / C2 解析得了)


状态:簇索引(二级已展开);P2-1/P2-3/P2-2/P2-4 四篇打法全部成熟(进得来→读得到→解析得了→机器可读表面,复用 P1-1-answer-first写作与可抽取结构 打法页范式)——P2 技术支柱与 C 信号簇上下对齐、整支柱收口。