02-5 · 上下文窗口与抽取位置权重

一句话:内容要塞进窗口才被用,且越靠前/越显著越易被抽取——把结论前置。

是什么

  • 上下文窗口:模型一次能”看”的 token 上限;检索来的内容须落入窗口才会被纳入作答。
  • 位置权重:开头与显著位置(标题下首段、列表、表格)的内容更易被抽取引用
  • “迷失在中间”(lost in the middle):长上下文里中段内容易被忽视,首尾更受重视。

怎么运作(机制)

  • 多份研究指向:前 150–300 字直给答案的页面更易被引(方向性结论,平台有差异)。
  • 信息埋得太深、被营销铺垫推后 → 抽取阶段被跳过。

对可见性意味着什么(So What)

常见误解

  • ❌“内容只要在页面里就会被用” → 位置与长度显著影响实际被抽取概率。
  • ❌“窗口越大越随便堆” → 中段易被忽视,关键信息仍要前置/显著化。

相关