07-2 · 采样方法论与统计可靠性

一句话:AI 是概率性的——同一问题会因时间/措辞/模型版本给不同答案。要像选举民调一样重复采样、报分布带置信区间,而非截一张图当结论。 本页定位:《测量规范·下篇——采样协议》。把”怎么跑、跑多少、怎么判变化”锁成可辩护协议;指标公式见上篇 07-1-指标体系-SoM与SoV

为什么需要专门方法

  • 非确定性:同一 prompt → 不同提及/引用;单次快照不可信。
  • 高波动:AIO 排名可在 8 周内大幅变动;模型升级(如 Gemini 3)会整批换被引域 → 12-5-模型波动与监测预警

民调法(election-polling model)

  1. 定查询池:选 250–500 条高意图查询作”总体代理”(覆盖品牌+类目+对手)——查询池构建见 05-2-受众意图与查询池构建
  2. 重复采样:每日/每周跑;对同一 prompt **多次运行(multi-sampling)**建立基线。
  3. 聚合估计:用多次结果的分布 + 置信区间得稳定估计——如同民调以多次抽样逼近真值。

🔒 本所默认采样协议(冻结参数 · 可调需升版本)

参数默认值说明
查询池规模 N250–500 题覆盖品牌词+类目词+对比/替代词;分层抽样保证各意图占比稳定
每题重复 M3–5 次 / 周期捕捉同 prompt 的随机性;M 越大 CI 越窄
采样频率周(高波动类目可日)频率固定,不可随意改——改了趋势不可比
时间窗滚动 4 周聚合平滑单周噪声;同时保留周点用于趋势
平台集05-4-平台优先级与渠道组合 选定分平台独立计,绝不混表
判定口径07-1-指标体系-SoM与SoV 计数规则含归一化表/引用抽取规则,版本化

⚠️ 业界对样本量无统一标准(常见:30–300 题/日–周;50 题×4 月;200 题×14 天)。本所选定上表并固定——一致性比”理论最优样本量”更重要。

📊 置信区间:报区间,不报点估计

  • 比例型指标(提及率/引用率/SoV)服从二项分布,按有效观测 n = N×MCI
    • 正态近似:p ± z·√(p(1−p)/n)(z=1.96 为 95%);
    • 小样本 / 极端 p(接近 0 或 1)改用 Wilson 区间(更稳,不会越界)。
  • 趋势/差值(如本季 vs 上季 SoV 差)用 bootstrap 重抽样得分布与区间。
  • 判”真变化”还是噪声:两期 CI 不重叠,或连续 K=2–3 期同向移动,才算趋势;单期跳动按噪声处理。

⏸️ 模型升级断点处理

  • 监测引擎版本(如 GPT-5.x→5.y、Gemini 升级);版本变更日打断点标记
  • 断点前后不直接连趋势线——重置基线、分段比较,避免把”模型换了”误读成”我们做对/做错了”(呼应 12-5-模型波动与监测预警)。

🥇 黄金法则:一致性 > 精确性

多数衡量失败不是模型问题,是”定义漂移”(definition drift)。

  • 固定协议:同样的查询池、同样的频率、同样的判定口径,才有可比趋势
  • 报分布,不报点估计;像”要上法庭辩护”一样记录你的协议。

🗂️ 可辩护审计日志(每次跑批留痕)

对外专业度的兜底——每次采样存档:协议版本号 · 查询池版本 · 各引擎版本/日期 · 原始回答快照 · 抽取规则版本。客户质疑任一数字,可回溯复算。

成熟度自检

  • Rung 1 轶事:同事跑了一次 ChatGPT 截图发群 = “带时间戳的感觉”,不是衡量。
  • Rung 3 工具化:100+ 查询 × 4+ 平台 × 多次采样,报分布、可辩护 → 真正的衡量起点。
  • Rung 4 规范化:CI + 模型断点处理 + 审计日志 + 口径版本化 → 可作为产品/交付物对外出示

相关

📌 关于本页(“成熟”级 · 测量规范下篇):与上篇 07-1-指标体系-SoM与SoV 合为《测量规范》。民调法/报分布为跨源共识;样本量与置信参数为本所采用的默认协议——可调,但冻结+版本化,变更标断点。