07-2 · 采样方法论与统计可靠性
一句话:AI 是概率性的——同一问题会因时间/措辞/模型版本给不同答案。要像选举民调一样重复采样、报分布带置信区间,而非截一张图当结论。 本页定位:《测量规范·下篇——采样协议》。把”怎么跑、跑多少、怎么判变化”锁成可辩护协议;指标公式见上篇 07-1-指标体系-SoM与SoV。
为什么需要专门方法
- 非确定性:同一 prompt → 不同提及/引用;单次快照不可信。
- 高波动:AIO 排名可在 8 周内大幅变动;模型升级(如 Gemini 3)会整批换被引域 → 12-5-模型波动与监测预警。
民调法(election-polling model)
- 定查询池:选 250–500 条高意图查询作”总体代理”(覆盖品牌+类目+对手)——查询池构建见 05-2-受众意图与查询池构建。
- 重复采样:每日/每周跑;对同一 prompt **多次运行(multi-sampling)**建立基线。
- 聚合估计:用多次结果的分布 + 置信区间得稳定估计——如同民调以多次抽样逼近真值。
🔒 本所默认采样协议(冻结参数 · 可调需升版本)
| 参数 | 默认值 | 说明 |
|---|---|---|
| 查询池规模 N | 250–500 题 | 覆盖品牌词+类目词+对比/替代词;分层抽样保证各意图占比稳定 |
| 每题重复 M | 3–5 次 / 周期 | 捕捉同 prompt 的随机性;M 越大 CI 越窄 |
| 采样频率 | 周(高波动类目可日) | 频率固定,不可随意改——改了趋势不可比 |
| 时间窗 | 滚动 4 周聚合 | 平滑单周噪声;同时保留周点用于趋势 |
| 平台集 | 按 05-4-平台优先级与渠道组合 选定 | 分平台独立计,绝不混表 |
| 判定口径 | 锁 07-1-指标体系-SoM与SoV 计数规则 | 含归一化表/引用抽取规则,版本化 |
⚠️ 业界对样本量无统一标准(常见:30–300 题/日–周;50 题×4 月;200 题×14 天)。本所选定上表并固定——一致性比”理论最优样本量”更重要。
📊 置信区间:报区间,不报点估计
- 比例型指标(提及率/引用率/SoV)服从二项分布,按有效观测
n = N×M计 CI:- 正态近似:
p ± z·√(p(1−p)/n)(z=1.96 为 95%); - 小样本 / 极端 p(接近 0 或 1)改用 Wilson 区间(更稳,不会越界)。
- 正态近似:
- 趋势/差值(如本季 vs 上季 SoV 差)用 bootstrap 重抽样得分布与区间。
- 判”真变化”还是噪声:两期 CI 不重叠,或连续 K=2–3 期同向移动,才算趋势;单期跳动按噪声处理。
⏸️ 模型升级断点处理
- 监测引擎版本(如 GPT-5.x→5.y、Gemini 升级);版本变更日打断点标记。
- 断点前后不直接连趋势线——重置基线、分段比较,避免把”模型换了”误读成”我们做对/做错了”(呼应 12-5-模型波动与监测预警)。
🥇 黄金法则:一致性 > 精确性
多数衡量失败不是模型问题,是”定义漂移”(definition drift)。
- 固定协议:同样的查询池、同样的频率、同样的判定口径,才有可比趋势。
- 报分布,不报点估计;像”要上法庭辩护”一样记录你的协议。
🗂️ 可辩护审计日志(每次跑批留痕)
对外专业度的兜底——每次采样存档:协议版本号 · 查询池版本 · 各引擎版本/日期 · 原始回答快照 · 抽取规则版本。客户质疑任一数字,可回溯复算。
成熟度自检
- Rung 1 轶事:同事跑了一次 ChatGPT 截图发群 = “带时间戳的感觉”,不是衡量。
- Rung 3 工具化:100+ 查询 × 4+ 平台 × 多次采样,报分布、可辩护 → 真正的衡量起点。
- Rung 4 规范化:CI + 模型断点处理 + 审计日志 + 口径版本化 → 可作为产品/交付物对外出示。
相关
- 指标定义(上篇)→ 07-1-指标体系-SoM与SoV;归因 → 07-3-归因-从AI引用到流量转化
- 查询池 → 05-2-受众意图与查询池构建;波动根源 → B4-新鲜度与时效 · 12-5-模型波动与监测预警
- 产品侧自建采样 → 08-3-数据集成与自建采样;平台各异 → 03-0-平台横向对比矩阵;工具 → 08-工具与技术栈
📌 关于本页(“成熟”级 · 测量规范下篇):与上篇 07-1-指标体系-SoM与SoV 合为《测量规范》。民调法/报分布为跨源共识;样本量与置信参数为本所采用的默认协议——可调,但冻结+版本化,变更标断点。