07-2 · 采样方法论与统计可靠性

一句话：AI 是概率性的——同一问题会因时间/措辞/模型版本给不同答案。要像选举民调一样重复采样、报分布带置信区间，而非截一张图当结论。 本页定位：《测量规范·下篇——采样协议》。把”怎么跑、跑多少、怎么判变化”锁成可辩护协议；指标公式见上篇 07-1-指标体系-SoM与SoV。

为什么需要专门方法

非确定性：同一 prompt → 不同提及/引用；单次快照不可信。
高波动：AIO 排名可在 8 周内大幅变动；模型升级（如 Gemini 3）会整批换被引域 → 12-5-模型波动与监测预警。

民调法（election-polling model）

定查询池：选 250–500 条高意图查询作”总体代理”（覆盖品牌+类目+对手）——查询池构建见 05-2-受众意图与查询池构建。
重复采样：每日/每周跑；对同一 prompt **多次运行（multi-sampling）**建立基线。
聚合估计：用多次结果的分布 + 置信区间得稳定估计——如同民调以多次抽样逼近真值。

🔒 本所默认采样协议（冻结参数 · 可调需升版本）

参数	默认值	说明
查询池规模 N	250–500 题	覆盖品牌词+类目词+对比/替代词；分层抽样保证各意图占比稳定
每题重复 M	3–5 次 / 周期	捕捉同 prompt 的随机性；M 越大 CI 越窄
采样频率	周（高波动类目可日）	频率固定，不可随意改——改了趋势不可比
时间窗	滚动 4 周聚合	平滑单周噪声；同时保留周点用于趋势
平台集	按 05-4-平台优先级与渠道组合选定	分平台独立计，绝不混表
判定口径	锁 07-1-指标体系-SoM与SoV 计数规则	含归一化表/引用抽取规则，版本化

⚠️ 业界对样本量无统一标准（常见：30–300 题/日–周；50 题×4 月；200 题×14 天）。本所选定上表并固定——一致性比”理论最优样本量”更重要。

📊 置信区间：报区间，不报点估计

比例型指标（提及率/引用率/SoV）服从二项分布，按有效观测 n = N×M 计 CI：
- 正态近似：p ± z·√(p(1−p)/n)（z=1.96 为 95%）；
- 小样本 / 极端 p（接近 0 或 1）改用 Wilson 区间（更稳，不会越界）。
趋势/差值（如本季 vs 上季 SoV 差）用 bootstrap 重抽样得分布与区间。
判”真变化”还是噪声：两期 CI 不重叠，或连续 K=2–3 期同向移动，才算趋势；单期跳动按噪声处理。

⏸️ 模型升级断点处理

监测引擎版本（如 GPT-5.x→5.y、Gemini 升级）；版本变更日打断点标记。
断点前后不直接连趋势线——重置基线、分段比较，避免把”模型换了”误读成”我们做对/做错了”（呼应 12-5-模型波动与监测预警）。

🥇 黄金法则：一致性 > 精确性

多数衡量失败不是模型问题，是”定义漂移”（definition drift）。

固定协议：同样的查询池、同样的频率、同样的判定口径，才有可比趋势。
报分布，不报点估计；像”要上法庭辩护”一样记录你的协议。

🗂️ 可辩护审计日志（每次跑批留痕）

对外专业度的兜底——每次采样存档：协议版本号 · 查询池版本 · 各引擎版本/日期 · 原始回答快照 · 抽取规则版本。客户质疑任一数字，可回溯复算。

成熟度自检

Rung 1 轶事：同事跑了一次 ChatGPT 截图发群 = “带时间戳的感觉”，不是衡量。
Rung 3 工具化：100+ 查询 × 4+ 平台 × 多次采样，报分布、可辩护 → 真正的衡量起点。
Rung 4 规范化：CI + 模型断点处理 + 审计日志 + 口径版本化 → 可作为产品/交付物对外出示。

AEO 知识库

探索

07-2-采样方法论与统计可靠性

07-2 · 采样方法论与统计可靠性

为什么需要专门方法

民调法（election-polling model）

🔒 本所默认采样协议（冻结参数 · 可调需升版本）

📊 置信区间：报区间，不报点估计

⏸️ 模型升级断点处理

🥇 黄金法则：一致性 > 精确性

🗂️ 可辩护审计日志（每次跑批留痕）

成熟度自检

相关

关系图谱

目录

反向链接