08-4 · 数据引擎架构(自建监测平台工程蓝图)
一句话:把 08-3-数据集成与自建采样 的”三层归因架构”落成可运维的引擎——对标 Profound/Peec 的监测平台,本质是「采集 → 抽取 → 计算 → 展示」四层流水线,每层都钉死在《测量规范》口径上。 本页定位:08-3 讲”为什么/有哪些选项”(Build vs Buy、暗流量、成本),本页讲”工程怎么搭”(分层、数据模型、调度、可运维)。指标定义不在此重述 → 07-1-指标体系-SoM与SoV;引用抽取规则单列 → 08-5-引用抽取规则集。
🎯 为什么单列这页
平台型 GEO 服务 ≠ 写报告,而是一套天天自动跑的数据引擎。引擎的可辩护性(口径冻结)来自 07-1-指标体系-SoM与SoV / 07-2-采样方法论与统计可靠性;本页是把那套”规范”翻译成工程系统的接口契约,让有专职工程的团队照着搭。
🏗️ 四层架构
[采集层] prompt 调度 + 引擎适配器 + 代理池 + 多区域/多语言
↓ 原始回答(raw_response)
[抽取层] 提及抽取 + 引用抽取 + 实体归一化 → 规则见 08-5
↓ 结构化观测(mention/citation 记录)
[计算层] 按 07-1 公式算 SoV/引用率/情感 + 置信区间(07-2)
↓ 指标时序
[展示层] 分平台 dashboard + 趋势 + 缺口矩阵 + 客户报告
| 层 | 职责 | 关键依赖 | 钉口径处 |
|---|---|---|---|
| 采集 | 按采样协议批量问各引擎、存原始回答 | 官方 API + 浏览器自动化 + 代理(BrightData/Oxylabs,见 08-3) | N×M×频率×平台集 → 07-2-采样方法论与统计可靠性 |
| 抽取 | 从回答里抠出”谁被提及/被引、在什么位置” | 各引擎解析规则(频繁变) | 提及/引用计数口径 → 07-1-指标体系-SoM与SoV;规则集 → 08-5-引用抽取规则集 |
| 计算 | 套公式算指标 + CI + Citation Delta | 实体归一化表 | 公式冻结+版本 → 07-1-指标体系-SoM与SoV |
| 展示 | 分平台看板、趋势、客户交付 | —— | 分平台不混表 → 03-0-平台横向对比矩阵;交付物 → 05-6-品类GEO机会地图-生产方法论 |
🗃️ 最小数据模型(三张核心表)
工程落地的”骨架”,字段可扩,但这几列是口径承载体,不能省。
- 观测表 observation:
obs_id · prompt_id · run_idx · engine · region · locale · raw_response · ts—— 一行 = 一次(prompt × run),对齐 07-1 的”观测”定义。 - 抽取表 extraction:
obs_id · brand_entity · is_mention · is_citation · position_weight · source_domain · sentiment—— 一次观测可派生多行(多品牌/多来源);brand_entity已归一化(→ A1-实体识别与知识图谱)。 - 指标表 metric:
engine · region · period · brand · mention_rate · sov · citation_rate · ci_low · ci_high · spec_version—— 带spec_version,口径换版本不混算(→ 07-2-采样方法论与统计可靠性 模型断点)。
⏱️ 采集调度
- 批次 = 采样协议实例化:N 题 × M run × 平台集 × 区域,按周期(周/双周)触发 → 参数全在 07-2-采样方法论与统计可靠性。
- 引擎适配器:官方 API(结构化、稳)优先;无 API 的(AIO/AI Mode)走浏览器自动化(Playwright/Selenium,见 08-3)。每引擎一个适配器,隔离”格式频繁变”的爆炸半径。
- 工程现实:LLM API 很便宜(08-3:品牌 prompt 短量小),瓶颈是抓取稳定性 + 适配维护,不是模型费——预算花在代理/反爬/重试,不是 token。
- 限速/重试/去重:队列 + 指数退避;同
(prompt,run,engine,region)幂等,重采覆盖不叠加。
🌍 出海多区域(本所 wedge 的引擎要求)
- region/locale 是一等维度(不是事后筛选):观测表带
region,因为同一品牌在 US-en 与 DE-de 的 AI 回答可能完全不同。 - 地理代理:用目标市场出口 IP 采集(AI 答案有地域个性化)。
- 多语言查询池:查询池按 locale 各建一份,不是机器直译(→ 09-9-出海跨境GEO-Playbook)。
- 多区域 → 采样量 ×区域数,调度与成本据此放大。
🔧 可运维 & 合规
- 审计日志:每批次留 prompt 集 / 模型版本 / 时间 / 原始回答快照——可辩护地基,规范见 07-2-采样方法论与统计可靠性。
- 抽取回归集:固定一批已标注回答,每次改规则跑回归(→ 08-5-引用抽取规则集)。
- 采集合规:代理/抓取的法律边界(ToS、地区法规)→ 12-前沿风险与治理;这是平台化的真实风险,工程先于规模。
- 成本档:自建约 $500–2,000/mo infra + 工程时间(08-3);混合路线(买引用 API、只自建 dashboard)可砍掉最难的采集层。
⚠️ 常见坑
- 把”引擎适配器”写死成一个大解析函数 → 一家改版全挂;按引擎隔离。
- 指标层自己造公式 → 与 07-1 漂移;计算层只实现规范,不发明口径。
- 忘了
spec_version/region维度 → 趋势不可比、出海数据串味。 - 以为有了引擎就专业 → 引擎只产数字,可辩护性来自规范(07-1/07-2)。
🧩 边界(只链不抄)
- 选项权衡 / 暗流量 / 成本 → 08-3-数据集成与自建采样;指标公式 → 07-1-指标体系-SoM与SoV;采样协议/CI → 07-2-采样方法论与统计可靠性;抽取规则 → 08-5-引用抽取规则集;出海 → 09-9-出海跨境GEO-Playbook;合规 → 12-前沿风险与治理。
相关
- 上游选型/决策 → 08-0-工具全景与选型;买现成监测工具 → 08-1-AI可见性监测工具
- 交付到客户 → 05-6-品类GEO机会地图-生产方法论;归因(点击侧)→ 07-3-归因-从AI引用到流量转化