08-4 · 数据引擎架构(自建监测平台工程蓝图)

一句话:把 08-3-数据集成与自建采样 的”三层归因架构”落成可运维的引擎——对标 Profound/Peec 的监测平台,本质是「采集 → 抽取 → 计算 → 展示」四层流水线,每层都钉死在《测量规范》口径上。 本页定位:08-3 讲”为什么/有哪些选项”(Build vs Buy、暗流量、成本),本页讲”工程怎么搭”(分层、数据模型、调度、可运维)。指标定义不在此重述 → 07-1-指标体系-SoM与SoV;引用抽取规则单列 → 08-5-引用抽取规则集

🎯 为什么单列这页

平台型 GEO 服务 ≠ 写报告,而是一套天天自动跑的数据引擎。引擎的可辩护性(口径冻结)来自 07-1-指标体系-SoM与SoV / 07-2-采样方法论与统计可靠性;本页是把那套”规范”翻译成工程系统的接口契约,让有专职工程的团队照着搭。

🏗️ 四层架构

[采集层] prompt 调度 + 引擎适配器 + 代理池 + 多区域/多语言
   ↓ 原始回答(raw_response)
[抽取层] 提及抽取 + 引用抽取 + 实体归一化   → 规则见 08-5
   ↓ 结构化观测(mention/citation 记录)
[计算层] 按 07-1 公式算 SoV/引用率/情感 + 置信区间(07-2)
   ↓ 指标时序
[展示层] 分平台 dashboard + 趋势 + 缺口矩阵 + 客户报告
职责关键依赖钉口径处
采集按采样协议批量问各引擎、存原始回答官方 API + 浏览器自动化 + 代理(BrightData/Oxylabs,见 08-3)N×M×频率×平台集 → 07-2-采样方法论与统计可靠性
抽取从回答里抠出”谁被提及/被引、在什么位置”各引擎解析规则(频繁变)提及/引用计数口径 → 07-1-指标体系-SoM与SoV;规则集 → 08-5-引用抽取规则集
计算套公式算指标 + CI + Citation Delta实体归一化表公式冻结+版本 → 07-1-指标体系-SoM与SoV
展示分平台看板、趋势、客户交付——分平台不混表 → 03-0-平台横向对比矩阵;交付物 → 05-6-品类GEO机会地图-生产方法论

🗃️ 最小数据模型(三张核心表)

工程落地的”骨架”,字段可扩,但这几列是口径承载体,不能省

  • 观测表 observationobs_id · prompt_id · run_idx · engine · region · locale · raw_response · ts —— 一行 = 一次 (prompt × run),对齐 07-1 的”观测”定义。
  • 抽取表 extractionobs_id · brand_entity · is_mention · is_citation · position_weight · source_domain · sentiment —— 一次观测可派生多行(多品牌/多来源);brand_entity 已归一化(→ A1-实体识别与知识图谱)。
  • 指标表 metricengine · region · period · brand · mention_rate · sov · citation_rate · ci_low · ci_high · spec_version —— 带 spec_version,口径换版本不混算(→ 07-2-采样方法论与统计可靠性 模型断点)。

⏱️ 采集调度

  • 批次 = 采样协议实例化:N 题 × M run × 平台集 × 区域,按周期(周/双周)触发 → 参数全在 07-2-采样方法论与统计可靠性
  • 引擎适配器:官方 API(结构化、稳)优先;无 API 的(AIO/AI Mode)走浏览器自动化(Playwright/Selenium,见 08-3)。每引擎一个适配器,隔离”格式频繁变”的爆炸半径。
  • 工程现实:LLM API 很便宜(08-3:品牌 prompt 短量小),瓶颈是抓取稳定性 + 适配维护,不是模型费——预算花在代理/反爬/重试,不是 token。
  • 限速/重试/去重:队列 + 指数退避;同 (prompt,run,engine,region) 幂等,重采覆盖不叠加。

🌍 出海多区域(本所 wedge 的引擎要求)

  • region/locale 是一等维度(不是事后筛选):观测表带 region,因为同一品牌在 US-en 与 DE-de 的 AI 回答可能完全不同。
  • 地理代理:用目标市场出口 IP 采集(AI 答案有地域个性化)。
  • 多语言查询池:查询池按 locale 各建一份,不是机器直译(→ 09-9-出海跨境GEO-Playbook)。
  • 多区域 → 采样量 ×区域数,调度与成本据此放大。

🔧 可运维 & 合规

  • 审计日志:每批次留 prompt 集 / 模型版本 / 时间 / 原始回答快照——可辩护地基,规范见 07-2-采样方法论与统计可靠性
  • 抽取回归集:固定一批已标注回答,每次改规则跑回归(→ 08-5-引用抽取规则集)。
  • 采集合规:代理/抓取的法律边界(ToS、地区法规)→ 12-前沿风险与治理;这是平台化的真实风险,工程先于规模。
  • 成本档:自建约 $500–2,000/mo infra + 工程时间(08-3);混合路线(买引用 API、只自建 dashboard)可砍掉最难的采集层。

⚠️ 常见坑

  • 把”引擎适配器”写死成一个大解析函数 → 一家改版全挂;按引擎隔离
  • 指标层自己造公式 → 与 07-1 漂移;计算层只实现规范,不发明口径
  • 忘了 spec_version / region 维度 → 趋势不可比、出海数据串味。
  • 以为有了引擎就专业 → 引擎只产数字,可辩护性来自规范(07-1/07-2)。

🧩 边界(只链不抄)

相关