08-4 · 数据引擎架构（自建监测平台工程蓝图）

一句话：把 08-3-数据集成与自建采样的”三层归因架构”落成可运维的引擎——对标 Profound/Peec 的监测平台，本质是「采集 → 抽取 → 计算 → 展示」四层流水线，每层都钉死在《测量规范》口径上。 本页定位：08-3 讲”为什么/有哪些选项”（Build vs Buy、暗流量、成本），本页讲”工程怎么搭”（分层、数据模型、调度、可运维）。指标定义不在此重述 → 07-1-指标体系-SoM与SoV；引用抽取规则单列 → 08-5-引用抽取规则集。

🎯 为什么单列这页

平台型 GEO 服务 ≠ 写报告，而是一套天天自动跑的数据引擎。引擎的可辩护性（口径冻结）来自 07-1-指标体系-SoM与SoV / 07-2-采样方法论与统计可靠性；本页是把那套”规范”翻译成工程系统的接口契约，让有专职工程的团队照着搭。

🏗️ 四层架构

[采集层] prompt 调度 + 引擎适配器 + 代理池 + 多区域/多语言
   ↓ 原始回答(raw_response)
[抽取层] 提及抽取 + 引用抽取 + 实体归一化   → 规则见 08-5
   ↓ 结构化观测(mention/citation 记录)
[计算层] 按 07-1 公式算 SoV/引用率/情感 + 置信区间(07-2)
   ↓ 指标时序
[展示层] 分平台 dashboard + 趋势 + 缺口矩阵 + 客户报告

层	职责	关键依赖	钉口径处
采集	按采样协议批量问各引擎、存原始回答	官方 API + 浏览器自动化 + 代理（BrightData/Oxylabs，见 08-3）	N×M×频率×平台集 → 07-2-采样方法论与统计可靠性
抽取	从回答里抠出”谁被提及/被引、在什么位置”	各引擎解析规则（频繁变）	提及/引用计数口径 → 07-1-指标体系-SoM与SoV；规则集 → 08-5-引用抽取规则集
计算	套公式算指标 + CI + Citation Delta	实体归一化表	公式冻结+版本 → 07-1-指标体系-SoM与SoV
展示	分平台看板、趋势、客户交付	——	分平台不混表 → 03-0-平台横向对比矩阵；交付物 → 05-6-品类GEO机会地图-生产方法论

🗃️ 最小数据模型（三张核心表）

工程落地的”骨架”，字段可扩，但这几列是口径承载体，不能省。

观测表 observation：obs_id · prompt_id · run_idx · engine · region · locale · raw_response · ts —— 一行 = 一次 (prompt × run)，对齐 07-1 的”观测”定义。
抽取表 extraction：obs_id · brand_entity · is_mention · is_citation · position_weight · source_domain · sentiment —— 一次观测可派生多行（多品牌/多来源）；brand_entity 已归一化（→ A1-实体识别与知识图谱）。
指标表 metric：engine · region · period · brand · mention_rate · sov · citation_rate · ci_low · ci_high · spec_version —— 带 spec_version，口径换版本不混算（→ 07-2-采样方法论与统计可靠性模型断点）。

⏱️ 采集调度

批次 = 采样协议实例化：N 题 × M run × 平台集 × 区域，按周期（周/双周）触发 → 参数全在 07-2-采样方法论与统计可靠性。
引擎适配器：官方 API（结构化、稳）优先；无 API 的（AIO/AI Mode）走浏览器自动化（Playwright/Selenium，见 08-3）。每引擎一个适配器，隔离”格式频繁变”的爆炸半径。
工程现实：LLM API 很便宜（08-3：品牌 prompt 短量小），瓶颈是抓取稳定性 + 适配维护，不是模型费——预算花在代理/反爬/重试，不是 token。
限速/重试/去重：队列 + 指数退避；同 (prompt,run,engine,region) 幂等，重采覆盖不叠加。

🌍 出海多区域（本所 wedge 的引擎要求）

region/locale 是一等维度（不是事后筛选）：观测表带 region，因为同一品牌在 US-en 与 DE-de 的 AI 回答可能完全不同。
地理代理：用目标市场出口 IP 采集（AI 答案有地域个性化）。
多语言查询池：查询池按 locale 各建一份，不是机器直译（→ 09-9-出海跨境GEO-Playbook）。
多区域 → 采样量 ×区域数，调度与成本据此放大。

🔧 可运维 & 合规

审计日志：每批次留 prompt 集 / 模型版本 / 时间 / 原始回答快照——可辩护地基，规范见 07-2-采样方法论与统计可靠性。
抽取回归集：固定一批已标注回答，每次改规则跑回归（→ 08-5-引用抽取规则集）。
采集合规：代理/抓取的法律边界（ToS、地区法规）→ 12-前沿风险与治理；这是平台化的真实风险，工程先于规模。
成本档：自建约 $500–2,000/mo infra + 工程时间（08-3）；混合路线（买引用 API、只自建 dashboard）可砍掉最难的采集层。

⚠️ 常见坑

把”引擎适配器”写死成一个大解析函数 → 一家改版全挂；按引擎隔离。
指标层自己造公式 → 与 07-1 漂移；计算层只实现规范，不发明口径。
忘了 spec_version / region 维度 → 趋势不可比、出海数据串味。
以为有了引擎就专业 → 引擎只产数字，可辩护性来自规范（07-1/07-2）。

🧩 边界（只链不抄）

选项权衡 / 暗流量 / 成本 → 08-3-数据集成与自建采样；指标公式 → 07-1-指标体系-SoM与SoV；采样协议/CI → 07-2-采样方法论与统计可靠性；抽取规则 → 08-5-引用抽取规则集；出海 → 09-9-出海跨境GEO-Playbook；合规 → 12-前沿风险与治理。

AEO 知识库

探索

08-4-数据引擎架构

08-4 · 数据引擎架构（自建监测平台工程蓝图）

🎯 为什么单列这页

🏗️ 四层架构

🗃️ 最小数据模型（三张核心表）

⏱️ 采集调度

🌍 出海多区域（本所 wedge 的引擎要求）

🔧 可运维 & 合规

⚠️ 常见坑

🧩 边界（只链不抄）

相关

关系图谱

目录

反向链接