08-3 · 数据集成与自建采样

一句话：监测（被引没）与归因（带没带来点击）是两件事，都要。本页讲”接数据 / 自建”的技术栈；GA4/GSC 的配置口径见 07-3-归因-从AI引用到流量转化，本页不重复。

🔌 三层归因架构（买或建都要搭）

某 ~45 万次 AI 相关访问中 70.6% 无 referrer、落入 Direct；ChatGPT/Claude/Perplexity App 剥 referrer；Google AI Mode 用 noreferrer（客户端完全不可追）。
GA4 也答不了”用户问了什么 / 哪条查询带出你”。
SparkToro 2026-01：Perplexity 引用仅 12–18% 产生点击 → 暗流量是常态（→ 07-3-归因-从AI引用到流量转化）。

栈：代理（BrightData/Oxylabs）+ 浏览器自动化（Playwright/Selenium）+ DB + 引用抽取脚本。约 $500–2,000/mo infra + 2–3 月开发。
难点：AI 无公开”提及追踪”API，靠官方 API + 浏览器自动化拼。
LLM API 很便宜（2026·方向性）：$0.10/M（GPT-4.1 Nano）→ $30/M（GPT-5.4 Pro）；性价比 GPT-5.4 $2.50/$15、Claude Sonnet 4.6 $3/$15；最便宜 DeepSeek V3.2 $0.14/$0.28。品牌 prompt 短量小 → 瓶颈是工程时间 + 抓取，不是模型费。
低成本范例：< $100/mo 覆盖 ChatGPT/Claude/Gemini（API）+ AI Mode/AIO，自定义 5 分制评分（品牌收录/准确/价格/可执行/引用质量）——“现成工具不满足的定制”是自建最强理由。
自建也必须 multi-sampling → 07-2-采样方法论与统计可靠性。
口径对齐：自建采集/抽取/计数一律遵循 《测量规范》 07-1-指标体系-SoM与SoV（指标公式 + 各引擎引用抽取口径）/ 07-2-采样方法论与统计可靠性（采样协议 + 置信区间 + 模型断点）——工程照规范建，数字才可辩护。

买”引用数据 API”、只自建 dashboard：cloro（500 免费 credit、6 引擎）· Cairrot（全档免费 API → Looker 白标）。跳过最难的”数据采集”，保留 dashboard 灵活。

赛道快变（LinkedIn 3 个月从榜外冲到专业查询 #1 被引域）→ prompt 集 / regex / 源清单按月复核。