08-5 · 引用抽取规则集(各引擎解析适配)
一句话:07-1-指标体系-SoM与SoV 说”各引擎引用长相不同、抽取要分别写”——本页就是那套规则的产品落地:从一段 AI 回答里,可靠地抠出”谁被提及 / 谁被引用 / 在什么位置”。 本页定位:08-4-数据引擎架构 的”抽取层”实现细则。计数口径(什么算提及/引用)不在此重定义 → 07-1-指标体系-SoM与SoV;本页只管”怎么从原始回答里把它们抠出来”。
🎯 为什么单列这页
- 没有公开的”提及追踪 API”(08-3):被引/被提及得自己从回答文本/DOM 里解析。
- 每家引用”长相”不一样:同一句”被引用”,Perplexity 是脚注、ChatGPT 是行内链接、AIO 是来源卡——一套正则吃不下。
- 格式频繁变:UI 改版 = 解析器静默失效,数字悄悄错。抽取规则是整条引擎最脆的一环,必须单独管理 + 回归测试。
📋 各引擎引用”长相”与抽取入口(2026 年中·方向性)
| 引擎 | 引用呈现 | 首选抽取入口 | 易碎点 |
|---|---|---|---|
| Perplexity | 显式编号脚注 [1][2] + 来源列表 | 官方 API / 来源块结构 | 编号与正文对应关系 |
| ChatGPT(搜索) | 行内链接 + 底部来源块 | DOM 链接节点 / API annotations | 有无联网、来源块时有时无 |
| Google AIO | 来源卡片(缩略图+域名) | 浏览器自动化抓卡片(无 API) | 卡片渲染异步、触发不稳 |
| Google AI Mode | 链接 + noreferrer | 浏览器自动化 | 客户端剥来源(→ 归因侧 07-3) |
| Gemini | 链接附注 / 来源脚部 | DOM / 可用 API 字段 | 附注位置多变 |
| Claude(联网) | 行内/末尾来源 | API annotations / DOM | 联网开关、来源密度低 |
⚠️ 表内”长相”是观测快照,按月会变;落地以实采回归集为准,别把它写进硬编码注释当真理。
🪜 抽取三层兜底(稳健性优先级)
- 结构化字段优先:官方 API 返回的 annotations/citations 字段最稳 → 能用 API 就别解析 DOM。
- DOM 选择器其次:无 API(AIO/AI Mode)走浏览器自动化 + 选择器(→ 08-4-数据引擎架构 引擎适配器)。
- 正则兜底:脚注编号
\[\d+\]、URL 模式等做最后一道——只兜底、不主用(易误命中)。
🔍 两类抽取
A. 提及抽取(文本层)
- 实体归一化:品牌名 + 已登记别名 + 拼写变体 + 子品牌 → 归一化到同一实体再计数(归一化表随实体库维护 → A1-实体识别与知识图谱)。
- 计数口径:单观测内多次提及计 1(二元);口径定义在 07-1-指标体系-SoM与SoV,本页只负责”命中检测”。
- 位置/显著度:标注命中位置(首位/列表内/末尾)→ 喂 07-1 的显著度加权 SoV。
B. 引用抽取(来源层)
- 判定”是否引用”:有可点击来源或明确来源归属才升级为引用(纯文字提及不算)——口径见 07-1。
- 来源域归一化:
m.reddit.com / reddit.com / old.reddit.com → reddit.com;子域/移动域/AMP 收敛到主域,否则被引来源分布失真。 - 来源-品牌关联:判断”这条来源是不是指向你”(你的官网/你被第三方提及的页)→ 喂提及-来源鸿沟分析(A4-第三方共识源与提及来源鸿沟)。
🧪 质量校验
- 回归集:固定一批已人工标注的回答,每次改规则跑回归(命中率/误报率),对齐 08-4-数据引擎架构 抽取回归集。
- 人工抽样比对:每批次抽样人工复核,算抽取准确率;准确率掉了先怀疑引擎改版。
- 方向性提醒:引用计数当方向性,曾测出 97% 偏差(→ 08-1-AI可见性监测工具)——抽取错误是偏差主因之一。
🔧 维护铁律
- 按月复核 regex / 选择器 / 来源清单(08-3:赛道极快,LinkedIn 3 个月从榜外冲到专业查询 #1 被引域)。
- UI 变更监控:解析命中率突降 = 引擎改版告警,别等客户发现数字不对。
- 版本化:抽取规则改动记版本,关联到指标的
spec_version(→ 07-2-采样方法论与统计可靠性 模型断点)。 - 出海多 locale:不同语言/区域的来源呈现可能不同,规则按 locale 验过再上(→ 09-9-出海跨境GEO-Playbook)。
⚠️ 常见坑
- 一套正则吃所有引擎 → 越改越乱;按引擎隔离解析器。
- 不做来源域归一化 → 被引来源分布虚高/虚低。
- 不做实体归一化 → 子品牌/别名漏计,SoV 偏低。
- 规则失效无告警 → 数字静默错,比没数据更危险。
🧩 边界(只链不抄)
- 计数口径定义 → 07-1-指标体系-SoM与SoV;引擎适配/调度 → 08-4-数据引擎架构;实体归一化 → A1-实体识别与知识图谱;采集选项/成本 → 08-3-数据集成与自建采样;模型断点/版本 → 07-2-采样方法论与统计可靠性。
相关
- 提及 vs 引用概念 → 02-6-引用vs提及;共识源/来源鸿沟 → A4-第三方共识源与提及来源鸿沟
- 工具替代(买现成)→ 08-1-AI可见性监测工具;归因(点击侧 noreferrer)→ 07-3-归因-从AI引用到流量转化