08-5 · 引用抽取规则集（各引擎解析适配）

一句话：07-1-指标体系-SoM与SoV 说”各引擎引用长相不同、抽取要分别写”——本页就是那套规则的产品落地：从一段 AI 回答里，可靠地抠出”谁被提及 / 谁被引用 / 在什么位置”。 本页定位：08-4-数据引擎架构的”抽取层”实现细则。计数口径（什么算提及/引用）不在此重定义 → 07-1-指标体系-SoM与SoV；本页只管”怎么从原始回答里把它们抠出来”。

🎯 为什么单列这页

没有公开的”提及追踪 API”（08-3）：被引/被提及得自己从回答文本/DOM 里解析。
每家引用”长相”不一样：同一句”被引用”，Perplexity 是脚注、ChatGPT 是行内链接、AIO 是来源卡——一套正则吃不下。
格式频繁变：UI 改版 = 解析器静默失效，数字悄悄错。抽取规则是整条引擎最脆的一环，必须单独管理 + 回归测试。

📋 各引擎引用”长相”与抽取入口（2026 年中·方向性）

引擎	引用呈现	首选抽取入口	易碎点
Perplexity	显式编号脚注 `[1][2]` + 来源列表	官方 API / 来源块结构	编号与正文对应关系
ChatGPT（搜索）	行内链接 + 底部来源块	DOM 链接节点 / API annotations	有无联网、来源块时有时无
Google AIO	来源卡片（缩略图+域名）	浏览器自动化抓卡片（无 API）	卡片渲染异步、触发不稳
Google AI Mode	链接 + `noreferrer`	浏览器自动化	客户端剥来源（→ 归因侧 07-3）
Gemini	链接附注 / 来源脚部	DOM / 可用 API 字段	附注位置多变
Claude（联网）	行内/末尾来源	API annotations / DOM	联网开关、来源密度低

⚠️ 表内”长相”是观测快照，按月会变；落地以实采回归集为准，别把它写进硬编码注释当真理。

🪜 抽取三层兜底（稳健性优先级）

结构化字段优先：官方 API 返回的 annotations/citations 字段最稳 → 能用 API 就别解析 DOM。
DOM 选择器其次：无 API（AIO/AI Mode）走浏览器自动化 + 选择器（→ 08-4-数据引擎架构引擎适配器）。
正则兜底：脚注编号 \[\d+\]、URL 模式等做最后一道——只兜底、不主用（易误命中）。

🔍 两类抽取

A. 提及抽取（文本层）

实体归一化：品牌名 + 已登记别名 + 拼写变体 + 子品牌 → 归一化到同一实体再计数（归一化表随实体库维护 → A1-实体识别与知识图谱）。
计数口径：单观测内多次提及计 1（二元）；口径定义在 07-1-指标体系-SoM与SoV，本页只负责”命中检测”。
位置/显著度：标注命中位置（首位/列表内/末尾）→ 喂 07-1 的显著度加权 SoV。

B. 引用抽取（来源层）

判定”是否引用”：有可点击来源或明确来源归属才升级为引用（纯文字提及不算）——口径见 07-1。
来源域归一化：m.reddit.com / reddit.com / old.reddit.com → reddit.com；子域/移动域/AMP 收敛到主域，否则被引来源分布失真。
来源-品牌关联：判断”这条来源是不是指向你”（你的官网/你被第三方提及的页）→ 喂提及-来源鸿沟分析（A4-第三方共识源与提及来源鸿沟）。

🧪 质量校验

回归集：固定一批已人工标注的回答，每次改规则跑回归（命中率/误报率），对齐 08-4-数据引擎架构抽取回归集。
人工抽样比对：每批次抽样人工复核，算抽取准确率；准确率掉了先怀疑引擎改版。
方向性提醒：引用计数当方向性，曾测出 97% 偏差（→ 08-1-AI可见性监测工具）——抽取错误是偏差主因之一。

🔧 维护铁律

按月复核 regex / 选择器 / 来源清单（08-3：赛道极快，LinkedIn 3 个月从榜外冲到专业查询 #1 被引域）。
UI 变更监控：解析命中率突降 = 引擎改版告警，别等客户发现数字不对。
版本化：抽取规则改动记版本，关联到指标的 spec_version（→ 07-2-采样方法论与统计可靠性模型断点）。
出海多 locale：不同语言/区域的来源呈现可能不同，规则按 locale 验过再上（→ 09-9-出海跨境GEO-Playbook）。

⚠️ 常见坑

一套正则吃所有引擎 → 越改越乱；按引擎隔离解析器。
不做来源域归一化 → 被引来源分布虚高/虚低。
不做实体归一化 → 子品牌/别名漏计，SoV 偏低。
规则失效无告警 → 数字静默错，比没数据更危险。

🧩 边界（只链不抄）

计数口径定义 → 07-1-指标体系-SoM与SoV；引擎适配/调度 → 08-4-数据引擎架构；实体归一化 → A1-实体识别与知识图谱；采集选项/成本 → 08-3-数据集成与自建采样；模型断点/版本 → 07-2-采样方法论与统计可靠性。

AEO 知识库

探索

08-5-引用抽取规则集

08-5 · 引用抽取规则集（各引擎解析适配）

🎯 为什么单列这页

📋 各引擎引用”长相”与抽取入口（2026 年中·方向性）

🪜 抽取三层兜底（稳健性优先级）

🔍 两类抽取

A. 提及抽取（文本层）

B. 引用抽取（来源层）

🧪 质量校验

🔧 维护铁律

⚠️ 常见坑

🧩 边界（只链不抄）

相关

关系图谱

目录

反向链接