08-5 · 引用抽取规则集(各引擎解析适配)

一句话07-1-指标体系-SoM与SoV 说”各引擎引用长相不同、抽取要分别写”——本页就是那套规则的产品落地:从一段 AI 回答里,可靠地抠出”谁被提及 / 谁被引用 / 在什么位置”。 本页定位08-4-数据引擎架构 的”抽取层”实现细则。计数口径(什么算提及/引用)不在此重定义 → 07-1-指标体系-SoM与SoV;本页只管”怎么从原始回答里把它们抠出来”。

🎯 为什么单列这页

  • 没有公开的”提及追踪 API”(08-3):被引/被提及得自己从回答文本/DOM 里解析。
  • 每家引用”长相”不一样:同一句”被引用”,Perplexity 是脚注、ChatGPT 是行内链接、AIO 是来源卡——一套正则吃不下。
  • 格式频繁变:UI 改版 = 解析器静默失效,数字悄悄错。抽取规则是整条引擎最脆的一环,必须单独管理 + 回归测试。

📋 各引擎引用”长相”与抽取入口(2026 年中·方向性)

引擎引用呈现首选抽取入口易碎点
Perplexity显式编号脚注 [1][2] + 来源列表官方 API / 来源块结构编号与正文对应关系
ChatGPT(搜索)行内链接 + 底部来源块DOM 链接节点 / API annotations有无联网、来源块时有时无
Google AIO来源卡片(缩略图+域名)浏览器自动化抓卡片(无 API)卡片渲染异步、触发不稳
Google AI Mode链接 + noreferrer浏览器自动化客户端剥来源(→ 归因侧 07-3)
Gemini链接附注 / 来源脚部DOM / 可用 API 字段附注位置多变
Claude(联网)行内/末尾来源API annotations / DOM联网开关、来源密度低

⚠️ 表内”长相”是观测快照,按月会变;落地以实采回归集为准,别把它写进硬编码注释当真理。

🪜 抽取三层兜底(稳健性优先级)

  1. 结构化字段优先:官方 API 返回的 annotations/citations 字段最稳 → 能用 API 就别解析 DOM。
  2. DOM 选择器其次:无 API(AIO/AI Mode)走浏览器自动化 + 选择器(→ 08-4-数据引擎架构 引擎适配器)。
  3. 正则兜底:脚注编号 \[\d+\]、URL 模式等做最后一道——只兜底、不主用(易误命中)。

🔍 两类抽取

A. 提及抽取(文本层)

  • 实体归一化:品牌名 + 已登记别名 + 拼写变体 + 子品牌 → 归一化到同一实体再计数(归一化表随实体库维护 → A1-实体识别与知识图谱)。
  • 计数口径:单观测内多次提及计 1(二元);口径定义在 07-1-指标体系-SoM与SoV,本页只负责”命中检测”。
  • 位置/显著度:标注命中位置(首位/列表内/末尾)→ 喂 07-1 的显著度加权 SoV。

B. 引用抽取(来源层)

  • 判定”是否引用”:有可点击来源或明确来源归属才升级为引用(纯文字提及不算)——口径见 07-1。
  • 来源域归一化m.reddit.com / reddit.com / old.reddit.com → reddit.com;子域/移动域/AMP 收敛到主域,否则被引来源分布失真。
  • 来源-品牌关联:判断”这条来源是不是指向你”(你的官网/你被第三方提及的页)→ 喂提及-来源鸿沟分析(A4-第三方共识源与提及来源鸿沟)。

🧪 质量校验

  • 回归集:固定一批已人工标注的回答,每次改规则跑回归(命中率/误报率),对齐 08-4-数据引擎架构 抽取回归集。
  • 人工抽样比对:每批次抽样人工复核,算抽取准确率;准确率掉了先怀疑引擎改版。
  • 方向性提醒:引用计数当方向性,曾测出 97% 偏差(→ 08-1-AI可见性监测工具)——抽取错误是偏差主因之一。

🔧 维护铁律

  • 按月复核 regex / 选择器 / 来源清单(08-3:赛道极快,LinkedIn 3 个月从榜外冲到专业查询 #1 被引域)。
  • UI 变更监控:解析命中率突降 = 引擎改版告警,别等客户发现数字不对。
  • 版本化:抽取规则改动记版本,关联到指标的 spec_version(→ 07-2-采样方法论与统计可靠性 模型断点)。
  • 出海多 locale:不同语言/区域的来源呈现可能不同,规则按 locale 验过再上(→ 09-9-出海跨境GEO-Playbook)。

⚠️ 常见坑

  • 一套正则吃所有引擎 → 越改越乱;按引擎隔离解析器
  • 不做来源域归一化 → 被引来源分布虚高/虚低。
  • 不做实体归一化 → 子品牌/别名漏计,SoV 偏低。
  • 规则失效无告警 → 数字静默错,比没数据更危险。

🧩 边界(只链不抄)

相关