12-6 · 合规与数据隐私

一句话:监测/自建采样别踩法律红线——EU AI Act、版权 opt-out、GDPR 是三条独立战线,互不替代。 ⚠️ 本页仅为方向性梳理,非法律建议;具体以官方文本与专业律师为准。

📜 EU AI Act 时间线(已是公开事实)

  • 2024-08-01 生效;2026-08-02 全面适用(透明度规则同期到位)。
  • 分阶段:禁止性实践 + AI 素养 2025-02 起;GPAI 义务 2025-08 起;嵌入受监管产品的高风险系统延至 2028-08。
  • GPAI 提供方须:公布训练数据来源摘要(前 10% 域名;中小企业前 5% 或 1,000 个)、尊重版权 opt-out(DSM 第 4 条 TDM)、说明爬虫如何运作。
  • 罚则:高风险 €35M 或全球营收 7%;GPAI 最高全球营收 3%

©️ 版权 opt-out:robots.txt 有了法律分量

  • 欧盟框架下,未明确 opt-out 的受版权内容可被 TDM 抓取;一旦明确保留权利,GPAI 须先获授权
  • robots.txt 成法律意义上的”保留权利”信号之一,但标准碎片化。
  • ⚠️ 德国一判例:opt-out 未必需机器可读——T&C 里一句话可能就够 → 别只盯 robots.txt → 12-3-爬虫管控与内容许可

🔐 GDPR:独立适用、长臂管辖

  • 抓到欧盟公民个人数据 → 无论服务器/公司在哪都受 GDPR。
  • 最常用法律依据是”正当利益”(Art 6(1)(f)),但 DPA 立场趋严;同意基本不可行(大规模自动采集拿不到有效同意)。
  • 执法有牙:GDPR 累计罚款自 2018 已超 €5.88B2025 一年 €2.3B(+38% YoY)

📌 对本库读者的影响(落到实处)

  1. 自建采样要合规:抓取做监测时尊重 robots/限速/法律边界 → 08-3-数据集成与自建采样
  2. YMYL 合规叠加:医疗/金融内容除 EEAT 外还有行业合规红线 → 09-4-YMYL医疗与金融
  3. 三条战线各算各的:签了授权 ≠ 满足 AI Act;赢了某州官司 ≠ 省下版权费 → 别用一条路当万能解。
  • 参照:OpenAI 2026-05-28 发布 Frontier Governance Framework,对齐 EU AI Act 行为准则 + 加州 Frontier AI 透明法。

⚠️ 坑

  • 把”技术能抓”当”法律能用”——能抓 ≠ 合法可用。
  • 忽视长臂管辖(以为”我不在欧盟就没事”)。

相关