12-6 · 合规与数据隐私
一句话:监测/自建采样别踩法律红线——EU AI Act、版权 opt-out、GDPR 是三条独立战线,互不替代。 ⚠️ 本页仅为方向性梳理,非法律建议;具体以官方文本与专业律师为准。
📜 EU AI Act 时间线(已是公开事实)
- 2024-08-01 生效;2026-08-02 全面适用(透明度规则同期到位)。
- 分阶段:禁止性实践 + AI 素养 2025-02 起;GPAI 义务 2025-08 起;嵌入受监管产品的高风险系统延至 2028-08。
- GPAI 提供方须:公布训练数据来源摘要(前 10% 域名;中小企业前 5% 或 1,000 个)、尊重版权 opt-out(DSM 第 4 条 TDM)、说明爬虫如何运作。
- 罚则:高风险 €35M 或全球营收 7%;GPAI 最高全球营收 3%。
©️ 版权 opt-out:robots.txt 有了法律分量
- 欧盟框架下,未明确 opt-out 的受版权内容可被 TDM 抓取;一旦明确保留权利,GPAI 须先获授权。
- robots.txt 成法律意义上的”保留权利”信号之一,但标准碎片化。
- ⚠️ 德国一判例:opt-out 未必需机器可读——T&C 里一句话可能就够 → 别只盯 robots.txt → 12-3-爬虫管控与内容许可。
🔐 GDPR:独立适用、长臂管辖
- 抓到欧盟公民个人数据 → 无论服务器/公司在哪都受 GDPR。
- 最常用法律依据是”正当利益”(Art 6(1)(f)),但 DPA 立场趋严;同意基本不可行(大规模自动采集拿不到有效同意)。
- 执法有牙:GDPR 累计罚款自 2018 已超 €5.88B,2025 一年 €2.3B(+38% YoY)。
📌 对本库读者的影响(落到实处)
- 自建采样要合规:抓取做监测时尊重 robots/限速/法律边界 → 08-3-数据集成与自建采样。
- YMYL 合规叠加:医疗/金融内容除 EEAT 外还有行业合规红线 → 09-4-YMYL医疗与金融。
- 三条战线各算各的:签了授权 ≠ 满足 AI Act;赢了某州官司 ≠ 省下版权费 → 别用一条路当万能解。
- 参照:OpenAI 2026-05-28 发布 Frontier Governance Framework,对齐 EU AI Act 行为准则 + 加州 Frontier AI 透明法。
⚠️ 坑
- 把”技术能抓”当”法律能用”——能抓 ≠ 合法可用。
- 忽视长臂管辖(以为”我不在欧盟就没事”)。
相关
- 爬虫与许可 → 12-3-爬虫管控与内容许可;自建采样 → 08-3-数据集成与自建采样
- YMYL 合规 → 09-4-YMYL医疗与金融