2026 年 6 月 9 日,媒体与法律分析人士报道,慕尼黑地区法院(Landgericht München I)作出一项判决,重塑了部分司法管辖区对 AI 生成搜索结果的处理方式。在案号 26 O 869/26——The Decoder 等媒体均有报道——中,法院据报裁定,Google 的 AI Overviews(AIO)属于 Google 自身的原创内容,而非对第三方材料的被动索引。判决驳回了 Google 长期以来的抗辩——即 AIO 只是网络上已有内容的算法反映——并确认当 AI 事实出错时,Google 自身可能对生成文本承担法律责任。
案件源于一起令人不安的事件:Google AI Overviews 错误地将两家慕尼黑出版公司与不当运营关联。出版商提起诉讼,法院在每一项实质性问题上均支持原告。
这一判决改变了抓取 Google 搜索结果的数据从业者的一切。理解如何合规抓取 Google AI Overviews 不再只是技术问题——更是法律与战略问题。本指南涵盖技术栈、合规框架,以及 2026 年提取 AIO 数据所需的实用代码。
- 1. 先搞懂:AI 摘要值不值得抓
- 2. 慕尼黑判了:AI 摘要算 Google 自己的内容
- 3. 为啥常规手段拿不到
- 4. 稳定方案:SERP API + 住宅代理
- 5. API、直连、浏览器,选哪个
- 6. 抓取合规与限速
- 7. FAQ 常见问题解答
- 8. 写在最后
1. 先搞懂:AI 摘要值不值得抓
Google AI Overviews(前身为 Search Generative Experience,简称 SGE)是出现在 Google 搜索结果页顶部的 AI 生成摘要框。由 Google 的 Gemini 模型驱动,AIO 将多个网络来源的信息综合为一段式答案——通常附带引用链接、后续问题建议,以及列表或表格等结构化数据元素。
截至 2026 年中,AIO 出现在约 30–40% 的 Google 搜索查询中,在信息类、教育类和产品对比类查询中更为普遍。它们不会消失,Google 正在扩大其覆盖范围。
五种典型用法
- SERP 功能追踪:SEO 团队需要了解哪些查询会触发 AIO、哪些来源被引用,以及自身域名在 AI 生成答案中出现的频率(或未出现)。若竞争对手被 AIO 引用而你没有,那就是需要量化的流量流失。
- 品牌监测:当 AIO 答案对你的公司做出事实错误陈述时——如慕尼黑出版商所经历——你需要立即知晓。大规模可靠检测的唯一方式是程序化监测。
- 竞争情报:AIO 揭示 Google 对任意主题的网页综合理解。追踪竞争对手关键词上 AIO 答案随时间的演变,可反映 Google 对你所在市场的认知变化。
- LLM 训练数据策展:构建领域专用 AI 模型的组织,将 AIO 输出作为某查询权威答案质量的信号。AIO 本身即是一种训练标签。
- 学术研究:研究 AI 偏见、事实准确性及生成式 AI 对信息生态影响的研究者,需要结构化的 AIO 数据集。慕尼黑判决使这类研究更为紧迫,而非减弱。
抓取 AIO 很难。它们动态渲染、依赖 JavaScript、因地域而异,且受到严格的速率限制。本文其余部分说明如何正确操作。
2. 慕尼黑判了:AI 摘要算 Google 自己的内容
慕尼黑地区法院在案号 26 O 869/26 中的判决,是全球首例将 AI 生成搜索摘要定性为搜索引擎自身内容、并对其不准确承担完整法律问责的重大裁决。在此之前,Google 在各司法管辖区的立场基本一致:「我们只是镜子,别怪我们反映的内容。」
这一抗辩在德国已告终结。以下是法院认定要点。
法院核心说了什么
- 1. AI Overviews 是原创内容,而非索引。 Google 使用自有 Gemini 语言模型生成 AIO 答案。输出是新颖的综合——不是摘要片段、不是精选摘要、不是知识图谱事实。法院认为这与传统搜索有质的不同。当你用 LLM 重组事实并以自己的口吻呈现时,你是在发布,而非索引。
- 2. 传统搜索引擎责任豁免不适用。 根据德国对欧盟法律(尤其是《数字服务法》框架)的实施,平台对其被动托管的第三方内容享有一定保护。法院裁定这些保护不涵盖 Google 自有 AI 生成的内容。这是判决中最具可移植性的法律逻辑——它清晰映射到美国《通信规范法》第 230 条辩论中「平台生成」与「用户发布」的多年争议。
- 3. 「用户可自行核实」抗辩被驳回。 Google 辩称 AIO 链接到来源页面,用户可自行核实准确性。法院驳回此说,援引证据表明仅约 1% 用户会点击来源链接。实践中,对几乎所有看到 AIO 的人而言,AIO 答案就是答案。
- 4. 规模使不可接受的错误率成为现实。 假设 AIO 在部分查询上仍有约 9% 的错误率(仅为说明数量级,非 Google 官方统计),在每日数十亿次搜索的规模下,绝对错误量依然惊人。法院关注的是 Google 作为发布者对生成内容的编辑控制责任,而非某个固定准确率数字。
做抓取的人该注意什么
该判决并未使抓取 AI Overviews 违法——远非如此。但它从根本上改变了你的操作语境:
- 公共利益基础更强。 现已存在经法院认可的论点:监测 AIO 输出服务于正当公共利益,因为这些输出已被司法认定为具有现实后果的发布者内容。若你的监测发现诽谤性 AIO 内容,你正处于德国法院明确认可的立场。
- 数据使用边界更清晰。 AIO 被归类为 Google 自有内容后,对抓取 AIO 数据可做什么的法律框架更可预测,而非更模糊。你抓取的是已被要求对准确性承担法律责任的发布者所发布的内容。
- 合规比以往更重要。 若抓取 AIO,请规范操作。使用合法的住宅代理基础设施,尊重技术边界,并保留审计轨迹。
3. 为啥常规手段拿不到
Google 几道防御关卡
- 基于 IP 的速率限制与异常检测:数据中心 IP 几乎立即被识别。住宅 IP 在对同一区域端点重复查询后也会被限流。
- JavaScript 挑战页:不执行 JavaScript 的自动化尝试会遭遇验证墙,可能是交互挑战或无声降级的评分系统。
- 浏览器指纹:Google 检查数百个客户端信号——WebGL 渲染器、Canvas 指纹、字体列表、屏幕分辨率、时区、语言头及 TLS 指纹。这些信号与 IP 地理位置的任何不匹配都会触发更严格审查。
- 动态 DOM 结构:AIO 结果通过多层嵌套 shadow DOM 渲染,类名与 data 属性非确定性,部署间会变化(有时一天多次)。
- 地理结果差异:同一查询从不同 IP 位置返回不同 AIO 内容(或根本没有 AIO)。准确抓取需要地理定向的代理基础设施。
- 基于会话的速率限制:同一 IP 对同一端点快速连续查询会触发可持续数小时的指数退避机制。
常规脚本为啥失效
若你曾抓取传统页面(十条蓝色链接),可能用过基础请求配合轮换代理。该方案对 AIO 完全失效,原因有三:
- AIO 由 JavaScript 渲染。 它们不存在于静态 HTML 中。你必须执行 JavaScript(无头浏览器),或使用为你处理渲染的 SERP API。简单 HTTP GET 对 AIO 部分毫无用处。
- AIO DOM 被主动混淆。 像
.M8OgIe这样的类名频繁变化。直接基于选择器解析数日内即失效。你需要将输出规范为结构化 JSON 的 API,或能适应 DOM 变化的自愈解析器。 - AIO 限制更严格。 生成端点计算成本更高,并施加更严访问控制。触发 AIO 的查询比仅返回常规结果的查询更快被限流。
4. 稳定方案:SERP API + 住宅代理
可靠、可维护的方案结合两种工具:专门处理渲染与解析的 SERP API,以及避免 IP 检测的住宅代理网络。以下是生产级技术栈。
先配住宅代理
住宅代理将你的流量路由到 ISP 分配给真实设备的 IP。你的请求看起来像来自目标国家的家庭宽带——而非数据中心。
- 地理定向:AIO 因国家而异。监测美国查询的 AIO 内容,请通过美国住宅 IP 路由。
- 会话持久性:使用粘性会话(多次连续查询保持同一 IP)比每次请求轮换 IP 更接近真实用户行为。
- 代理认证:配置代理端点后,SERP API 会透明处理。
proxy_endpoint = "http://USERNAME:PASSWORD@proxy.ipweb.cc:7778"
再调 SERP API
SERP API 抽象了浏览器渲染、验证求解与 DOM 解析。你发送结构化查询,它返回包含解析后 AIO 数据的结构化 JSON。
| Parameter | Value | Purpose |
|---|---|---|
q |
你的搜索查询 | 精确关键词或问题 |
location |
城市/地区 canonical name | 地理定向(如 “United States”) |
device |
“desktop” 或 “mobile” | 移动端/桌面端格式差异 |
gl |
两位国家代码(如 “us”) | 国家参数 |
hl |
语言代码(如 “en”) | 结果语言 |
include_ai_overview |
true |
在响应中启用提取 |
把结果整理成表
良好实现的 SERP API 响应包括:完整答案文本、引用来源对象数组、后续查询建议及免责声明状态。
可直接跑的 Python 示例
import requests
IPWEB_SERP_API_URL = "https://api.ipweb.cc/serp/search"
IPWEB_SERP_API_KEY = "YOUR_SERP_API_KEY"
def fetch_aio_result(query: str) -> dict:
api_params = {
"q": query,
"location": "United States",
"device": "desktop",
"gl": "us",
"hl": "en",
"include_ai_overview": "true",
"api_key": IPWEB_SERP_API_KEY,
}
response = requests.get(
IPWEB_SERP_API_URL,
params=api_params,
timeout=30,
headers={"Accept": "application/json"},
)
response.raise_for_status()
return response.json()
# 示例调用
result = fetch_aio_result("best residential proxies")
print("AIO Text:", result.get("ai_overview", {}).get("text"))
5. API、直连、浏览器,选哪个
提取 AIO 数据的每种方式都有权衡。对比如下。
| Criteria | SERP API | 直接请求 | 浏览器自动化 |
|---|---|---|---|
| AIO 提取 | 原生支持返回结构化 JSON | 无法提取,需 JS 渲染 | 可行,但需持续维护解析 |
| 验证处理 | 内置自动求解 | 无,易被拦截 | 需额外插件与成本 |
| 可靠性与维护 | 高,低维护负担 | 低 | 中,需处理组件失效 |
6. 抓取合规与限速
慕尼黑判决并未改变你作为数据采集者的义务。以下是合规框架。
限速标准
- 对同一域名的连续查询,至少间隔合理秒数。
- 除非有必要理由,同一关键词查询 24 小时内勿频繁重复。
- 对错误响应实施指数退避。收到限流信号时,以分钟级退避,避免导致长期受限。
抓到的数据能怎么用
| Use Case | Status | Reasoning |
|---|---|---|
| 内部 SEO 与趋势分析 | 允许 | 标准竞争情报活动。 |
| 准确性报告监测 | 允许(需注源) | 监测生成内容准确性具公共利益。 |
| 训练竞争性模型 | 法律风险高 | 涉及复杂的知识产权边界探讨。 |
7. FAQ 常见问题解答
Q1:抓取 Google AI Overviews 合法吗?
为正当目的(研究、监测、竞争分析)抓取公开可访问网页内容,在多数司法管辖区通常可辩护。若使用合法基础设施并遵循合规框架,抓取活动处于合理的数据采集区间。
Q2:能用数据中心代理抓取 AIO 吗?
不能。常见的数据中心 IP 极易触发验证拦截,你需要通过 ISP 分配 IP 路由的住宅代理以提供必要的地理定向与多样性。
Q3:同一关键词应多久抓取一次 AIO?
对多数用例,每 24 小时一次是安全默认值。AIO 输出底层模型按部署节奏更新,而非按查询实时变动,除非有突发事件需提高追踪频次。
Q4:SERP API 是否支持所有语言的搜索结果?
支持。通过国家与语言参数支持不同地区域名。配合目标国家的代理可获得地理准确结果及对应语言文本。
Q5:抓取 AIO 时 SERP API 与 Web Unlocker 有何区别?
SERP API 专为结构化搜索结果提取而构建,适用于扫描确定的关键词;而 Web Unlocker 用于访问易被拦截的单个目标网页。针对本流水线,前者为正确工具。
8. 写在最后
2026 年 6 月 9 日慕尼黑法院判决,标志着业界理解 AI 生成搜索内容的转折点。这使 AIO 监测对 SEO 从业者、品牌经理与研究者愈加关键,所捕获的数据具有现实的法律与战略意义。
可靠路径很明确:专门构建的 SERP API 辅以住宅代理基础设施。负责任地监测,以合规为念,理解如今中介网络互动的生成式信息生态规律。