准确率 16.9% 飙升至 99.7%：Anthropic 揭开 AI Agent 致命短板

最近，Anthropic 发了一篇研究论文，让很多人坐不住了。

他们让 Claude、Biomni OSS、GPT 等多类模型去病毒学数据库 NCBI Virus 里检索序列数据——一个听起来非常基础的任务。结果呢？即使是当前最先进的模型，无工具辅助时的准确率也只有 16.9%–91.3%，而且同一模型对同一问题多次运行的结果差异很大——比如 Sonnet 4 对同一个 Ebola 查询，三次运行分别返回了 106、15 和 5 条结果，而正确答案是 266 条。换句话说，模型聪明到能写代码、做推理，却在”把数据库里的东西准确拿出来”这件事上翻了车。

这不是个例。同一周，Dwarkesh Patel 的博客文章《样本效率黑洞》（The Sample Efficiency Black Hole）引发了广泛讨论，核心观点只有一个：AI 看起来什么都会，但它的能力底部藏着一个看不见的黑洞——对海量高质量数据的绝对依赖。没有数据，再聪明的 Agent 也是一辆没有油的跑车。

更值得关注的是，Perplexity 与哈佛商学院的合作研究显示了一组对比数据：同样完成一项任务，使用 Perplexity Computer（Agent 模式）比使用 Perplexity Search（助手模式）的时间缩减了 87%，成本降低了 94%。Agent 的效率确实惊人——前提是，你得喂给它靠谱的数据。

这三条线索拼在一起，指向一个被行业长期低估的问题：AI Agent 的天花板不是模型智力，而是数据采集基础设施。

1. “聪明脑”配”破烂路”

Anthropic 在论文里用了一个非常精准的比喻：对 AI Agent 来说，现有的生物数据库就像”汽车发明之前建造的旧城”——作者用了意大利山城来打比方：不管你的车有多强，巷子太窄、弯太急、路线还靠当地人带路，你就是开不过去。

这个问题不只存在于生物学领域。几乎每一个需要从外部数据源采集信息的 Agent 场景，都会撞上同一堵墙：

电商价格监控 Agent 遇到反爬机制，返回一堆验证码页面；SEO 分析 Agent 想抓取搜索引擎结果，却被地区限制和 IP 封锁挡在门外；金融数据 Agent 试图从多个交易所拉实时行情，却发现每个平台的接口格式、认证方式、调用频率限制都不一样——而且这类场景的痛点是延迟和频次，靠网页采集根本搞不定，得走正规的 WebSocket 流或经鉴权的 REST API。

模型完全知道该怎么做——它理解任务逻辑，能生成正确的查询语句，甚至能处理异常。但当数据源本身设置了访问门槛，或者数据管道本身就断裂了，模型再聪明也白搭。

这就是 2026 年 AI 行业最尴尬的现实：我们在模型能力上狂奔，却在数据获取基础设施上原地踏步。

2. 数据采集的三重困境

从工程实践来看，Agent 在数据采集环节面临的问题可以归纳为三个层面。

访问层：看得见，摸不着。 互联网上大量有价值的数据被反爬策略、地区限制、登录墙保护着。一个需要监控全球电商价格的 Agent，如果不能通过不同地区的住宅 IP 去访问目标站点，拿到的就是被重定向或遮蔽过的虚假数据。但光换 IP 也不够——Cloudflare、Akamai 这类防护系统还会检查你的 TLS 握手指纹、浏览器环境特征。IP 是入场券，环境隔离才是通行证。这不是模型能解决的问题，这是基础设施的问题。

结构层：拿得到，用不了。 就像 Anthropic 论文揭示的那样，很多数据库的格式、接口设计、元数据规范并不是给机器消费的。Agent 拿到了原始数据，却需要在理解、清洗、对齐上耗费大量推理资源——而这些环节每一步都可能引入错误。

规模层：跑得动，跑不大。 单次数据采集对 Agent 来说不难。但当任务变成”每天从 50 个站点采集 10 万条数据并持续监控变化”时，问题就完全不同了。连接超时、IP 轮换、并发管理、失败重试——这些脏活累活没有一个是模型擅长处理的，但每一个做不好都会让 Agent 的输出质量断崖式下跌。

3. 被忽视的关键拼图

行业里有一个越来越明显的认知错位：大家花大量精力讨论怎么让 Agent 更聪明，却很少有人认真思考怎么让 Agent 更”吃得饱”。

这个问题的解法不是升级模型。再强的推理能力也无法突破一个物理现实：如果数据源的访问被封锁了，Agent 就不可能拿到真实数据。你需要的是一条通畅的数据管道。

具体来说，这条管道需要三个组件：

一套覆盖目标地区的高质量代理网络。但必须说清楚：仅仅切换 IP 远远不够。现代反爬系统（如 Cloudflare Turnstile、Akamai Bot Manager）检测的核心不只是 IP 纯净度，更包括 TLS 指纹（JA3/JA4）、Canvas/WebGL 硬件指纹、User-Agent 与底层协议的对齐度。住宅代理解决的是 IP 层的可信度问题，但要真正”看起来像真实用户”，还需要在自动化框架层面做好环境隔离与指纹抗噪。代理网络是地基，但不是整栋楼。

一个能处理动态页面渲染、自动重试、会话管理的网页采集 API，把脏活从 Agent 的推理循环中剥离出来。注意，这适用于网页结构化数据采集；如果你的 Agent 对接的是正规 API 端点（交易所行情、SaaS 平台数据等），优先走原生 API 鉴权通道，而不是绕道网页采集。

一个稳定的数据获取层，确保 Agent 收到的不是验证码页面、不是 403 错误、不是被篡改的重定向内容，而是干净可用的原始数据。

这些不是锦上添花，而是 Agent 能否正常工作的前提条件。就像 Anthropic 的实验所证明的：加入确定性检索层之后，准确率升至 90% 以上，最高达 99.7%——更关键的是，同一模型对同一查询多次运行的结果变得高度可复现，之前那种”三次查询给出三个完全不同答案”的离谱变异基本消除。数据管道的质量，直接决定了 Agent 输出的质量。

4. 从”模型竞赛”到”数据竞赛”

2026 年上半年有一个趋势已经非常清晰了：各大公司不再只比谁的模型更强，而是比谁的 Agent 能接入更多、更深、更实时的数据源。

OpenAI 刚刚保密提交了 S-1 注册草案，为上市预留通道。其战略重心正在从”训练更大的模型”转向”构建自动化 AI 研究员”——而研究员的核心能力不是聪明，而是能高效地获取和处理信息。苹果在 WWDC 上发布新一代 Apple Intelligence，本质上是把 AI 深度嵌入生态，让每个应用都成为数据节点。微信发布了 AI 生态接入指引，进入公开内测阶段，意味着数百万小程序的数据正在成为新的竞争高地。

这些动作背后的逻辑是一致的：谁掌握了数据获取能力，谁就掌握了 AI 时代的竞争壁垒。

对开发者来说，这意味着一个务实的优先级调整：与其花时间微调 Agent 的提示词，不如先确保数据管道是通的。一个接入了高质量代理网络和采集 API 的中等模型 Agent，在实际业务中的表现往往优于一个用最贵模型但数据管道千疮百孔的 Agent。

不是模型不重要，而是数据是前提。

5. 一个可以现在就做的事

如果你正在构建 AI Agent，或者在运营中依赖 Agent 做数据采集，有一个测试值得立刻做：关掉你现有的代理和网络配置，让 Agent 裸跑一遍数据采集任务，然后对比有完整数据管道时的输出质量。

大多数团队会被这个差距吓到。

因为差距通常不是 10% 或 20%，而是”能用”和”完全不可用”之间的天壤之别。这也是为什么越来越多的 Agent 开发团队在架构设计阶段就把代理 IP 网络和网页采集 API 作为核心基础设施，而不是事后打补丁。

Anthropic 的论文用实验证明了一件事：给 Agent 加上确定性数据获取层，效果是质变级别的——不只是准确率的提升，更是从”不可复现”到”高度可复现”的跨越。而从工程角度看，这个”确定性数据获取层”是什么，取决于你的场景：对于网页数据采集，它是住宅代理 + 网页采集 API + 反指纹环境隔离的组合；对于 API 类数据源，它是稳定的网络连通性与鉴权管理。不存在一招通吃的万能解药，但存在一个通用原则——数据管道的确定性，决定了 Agent 输出的确定性。

模型已经够聪明了。现在该把路修好了。

IPWeb 提供覆盖 220+ 国家和地区的住宅代理网络、网页采集 API 与 SERP API，帮助 AI Agent 团队构建稳定可靠的数据获取管道。