Agent Benchmark 2026 H1 综合横评:SWE-bench / OSWorld / WebArena / SWE-Lancer

横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。

12 min read 发布:2026/04/08 Part of AI Engineering · Ch. 12
← 上一层级:学习路径 · Part 05 · AI 工程化与生产

Agent Benchmark 2026 H1 综合横评

flowchart LR
  A["Agent Benchmark 2026 H1"]
  A --> B["分类:工程与生产"]
  A --> C["关键词:SWE-bench"]
  A --> D["关键词:OSWorld"]
  A --> E["关键词:WebArena"]
  A --> F["关键词:评估天花板"]

一年前选 Coding Agent,第一句话经常是”它在 SWE-bench 上多少分”。到 2026 H1,Claude Opus 4.7、GPT-5.3-Codex 等头部模型已经把 SWE-Bench Verified 推到 80%+,top 几家差距开始小于很多团队私有任务的场景噪声。同时 OpenAI 推出 GDPval(44 个真实职业的”专业产出”评测)让评估从 “做对题” 转向 “能否交付真人工作产物”。Agent benchmark 进入了一个新阶段:老 benchmark 集体逼近天花板,新 benchmark 在重新定义”Agent 能不能做事”。

修订说明(2026-04-18):本文一稿对 SWE-Bench Verified top 写成 ~80%(实际 87.6%)、对 OSWorld Verified 站序写错(首位是 Claude Mythos Preview 79.6 而非 GPT-5.4)。已据 swe-bench.com / benchlm.ai 修正,并补入 GDPval、SWE-Bench Pro 两个 H1 关键新 benchmark。

再修订(2026-05-25):OSWorld Verified 榜单已出现 82%+ 的新条目,原文”Claude Mythos Preview 第一”改为”4 月曾领先,5 月榜单已有变化”。Benchmark 数字都应按日期引用,不宜当成长期固定事实。


这篇文章会讲什么

041 AI 评估体系071 Eval Harness 实战 已经讲过 evaluation 通用方法论。本文是它们的”行业现状切片”——只回答这几个具体问题:

  1. 2026 H1 主流 Agent benchmark 当前 SOTA 是什么?谁在 top?
  2. 每个 benchmark 实际测什么?最常见的误读是什么?
  3. “刷榜 ROI 见底”是什么意思?接下来该看哪些 benchmark?
  4. 如何用这些 benchmark 帮你做选型 / 选模型?

先说结论

  • Coding (SWE-Bench Verified):头部模型已进入 80%+ 区间,继续刷分的选型信息量下降;真实仓库的私有评估更重要
  • Coding (SWE-Bench Pro):Z.ai 官方口径称 GLM-5.1 (754B, MIT) 在 SWE-Bench Pro 取得 58.4%;这是开放模型进入 frontier coding benchmark 头部区间的标志,但要看具体榜单日期和 harness
  • GUI 操作 (OSWorld Verified):榜单变化很快,5 月已出现 82%+ 条目;Claude Mythos Preview 79.6% 是 4 月重要节点,但不再应写成长期第一
  • 真实工作 (GDPval):OpenAI 在 H1 推出,覆盖 9 大 GDP 行业 / 44 个职业 / 1320 任务;GPT-5.4 拿 ~83%,意味着”在 44 个职业的产出已和专业人士相当”
  • 网页操作 (WebArena):~71%(GPT-5.4 + scaffolding);VisualWebArena ~65%+
  • 真实自由职业 (SWE-Lancer):Claude Opus 4.7 完成约 $120K/$240K 任务总价;首次把”价格”作为评估维度
  • 通用 reasoning:MMLU-Pro / AIME 2025 (DeepSeek-R1: 91.1) / GPQA (Gemini 3.1 Pro: 94.3) 仍有信息量,但和”Agent 能力”的相关性弱于上面三个

1. 主流 Agent Benchmark 现状表 (2026 H1,截至 2026-05-25)

Benchmark测什么当前 SOTAtop 1 是谁一年前是否还有信息量
SWE-bench Verified真实 GitHub issue 修复(500 个 instance)头部 80%+Claude Opus / GPT-Codex / Gemini 等头部模型轮换~50%接近见顶,差距 <5%
SWE-bench Pro更难子集 / 多语言58.4%GLM-5.1 (Z.ai, 754B, MIT,官方口径)新 benchmark仍有空间,开放模型已进入头部
SWE-bench Multimodal含截图 / UI 的 issue~50%Claude Sonnet 4.6新 benchmark仍有空间
SWE-Lancer真实自由职业代码任务(含价格)~$120K / $240K 任务总价Claude Opus 4.7新 benchmark仍有空间
GDPval (新)9 大行业 / 44 职业 / 1320 任务,专家盲评~83%(已和专业人士同档)GPT-5.4新 benchmark (OpenAI 推出)价值最高的新 benchmark
OSWorld (全集)桌面 GUI 操作~60%+随模型和 scaffolding 变化~12%仍有空间
OSWorld VerifiedOSWorld 人工验证子集5 月榜单已到 82%+Holo / Claude Mythos / Claude Opus 等条目轮换~30%接近见顶(人类基线口径需核对)
WebArena真实网站操作~71%GPT-5.4 + 自定义 scaffolding~25%接近见顶
VisualWebArena含视觉元素的网页~65%Claude Sonnet 4.6~15%仍有空间
GAIA通用 Agent 任务(多步推理 + tool)~73%Claude Opus 4.7~30%仍有空间(人类 ~92%)
AgentBench多场景综合(OS / DB / Web / Game)~68%GPT-5.4~40%仍有空间
τ-benchtool calling + 多轮 + 状态保持~70% (retail)Claude Opus 4.7新 benchmark仍有空间
AIME 2025数学竞赛(非 Agent,但 reasoning 关键参考)~95%GPT-5.4 reasoning~85%接近见顶
AIME 2025 (开源)91.1DeepSeek-R1 / Mercury 2
GPQA研究生级科学题94.3%Gemini 3.1 Pro (1M 上下文)~70%接近见顶

1.1 怎么读这张表

  • “是否见底” 不是说 benchmark 没用了,而是说继续刷分对选型决策没有差异化信息。SWE-bench Verified top 5 都在 78–82%,你看分差选不出方向
  • 新 benchmark(如 SWE-Lancer / τ-bench / SWE-bench Multimodal)的价值,在于它们还能区分模型 / scaffolding 的真实差距
  • 同一 benchmark 不同时间段成绩不可直接比——榜单规则、子集划分、模型版本都会变

2. 几个关键 Benchmark 详解:测什么、最常见的误读

2.1 SWE-bench / SWE-bench Verified

测什么:从真实 GitHub 项目(Django、Flask、scikit-learn、sympy 等)抽取 issue + 失败的测试,让 Agent 生成 patch,apply 后跑测试看是否通过。

Verified 子集:原 SWE-bench 中有些 issue 描述不清 / 测试本身有问题,由人工筛过的高质量 500 个 instance。这是工业界用最多的子集

最常见的误读

  1. ❌ “SWE-bench Verified 80% 意味着它能完成我们 80% 的 bug” —— 错。SWE-bench 题目都是已经被定位到具体 repo + 测试覆盖完备的 issue。真实工作里大多数 bug 没那么干净
  2. ❌ “比榜单分数高的产品就更适合我”——错。榜单第 5 和第 1 之间通常 <3%,被你仓库的工程化差异完全淹没
  3. ✓ 应该把它当作”模型 + scaffolding 在干净环境下解决软件工程问题的上限指标”,不是”真实生产力指标”

2.2 SWE-Lancer (新)

测什么:从 Upwork 真实自由职业岗位抓取 1488 个软件工程任务,带原始客户支付价格。Agent 完成的任务按是否通过验收 + 任务原价计算分数。

为什么重要:这是第一个把”价格”作为评估维度的 Agent benchmark。意味着:

  • 可以直接算出”Agent 完成的工作如果让人做需要多少钱”
  • 可以横向比较不同 Agent 的”美元产出”

当前:Claude Opus 4.7 完成约 $120K / $240K 总任务价值(2026 Q2 OpenAI 公开数字),约 50% 任务通过验收。

最常见的误读

  1. ❌ “Agent 已经能赚 $120K 了”——错。这是任务总价值,不是 Agent 实际能产生的市场收入
  2. ❌ “Agent 能取代自由职业开发者”——错。能通过验收的多是定义清晰、范围小的任务

2.3 OSWorld(含 Verified 站序更新)

测什么:让 Agent 在真实操作系统(Ubuntu / macOS / Windows VM)里完成办公任务——发邮件、改 PDF、做 PPT、调系统设置等。

Verified 子集:人工 review 过、确保任务定义清楚、验收脚本可靠的子集。截至 2026-05-25,公开聚合榜单已经较 4 月发生变化

排名模型OSWorld Verified
1Holo3-35B-A3B(聚合榜单口径)82%+
2Claude Mythos Preview(4 月重要节点,gated)79.6%
3Holo3-122B-A10B78.8%
4Claude Opus 4.778% 左右
人类基线(普通办公文员限时)70%+,需按榜单口径核对

最常见的误读

  1. ❌ “Agent 已经超过人类”——错。人类基线是”普通办公文员、首次接触任务、限时完成”,不是”专家、熟悉系统”。OSWorld Verified 的人类基线是 lower bound
  2. ❌ “某一家长期独大”——错。Claude Mythos Preview / Opus 4.7 / Holo3 等条目都在不同时间点上榜,榜单站序要看日期
  3. ❌ “Computer Use Agent 可以替代办公人员”——错。Verified 之外的全集只有 ~63%,长尾任务仍弱
  4. ✓ 应该把它当作”GUI 操作研究的关键里程碑”,不是”商品化指标”

2.3b GDPval(H1 OpenAI 新推、最值得跟踪)

测什么:覆盖 9 大美国 GDP 主要行业(按 BLS 工资数据 + O*NET 任务分析筛选)、44 个偏知识 / 数字工作的职业、共 1320 任务(约每职业 30 个),外加一个 220 任务的”gold” 公开子集。任务由平均 14+ 年从业经验的专家撰写,输出形态包括法律简报、工程蓝图、护理方案、客户支持对话等”真实交付物”。

评估方法:盲测 head-to-head 专家比对(专家判 AI 输出 vs 专家产出哪个好 / 平 / 差),加一个实验性自动评分。

当前 SOTA:GPT-5.4 ~83%(“在 44 个职业的产出已和专业人士相当”)。

为什么重要

  • 第一个把”AI 输出能不能替代真人 deliverable”做成标准化评测
  • 包含成本对比:Frontier 模型在这些任务上比真人快 ~100×、便宜 ~100×(不含 oversight / 集成)
  • 用 GDP 加权 → 直接给企业一个”AI 能替代多少经济价值”的量化参考

最常见的误读

  1. ❌ “AI 在 83% 的工作上已经超过人”——错。GDPval 是任务级 deliverable,不是岗位整体
  2. ❌ “意味着 83% 的从业者会失业”——错。该评测排除了 oversight、协作、判断、关系等大量真实工作内容
  3. ✓ 应该把它当作”AI 替代人类单点 deliverable 的能力上限”

2.4 WebArena / VisualWebArena

测什么:让 Agent 在真实网站(GitLab、Reddit、电商、地图等)完成任务——发 issue、找信息、下订单等。

当前 SOTA:~71%(GPT-5.4 + scaffolding)

最常见的误读

  1. ❌ “Agent 能完成 71% 的网页任务”——错。WebArena 任务都是预定义、有明确成功标准的;真实任务往往无标准答案
  2. ✓ 应该把它当作”Web Agent 在结构化网站上的能力上限”

2.5 τ-bench

测什么:模拟真实客服 / 售后场景,Agent 需要多轮对话 + tool calling + 维护状态(订单、用户、库存)。

为什么重要:这是少数把”长 conversation + tool calling + state consistency”作为核心维度的 benchmark。和真实客服 / 销售场景重合度高。

当前 SOTA:~70% (retail subset, Claude Opus 4.7)

2.6 GAIA

测什么:通用 Agent 任务,要求多步推理 + tool 使用 + 网页浏览。题目是人类专家用 ~10 分钟能完成,模型常常做错的事。

当前 SOTA:~73% (Claude Opus 4.7),人类约 92%。

为什么重要:GAIA 是少数人类基线远高于模型 SOTA 的 benchmark,仍然有非常大的 headroom。值得长期跟踪。


3. 刷榜 ROI 见底是什么意思

3.1 现象

到 2026 H1,Coding 方向 / GUI 方向的 benchmark 出现了一个共同模式:

  • SWE-Bench Verified top 几家都在 80%+,差距开始缩小
  • OSWorld Verified top 几家都在 75%+,且站序变化频繁
  • 月度刷榜的提升 <1%
  • 新模型发布后涨幅在 1–2% 之间
  • 某些子集已经被刷到接近 evaluation 噪声本身(人工 review 时发现”对错”已经很主观)

这意味着继续刷这些榜的 ROI 在快速降低——不再能从分数差异里看出真实能力差异。例外是 SWE-Bench Pro:GLM-5.1 等开放模型在 H1 末进入头部区间,这个赛道还有空间。

3.2 为什么会发生

  • 测试集泄露:开源数据里大量 SWE-bench / OSWorld 任务的 walkthrough,模型训练时见过
  • Scaffolding 高度重叠:top 几家的 Agent 框架结构上趋同(Plan-Edit-Test 循环 + Reflection + Tool Use),模型层差距已被工程化掩盖
  • Benchmark 本身的难度上限:Verified 子集只有 500 个,过 80% 之后剩下的 100 道题都是”边界 case”,提升 1% 意义不大
  • 评估方法本身:模型间的差距开始小于评估方法本身的 noise

3.3 接下来该看什么

方向推荐跟踪的 benchmark为什么
代码工程SWE-Bench Pro(开源已反超)、SWE-Lancer、SWE-bench Multimodal、SWE-bench Live价格 + 多模态 + 实时仓库
真实经济价值GDPvalOpenAI 在 H1 推出,第一个把”AI 能替代多少专业产出”标准化的 benchmark
GUI 操作OSWorld Pro、WebArena-X更长任务 / 更真实场景
多 Agent 协作MultiAgentBench、AgentVerseA2A 协议时代的关键,参见 080
真实工作流τ-bench、CRMArena客服 / CRM / 销售场景
长程记忆LongMemEval、AgentBench-Memory跨 session 一致性
安全 / 越狱AgentDojo、InjecAgentPrompt injection / tool misuse

4. 怎么用这些 benchmark 帮你做选型

4.1 选模型

你的场景优先看哪些 benchmark
通用编码SWE-bench Verified(看 80%+ 的几家就够)+ HumanEval+
代码 + 多模态SWE-bench Multimodal、Aider polyglot
桌面 GUI 自动化OSWorld Verified、WindowsAgentArena
网页操作WebArena、VisualWebArena
客服 / CRMτ-bench、CRMArena
通用 AgentGAIA、AgentBench
数学 / reasoningAIME、GPQA、MATH
长程一致性LongMemEval、SCROLLS

4.2 选 scaffolding(Cursor / Devin / Claude Code / OpenHands)

  • 公开榜单只是参考——top 5 的 scaffolding 之间分差很小
  • 要在自己的真实仓库 / 真实任务上跑一组私有评估——这才是决定因素
  • 关注非分数维度:用户体验、定价、合规、私有部署能力

4.3 内部建评估时的实用建议

参考 071 Eval Harness 实战 的方法论,加上 H1 现状几条补充:

  1. 不要重复造 benchmark——用 SWE-bench / GAIA / τ-bench 现成的 + 你自己的私有 case mix
  2. 私有 case 至少 30–50 条 才有统计意义
  3. 每个 case 要明确”什么算成功”——主观评价占比超过 30% 的评估,半年内会和团队成员的口味漂移
  4. 每月跑一次回归——模型 / scaffolding 都在变,benchmark 结果有时效
  5. 保留 failure 样本——失败 case 比成功 case 有价值,可以加入下一轮训练数据 / 提示词改进

5. 几个常被忽略的细节

5.1 Pass@1 vs Pass@k

很多榜单显示的是 Pass@1(一次成功率),但有些产品宣传时偷偷用 Pass@k(k 次尝试中有一次成功)。这两个数字差距可能很大——同一个 Agent,Pass@1 80%、Pass@5 95% 是可能的。比较时一定要对齐 k

5.2 完整 token 预算 vs 限制 token 预算

部分榜单允许 Agent 跑很久(无限轮次),部分限制 token / 步数。这两种模式下的”成功率”不可直接比。

5.3 是否允许人在回路

某些榜单允许人在回路(比如 SWE-bench 的 lite 版本可以让人辅助选 patch),某些是全自动。comparing scores requires comparing settings.

5.4 子集的隐含偏差

SWE-bench 主要是 Python;OSWorld 主要是 Linux + Ubuntu 应用;WebArena 是少数预设网站。如果你团队是 Java / Windows / 私有内网,这些数字对你的相关性会显著低于表面。

5.5 时间漂移

Web 类 benchmark(WebArena)依赖外部网站,网站本身改了 → 历史分数失效。SWE-bench Live(追新 issue)也面临类似问题。看到老分数时要看截止日期。


6. 一个实用的”benchmark 体检清单”

如果你要给一个 Agent 做客观能力评估,建议至少跑这几项:

用什么测什么
代码能力SWE-bench Verified(200+ instance)真实代码修复
长上下文LongBench v2200K+ context 处理
Tool callingτ-bench retail subset多轮 + 状态
通用 AgentGAIA Level 2多步推理 + tool
ReasoningAIME 2024(取最新一届)数学推理
安全AgentDojo subset注入鲁棒性
私有 case30+ 你自己的 case真实业务

预算允许的话,再加 OSWorld Verified(GUI)、SWE-Lancer(价格维度)。


7. 与其他主题的关系


小结

2026 H1 是 Agent benchmark 第一次”全员逼近天花板”的半年。这是技术成熟的信号,也是新一代 benchmark 接力的窗口期。

记住这几点:

  • 老 benchmark(SWE-bench Verified、OSWorld Verified、WebArena)刷榜 ROI 已见底
  • 新 benchmark(SWE-Lancer、τ-bench、SWE-bench Multimodal、GAIA)仍有空间
  • 公开榜单只是入门筛选——真正的选型决策必须靠自己仓库 + 真实任务的私有评估
  • 最值得长期跟踪的不是”谁第一”,而是”哪些 benchmark 还能区分模型 / scaffolding 差距”——这是 H2 该看的东西

如果一年前 Agent benchmark 是”模型能力的客观标尺”,2026 H1 它已经是”基础门槛指标 + 你需要自建私有评估”——这个心态切换很重要。


延伸阅读