Tag

#评估

#评估标签文章合集，收录 Diors.tech 中与评估相关的 AI 学习笔记、技术拆解和工程实践。

4 篇文章

Agent Benchmark 2026 H1 综合横评：SWE-bench / OSWorld / WebArena / SWE-Lancer

横评 2026 H1 主流 Agent benchmark，包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval，分析它们各自测什么、不测什么，以及刷榜见顶后的评估方向。

用漏斗式视角理解 Eval Harness：工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理，以及与 Agent Harness 的关系。

2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略，以及如何规避 vendor lock-in

为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控