Tag

#评测

#评测标签文章合集，收录 Diors.tech 中与评测相关的 AI 学习笔记、技术拆解和工程实践。

10 篇文章

AI Cyber Defense 2026：当模型开始批量找漏洞，防守方怎么重写安全流程

结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告，以及 AgentCyberRange 等新评测，梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后，企业安全流程该怎样改。

从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发，说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。

横评 2026 H1 主流 Agent benchmark，包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval，分析它们各自测什么、不测什么，以及刷榜见顶后的评估方向。

拆解 Computer Use Agent 如何用截图、视觉理解、鼠标键盘动作直接操作软件，对比 Function Calling Agent，并梳理 OSWorld、Claude、Operator 与 Manus 的工程取舍。

从 Copilot 到自主 Agent 的跃迁；Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比；SWE-bench、架构循环与 Agent-Native 工作流

用漏斗式视角理解 Eval Harness：工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理，以及与 Agent Harness 的关系。

ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向

RAG 好不好，不能只看答案像不像对：从检索、忠实度、引用、线上反馈到回归测试，建立一套真正能指导迭代的评测框架

2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略，以及如何规避 vendor lock-in

为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控