Agent 是什么

从定义、与 Chatbot 的差异、核心能力到真实案例,理解 AI Agent 的本质与边界

20 min read Part of Agent · Ch. 1
← 上一层级:学习路径 · Part 03 · Agent 设计与工程

延伸阅读

Agent 是什么

flowchart LR
  A[用户目标] --> B[感知当前状态]
  B --> C[决策下一步]
  C --> D[调用工具 / 执行动作]
  D --> E[观察结果]
  E --> F{任务完成?}
  F -->|否| B
  F -->|是| G[交付结果]

很多人第一次接触 Agent,往往会把它理解成“更强的 Chatbot”:更会说话、更会写、更懂上下文。这个理解不算错,但还不够。

Agent 和普通聊天机器人的真正差别,不在于它“更聪明”,而在于它开始从“生成回答”走向“推进任务”。它不只是对一句输入做一次响应,而是会围绕一个目标持续感知、判断、调用工具、修正路径,直到任务完成、失败,或者被人类中止。OpenAI 在其面向开发者的 Agent 指南里就把边界说得很直接:如果一个系统不仅能理解输入,还会连接外部系统并基于输入采取行动,这就进入了 Agent 的范畴。(OpenAI 开发者)

所以,本文要讲清楚的不是“Agent 的营销定义”,而是一个更工程化的问题:

什么样的系统,才配叫 Agent?它和 Chatbot、Copilot 的边界在哪?它为什么重要,又为什么不能神化?

Agent 的定义

先给一个适合工程语境的定义:

Agent 是一种面向目标的 AI 系统:它能够感知当前状态,基于上下文做出决策,必要时将目标拆成多步,并通过调用工具或与外部环境交互来推进任务。

这个定义里,关键不在“AI”,而在“面向目标”和“推进任务”。

因为如果一个系统只是:

  • 接收输入;
  • 生成一段文本;
  • 然后等待下一轮提问;

那它更接近一个会话系统,哪怕这段文本写得再像人在思考。 而如果一个系统会:

  • 读取环境信息;
  • 决定下一步该查什么、做什么;
  • 调用搜索、数据库、代码执行、文件系统、浏览器或业务 API;
  • 根据返回结果调整后续动作;
  • 最终产出一个结果、修改一个状态或完成一个流程;

那它才更接近 Agent。

Anthropic 在“Building Effective AI Agents”里其实也强调了类似的判断标准:很多成功的 Agent 系统,并不神秘,核心在于是否围绕任务形成了一个可持续运行的闭环,而不是单次文本生成。(Anthropic)

学术语境里的 Agent,与今天常说的 Agent,不完全是一回事

“Agent”这个词并不是从大模型时代才出现的。

在更传统的 AI 研究中,Agent 通常指的是: 在环境中观察、行动,并试图最大化某种目标或奖励的主体。

这个定义来自强化学习、多智能体系统、自动规划等更早的研究传统。 而 2024–2026 年行业里高频提到的 Agent,更常见的是另一层意思:

基于 LLM 的任务执行系统。

它未必有严格定义的奖励函数,也未必像强化学习环境那样形式化;它更像一个以大模型为“决策核心”,通过工具调用和状态循环完成任务的应用系统。

所以这两种 Agent 有连续性,但不应简单混同。 本文聚焦的是后者,也就是当下产品和工程实践里最常说的 LLM-based Agent / Agentic System

Agent 的最小闭环:感知、决策、行动、反馈

如果只保留最核心的骨架,Agent 至少包含四个环节:

环节说明
感知(Perceive)获取用户输入、工具返回、环境状态、历史上下文
决策(Reason / Decide)判断当前处境,选择下一步行动
行动(Act)调用工具、操作系统、发请求、写文件、执行流程
反馈(Observe / Update)读取动作结果,更新状态,决定是否继续

很多文章会把“规划”单独列出来,这当然有帮助;但从系统视角看,规划本身也是决策的一种形式: 它只是比“下一步做什么”更进一步,变成“接下来几步可能怎么做”。

真正让 Agent 和普通对话系统分开的,是这个循环会持续运行:

目标 -> 感知当前状态 -> 决定下一步 -> 执行动作 -> 读取结果 -> 再决策

只要这个循环存在,系统就不再只是“答一句”,而是在“推进一件事”。

Agent 和 Chatbot,区别不只是“会不会调工具”

一个常见说法是: “Chatbot 不会用工具,Agent 会用工具。”

这句话有一定道理,但还不够准确。 因为现实里很多 Chatbot 也可以接搜索、知识库、计算器、数据库查询。 真正的区别不在于是否接工具,而在于工具在系统里扮演什么角色。

Chatbot 的中心是“回复”

Chatbot 的默认工作方式是:

  • 用户问一句;
  • 系统回复一句;
  • 如果用了工具,工具只是为了让这句回复更像样、更完整、更实时。

它的主语仍然是“回复”。

Agent 的中心是“完成”

Agent 的默认工作方式是:

  • 用户给出一个目标;
  • 系统判断需要哪些步骤;
  • 它自己决定什么时候查资料、什么时候调用接口、什么时候修改状态、什么时候停下来;
  • 输出的不只是话,而是一个完成度更高的结果。

它的主语是“任务完成”。

所以,两者可以做一个更准确的对比:

维度ChatbotAgent
核心单位一次回答一个任务
默认交互你问我答你交代目标,我推进过程
工具角色辅助回答构成执行能力
状态管理对话上下文为主任务状态、步骤状态、工具状态都重要
失败方式回答不够好步骤走偏、工具误用、任务中断
产出形态文本回复文本、代码、操作结果、工作流状态更新

先看定义:Chatbot 的中心是“说”,Agent 的中心是“做”。

这里的“做”,不一定总是现实世界中的高风险动作,也可以是数字空间中的执行:查资料、读代码、整理表格、生成报告、更新工单、调用 API、修改配置、提交草稿等。

从 Chatbot 到 Agent,是连续谱系,不是二元分类

现实产品很少严格落在某一个纯粹类别里。更准确的理解方式,是把它们放在一个连续谱系上:

层级典型形态核心特征
Chatbot通用问答助手以回复为主,工具少或工具不构成执行主线
Copilot写作助手、编程助手、办公助手AI 辅助明显,但通常由人类主导步骤
Agent研究 Agent、客服 Agent、编程 Agent系统可自主推进多步任务,人类做监督或兜底
Autonomous Agent更长期运行的自治系统更强持续运行能力、更少人工介入、更高治理要求

这条谱系里,Copilot 是很容易被忽视但非常重要的一层

因为大量真实产品并不追求“完全自主”,而是在追求:

  • 让 AI 提高任务推进效率;
  • 但仍然把关键决策权放在人类手里。

这类系统从产品体验上可能已经很“Agentic”,但从治理上更接近“带执行能力的 Copilot”。 这其实往往是一个更稳妥的落点。

不要把 Agent 神化:它不是“数字员工”,首先是“有执行闭环的系统”

“数字员工”“自主智能体”“会自己工作的 AI”这些说法很吸引人,但容易制造误解:好像 Agent 已经天然具备稳定执行复杂任务的能力,只要给它一个目标,它就会像成熟员工一样自己完成。

现实不是这样。

Agent 的核心能力,很大一部分不是模型天生带来的,而是系统设计出来的:

  • 给它哪些工具;
  • 工具描述是否清楚;
  • 允许它做什么、不允许它做什么;
  • 任务状态怎么表示;
  • 失败了如何回滚;
  • 什么时候必须向人类确认;
  • 结果如何校验;
  • 长上下文怎么管理;
  • 记忆如何读写;
  • 成本如何约束。

从这个意义上说,Agent 更接近一种系统形态,而不是单一模型能力。

LLM 很重要,但它更像这个系统里的“推理与生成核心”,而不是整个系统本身。

Agent 的四项核心能力

如果要把 Agent 的能力拆开来看,通常可以分成四类:

能力英文作用
推理Reasoning理解任务、分析约束、判断下一步
规划Planning把目标拆解成步骤,安排执行顺序
工具使用Tool Use调用外部能力,真正产生行动
记忆Memory维持任务连续性,跨步骤或跨会话保留关键信息

这四项里,最容易被高估的是“推理”,最容易被低估的是“工具”和“记忆”。

1. 推理:决定“当前该怎么想”

推理不是玄学,它在工程里通常体现为这些问题:

  • 这是不是一个需要多步完成的任务?
  • 当前信息够不够?
  • 下一步该检索、计算、提问、还是直接执行?
  • 结果是否可信?
  • 现在应该继续,还是停下来请求确认?

LLM 的确为 Agent 带来了前所未有的推理灵活性。 但要注意,Agent 场景里的推理不是考试式推理,而是任务式推理。 它更关心“下一步怎么做”,而不只是“逻辑上怎么解释”。

2. 规划:决定“先做什么,后做什么”

规划能力让 Agent 不必每一步都完全临时决定,而是可以先形成一个粗方案。

例如用户说:

“帮我对比三家云服务商的向量数据库方案,并给出适合中型团队的推荐。”

一个更像 Agent 的系统通常不会立刻写结论,而会先形成隐式或显式计划:

  1. 确认比较维度;
  2. 检索三家方案资料;
  3. 对比成本、扩展性、运维复杂度;
  4. 汇总;
  5. 给出推荐和适用边界。

但也要克制一点看待规划: 不是所有 Agent 都需要重规划器。

很多任务并不需要复杂任务分解,过度规划反而增加成本和路径漂移。Anthropic 也明确强调,很多成功的 Agent 系统依靠的是简单、可组合的模式,而不是过度复杂的编排。(Anthropic)

3. 工具使用:决定“它到底能不能做成事”

这是 Agent 最接近“执行者”的地方。

一个没有工具的系统,再会思考,也只能停留在文本层面。 它可以建议你做什么,但不能真正去做。

而一旦有了工具,Agent 的能力边界就被极大扩展:

  • 搜索网页和知识库;
  • 读取文件;
  • 运行代码;
  • 查询数据库;
  • 操作浏览器;
  • 调用企业 API;
  • 修改工单、订单、配置、日历、草稿;
  • 连接更多外部系统。

MCP 的定位就很能说明这一点:它试图把“模型如何连接数据源、工具和工作流”标准化,让 Agent 接入外部能力不必每次都从头定制。(模型上下文协议)

但这里也有一个很重要的现实: 工具不是越多越好。 Anthropic 关于工具设计的工程文章也反复强调,Agent 的效果高度依赖工具定义是否清晰、边界是否稳定、返回值是否结构化。工具越多、越模糊,系统越容易走偏。(Anthropic)

4. 记忆:决定“任务能不能连贯地做下去”

记忆可以分成几种不同层次:

类型作用
短期上下文当前对话和当前任务窗口内的信息
工作记忆中间结果、计划、已完成步骤、待处理事项
长期记忆用户偏好、历史决策、长期项目背景
外部记忆存储在数据库、向量库、文件或状态机中的可持久状态

没有记忆,Agent 很难做长任务。 它会不断丢失中间状态,重复做事,或者在多步流程中忘记自己做到哪一步。

但“记忆”也不是简单把所有历史都塞进上下文。 2025–2026 年一个越来越被强调的方向,是 context engineering:不是无限扩大上下文,而是更有选择地组织当前步骤真正需要的状态和信息。Anthropic 甚至明确把它看作 prompt engineering 之后更关键的能力。(Anthropic)

为什么 Agent 在 2026 年重要

Agent 之所以在 2026 年继续成为核心话题,并不是因为“大家喜欢这个词”,而是因为几个条件正在同时成熟:

  1. 大模型更擅长处理多步任务了 不只是生成答案,而是能在一定程度上维持中间状态、理解工具返回结果并继续行动。(OpenAI 开发者)

  2. 工具调用越来越标准化 OpenAI、Anthropic 等厂商都在围绕工具使用、Agent 开发、评测与追踪提供更系统化的能力;MCP 也在推进跨系统工具连接的标准化。(OpenAI)

  3. 很多真实工作本来就是“多步任务” 写代码、查资料、处理工单、生成分析、整理流程、执行办公操作,这些都不是一句话能完成的。

  4. 用户期望发生了变化 以前用户对 AI 的期待是“给我答案”;现在越来越多场景里,用户期待的是“帮我把事情往前推进”。

也正因为这样,Agent 的价值不只是“更酷”,而是它切中了一个真实的产品变化:

AI 的价值单位,正在从单次回答,转向任务完成率。

真实世界里,Agent 常见在哪些场景

Agent 不是只存在于“未来感演示”里。真正合适它的,通常是那些同时满足下面条件的场景:

  • 任务需要多步;
  • 中间过程要调用外部系统;
  • 输出不只是文本,而是结果或状态变化;
  • 允许一定程度的自动推进;
  • 有办法为高风险步骤加护栏。

1. 编程 Agent

这是当前最典型、也最容易让人直观理解的一类。

你给它的不是“写一段排序代码”,而是:

  • 给这个接口加缓存层;
  • 修掉这个测试;
  • 把旧 SDK 升级到新版本;
  • 在这个仓库里定位问题并提交修复建议。

它可能会:

  • 搜索代码库;
  • 读取相关文件;
  • 修改多个位置;
  • 运行测试;
  • 根据报错继续修正;
  • 最后给出变更说明。

这里它做的已经不是“答一题”,而是在一个有限软件环境里循环推进任务。

2. 研究 / 信息整合 Agent

这类 Agent 的关键不是“查到一篇资料”,而是:

  • 明确问题范围;
  • 多轮检索;
  • 对比来源;
  • 汇总差异;
  • 按目标格式输出。

例如:

  • 对比三家数据库产品;
  • 总结某个主题最近的研究方向;
  • 把多份政策文档整理成决策备忘录;
  • 为一个项目做初步调研框架。

它本质上是在把“搜索 + 阅读 + 组织 + 写作”串成一个任务链。

3. 客服 / 业务流程 Agent

这类 Agent 的价值,通常不在“回答更亲切”,而在“真的把业务流程接起来”。

比如用户说:

“我想把默认收货地址改成上海。”

“我需要查询上个月那张发票。”

“帮我取消自动续费,并确认什么时候生效。”

一个普通 Chatbot 也许会告诉你“请去官网操作”; 而 Agent 可以在权限允许的前提下:

  • 查询账户状态;
  • 修改地址;
  • 拉取发票;
  • 创建工单;
  • 取消订阅;
  • 返回最终结果。

这里的本质变化是: AI 不再只是业务流程的说明书,而开始成为业务流程的执行入口。

4. 数据分析 / 办公 Agent

这一类 Agent 最容易和“会写 Python 的 Chatbot”混淆,但两者差别仍然存在。

Agent 更像是在帮你完成一个完整分析流程:

  • 理解问题;
  • 连接数据源;
  • 清洗或筛选数据;
  • 生成查询或代码;
  • 产出图表和结论;
  • 必要时继续追问数据异常;
  • 调整结果输出形式。

同样,重点不在于它“能写分析代码”,而在于它能不能围绕任务形成闭环。

一个判断标准:它是在“生成建议”,还是在“消耗世界状态”?

判断一个系统是否更接近 Agent,有一个很实用的视角:

它是否真的在改变某种外部状态?

这里的“状态”可以很广义:

  • 文件被改了;
  • 工单被创建了;
  • 数据被查询并汇总了;
  • 订单被更新了;
  • 日历被写入了;
  • 浏览器操作被执行了;
  • 报告被产出了;
  • 代码被提交了。

如果一个系统只是在告诉你“接下来你应该怎么做”,那它更像顾问。 如果一个系统开始自己去做,哪怕范围有限,它就更接近 Agent。

当然,这也意味着风险随之上升。 因为一旦系统可以“消耗世界状态”,就不再只是内容正确性问题,而变成了执行正确性、权限边界和责任归因问题。

Agent 的局限与风险:越像执行者,越不能按聊天产品的心态去设计

Agent 让人兴奋的地方,正是它能做事; 但它最危险的地方,也正是它能做事。

1. 可靠性问题:多步任务会累积误差

在普通问答里,一次回答错了,就是一次回答错了。 在 Agent 里,一步错可能会传染到后面所有步骤。

例如:

  • 第一步检索错资料;
  • 第二步基于错误资料做计划;
  • 第三步调用了不该调用的接口;
  • 第四步又把错误结果写回系统。

这类错误比单次幻觉更麻烦,因为它带有流程放大效应。

所以,Agent 系统必须比 Chatbot 更重视:

  • 中间结果校验;
  • 步骤级回滚;
  • 高风险动作确认;
  • 失败后停止而不是硬着头皮继续。

2. 成本问题:Agent 天生更贵

Agent 通常会消耗更多资源,因为它往往包含:

  • 多轮模型调用;
  • 多次工具调用;
  • 任务状态维护;
  • 可能的检索、记忆读写、rerank、执行反馈;
  • 失败重试或反思步骤。

所以,Agent 的问题不是“能不能做”,而是“值不值得这样做”。

一个只需一次检索和一次回答就能完成的任务,硬上 Agent,通常是在用更高成本换更复杂路径。 这也是为什么 Anthropic 和 OpenAI 的工程资料都强调:先从简单工作流开始,不要默认“越 agentic 越好”。(Anthropic)

3. 安全问题:工具能力越强,风险越高

只会回答的模型,主要风险是说错话。 能调工具的 Agent,风险会扩展为:

  • 越权访问;
  • 错误操作;
  • 意外删除或修改;
  • 高风险业务误触发;
  • 被 Prompt 注入操控调用不当工具;
  • 通过连接器接触到不该看的系统。

因此,Agent 的安全重点不只是内容审查,而是:

  • 最小权限原则;
  • 工具白名单;
  • 高风险操作二次确认;
  • 操作审计;
  • 结果可追溯;
  • 执行动作前后的状态校验。

4. 可预测性问题:路径不透明

Agent 的一个典型挑战是: 你知道它最终做了什么,但不一定知道它为什么这么做。

而一旦它能自主规划、多步调用工具,这种不透明性会迅速增加。 所以工程上需要的不是“让它显得更像人在思考”,而是让系统具备可检查性:

  • 这次任务走了几步?
  • 调了哪些工具?
  • 每一步为什么被触发?
  • 失败发生在哪一层?
  • 最终结果依据是什么?

这也是为什么 2025–2026 年主流 Agent 平台越来越强调 tracing、eval 和 workflow observability。(OpenAI)

何时该用 Agent,何时不该

“是不是所有 AI 产品最终都要变成 Agent?” 这个问题的答案大概率是否定的。

一个简单判断是:先看任务本身是否天然需要多步执行。

更适合 Agent 的情况

场景原因
需要多步才能完成单次回答不够,需要连续推进
需要调用外部系统任务价值来自实际执行,不只是解释
有明确交付物代码、报告、工单、配置、状态更新
人希望少管过程用户希望“交代目标后等结果”
任务可被约束有边界、有权限、有校验机制

不太适合 Agent 的情况

场景原因
一次性知识问答Chatbot 足够,Agent 只会增加复杂度
高风险且不可回滚动作需要更强审批流,不宜直接交给 Agent
目标高度模糊Agent 会在模糊目标上放大路径漂移
缺少工具和状态接口没有执行闭环,Agent 只能空转
用户希望全程掌控更适合 Copilot,而不是强自主系统

先看定义: 如果问题的核心是“给我一个答案”,Chatbot 往往够用。 如果问题的核心是“把这件事推进到完成”,才值得考虑 Agent。

实践中的常见误区

误区一:Agent 就是“ChatGPT 加几个工具”

工具当然重要,但“接上工具”只是最低门槛,不是完整答案。

真正决定 Agent 好不好用的,通常还包括:

  • 任务状态怎么表示;
  • 是否会在失败时停下来;
  • 会不会重复调用无效工具;
  • 会不会无依据地继续编下去;
  • 怎么控制上下文;
  • 怎么做权限和审计;
  • 怎么判断完成与未完成。

没有这些,系统充其量只是“会调工具的聊天框”。

误区二:越自主越先进

自主度不是越高越好,而是要与场景风险匹配。

在写代码草稿、做资料整理、生成报告提纲这类场景里,自主度高一点通常问题不大; 但在删除数据、变更财务状态、修改生产配置、发送正式外部邮件这类场景里,自主度越高,治理压力越大。

成熟系统更在意的是: 什么动作可以自动做,什么动作必须请求确认。

误区三:Agent 会很快替代大多数人类工作

这个判断往往忽视了三个现实:

  1. 很多工作不是“步骤问题”,而是“责任问题”;
  2. 很多任务难点不在执行,而在目标定义、价值判断和边界取舍;
  3. 即使执行能力提升,组织也未必愿意把高风险决策直接交给系统。

所以更现实的演进路线不是“AI 完全替代人工”,而是:

从“人做、AI 辅助”逐步走向“AI 执行更多标准化步骤,人类负责目标、边界、审批和例外处理”。

误区四:所有复杂任务都该用多 Agent

多 Agent 很吸引人,因为它看起来更像组织协作:规划者、执行者、审查者、研究员各司其职。 但在真实系统里,多 Agent 也意味着:

  • 更多调用;
  • 更高成本;
  • 更多状态同步问题;
  • 更难调试;
  • 更复杂的失败路径。

很多时候,一个设计良好的单 Agent + 明确工具体系 + 简单检查点,就已经足够。 多 Agent 更适合在后续文章里单独讨论,而不是一开始就默认上。

一个更克制也更准确的结论:Agent 不是一个“更会聊天的模型”,而是一种“更会推进任务的系统”

这是本文最想建立的核心判断。

Agent 的本质,不是让模型说得更像人; 而是让 AI 系统开始具备以下特征:

  • 有目标;
  • 有状态;
  • 有步骤;
  • 有动作;
  • 有反馈;
  • 有边界;
  • 有治理。

一旦你用这个视角看问题,就会发现很多讨论会自然变清晰:

  • 为什么工具这么关键?因为没有动作就没有执行闭环。
  • 为什么记忆重要?因为任务不是一句话做完的。
  • 为什么安全和审计比聊天产品更重要?因为它真的可能改变外部状态。
  • 为什么 Agent 不该被神化?因为它首先是工程系统,不是魔法人格。

本系列接下来会讲什么

本文解决的是概念问题: Agent 到底是什么,不是什么,值不值得用在某类任务里。

下一篇会继续往下拆: 如果要把 Agent 真正实现成一个系统,它通常由哪些部件组成?Planner、Executor、Memory、Tools 之间是怎样协作的?什么是最小可用 Agent 架构,什么又是典型的过度设计?

后续几篇会继续展开:

  • ReAct:为什么“思考—行动—观察”会成为经典模式
  • Plan & Execute:为什么有些任务需要先规划,再执行
  • Reflection:为什么 Agent 需要自检,但又不能无止境反思
  • Multi-Agent:什么时候多 Agent 真的有价值,什么时候只是复杂度膨胀

核心概念速查

概念一句话
Agent以目标为中心,能感知、决策、行动并通过反馈持续推进任务的 AI 系统
Chatbot以单次回复为中心的对话系统,即使接工具也未必具备任务闭环
Copilot人类主导步骤、AI 提供辅助和局部执行的系统形态
Tool UseAgent 接入外部世界的能力来源,决定它能不能真正“做事”
Memory让任务跨步骤连续运行的状态能力,不等于把所有历史都塞进上下文
Agentic System强调系统具备任务推进和执行闭环,而不只是生成更长的回答

小结

Agent 不是 Chatbot 的“高级皮肤”,也不是“会自己思考的数字员工”这种模糊想象。更准确地说,它是一种围绕任务目标运行的 AI 系统:能够读取状态、做出判断、调用工具、接收反馈,并在多步循环中推进任务。

它和 Chatbot 的核心区别,不是会不会多说几句,也不只是会不会查资料,而是是否从“生成回答”走向“完成任务”。这使它在编程、研究、客服、办公自动化等场景里很有价值,也使它天然面对更高的可靠性、安全、成本和治理要求。

理解 Agent,第一步不是追逐“自主性”的想象力,而是先看清它的工程本质: 它之所以重要,不是因为它更像人,而是因为它开始真正连接世界并对世界产生作用。