Embodied AI 与机器人:从会说话的模型到会动手的系统

结合 Gemini Robotics 1.5、V-JEPA 2、world model、Computer Use 和机器人基础模型,梳理 2026 年 Embodied AI 为什么值得记录,以及它离真正通用家用机器人还有多远。

8 min read 发布:2026/06/03 Part of AI Research · Ch. 11
← 上一层级:学习路径 · Part 07 · 前沿模型与新交互

Embodied AI 与机器人:从会说话的模型到会动手的系统

flowchart LR
  A["语言/视觉模型"] --> B["世界理解"]
  B --> C["动作规划"]
  C --> D["机器人控制"]
  D --> E["真实世界反馈"]
  E --> B

过去几年我们一直在问“模型懂不懂世界”。机器人这条线把问题改得更诚实:它不只要说对,还要把杯子拿起来,不能捏碎,不能掉地上,还要在你突然打断时停下来。


出处与延伸阅读


这篇文章会讲什么

083 World Models 讲了“可交互世界”为什么重要。这篇把视角放到机器人:当模型真的要在物理世界里行动,哪些能力才算有用,哪些还只是漂亮 demo。

我会尽量不把它写成“家用机器人马上来了”。这个赛道确实在加速,但离通用家政机器人还差几道硬坎。


先说结论

  • Embodied AI 是 Agent 的物理世界版本。语言、视觉、规划、工具调用都还在,但最后一步变成了真实动作
  • Gemini Robotics 1.5 是截至 2026-06-03 最值得跟的闭源信号之一。它强调多模态理解、动作输出、多 embodiment 泛化和自然语言交互
  • V-JEPA 2 代表另一条路线:先学世界模型,再用预测和规划去控制机器人
  • 最大难点不是“听懂指令”,而是动作泛化、物理反馈、安全、数据和硬件成本
  • 短期 ROI 在工业/仓储/实验室/特定家庭任务,不是无所不能的人形机器人
  • World Model 会成为关键模块。机器人需要在动手前“想象后果”,这和 083 是同一条线

1. Embodied AI 到底是什么

Embodied AI 可以简单理解成:

让 AI 在一个身体里感知、规划、行动,并从环境反馈中调整。

这个“身体”可以是:

  • 机械臂
  • 移动机器人
  • 人形机器人
  • 自动驾驶车辆
  • 无人机
  • 甚至一个能操作屏幕的 Computer Use Agent

严格说,073 Computer Use 也是一种弱 embodied:它的“身体”是鼠标、键盘和浏览器。机器人则把这个身体换成了真实电机、关节、夹爪、传感器。

区别在于,屏幕世界错了可以撤销;物理世界错了可能会撞坏东西。


2. Gemini Robotics 1.5 的意义

Google DeepMind 对 Gemini Robotics 1.5 的描述很直白:Gemini 原本能处理文本、图片、音频、视频;Robotics 版本加上了对物理空间的推理和动作输出。

它值得记录的点有几个:

2.1 多 embodiment

同一个模型适配不同机器人形态:双臂平台、Franka、ALOHA、人形机器人等。这个方向很重要,因为机器人行业最大的问题之一就是数据碎片化。

如果每台机器人都要从头训,通用机器人永远做不起来。

2.2 自然语言可打断

机器人不只是执行一串固定脚本,而是能听懂日常指令,并在执行中被人打断或重定向。

这听起来像产品小细节,其实是走向真实环境的必要条件。现实里人不会把任务一次说完整,也不会总在安全位置发号施令。

2.3 Thinking before acting

DeepMind 特别强调“行动前思考”。对机器人来说,这不是文案,而是安全问题。

拿一个杯子前,机器人最好先判断:

  • 杯子是不是易碎
  • 旁边有没有障碍物
  • 夹爪从哪个角度接近
  • 失败后怎么停

语言模型里的“推理”到了机器人这里,变成了动作前的风险评估。


3. V-JEPA 2:另一条更像“世界模型”的路线

Meta 的 V-JEPA 2 路线不太像“让大语言模型直接控制机器人”,它更像在做一个能理解物理世界的视频世界模型。

它的思路是:

  1. 从大量视频中学习世界怎么变化
  2. 学会预测动作会带来什么后果
  3. 用预测结果做规划
  4. 再把规划转成机器人动作

Meta 公开信息里一个关键点是:V-JEPA 2 主要通过视频做自监督学习,再用少量机器人数据做动作条件训练。这个方向很现实,因为机器人数据贵,视频数据便宜得多。

如果这条路走通,机器人不需要每个动作都靠真实试错,而是可以先在模型里“想一下”。

这和 083 World Models 的关系很直接:一个真正能行动的 Agent,需要一个能预测后果的内部世界模型。


4. 为什么机器人比聊天 Agent 难很多

4.1 物理世界没有标准接口

网页有 DOM,API 有 schema,代码有测试。现实世界没有统一接口。

同一个“把苹果放进碗里”,会因为桌面高度、光线、苹果形状、碗的位置、夹爪状态不同而变成不同任务。

4.2 错误不可轻易回滚

聊天答错可以改,代码改错可以 revert,机器人抓错东西可能已经摔了。

所以机器人 Agent 的 verifier 不只是“任务完成了吗”,还要问:

  • 有没有碰撞
  • 有没有过大力矩
  • 有没有进入人类危险区域
  • 有没有异常停机

4.3 数据贵,而且长尾巨大

互联网文本可以大规模爬,机器人动作数据不行。每一种硬件、每一种环境、每一种物体,都有长尾。

这也是为什么多 embodiment、仿真、world model、sim2real 变得关键。

4.4 安全责任更重

100 Agent 安全与权限模型 讲的是数字系统里的权限。机器人还要加上物理安全:

  • 速度限制
  • 力矩限制
  • 人体接近检测
  • 紧急停止
  • 工作区边界
  • 硬件级 failsafe

这些不能只交给模型。


5. 哪些场景会先落地

我会把短期场景分成三类。

5.1 工业与仓储

这里最现实,因为环境可控,ROI 清楚:

  • 分拣
  • 上下料
  • 盘点
  • 简单包装
  • 质检辅助

难点是集成成本和稳定性,但比开放家庭环境简单太多。

5.2 实验室自动化

082 AI for Science 里提到科学 Agent。机器人一旦进入实验室,价值会非常直接:

  • 配液
  • 样本转移
  • 重复实验
  • 仪器操作
  • 数据记录

这里的任务重复、流程清晰、错误代价可管理,是很适合 Agent + Robotics 的区域。

5.3 家庭里的窄任务

通用家政机器人还早,但窄任务会先出现:

  • 收拾桌面
  • 把物品放到指定区域
  • 简单厨房准备
  • 折叠固定形态物品
  • 取放药盒/水杯

家庭最大的问题是环境太乱。产品化会先从“少数可控动作”开始,而不是“全能管家”。


6. 和 AI 浏览器 / Computer Use 的相似处

084 AI 浏览器 和 Computer Use 其实给机器人提供了一个低风险实验场。

两者共同点是:

  • 都要看环境
  • 都要规划动作
  • 都要执行
  • 都要根据反馈调整
  • 都会遇到 prompt injection / 错误恢复 / 权限边界

区别是:

  • 浏览器错了,多数能回滚
  • 机器人错了,可能产生物理损坏

所以很多 Agent Runtime、权限、评测方法会先在数字世界成熟,再迁移到机器人世界。


7. 现在最值得记录的研究问题

问题为什么重要
多 embodiment 泛化不同硬件能否共享能力
少量机器人数据学习真实数据太贵
World Model 规划动作前预测后果
Sim2Real仿真训练如何迁移到现实
长程任务分解从“拿杯子”到“做早餐”
安全约束融合模型规划 + 控制器安全
人类打断与协作真实场景里人会随时介入
物理 eval怎么客观评估机器人完成度

这几个问题不解决,通用机器人会一直停在 demo 阶段。

7.1 物理 Agent 应该怎么评估

机器人评测不能只看“任务是否完成”。一个机器人把杯子放到桌上,如果过程中撞到人、把桌面其他东西扫下去,或者靠 10 次失败才成功,在真实产品里都不能算好。

更合理的评估至少要拆成几层:

维度看什么
任务成功率目标物体是否到位、状态是否正确
安全性碰撞、过大力矩、进入禁区、急停次数
泛化换物体、换光线、换桌面高度后是否还能做
恢复能力抓空、滑落、被人打断后能不能重新规划
人类协作能不能解释动作、接受纠正、暂停等待
成本单次任务耗时、能耗、硬件磨损、人工介入次数

这也是机器人和网页 Agent 最大的不同:网页 Agent 可以用“最终状态对不对”做主要指标,物理 Agent 必须把过程也算进去。


8. 几个别急着相信的判断

8.1 “人形机器人就是终局”

不一定。人形适合人类环境,但不是所有任务都需要人形。工业机械臂、移动底盘、专用夹爪可能更快产生价值。

8.2 “语言模型强了,机器人自然就强”

语言理解只是其中一块。控制、感知、反馈、安全、硬件耐久性都很难。

8.3 “仿真可以替代真实数据”

仿真很重要,但 reality gap 仍然存在。真正上线前,真实环境数据和测试少不了。

8.4 “家庭机器人马上规模化”

我不这么看。家庭环境太开放,售后和安全成本太高。更可能先在可控场景里规模化,再慢慢进入家庭。


小结

Embodied AI 值得记录,不是因为“机器人马上替代人类”,而是因为它把 AI 的几个核心问题都推到了最硬的地方:

  • 模型到底懂不懂世界
  • Agent 能不能规划动作
  • World Model 能不能预测后果
  • 安全能不能落到物理层
  • 数据和硬件能不能支撑泛化

聊天模型可以靠语言掩盖很多不确定性。机器人不行。它要把动作做出来。

也正因为这样,机器人会成为检验 AI 是否真正理解物理世界的一条重要路线。它不会最快商业化,但它会很诚实。