前沿探索专题

追踪模型、多模态、视频、浏览器、机器人和科学智能体等方向，重点看趋势背后的工程含义。

多模态前沿模型AI 浏览器具身智能

11 篇文章

2026/06/03 AI Research

Embodied AI 与机器人：从会说话的模型到会动手的系统

结合 Gemini Robotics 1.5、V-JEPA 2、world model、Computer Use 和机器人基础模型，梳理 2026 年 Embodied AI 为什么值得记录，以及它离真正通用家用机器人还有多远。

2026/04/20 AI Research

AI for Science 2026 H1：AlphaFold 3、药物设计引擎与科学 Agent

梳理 2026 H1 AI for Science 三条主线：AlphaFold 3 与药物发现、材料生成模型、科学 Agent，讨论它们进入科研工作流后的机会和边界。

2026/04/18 AI Research

World Models 2026 H1：Genie 3 / Project Genie 把「可交互的世界」推进生产线

拆解 World Models 在 2026 H1 的进展，重点看 Genie 3、Project Genie 与可交互世界生成，解释它和视频生成、Robotics、Agent、游戏之间的关系。

2026/04/13 AI Research

开源 LLM 2026 H1 格局：从「追赶」到「分轨竞争」

2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状，给出选型决策树与本地部署成本参考。

2026/04/07 AI Research

Video Generation 2026 H1：Sora 2 API / Veo 3.1 / Runway / Luma

视频生成到 2026 H1 已经跨过“只能看 demo”的阶段，但平台可用性变化很快：OpenAI Sora Web/App 已于 2026-04-26 停用，Sora 2 仍应按模型/API 能力而非消费级工作流来评估。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。

2026/04/06 AI Research

Voice AI 与实时语音 Agent：从拼装管线到可部署系统

实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案，走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景，以及它和 Computer Use / Hermes Agent 的关系。

2026/04/04 AI Research

Diffusion LLM：当语言模型不再一个 token 一个 token 写

Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒，成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪，以及它会不会颠覆 Transformer。

2026/03/24 AI Research

新一代模型

MoE、Reasoning Models、SSM、多模态原生——2026 年模型架构与前沿趋势全解析

2026/03/24 AI Research

Multimodal AI

从文本到视觉、音频、视频，梳理多模态 AI 的技术架构、训练思路、应用场景、产品机会与工程落地挑战。

2026/03/24 AI Research

LLM Agents 研究前沿

ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向

2026/03/24 AI Research

AI 系统未来形态

从 AGI 时间线、基础设施演进、产业变化、社会影响到监管格局，多维度展望 AI 的中长期发展方向。