English 中文

不只是学习世界,更要创造世界:AI的终极目标

By Guowei Zou | November 6, 2025

具身智能的转折点

在过去十年中,人工智能逐渐从语言理解转向世界交互。具身智能,即能够在物理世界中感知、推理和行动的智能体,代表着下一个前沿领域。

然而,真正的挑战不仅仅在于感知或控制,而在于在物理世界中的自主学习和持续进化。如果说2020年代初期的主题是生成文本和图像,那么这个十年的后半段则是关于生成动作和世界。

具身AI的技术轨迹可以追溯到一个清晰的进化序列:从扩散策略到视觉-语言-动作模型,再到世界模型,最终到统一三者的自我进化智能体。每个阶段都填补了智能闭环中缺失的一环:感知、想象、行动、评估和改进。

扩散策略:行动而不理解

2023年标志着扩散策略的崛起,首次将扩散生成模型引入机器人控制。这些模型学习运动的多模态分布,为操作和运动任务生成平滑、逼真的轨迹。

这是朝向生成式控制迈出的重要一步,但根本上局限于模仿。模型可以在已见过的情境中复制动作,但缺乏任务推理能力。它们无法理解目标或适应新的指令。当环境发生变化时,性能就会崩溃。

扩散策略是一个没有理解力的演员,一个能够运动但不懂意义的学习者。它行动优美,却盲目无知。

视觉-语言-动作:理解而不反思

2024年,VLA模型的出现融合了感知、语言和动作。机器人首次能够遵循自然语言指令并执行基于语义的任务。这是一个里程碑:语言基础动作的诞生。

但学习过程仍然是静态的。VLA能够"看和做",但不能"尝试和改进"。没有交互循环,没有评估机制,没有从经验中学习的意识。

VLA代表着没有反思的理解,一个可以解释世界但尚未通过世界学习的模型。它能倾听,却不会思考。

世界模型:想象而不适应

2025年引入了Ctrl-World和NVIDIA的Cosmos-Predict 2.5等世界模型,预示着我所称的物理想象力时代。这些模型现在可以模拟动态的、符合物理规律的环境。它们不仅从数据中学习,还从现实本身的结构中学习。

智能体可以在执行之前"想象"其行动的结果。这弥合了一个关键差距:从理解到模拟。

但即使在这里,仍然存在一个根本性的局限。虽然世界模型可以准确地模拟交互并预测结果,但它们尚未与强化学习结合来优化策略。它们可以评估潜在的未来,但无法进化出改进策略。

它们仍然是自己想象力的观察者。世界模型是现实的镜子,尚未成为学习的实验室。它们能做梦,却不会成长。

自我进化智能的时代

展望未来,我坚信2026年将标志着这些轨迹的统一,即VLA + World + RL的时代,具身智能体将最终实现自我进化。

在这个范式中,感知、想象和强化学习融合成一个持续的循环:感知、想象、行动、评估和自我改进。在这里,世界模型成为训练场而非游乐场。智能体不是通过被动观察世界来学习,而是通过在想象环境中主动优化来学习。

强化学习提供了缺失的环节。策略从模拟中产生的反馈中适应。智能体持续改进其策略,无需人类标注。系统完成了自主智能的闭环。

这不仅仅是猜测;这是我认为不可避免的方向。VLA、世界模拟和强化学习的整合将定义下一代物理AI:能够在自己的合成宇宙中思考、想象、行动和改进的模型。在2026年,具身AI将不仅仅在世界中行动,它将创造自己的世界来行动。

写在最后

这个路线图反映了我们对智能本身理解的更深层次转变。从基于模仿的扩散策略,到基于语言的VLA推理,到想象驱动的世界模型模拟,最终到VLA + World + RL的自我进化自主性,每一步都使AI更接近学习的本质:通过交互持续自我改进。

未来的具身智能体将不再依赖现实世界进行每次学习迭代。它们将在自己创造的世界中模拟、反思和进化,成为环境的学生和创造者。

当AI学会自己想象、评估和改进时,它将最终跨越知道世界和理解自身之间的界限。智能不是模仿,而是进化。这就是具身智能的终极目标:不仅从世界中学习,而且创造自己的世界。

返回主页

评论与讨论