English 中文

从模仿,到探索,再到世界模型

By Guowei Zou | December 31, 2025

最近一直在想一个问题:机器人学习的方式,和我们人学东西,好像没那么不同。

一、先学会照猫画虎

做机器人策略学习的都知道,上来就让模型自己瞎探索,基本没戏。得先给它看专家怎么做,让它先学个大概。这叫模仿学习,Behavior Cloning,领域里的基本操作。

回想一下我们自己呢?小时候学说话、学写字、学骑自行车,哪个不是先看别人怎么做,然后照着来?连读博士写论文,一开始也是找几篇好文章,看人家怎么写的,模仿着来。

模仿这事儿听起来不够酷,但它确实管用。它让你快速获得一个"能跑起来"的baseline,不至于一开始就摔得很惨。

二、什么时候该跳出来?

问题是,光模仿是不够的。

做实验的时候经常碰到这种情况:模型在训练数据的分布里表现挺好,一换个场景就不行了。它学会了"这种情况下应该这么做",但不知道为什么。所以环境稍微变一变,它就懵了。

我自己也有过类似的阶段。刚开始做研究的时候,总想找一个"正确"的方法论,觉得按部就班做就行。后来才发现,很多所谓的"正确做法"都是有前提条件的,换个问题可能就不适用了。

什么时候该从模仿转向探索?我觉得有个信号:当你开始怀疑"标准答案"的时候

不是为了反对而反对,而是你发现那个答案背后有前提条件,而你手上的问题可能不一样。

三、探索也会走偏

不过,敢于探索不代表就能探索出好结果。

在强化学习里有个概念叫 world model,就是智能体对"世界怎么运转"的内部理解。如果这个理解本身是错的,那探索得越多,可能偏得越远。就像你拿着一张错误的地图,走得越远,离目的地可能越远。

人也一样。如果一个人从小接触的信息都是扭曲的,他对世界的认知模型本身就有问题,那他再怎么"独立思考",可能也只是在错误的框架里打转。

所以,比起"要不要探索",更重要的问题可能是:你学习的那些东西,是真实的吗?你的信息源可靠吗?你的反馈机制是不是在把你往正确的方向引导?

四、走自己的路

说到底,不管是训练一个机器人,还是搞明白自己想做什么,核心问题都差不多:什么时候该跟着学,什么时候该自己试。

没有标准答案。但有一点我比较确定:如果你一直在质疑、一直在根据反馈调整自己对世界的理解,那大概率是在正确的方向上。

毕竟,走出一条属于自己的路,不是一开始就知道终点在哪,而是在走的过程中不断修正地图。

返回主页

评论与讨论