本期赞助:👉👉👉 World Model 最新post: The Autonomous Divide: Comparing China's L4 Robotaxi and the Tesla Doctrine
作者:Jason Wei
原文链接:https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning
过去一年,我痴迷于强化学习(Reinforcement Learning, RL),几乎每天醒着的时候都在思考它。没想到的是,这段经历无意中教会了我一个关于如何过自己人生的深刻道理。
在强化学习中,有一个核心观念叫“on-policy”(依照自身策略):与其模仿他人成功的路径,不如采取自己的行动,并从环境反馈的奖励中学习。模仿学习(imitation learning)当然很有用,特别是在刚开始时用来“起步”。但一旦你能走出合理的轨迹,我们通常就避免继续模仿学习。因为要真正发挥模型自身的优势(这些优势往往不同于人类),最好的方式就是只从它自己的轨迹中学习。这一理念已经在实践中被验证,比如:与简单地用人类写下的思维链进行监督微调相比,用强化学习来训练语言模型解答数学题,效果通常更好。
在现实生活中也是类似的。我们一开始通过模仿学习来“冷启动自己”(比如上学),这很合理。但即使我已经从学校毕业,我依然习惯于研究他人是如何取得成功的,并试图模仿他们。有时候这样确实有效,但我渐渐意识到:我永远无法超越某个人的全部能力,因为他们是在发挥属于他们自己的独特优势,而那些优势我并不具备。举个例子:有的研究人员能比我更成功地跑 YOLO 实验,因为他们自己写了那套代码框架,我没有。再比如,一个足球球员能控球不丢,是因为他有我没有的身体对抗能力。
强化学习中“on-policy”的经验教训是:想要超越“老师”,你必须走自己的路,从环境中直接承受风险和获取回报。举两个我自己的例子—相比多数研究者,我更喜欢(1)大量阅读原始数据,和(2)做消融实验(译者注:消融实验是在一个复杂系统或模型中,系统性地移除或替换某个组件,以观察该组件对整体性能的影响,从而评估该部分的重要性、必要性或作用机制。)去理解系统中各个组件的影响。有一次,我在收集数据集时,花了几天认真读数据,并给每位人工标注员写了定制化的反馈,最终数据质量大幅提升,我对这个任务也获得了珍贵的理解。今年早些时候,我又花了一个月的时间回头把以前胡乱决定的实验逐一消融重跑。虽然投入的时间不算少,但我从中获得了对 RL 有哪些设计真的有效的独特认知。不仅如此,这种沉浸于自己热爱的工作也更加让我满足,我感觉我正在为自己和自己的研究开辟出一个更坚实、更有个性的方向。
简而言之,模仿是好的,甚至是必要的开始。但一旦你完成了“冷启动”,如果你想要超越老师,那你必须做 on-policy 的强化学习——走自己的路,拥抱自己的强项与短板,走属于你自己的轨迹。