“RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈”内容解读
对谈主要话题
Claude 4核心成员进行了2小时20多分钟的对谈,主要围绕4个话题展开:
过去一年中人工智能研究的变化:过去一年最大的变化是强化学习(RL)终于在语言模型上真正奏效了。若提供合适的反馈机制,能找到某种算法让模型表现出接近专家级人类的可靠性与性能,成果明确体现在程序设计竞赛和数学推理两个领域。
新的强化学习(RL)体系以及其可扩展性:新的强化学习体系核心是可验证奖励的强化学习,强调奖励信号必须“干净”,即准确、明确、客观。最早语言模型调优方法RLHF存在问题,不能真正提升模型在“高难度问题”上的表现,因为人类不擅长判断“哪个答案更好”,而像数学题正确答案、代码通过单元测试这类干净的奖励信号更有利于模型学习。
如何追踪模型的思考过程:文档中未提及此话题的具体讨论内容。
各国、劳动者和学生应如何为通用人工智能(AGI)做准备:文档中未提及此话题的具体讨论内容。
强化学习相关情况
任务难度维度
任务的难度可从两个维度理解,一个是任务的智力复杂度,另一个是任务所涉及的时间跨度。模型在多个维度上能达到人类智能的顶峰,但长期自主表现欠佳,不过正在起步,预计到2025年底会有更明确进展。
可验证奖励的强化学习
LLM可以处理智力高度复杂的问题,但前提是问题上下文要明确、边界要清晰。若任务模糊或需在环境中反复探索、试错、迭代,它们会吃力。关键是为模型提供良好的“反馈闭环”,奖励信号必须准确、明确、客观。例如数学题正确答案、代码通过单元测试等干净的奖励信号对模型学习更有效。相比之下,像完成诺奖级研究这类主观、难以量化的任务,模型在科学研究领域实现“诺奖级突破”可能比写出赢得普利策奖的小说更早。
智能体相关情况
电脑操作智能体与软件工程智能体
本质上,“电脑操作智能体”和“软件工程”智能体区别不大。模型现在能“看图”、画图、理解复杂概念等基本已实现。“编码”是更有价值、也更容易落地的方向,更值得优先集中资源突破。在软件工程基准测试SWE - bench中,若Claude 4能搞定代码,价值会呈超级指数级释放。电脑操作虽然也重要,但优先级相对靠后。目前大家还没把精力花在“电脑操作”上,一旦资源倾斜,进展也不会慢。若未来一两年内,智能体开始上岗,软件工程实现自动,模型的使用价值将呈指数级增长。
实现AGI面临的挑战
实现AGI需要海量算力支持。即便理论上今天地球上能同时运行1000万个AGI,但可能仍不够。面临的挑战包括:业内很多专家认为要在长上下文推理、多模态理解等方面实现突破没那么快;芯片问题、电力、GDP等限制可能让算力增长停滞,若到2028或2030年还没实现AGI,之后每年的实现概率也许会开始大幅下滑