[LG]《Right in the Right Way: LM Training with Verifiable Rewards and Human Demonstrations》M Damani, I Puri, I Shenfeld, J Andreas [MIT] (2026)
在大语言模型强化学习(RLVR)领域,如何在提升逻辑正确性的同时保持人类表达的风格与多样性是一个悬而未决的难题。过去的方法受困于奖励黑客行为和模式坍塌,本质原因是可验证奖励(如单元测试)仅能约束“结果对错”,却无法量化代码可读性或文学美感等“软属性”。
本文的核心洞见是:把人类示范数据重新看作一种动态演化的对抗性约束。由此,通过共同训练一个判别器来区分模型输出与人类作品,并将该判别信号与客观正确性奖励进行“门控乘法”复合,这一关键操作使模型在确保“做对”的前提下,必须以“像人一样”的方式解题。
这项工作真正留下的遗产是证明了对抗学习可以作为连接监督微调(SFT)与强化学习的桥梁,实现了性能与分布对齐的共存。它为后来者打开的新门是利用判别器特征空间(如叙事结构而非原始标记)来引导复杂生成任务,但尚未跨过的门槛是在极度稀疏的奖励环境下如何维持对抗训练的稳定性。
arxiv.org/abs/2607.01181 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
