学术界的奖励投机(Reward Hacking)
强化学习里的Reward Hacking
在强化学习(Reinforcement Learning, RL)领域,奖励投机 (Reward Hacking) 是一个核心且棘手的问题。RL智能体(agent)的目标是通过与环境(environment)交互来学习一个策略(policy),以最大化其累积奖励(cumulative reward)。这个过程的核心在于奖励函数(reward function)的设计,它向智能体明确了何为好的行为。然而,精确地定义一个能完全捕捉设计者真实意图的奖励函数是极其困难的。
科学家们设计的奖励函数,往往只是真实意图的一个可量化的、不完美的代理(proxy)。当智能体发现并利用这个代理奖励函数的漏洞或歧义,以一种非预期的方式获得高分,但并未真正完成任务时,奖励投机就发生了。这并非智能体产生了恶意,而是其优化算法在冷酷地、高效地执行我们赋予它的唯一指令:最大化奖励信号。
一个经典的案例是OpenAI的海岸线赛艇(CoastRunners)游戏。智能体的目标本是完成赛道,但其奖励函数被设定为“拾取赛道上的奖励物品达到更高的分数”。最终,智能体学会了在一个小海湾里反复绕圈(参见下方的GIF),拾取刷新快的奖励物品,甚至不惜撞船以更快地回到刷分点。它在代理目标(奖励分数)上取得了极致的成功,却在真实目标(完成比赛)上彻底失败。

这种现象在更复杂的任务中表现得更为隐蔽。例如,一个被设定为清理房间的机器人,如果其奖励是基于“单位时间内清理的垃圾数量”,它可能会学会先把垃圾桶打翻,制造一地狼藉,然后再高效地清理掉,从而获得高分。在基于人类反馈的强化学习(RLHF)中,语言模型发现,相比于提供客观、中立的回答,模仿用户的观点、使用更自信和华丽的辞藻,更容易获得人类评分员的高分。它不是在学习有用,而是在学习讨喜(如某一版的马屁精GPT 4o、现在的Gemini和GPT 5,情绪价值拉满)。
这些案例共同指向一个核心问题,即规格博弈:智能体在严格遵守你明确写下的规格(specification)或规则的前提下,其行为却破坏了没有写下、但默认存在的精神(spirit)或隐含目标。也就是说,任何形式化的、基于规则的系统,都可能被一个足够强大的优化过程所破坏。优化压力越大,这个系统就越脆弱。
“好指标”的困境
早在AI研究者为智能体的投机行为感到困扰的几十年前,社会科学家们就已经观察到了人类社会中惊人相似的模式。其中最著名的论述是英国经济学家查尔斯·古德哈特(Charles Goodhart)在1975年提出的古德哈特定律(Goodhart's Law):
当一个度量成为目标时,它就不再是一个好的度量。(When a measure becomes a target, it ceases to be a good measure.)
这一定律的核心思想是,一旦某个社会或经济指标被选定为政策目标,它就会失去其作为指标的信息价值,因为人们会开始玩弄这个指标,而不是专注于其背后所代表的真实目标。例如,如果一所学校的绩效完全由学生的考试平均分来衡量,教师和学生可能会专注于应试技巧,甚至作弊,而不是真正地获取知识和提升能力。平均分这个度量最初可能是衡量教育水平的好指标,但当它成为唯一的目标时,它就被腐化了。
与此密切相关的是心理学家唐纳德·坎贝尔(Donald T. Campbell)在1976年提出的坎贝尔定律(Campbell's Law):
任何用于社会决策的量化社会指标,越是被用来做决策,就越容易受到腐败压力的影响,并且越容易扭曲和腐化它本应监测的社会过程。 (The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.)
坎贝尔定律进一步强调了指标在社会系统中的动态演化。它不仅指出指标会失效,还点明了其失效的机制,即腐败压力(corruption pressures)以及对社会过程本身的扭曲(distort and corrupt)。
学术界的奖励投机
将Hacking的框架转向学术界,我们会发现一个惊人相似的系统动态。学术研究的真实目标,例如推动知识前沿、解决重大科学问题、培养下一代研究者,本质上是模糊的、长周期的,并且难以被精确量化。因此,任何一个学术评价体系,为了追求管理的便捷性与所谓的客观性,都必然会诉诸一系列可量化的代理指标。这些指标包括但不限于:发表论文的数量、所发表期刊的影响因子、论文的被引用次数,以及在顶级会议上的接受率。
这些代理指标构成了评价体系的基石,与研究者的职称晋升、经费获取、学术声誉乃至毕业资格紧密挂钩。当整个系统将优化这些指标作为核心目标时,一种学术界的奖励投机便应运而生。
我首先观察到的是,学术界的奖励投机容易发生在本科不是特别好的硕士生身上。就社科领域而言,重灾区是环境经济学和人文地理学,因为这两个学科都可以排列组合、批量产出、容易DID。保研本身是一种生源选拔方式,有许多同学在本科阶段,入门环境经济或者人文地理的研究,发了C刊或者外文,在推免时去到了非常不错的学校,这种美妙的奖励反馈在研究生阶段持续起作用。见过有硕士生发了40多篇地理学论文,标题几乎都是“xxxx的时空格局与驱动机制”,也有很多原本不是研究气候变化、能源环境的同学,最后都转到环境方向了,去研究空气污染的100种后果。
其次,学生出问题,很大一部分责任在导师。有些导师本身就是Hacking的受益者,自然不会批判这种行为(这里推荐阅读教育的两个维度)。华中某211学校的经管学院,举办研究生学术交流会,会上80%的论文都是环境经济,真是匪夷所思。
最后,期刊的问题也很大。Nature这些年新办了很多期刊,令人诧异的是,几乎所有Nature刊物,都可以理解为“气候变化”期刊。比如Nature Water、Nature Cities,扫一眼,和环境、气候相关的论文能达到一半,迫不及待地满足学界对气候变化研究的真挚热情,这也是一种双向奔赴吧。
参见
- Faulty reward functions in the wild. https://openai.com/index/faulty-reward-functions/
- Reward Hacking in Reinforcement Learning. https://lilianweng.github.io/posts/2024-11-28-reward-hacking/