近日,前OpenAI安全团队负责人翁荔(Lilian Weng)在离职后首次发布了一篇万字长文,深入探讨了强化学习中的奖励黑客(Reward ...
之前领导OpenAI安全团队的北大校友 翁荔 (Lilian Weng),离职后第一个动作来了。 主题围绕强化学习中 奖励黑客 (Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。
在人工智能领域,尤其是在强化学习(RL)技术日益成熟的今天,关于Reward ...
哈佛大学与OpenAI研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐(SEAL)。 原文: ...
Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。