搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
14 天
翁荔离职OpenAI后首度发声:深度剖析RLHF漏洞的万字长文引发热议
近日,前OpenAI安全团队负责人翁荔(Lilian Weng)在离职后首次发布了一篇万字长文,深入探讨了强化学习中的奖励黑客(Reward ...
14 天
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
之前领导OpenAI安全团队的北大校友 翁荔 (Lilian Weng),离职后第一个动作来了。 主题围绕强化学习中 奖励黑客 (Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。
14 天
翁荔博客首度更新,深度探讨强化学习中的Reward Hacking问题
在人工智能领域,尤其是在强化学习(RL)技术日益成熟的今天,关于Reward ...
腾讯网
14 天
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF漏洞,网友抢着看
哈佛大学与OpenAI研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐(SEAL)。 原文: ...
11 天
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞
Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈