Album
时长:
2分钟
播放:
17
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,人类需要使用更聪明且更安全的AI,这已经成为中美等全球共识,OpenAI等一众硅谷创业企业都在研发新的模型安全技术,同时加大研发投入、提升营收能力。


全球AI要闻,人类反馈强化学习RLHF不够用了,OpenAI重新设计安全机制。


7月25日,OpenAI公布了一种教导AI模型遵守安全政策的新方法,称为基于规则的奖励,简称RBR。作为论文作者之一,OpenAI 安全系统负责人Lilian Weng表示,RBR规则奖励技术能够自动执行模型微调。传统上,我们依赖于来自人类行为反馈的AI强化学习,作为默认的人机对齐训练方法来训练模型,但当今面临的挑战是,花了很多时间讨论政策的细节,而到最后,安全策略可能已经改变了。RBR规则奖励技术,是使用一组安全规则来定义期望或非期望的行为,例如拒绝不应带有评判性,并结合一个大语言模型LLM评分器。即以另一个AI提供强化学习信号,帮助被训练模型更容易适应不断变化的安全政策,而无需严重依赖人类反馈数据。此外,借助RBR技术,研究者能够采用更统一的视角看待安全性和模型能力,因为更强大的分级模型能提供更高质量的强化学习信号。OpenAI 分享自GPT-4发布以来,他们一直将RBR技术用作安全堆栈的一部分,包括GPT-4o mini研发,并计划在未来的模型中实施它。


另据外媒The Information报道,OpenAI今年或许面临高达50亿美元的亏损。今年在模型算力方面,开支40亿美元租用微软服务器,在模型训练成本和研发人力成本开支将达到惊人的85亿美元。目前OpenAI公司人数已近翻倍,达到1500余人。而在营收方面,OpenAI每月收入大约2.83亿美元,全年预计营收35亿到45亿美元。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧