关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,人类需要使用更聪明且更安全的AI,这已经成为中美等全球共识,OpenAI等一众硅谷创业企业都在研发新的模型安全技术,同时加大研发投入、提升营收能力。
全球AI要闻,人类反馈强化学习RLHF不够用了,OpenAI重新设计安全机制。
7月25日,OpenAI公布了一种教导AI模型遵守安全政策的新方法,称为基于规则的奖励,简称RBR。作为论文作者之一,OpenAI 安全系统负责人Lilian Weng表示,RBR规则奖励技术能够自动执行模型微调。传统上,我们依赖于来自人类行为反馈的AI强化学习,作为默认的人机对齐训练方法来训练模型,但当今面临的挑战是,花了很多时间讨论政策的细节,而到最后,安全策略可能已经改变了。RBR规则奖励技术,是使用一组安全规则来定义期望或非期望的行为,例如拒绝不应带有评判性,并结合一个大语言模型LLM评分器。即以另一个AI提供强化学习信号,帮助被训练模型更容易适应不断变化的安全政策,而无需严重依赖人类反馈数据。此外,借助RBR技术,研究者能够采用更统一的视角看待安全性和模型能力,因为更强大的分级模型能提供更高质量的强化学习信号。OpenAI 分享自GPT-4发布以来,他们一直将RBR技术用作安全堆栈的一部分,包括GPT-4o mini研发,并计划在未来的模型中实施它。
另据外媒The Information报道,OpenAI今年或许面临高达50亿美元的亏损。今年在模型算力方面,开支40亿美元租用微软服务器,在模型训练成本和研发人力成本开支将达到惊人的85亿美元。目前OpenAI公司人数已近翻倍,达到1500余人。而在营收方面,OpenAI每月收入大约2.83亿美元,全年预计营收35亿到45亿美元。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
空空如也
暂无小宇宙热门评论