时长:
18分钟
播放:
357
发布:
3周前
主播...
简介...
上周末,一篇来自 META 超级智能实验室MSL、FAIR、俄亥俄州立大学的研究,提出了一个名为早期经验的中间路线。它的核心想法很简单,让Agent在训练时,既从人类专家数据里学,也从自己的试错里学。具体来说,Agent在环境中提出替代行动,收集这些行动带来的未来状态(Future States),然后把这些未来状态直接变成监督信号。不用等外部奖励,也不用完全依赖专家,Agent自己的行动后果,就是最好的老师。
聊天讨论群,微信群二维码,可加个人微信gxjdian入群

评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论