Vol.87|AI“音效”上线!,一键生成大片感音效!已上线即梦

得体男孩

在 AIGC 持续突破视频生成边界的当下,音效制作仍是制约行业发展的瓶颈。字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。 [图片] App 端 [图片] Web 端 效果展示 先「听」为快,这里展示了一些 SeedFoley 生成的视频音效效果。 技术方案 SeedFoley 是一种端到端的视频音效生成架构,通过融合时空视频特征与扩散生成模型,实现了音效和视频的高度同步。首先,用固定的视频帧率对视频序列进行抽帧提取,然后使用一个视频编码器提取视频的表征信息,并通过多层线形变换将视频表征投射到条件空间,在改进的扩散模型框架中构建音效生成路径。 在训练过程,提取语音和音乐相关标签,作为 multi conditions 的形式输入,可以将音效和非音效进行解耦。SeedFoley 能支持可变长度的视频输入,并且在音效准确性,音效同步性和音效匹配度等指标上都取得了领先水平。 [图片] 图 1:SeedFoley 的模型架构 视频编码器 SeedFoley 的视频编码器,采用了快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过将快慢特征组合,既保留了运动特征,有效降低计算成本。通过这种方式,能在低计算资源性实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后利用 Transformer 结构融合快慢特征,实现视频的时空特征提取。在提升训练效果和训练效率上,SeedFoley 通过在一个批次中引入多个困难样本,显著提升了语义对齐效果,同时使用了 sigmoid loss 而非 softmax loss,能在更低的资源上实现媲美大批次训练的效果。 [图片] 图 2:SeedFoley 的视频编码器 音频表征模型 对于扩散模型而言,通常采用 VAE 生成的潜在表征(latent representation)作为音频特征编码。与基于梅尔频谱(mel-spectrum)的 VAE 模型不同,SeedFoley 采用原始波形(raw waveform)作为输入,经过编码后得到 1D 的表征,比传统 mel-VAE 模型在重构和生成建模上更有优势。这里,音频采用了 32k 的采样率,以确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,可以有效提升音频在时序上的分辨率,提升音效的细腻程度。 SeedFoley 的音频表征模型采用了两阶段联合训练策略:在第一阶段使用掩码策略,将音频表征中的相位信息进行剥离,将去相位后的潜在表征作为扩散模型的优化目标;在第二阶段则使用音频解码器从去相位表征中重建相位信息。这个做法可以有效降低扩散模型对表征的预测难度,最终实现音频潜在表征的高质量生成和还原。 扩散模型 SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。 在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量;通过通道维度拼接(Channel-wise Concatenation)将二者与时间编码(Time Embedding)及噪声信号进行混合,形成联合条件输入。该设计通过显式建模跨模态时序相关性,有效提升了音效和视频画面在时序上的一致性以及内容的理解能力。 在推理阶段,通过调整 CFG 系数可调整视觉信息的控制强度以及生成质量之间的关系。通过迭代式优化噪声分布,将噪声逐步转换为目标数据分布。通过将人声以及音乐标签进行强行设定,可以有效避免音效中夹杂人声或者背景音乐的可能性,提升音效的清晰度和质感。最后将音频表征输入到音频解码中,得到音效音频。 结语 SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。 「AI 音效」功能已上线即梦,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。在 AI 视频,生活 Vlog、短片制作和游戏制作等高频场景中,能有效摆脱 AI 视频的「无声尴尬」,便捷地制作出配有专业音效的高质量视频。 (资料源于网络并整理) ——————————————————————————————— 过去几年里,关于 AI 发展下一个周期会是什么,人们有很多猜测:Agent(智能体)?Reasoner(推理器)?真正的多模态? 原文链接:vintagedata.org 我认为是时候下定论了:模型即产品。当前研究和市场发展的所有因素都指向这个方向。 * 通用模型的 scaling 正在停滞。这正是 GPT-4.5 发布背后传达的信息:能力在线性增长,而计算成本却呈几何曲线增长。即使过去两年训练和基础设施效率的提升不小,OpenAI 也无法部署这个巨型模型 —— 至少定价远远不是用户能承受的。 * 某些已有方法的训练效果远超预期。强化学习和推理的结合意味着模型突然开始学习任务。这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。甚至是小模型的数学能力也突然变得好得吓人。这让编程模型不再仅仅生成代码,而是自己管理整个代码库。这能让 Claude 在上下文信息很少且没有专门训练的情况下玩《宝可梦》游戏。 * 推理成本急剧下降。DeepSeek 最近的优化意味着所有可用的 GPU 加起来可以支撑全球用户每天让前沿模型输出 10k token。我们现在还远没有这么大的需求。对模型提供商来说,卖 token 赚钱的思路不再有效了:他们必须向价值链的更高处移动。 这也是一个令人不安的方向。所有投资者都在押注应用层。在 AI 进化的下一阶段,应用层可能是最先被自动化和颠覆的。 未来模型的形态 如果模型即产品,单打独斗的开发方式将不再可行。搜索和代码领域是容易摘取的果实:作为过去两年的主要应用场景,市场已接近成熟,你可以在几个月内推出新的 cursor 产品。然而,未来许多最具盈利潜力的 AI 应用场景尚未发展到这一阶段 —— 想想那些仍然主导全球经济大部分的基于规则的系统。拥有跨领域专业知识和高度专注的小型团队可能最适合解决这些问题 —— 最终在完成基础工作后成为潜在的收购对象。我们可能会在 UI 领域看到类似的发展路径:一些优先合作伙伴获得闭源专业模型的独家 API 访问权,前提是他们为未来的业务收购做好准备。 至今我还没有提及 DeepSeek 或中国的实验室。原因很简单,DeepSeek 已经更进一步:它不仅是作为产品的模型,而是作为通用基础设施层。与 OpenAI 和 Anthropic 一样,梁文锋公开了他的计划: 我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期 (...)如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。 在这个阶段,仅专注于应用开发就像是「用上一场战争的将军打下一场战争」。恐怕许多人甚至还没意识到,上一场战争已经结束了。 体验链接:www.aippt.cn 本期主播:蛋酥酥/猫猫 后期:丹尼播客制作 制作人:蛋酥酥 录制支持:KUEENDOM 粉丝群微信:luxnirvana(备注播客过来哒) 编辑单集 2.3 03:54 ‧ 2025-03-09 单集封面 点击上传封面 或打开资源库 关联追光任务 选择任务

3分钟
27
9个月前

EP7《小妇人》&《小妇人》:祝她能爱人,也能不爱

对答案FM

节目介绍 🎙 主播:喋喋和呛呛 我们是一档关于书籍📚、影视🎬和美食🍽的播客节目。我们会给大家带来一本书和它的影视化的作品,喋喋读书,呛呛看片,然后我们针对特定的问题,带着我们各自对于原著和影视化作品的感受会在节目中探讨,这是我们俩“对答案”的过程,也是节目名字的由来。 在最后我们会推荐一道节目相关的美食,我们会在自己能力范围内制作这道美食,并在SHOENOTES里附上菜谱。 本期主题 🎉 作品:美国作家路易莎·梅·奥尔科特的小说《小妇人》及格雷塔·葛韦格导演的同名电影。 《小妇人》是一本半自传体小说,以作者与姐妹的成长经历为原型,讲述美国南北战争期间马奇家四姐妹(梅格、乔、贝思、艾美)的亲情、成长与自我实现之路。这部作品强调女性独立、自由选择与家庭纽带的重要性,批判当时社会对女性的刻板期待。2019年格雷塔·葛韦格导演的同名电影广受好评,以非线性叙事和现代视角重构这本经典。 你将听到🔍: 06:37 对马奇四姐妹的初印象。 17:24: 四姐妹之间印象最深的故事。 28:28: 乔的“厌女”情结与时代局限性:反抗婚姻是否源于对女性身份的矛盾? 40:56:梅格婚姻中的现实挑战。 55:53:艾美与劳里的“闪婚”原因。 65:13:“我想要被爱,还是想要去爱?”——马奇太太的育儿智慧。 78:38:马奇四姐妹给我们带来的“道路自信”。 本期食谱 🍜 牛奶冻 材料:吉利丁片10g,牛奶350g,白砂糖30g,淡奶油200g * 开小火将牛奶中的白糖煮至融化。 * 加入淡奶油和泡软的吉利丁片,如果吉利丁片不融化可再次小火加热至融化。 * 过筛放入容器中冷藏5小时。 本期音乐: 她来听我的演唱会——张学友

86分钟
99+
9个月前

估值远超行业龙头 老铺黄金=消费黑马?

涨乐早知道

上市十个月市值涨20倍,连在一起看是多么小众词汇,老铺黄金为什么能笑傲股市?欢迎你留言、评论,与我们交流。 更多新鲜资讯、投资干货,明星公司动向,尽在涨乐全球通! 涨乐全球通是华泰国际旗下自主研发的一站式财富管理平台,为全球华人投资者提供港、美、A、新加坡市场股票交易、公募基金、ETF、保险、智能投顾等多元化金融产品及服务。 本节目由华泰国际涨乐全球通出品,应财智云(Yiwealth)制作发行 本资料内容及其资料并不构成任何华泰金融控股(香港)有限公司为售卖任何证券、产品或投资作出招揽、提出要约、意见或推荐,或对任何证劵、产品或投资的收益或是否合适提供法律、税务、会计、投资意见或服务。阁下应审慎评估及评定任何投资的效益及风险,如有疑问,阁下应就此咨询专业顾问。准投资者应进行所须或适当的独立调查,包括评估所涉及的投资风险。本资料仅为香港特别行政区内的使用者而设,所提供的资讯不得于香港特别行政区以外分发,并不应被视为在任何的国家、地区或司法管辖区中(为免生疑问,包括美国),对投资、产品或服务的邀请、要约、建议或招揽。非香港投资者有责任遵守其相关司法管辖区的所有适用的法律及法规。如有任何争议,华泰金融控股(香港)有限公司保留最终解释权和决定权。本资料内容并未经香港证券及期货事务监察委员会审阅。

6分钟
3k+
9个月前

04. 柯布西耶是怎样炼成的(一): 从拉绍德封到东方之旅

游时

这一期的游时播客将带你走进一个现代建筑师如何在现代的城市化进程与科技浪潮中追寻灵感,最终获得自我实现的故事。随着中国发展的日新月异,建筑师们面临着市场与学科的双重挑战。在节目中,主播青鹿将探讨传统与现代开展对话的可能性,并且反思技术发展对于旅行乃至人生成长的影响。同时,他还将解读著名现代建筑师柯布西耶的人生经历。让我们一起重新审视建筑历史与现代设计之间的深厚联系! 04:57 上期内容的回顾:对于阅读建筑与空间能力的培养与掌握 06:31 阅读现场的重要性与特殊意义:古今中外旅行的历史与思辨 09:41 观景亦观心:旅途中提升自我认知并寻求未来的可能性 10:15 信息爆炸时代的破局:掌握提出恰当问题的能力或成关键 10:49 有关案例的介绍:将柯布西耶作为一种参考 13:58 少年壮气烈有时:早年间在家乡的生活与学习经历 19:05 舟中马上勤行远:初次离开家乡后的游与学 21:25 巴黎悟道:建筑职业生涯的新阶段 24:31 踏花归去马蹄香:“东方之旅”的前因后果 图01. 柯布西耶晚年形象 图02. 明信片中拉绍德封在20世纪初的城市风貌 图03. 让纳雷家庭合影 图04. 拉绍德封艺术学校师生合影(让纳雷位于后排右一) 图05. 让纳雷所设计并雕刻的怀表 图06. 学校档案中保存的部分表壳纹样设计方案 图07. 巴特略之家 by Antoni Gaudi 图08. 塔塞尔公馆 by Victor Horta 图09. 巴黎地铁站入口 by Hector Guimard 图10. 冬日拉绍德封的植被景观 图11. 让纳雷(后排右二)水彩写生 图12. 让纳雷习作-汝拉当地植被元素提取(1) 图13. 让纳雷习作-汝拉当地植被元素提取(2) 图14. 让纳雷习作-汝拉当地植被元素提取(3) 图15. 让纳雷建筑设计首个作品-法莱别墅,外观 图16. 让纳雷建筑设计首个作品-法莱别墅,装饰纹样细节 图17. 在施工现场的让纳雷(中) 图18. 意大利旅行笔记(1)锡耶纳圣若望洗礼堂 图19. 意大利旅行笔记(2)佛罗伦萨圣十字教堂 图20. 意大利旅行笔记(3)比萨圣母升天大教堂 图21. 意大利旅行笔记(4)威尼斯圣马可广场总督宫细部 图22. 意大利旅行笔记(5)卢卡圣马蒂诺大教堂细部 图23. 意大利旅行笔记(6)佛罗伦萨新圣母大殿广场一隅 图24. 维也纳城市铁路车站 by Otto Wagner 图25. 维也纳分离派展览馆 by Joseph Maria Oblrich 图26. 《吻》by Gustav Klimt 图27. 斯托克莱宫 by Josef Hoffmann 图28. 奥古斯特·佩雷照片 图29. 巴黎福兰克林街25号 图30. 巴黎福兰克林街25号细部照片 图31. 1908年让纳雷与兄长于巴黎圣母院的合影 图32. 斯托兹别墅 图33. 贾科梅别墅 图34. 柯布在柏林的住处 图35. 东方之旅路线图 图36. 旅行笔记-从博斯普鲁斯海峡遥望土耳其宫殿 图37. 雅典卫城摄影 图38. 第一版《东方之旅》封面 参考文献: Alexander Tzonis. Le Corbusier: The Poetics of Machine and Metaphor. 2002 Jean-Louis Cohen, Tim Benton. Le Corbusier Le Grand. 2008 Stanislaus von Moos. Le Corbusier: Elements of a Synthesis. 2009

31分钟
99+
9个月前

【ESG周闻】25EP07 国务院办公厅关于做好金融“五篇大文章”的指导意见

E周绿闻

【25EP07】 本期为ESG纯享版:国际政策,国内政策,ESG实践。 【分工】 内容&制作:梁梓涵 【目录】 🇺🇸🇪🇺00:26美国立法者敦促特朗普政府对 CSRD 和 CSDDD 采取行动(来源:Clifford Chance) 🇺🇸🇺🇳01:17美国谴责联合国可持续发展目标,退出气候损害基金(来源:AP News) 🇹🇭01:35泰国计划将允许污染者抵消 15% 的排放(来源:Bloomberg) 🇬🇧02:12英国政府削减立法以启动核电(来源:GOV UK) 🇮🇹02:43意大利将在 2030 年之前重新引入核电(来源:Euractiv) 🇯🇵03:17日本 SSBJ 发布首个与 ISSB 指南一致的可持续发展披露准则(来源:SSBJ) 国内政策 🇨🇳📗04:02四部门联合印发《关于促进企业温室气体信息自愿披露的意见》(来源:生态环境部) 🇨🇳📗04:41政府工作报告:协同推进降碳减污扩绿增长,加快经济社会发展全面绿色转型(来源:新华社) 🇨🇳💰05:14国务院办公厅关于做好金融“五篇大文章”的指导意见(来源:国务院办公室) 🇨🇳📗06:10全国温室气体自愿减排交易市场首批核证自愿减排量完成登记(来源:生态环境部) 🇨🇳🌊07:01六部门联合出台《指导意见》——海洋能规模化开发利用正当其时(来源:光明日报) ESG实践 🔋07:56宁德时代,出手芯片(来源:财联社) 🗼08:29世界首条柔性直流特高压线路工程正式开工(来源:中国电力企业联合会) 🚗📉09:30保时捷 SE 预计大众汽车股份减值税后亏损 217 亿美元(来源:路透社) ⛽️10:00BP公司首席执行官表示,是时候提高美国天然气产量了(来源:路透社) 🇵🇪10:37秘鲁塔拉拉炼油厂漏油事件(来源:ISCO) 🇿🇦🇮🇩11:08南非、印度尼西亚称美国退出气候融资协议(来源:France 24) ♻️11:42乐高集团在 2024 年将可持续材料使用量翻倍,扩大可再生能源投资(来源:Lego) 🏦12:23气候联合基金起诉 EPA,花旗银行冻结七十亿美金(来源:路透社) ♻️12:56EcoVadis 推出碳数据交换以实现范围 3 排放数据收集(来源:EcoVadis)

13分钟
97
9个月前

Steam新品节,游戏太多了打不过来啊!| 游乐搭子Plus

游乐搭子

世纪联动!跟《开始游戏》的两位玩家一起过新品节! ——职场人必玩的排座模拟器《这个座位有人坐吗?》竟成体制内生存指南? ——卡牌+经营的《酋长的野望》如何用缝合理念征服策略爱好者? ——禁酒令时期的《十年不晚》让你体验调酒破案两不误的赛博酗酒日常! ——更有视觉小说《弃种:叮叮与圣剑》背后,制作组解散再创业的逆袭故事。 当三消爱好者误入AVG、推理迷怒写小作文、 种田玩家强推克苏鲁...这场关于缝合与创意的狂欢,藏着独立游戏最鲜活的模样。 点击收听,解锁你的愿望单新选择! 惯例先宣传一下听友群 时间轴 01:05 世纪联动!《游乐搭子》×《开始游戏》一起过新品节 12:15 “恐怖”益智游戏之你会给领导排座吗?《Is This Seat Taken?》 39:05 缝合公式:《堆叠大陆》+《杀戮尖塔》=《酋长的野望》 57:42 酒保侦探被迫办案《十年不晚》 74:30 你吃人or你被吃《弃种:叮叮与圣剑》 100:11 《弃种》制作组的幕后故事 * 《Is This Seat Taken?》 * 我想偷爆米花 * 《酋长的野望》经营部落 * 打牌战斗 * 《十年不晚》 * 一笔画调酒 * 《弃种:叮叮与圣剑》 * 狗子的心动男嘉宾 本期主播:西北 秦少言 月狸 后山狗 BGM: Falcom Sound Team J.D.K. - プック村 《Is this seat taken?》开始游戏界面-BGM Geoff Knorr - Inca - The Medieval Era (Siempre Macho) HOYO-MiX - 星灯晕染之街 Coruscating Street Geoff Knorr - Mali - The Medieval Era (Mali Sadio, Masana Seesay) HOYO-MiX - 月影微茫 Clair de lune

114分钟
99+
9个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧