AI日报】EP.165 6月14 阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线

Aishaobing的个人播客

**AI日报** 1. **阿里开源3D数字人项目MNN TaoAvatar** - 阿里巴巴集团开源了在手机上运行的3D数字人应用MNN TaoAvatar,支持虚拟客服和虚拟主播。 - 该应用可在手机上以90FPS流畅运行,结合3D高斯溅射技术实现毫米级精细控制。 - 开源生态提供丰富API和工具,支持多模态输入,降低开发门槛。 - 详情链接: [https://github.com/alibaba/MNN](https://github.com/alibaba/MNN) 2. **MiniMax Agent上线** - MiniMax官方宣布其AI生产力工具MiniMax Agent迎来重大升级,新增智能图像搜索、稳定的图像生成、多语言支持及多样化文档导出功能。 - 新增智能图像搜索与生成功能,适用于设计、营销和内容创作。 - 引入反思模式,增强长任务处理能力,特别适合需要深度推理的场景。 - 新增中文、日文、韩文支持,优化Python绘图功能。 - 详情链接: [https://agent.minimax.io](https://agent.minimax.io) 3. **罗永浩数字人直播即将首秀百度电商** - 知名电商主播罗永浩宣布其数字人形象将在百度电商平台开启直播带货,首次尝试数字人直播。 - 百度电商平台已有超10万数字人主播,数字人直播可使商家运营成本下降超80%,GMV平均提升62%。 - 此次尝试可能推动直播电商行业向智能化、高效率、低成本方向发展。 4. **OpenAI员工套现潮达30亿美元** - 自2021年以来,OpenAI员工通过多次股权出售累计套现近30亿美元,软银成为最大买家。 - 员工股权变现频率高,但可能加速离职。激烈的AI人才竞争中,OpenAI面临巨大压力,如何留住核心团队是关键挑战。 5. **OpenAI重磅升级ChatGPT Projects** - ChatGPT Projects新增深度研究和语音模式,支持内外部数据检索,提升移动办公便捷性。 - 深度研究支持复杂场景,语音模式集成提高实时协作需求。 - 移动端增强支持多模态交互,扩展使用场景。 - 详情链接: [https://help.openai.com/en/articles/10169521-using-projects-in-chatgpt](https://help.openai.com/en/articles/10169521-using-projects-in-chatgpt) 6. **Meta新型模型助力机器人在未知环境中实现物体操控** - Meta推出的V-JEPA2模型通过观察视频和物理交互构建世界模型,提升机器人在动态环境中的操作能力。 - 支持零-shot机器人规划,广泛应用于物流和制造业。 - 详情链接: [https://ai.meta.com/vjepa/](https://ai.meta.com/vjepa/) 7. **AMD与OpenAI联合发布强大AI芯片** - AMD与OpenAI推出了最新的Instinct MI400和MI350系列AI芯片,MI350系列显著提升了AI计算性能,MI400系列则面向下一代旗舰AI计算需求。 - MI350系列GPU提供卓越的AI计算性能,内存带宽高达8TB/s,推理性能提升35倍。 - ROCm7平台整合多个顶级AI平台,提供超过3.5倍推理性能提升,助力开发者高效工作。 8. **Imagen4登陆Gemini** - Google旗下的Gemini平台通过集成最新一代的Imagen4图像生成模型,实现了从复杂细节到文本渲染的全面升级。 - 细节呈现卓越,支持聊天中直接生成和调整图像,适用于设计、营销及教育等领域。 - 详情链接: [https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/](https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/) 9. **谷歌AI助力气候预测** - 谷歌研究人员结合物理建模与生成AI的新方法,通过R2D2模型将全球气候预测提升至约10公里的分辨率,大幅降低计算成本并提高预测准确性。 - R2D2模型结合物理与AI优势,提升预测准确性且能高效推广至未见过的情景。 - 详情链接: [https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/](https://research.google/blog/zooming-in-efficient-regional-environmental-risk-assessment-with-generative-ai/) 10. **Gartner预测生成AI应用将实现50%的交付时间缩减** - Gartner预测到2028年,80%的生成AI商业应用将在现有数据管理平台上开发,交付时间缩短50%。 - 检索增强生成(RAG)将成为开发生成AI应用的重要基础,提供灵活性和可解释性。 - 企业应评估现有平台的转型潜力,整合RAG技术并利用元数据保护安全。

8分钟
99+
6个月前

AI日报】EP.164 6月12 夸克发布首个高考志愿大模型;Trae月活跃用户破100万

Aishaobing的个人播客

### AI日报 1. **夸克发布首个高考志愿大模型** - 夸克APP推出高考志愿大模型及专业高考知识库,帮助考生科学规划志愿。 - 提供智能选志愿功能,支持多种梯队填报策略。 - 定制专属志愿报告,包含策略、志愿表及院校专业推荐说明。 2. **Manus推出免费无限聊天模式** - Manus AI推出免费聊天模式,支持即时问答和复杂任务。 - 已吸引超200万用户,计划拓展日本、中东市场,与阿里巴巴深化合作。 - 免费策略短期吸引用户,长期依赖订阅收入,盈利模式仍需探索。 3. **Trae月活跃用户突破100万** - 字节跳动开发的AI原生IDE Trae在短短几个月内取得了显著成就。 - 月活跃用户突破百万,累计帮助开发者交付超过60亿行代码。 - 国际版支持多模态功能,代码生成准确率达91%,开发效率提升400%。 4. **迪士尼和环球起诉Midjourney** - 迪士尼和环球影业指控Midjourney未经许可使用其影视内容训练AI模型。 - Midjourney被控无视停止侵权要求,继续侵犯知识产权。 - 诉讼可能影响生成式AI行业发展,平衡创新与版权保护成为重要议题。 5. **维基百科暂停AI摘要试点实验** - 维基百科因编辑反对暂停使用AI生成文章摘要的实验。 - 编辑担心AI生成摘要可能导致信息误导,引发信任危机。 - 尽管暂停,维基百科仍对AI技术在提升信息可及性方面抱有期待。 6. **360集团发布“纳米AI超级搜索智能体”** - 360集团推出内置80多款大模型的‘纳米AI超级搜索智能体’。 - 能精准解析用户意图,生成多样化搜索结果,并具备强大的信息整合能力。 - 支持跨平台搜索分析,生成详尽调研报告。 7. **PartCrafter颠覆建模流程** - PartCrafter项目利用单张RGB图像生成高精度、结构化的3D模型。 - 展示了AI在3D生成领域的巨大潜力,支持灵活部件编辑。 - 为游戏、VR、工业设计等领域带来全新可能。 8. **MCP图像下载服务Image Downloader** - MCP图像下载器是一款强大的工具,支持单张与批量下载、实时进度跟踪。 - 内置多种图片处理功能,包括格式转换、尺寸调整和压缩。 - 详情链接: [https://github.com/cced3000/mcp-image-downloader](https://github.com/cced3000/mcp-image-downloader) 9. **Meta发布全新AI视频编辑工具** - Meta推出了基于先进Movie Gen AI技术的全新短视频编辑功能。 - 用户可以通过更换服装、场景和风格等元素,利用超过50种预设效果。 - 自定义提示词功能即将上线,进一步提升视频编辑的灵活性和创造力。 10. **阿里工程师取消春节假期追赶DeepSeek** - 阿里巴巴工程师因中国AI公司DeepSeek的技术突破,取消春节假期全力投入AI研发。 - 推出通义系列模型,竞争力强,体现阿里巴巴快速响应能力。 - 未来三年投入超530亿美元,加速AI及AGI领域布局,提升全球竞争力。 11. **火山引擎发布智能解决方案平台PromptPilot** - PromptPilot是一个面向大模型的智能解决方案平台,致力于解决‘如何有效提问’这一关键难题。 - 提供从Prompt生成到优化的全生命周期解决方案,通过四大创新功能突破应用边界。 - 详情链接: [https://promptpilot.volcengine.com](https://promptpilot.volcengine.com) 12. **OpenAI与沙特和印度投资者探讨400亿美元融资事宜** - OpenAI正与沙特阿拉伯公共投资基金(PIF)、印度信实集团等洽谈高达400亿美元的融资事宜。 - 发布新一代推理模型o3-pro,并调整了API定价策略。 - 计划到2027年再融资170亿美元,显示其扩张意图和市场雄心。

8分钟
99+
6个月前

【AI日报】EP.164 6月12 豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%

Aishaobing的个人播客

### AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线 1. **火山引擎正式发布豆包大模型1.6和Seedance1.0pro视频生成模型** - 豆包大模型1.6在功能和性能上均有显著提升,采用统一定价模式,大幅降低使用成本。 - Seedance1.0pro在文生视频和图生视频领域表现出色,提供“边想边搜”和“DeepResearch”功能,大幅提升工作效率。 2. **OpenAI推出o3-pro AI模型** - o3-pro提供高可靠性与精准度,适合复杂问题处理,但响应速度较慢且成本较高。 - 支持多种工具功能,如网页搜索、文件分析、视觉输入推理等,但尚不支持图像生成。 3. **Figma官方MCP重磅上线** - Figma推出了Dev Mode MCP服务器的Beta版,通过标准化协议将设计数据直接传递给AI编码工具,显著提升设计到代码的转换效率与准确性。 - MCP作为‘USB-C接口’,提高代码输出保真度和一致性,促进设计与开发深度融合。 - 详情链接: [Figma Blog](https://www.figma.com/blog/introducing-figmas-dev-mode-mcp-server/) 4. **Krea1发布,免费试用解锁无限创意** - Krea1通过技术创新实现高度逼真的纹理和多样化风格表达,适用于各种创作需求。 - 支持风格参考和定制化训练,用户可上传样本或数据集生成符合特定审美的图像。 - 提供免费测试版,降低技术门槛,让设计师和普通用户轻松体验AI艺术创作。 5. **火山引擎豆包日调用量突破16.4万亿,市占率高达46.4%** - 截至2025年5月底,豆包大模型的日均tokens调用量达16.4万亿,较初期增长137倍。 - 火山引擎占据国内46.4%的大模型市场份额,位居榜首。 - 未来将加大研发投入,推动AI能力更广泛地融入企业业务。 6. **法国AI实验室Mistral发布全新推理模型Magistral** - Magistral推出推理模型系列,Small已开放下载,Medium处于预览阶段。 - 支持多语言,答题速度快,适用于多种企业应用场景。 - 详情链接: [Mistral AI News](https://mistral.ai/news/magistral) 7. **苹果新系统引入ChatGPT,图乐园支持吉卜力风格AI生图** - 苹果在iOS26、iPadOS26和macOS26系统中升级了图乐园功能,整合了ChatGPT的图像生成能力,新增多种艺术风格如吉卜力动漫风格。 - 用户可通过文本描述或照片生成图像,但生成速度较慢且有内容限制,免费用户生成次数有限。 8. **OpenAI放大招!o3价格暴降80%,o3-pro强势上线** - o3模型价格下调80%,现价格与GPT-4相当甚至更低,大幅降低开发者成本。 - 新推出的o3-pro模型针对高可靠性需求,定价合理,已在ChatGPT Pro和Team用户中上线。 - 详情链接: [OpenAI Platform](https://platform.openai.com/docs/models/o3) 9. **Hugging Face发布开放权重模型贡献榜:中国团队Qwen与DeepSeek跻身TOP15** - 阿里云支持的Qwen团队凭借Qwen3系列模型在指令跟随和代码生成任务中的卓越表现,位列开源大语言模型前列。 - DeepSeek以高性能低成本的R1系列模型闻名,并在特定领域展现竞争优势。 - 详情链接: [Hugging Face Model Release Heatmap](https://huggingface.co/spaces/cfahlgren1/model-release-heatmap) 10. **阿里开源MaskSearch!AI学会主动搜索+多步推理,复杂问题精准破解** - MaskSearch通过检索增强掩码预测(RAMP)和强化学习技术,显著提升AI在复杂问题解决中的表现。 - DAPO算法结合格式奖励与回答奖励,优化AI生成答案的准确性和逻辑性。 - 完全开源,支持多种模型,推动智能搜索与推理技术在教育、医疗等领域的广泛应用。 - 详情链接: [GitHub MaskSearch](https://github.com/Alibaba-NLP/MaskSearch)

6分钟
99+
6个月前

【AI日报】EP.163 6月11 双人版

Aishaobing的个人播客

**AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能** 1. **美团王兴详解AI布局:No Code平台免费开放,1680个应用已上线** - 美团创始人王兴在北京美团总部的股东大会上系统阐述了公司的AI战略布局。 - No Code平台让非技术人员也能编程,目前已有1680个应用上线且免费使用。 - AI技术在提升外卖配送效率方面已见成效。 - 网址:[https://nocode.cn/](https://nocode.cn/) 2. **豆包App“一句话P图”功能全新升级** - 豆包App通过SeedEdit3.0模型升级,推出“一句话P图”功能,支持文字添加、风格迁移和局部调整。 - 新增质感风格迁移功能,提供分局部图像编辑增强。 3. **苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能** - Xcode 26新增了AI功能如ChatGPT集成,支持语音控制Swift代码编写。 - 引入Foundation Models框架,简化AI功能集成到应用中的过程。 4. **苹果WWDC2025:iOS 26升级视觉智能,AI助力屏幕内容识别** - iOS 26推出视觉智能功能,通过AI助手ChatGPT实现对屏幕内容的精准识别与操作。 - 支持与ChatGPT等AI助手交互,自动提取事件信息并建议添加至日历。 5. **科大讯飞董事长刘庆峰揭晓:讯飞星火X1升级版即将来袭,性能更强大** - 讯飞星火X1升级版将于7月发布,优化智能应用能力。 - 在高考科目测试中表现出色,涉及数学、逻辑推理、文本生成等领域。 - 参数少一倍,但性能媲美顶级AI模型如OpenAI o1和DeepSeek R1。 6. **比亚迪接入阿里通义大模型,智能座舱再升级** - 比亚迪智能座舱接入阿里通义大模型,用户可一句话完成在线服务。 - 推出“AI壁纸”功能,根据语音指令生成高质量壁纸并自动调节色调。 - 上线“心理伴聊”功能提供情感支持。 7. **DeepSeek R1-0528在OpenRouter支持本地工具调用** - DeepSeek R1-0528模型更新后支持OpenRouter上的本地工具调用。 - 性能在多个基准测试中表现优异,推出轻量级版本DeepSeek-R1-0528-Qwen3-8B。 8. **支持MCP!开源智能体开发框架Rowboat:打造你的智能助手只需几分钟** - Rowboat是一个开源多智能体开发框架,支持MCP和OpenAI Agent SDK,GitHub星标超2000。 - 框架包含Agent、Playground和Co-pilot模块,支持多智能体协作。 - 详情链接:[https://github.com/rowboatlabs/rowboat?tab=readme-ov-file](https://github.com/rowboatlabs/rowboat?tab=readme-ov-file) 9. **Grok AI深度融入X算法:小创作者迎来春天** - X平台推荐算法整合Grok AI技术,优化内容体验,为小型账户提供更多曝光机会。 - Grok AI自动调整评论排序,优先展示高价值和相关性评论。 10. **小模型逆袭!港科大快手联手打造进化搜索技术,让AI作画告别大力出奇迹** - EvoSearch技术通过引入进化论思想,使小参数模型在生成高质量图片和视频方面超越大模型。 - 详情链接:[https://tinnerhrhe.github.io/evosearch/](https://tinnerhrhe.github.io/evosearch/) 11. **硅基流动完成数亿元融资,用户数突破600万** - 硅基流动完成数亿元A轮融资,推出高性能推理引擎和一站式异构算力纳管平台。 - 用户数突破600万,成为国内增长最快的第三方大模型云服务平台。 12. **英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超84倍** - 香港大学与英伟达合作开发的广义空间传播网络(GSPN)大幅提升高分辨率图像生成速度。 - 详情链接:[https://whj363636.github.io/GSPN/](https://whj363636.github.io/GSPN/)

6分钟
99+
6个月前

【AI日报】EP.163 6月11 美团No Code平台免费开放;豆包App升级“一句话P图”功能

Aishaobing的个人播客

**AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能** 1. **美团王兴详解AI布局:No Code平台免费开放,1680个应用已上线** - 美团创始人王兴在北京美团总部的股东大会上系统阐述了公司的AI战略布局。 - No Code平台让非技术人员也能编程,目前已有1680个应用上线且免费使用。 - AI技术在提升外卖配送效率方面已见成效。 - 网址:[https://nocode.cn/](https://nocode.cn/) 2. **豆包App“一句话P图”功能全新升级** - 豆包App通过SeedEdit3.0模型升级,推出“一句话P图”功能,支持文字添加、风格迁移和局部调整。 - 新增质感风格迁移功能,提供分局部图像编辑增强。 3. **苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能** - Xcode 26新增了AI功能如ChatGPT集成,支持语音控制Swift代码编写。 - 引入Foundation Models框架,简化AI功能集成到应用中的过程。 4. **苹果WWDC2025:iOS 26升级视觉智能,AI助力屏幕内容识别** - iOS 26推出视觉智能功能,通过AI助手ChatGPT实现对屏幕内容的精准识别与操作。 - 支持与ChatGPT等AI助手交互,自动提取事件信息并建议添加至日历。 5. **科大讯飞董事长刘庆峰揭晓:讯飞星火X1升级版即将来袭,性能更强大** - 讯飞星火X1升级版将于7月发布,优化智能应用能力。 - 在高考科目测试中表现出色,涉及数学、逻辑推理、文本生成等领域。 - 参数少一倍,但性能媲美顶级AI模型如OpenAI o1和DeepSeek R1。 6. **比亚迪接入阿里通义大模型,智能座舱再升级** - 比亚迪智能座舱接入阿里通义大模型,用户可一句话完成在线服务。 - 推出“AI壁纸”功能,根据语音指令生成高质量壁纸并自动调节色调。 - 上线“心理伴聊”功能提供情感支持。 7. **DeepSeek R1-0528在OpenRouter支持本地工具调用** - DeepSeek R1-0528模型更新后支持OpenRouter上的本地工具调用。 - 性能在多个基准测试中表现优异,推出轻量级版本DeepSeek-R1-0528-Qwen3-8B。 8. **支持MCP!开源智能体开发框架Rowboat:打造你的智能助手只需几分钟** - Rowboat是一个开源多智能体开发框架,支持MCP和OpenAI Agent SDK,GitHub星标超2000。 - 框架包含Agent、Playground和Co-pilot模块,支持多智能体协作。 - 详情链接:[https://github.com/rowboatlabs/rowboat?tab=readme-ov-file](https://github.com/rowboatlabs/rowboat?tab=readme-ov-file) 9. **Grok AI深度融入X算法:小创作者迎来春天** - X平台推荐算法整合Grok AI技术,优化内容体验,为小型账户提供更多曝光机会。 - Grok AI自动调整评论排序,优先展示高价值和相关性评论。 10. **小模型逆袭!港科大快手联手打造进化搜索技术,让AI作画告别大力出奇迹** - EvoSearch技术通过引入进化论思想,使小参数模型在生成高质量图片和视频方面超越大模型。 - 详情链接:[https://tinnerhrhe.github.io/evosearch/](https://tinnerhrhe.github.io/evosearch/) 11. **硅基流动完成数亿元融资,用户数突破600万** - 硅基流动完成数亿元A轮融资,推出高性能推理引擎和一站式异构算力纳管平台。 - 用户数突破600万,成为国内增长最快的第三方大模型云服务平台。 12. **英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超84倍** - 香港大学与英伟达合作开发的广义空间传播网络(GSPN)大幅提升高分辨率图像生成速度。 - 详情链接:[https://whj363636.github.io/GSPN/](https://whj363636.github.io/GSPN/)

8分钟
89
6个月前

【AI日报】EP.162 6月10 通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线

Aishaobing的个人播客

**AI日报** 1. **通义千问3大模型全球爆火** - 开源一个月内,全球下载量突破1250万次。 - Hugging Face平台上衍生模型数量超过13万个,跃居全球第一。 2. **即梦图片3.0智能参考全量上线** - 一键生成影视级海报,降低设计门槛。 - 支持多场景应用,保留细节精准,成本低,效率高。 3. **智谱AI企业级超级助手Agent CoCo正式上线** - 以交付为导向,全流程辅助工作。 - 引入独特记忆机制,提供个性化服务,主动跟踪行业动态。 - 无缝嵌入企业系统,融合已有资源,打造专属智能助手。 - 详情链接: [https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609](https://aiworker.aminer.cn/ai_worker/verification?utm_source=zhipuai_social&utm_medium=wechat&utm_campaign=p250609) 4. **百度推出金融行业大模型** - 百度智能云发布千帆慧金大模型,专为金融行业设计。 - 与65%的央企合作,证明技术受到市场广泛认可。 - 智能体成为AI竞争新焦点,助力企业数字化转型。 5. **小红书发布首个开源大模型dots.llm1** - 具有1420亿参数的专家混合模型。 - 使用11.2万亿非合成高质量数据,在中文测试中表现优异。 - 详情链接: [https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main](https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main) 6. **Hugging Face LeRobot重磅开源** - 提供高效、易用的机器人AI开发平台。 - 统一接口适配多款硬件,内置海量预训练模型。 - 智能评估与高效训练功能,加速开发进程。 - 详情链接: [https://github.com/huggingface/lerobot](https://github.com/huggingface/lerobot) 7. **ChatGPT语音功能升级** - 语音更自然流畅,情感表达更丰富。 - 新增实时翻译功能,支持多语言对话。 - 存在音频质量波动和无故生成奇怪声音的问题。 8. **谷歌Gemini应用月下载量超越ChatGPT** - 全球Android下载量每周达到600万以上。 - 用户活跃度仅为4.9%,远低于ChatGPT的42.52%。 - 需提升用户日常活跃度,确保市场竞争力。 9. **文档解析LLM MonkeyOCR震撼登场** - 以3B参数量在英文文档解析任务中表现出色。 - 解析速度达0.84页/秒,采用创新的‘结构-识别-关系’三元组范式。 - 详情链接: [https://arxiv.org/abs/2506.05218](https://arxiv.org/abs/2506.05218) 10. **Google Veo3 FAST/TURBO模式上线** - 五倍性价比优势,大幅降低视频生成成本。 - 支持原生音频生成,实现音画同步。 - 适合从社交媒体到专业领域的多样化需求。 11. **Google AI Studio政策变动** - 停止向免费用户提供Gemini2.5Pro系列模型的调用权限。 - 当前免费用户仍能使用Gemini2.0系列模型,但性能有限。

6分钟
99+
6个月前

【AI日报】EP.161 6月7 通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0

Aishaobing的个人播客

【AI日报】通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型 1、**通义千问正式发布Qwen3-Embedding系列模型** - Qwen3-Embedding系列基于Qwen3基础模型,提供从0.6B到8B参数规模的三种配置。 - 支持超过100种语言,具备强大的多语言、跨语言及代码检索能力。 - 在MTEB多语言榜单中得分70.58,性能超越众多商业API服务。 详情链接: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48 2、**字节跳动发布图像编辑模型SeedEdit 3.0细节保持能力进一步提升** - SeedEdit 3.0通过多样化数据融合和专用奖励模型,大幅提升图像编辑保持效果。 - 支持4K分辨率编辑,处理复杂场景如人像、光影变换时展现强大细节处理能力。 - 推理加速至10秒级,23类编辑任务评测领先,可用率提升至56.1%。 详情链接: https://seed.bytedance.com/seededit 3、**地表最强AI语音来了! Eleven v3 Alpha版震撼发布** - Eleven v3 Alpha版引入音频标签,可精确控制情感、语速并添加音效,使语音更真实且富有表现力。 - 支持70多种语言,具备多角色对话能力,适用于影视配音、教育及客户服务等多场景。 - 技术升级后,文本理解与对话生成能力显著提升,自动标签功能简化创作流程。 4、**Anthropic发布专为国家安全定制的AI模型Claude Gov** - Claude Gov模型套件专为国家安全机构设计,提升涉密材料处理能力。 - 产品获亚马逊和谷歌支持,仅限最高安全许可机构使用。 - Anthropic面临Reddit提起的法律诉讼,指控其未经授权使用用户数据训练模型。 5、**可灵AI月度付费金额连续两个月超1亿元,用户规模破2200万** - 可灵AI年化收入运行率突破1亿美元,仅10个月达成。 - P端付费订阅会员贡献近70%营业收入。 - 全球用户规模突破2200万,为企业客户提供API服务。 6、**Meta发布Aria Gen2技术细节:四摄像头加持,续航8小时挑战苹果Vision Pro** - Aria Gen2研究眼镜在硬件设计、传感器技术和AI处理能力等方面全面升级。 - 四摄像头加持,全局快门传感器解决运动失真问题,深度测量精度显著提高。 - 新增接触式麦克风,鼻托内置结构声传导技术,嘈杂环境下仍能清晰拾音。 - AI处理能力大幅增强,支持六自由度位置追踪、眼动追踪及3D手部追踪。 7、**爱诗科技PixVerse国内版“拍我AI”正式上线** - 拍我AI通过AI特效和WoW发射器助力用户轻松创作个性化视频内容。 - 国内版支持V4.5版本,提供便捷的视频生成解决方案,满足多种需求。 - 拍我AI开放平台与多家头部企业合作,为企业用户提供高效视频生成工具。 详情链接: https://pai.video 8、**富国银行大胆预测:2030年ChatGPT广告收入将达千亿美元** - 到2030年,ChatGPT预计占据全球搜索广告市场30%份额,年收入接近1000亿美元。 - 目前,谷歌在搜索广告领域占据超90%市场份额,但预计到2030年将降至约60%。 - ChatGPT的商业化进程可能受到与手机制造商合作及反垄断裁决的推动。 9、**王自如感谢董明珠雷军将以AI测评UP主身份二次创业** - 6月6日,王自如的B站账号复更并更名为‘王自如AI’,开启AI测评UP主的二次创业。 - 他曾在格力重塑销售体系,得益于董明珠和雷军的鼓励,怀揣理想继续前行。 - 选择AI领域创业是因为看到其巨大潜力,认为能快速获得回报。 10、**智源发布RoboOS2.0与RoboBrain2.0:首个支持MCP机制的机器人** - RoboOS2.0是首个支持MCP机制的机器人操作系统,降低开发门槛并提升多机器人协作能力。 - RoboBrain2.0任务规划准确率提升74%,在空间推理与智能调度方面表现卓越。 - 已与多家企业合作,共同构建开放、协同的智能机器人生态体系。 11、**谷歌重磅新作! Portraits让你与虚拟专家对话** - Portraits是一款基于AI技术的创新产品,用户能与虚拟专家实时互动学习沟通与领导力等技能。 - 沉浸式对话学习体验,AI驱动个性化学习,动态调整内容确保针对性。 - 应用场景广泛,从职场到教育,助力个人与职业发展。 12、**OpenAudio发布开源TTS模型S1-Mini: 0.5B参数打造超自然AI语音** - S1-Mini基于S1模型的轻量化版本,参数仅0.5B,却具备高表现力和多语言支持。 - 开源后大幅降低开发门槛,为教育、娱乐等领域带来创新可能。 - 支持14种语言与50+情感表达,性能媲美行业巨头。 详情链接: https://huggingface.co/fishaudio/openaudio-s1-mini 13、**AI驱动本地视频编辑工具Diffusion Studio Pro** - Diffusion Studio Pro结合了CapCut和Cursor的优势,提供多模态AI赋能的非线性编辑体验。 - 内置智能代理侧边栏实现自动化工作流,显著提升创作效率。 - 本地优先设计保护隐私,免费无限层级模式吸引独立创作者和小型团队。 14、**智源研究院推出Emu3等‘悟界’系列大模型** - ‘悟界’系列大模型包括Emu3、见微Brainμ、RoboOS2.0、RoboBrain2.0和OpenComplex2。 - Emu3作为原生多模态世界模型,整合视觉、听觉和触觉数据,提升机器对世界的理解能力。 - 见微Brainμ结合神经科学成果,为机器智能发展提供生物学支持。 - RoboOS2.0和RoboBrain2.0推动具身智能协作框架,加速机器人技术进步。 15、**Luma Labs发布Modify Video: AI视频后期一键改风格、换场景** - Modify Video工具利用AI技术简化视频后期制作,实现风格重塑、场景替换等功能。 - 通过文本改变视频艺术风格,将背景换为新的场景,增强视觉效果。 - 调整人物外观和表演,无需重新拍摄。

9分钟
99+
6个月前

【AI日报】EP.160 6月6 ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布

Aishaobing的个人播客

### AI日报新闻提要 1. **ChatGPT推出MCP支持与会议记录功能** - 支持Model Context Protocol (MCP),实现私域知识的智能检索与分析。 - 新增会议记录模式,自动转录会议内容并生成关键要点和行动计划。 - 与微软Azure合作,增强企业场景中的安全性和可扩展性。 2. **Cursor 1.0正式发布** - BugBot自动化代码审查与修复,减少手动审查时间,提升团队协作效率。 - Background Agent提供流畅远程编码体验,优化多设备开发一致性。 - 新增Jupyter支持与Memories功能,助力数据科学与项目管理。 - 详情链接: [https://www.cursor.com/changelog](https://www.cursor.com/changelog) 3. **Midjourney视频功能即将上线** - 初期仅支持图像到视频转换,价格亲民,年度订阅用户优先体验。 - 服务器扩容加速,支持视频生成与模型优化,确保流畅用户体验。 - 风格引用功能升级,提升准确性并新增随机风格生成,提供更多创意选择。 4. **秘塔AI搜索“今天学点啥”新增PPT导出功能** - 用户可在视频讲解页面点击‘导出PPT’按钮下载包含图文、语音和逐字稿的完整PPT。 - 平台因算力限制,导出功能将在前三天免费,后续需消耗计算额度,注册用户有初始赠送额度。 - 功能上线源于用户反馈,体现了平台对用户需求的重视与快速响应能力。 5. **Manus推出‘文生视频’功能** - Manus发布‘文生视频’功能,支持Basic、Plus和Pro会员抢先体验。 - 最高Pro会员费用约1431元人民币。 - 推动AI视频创作普及,为内容创作者提供高效工具,加速行业创新与发展。 6. **法国AI巨头Mistral推出企业编码助手** - 提供本地部署和深度定制能力,确保代码安全不离开公司服务器。 - 通过垂直集成产品解决企业采用AI编码助手的关键障碍。 - 强大的开源Devstral模型,性能优越且适合企业级数据隐私需求。 7. **英伟达发布Llama Nemotron Nano VL AI** - 参数仅8B但性能卓越,支持多页文档、表格、图表等复杂场景。 - OCRBench v2测试中登顶,展现高精度和泛化能力。 - 灵活部署,支持从云端到边缘设备,开源且兼容多种框架。 - 详情链接: [https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1](https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1) 8. **腾讯公益首次引入AI大模型** - 用户可通过“问AI”功能即时获取腾讯公益项目信息,增强参与感。 - 腾讯与清华大学合作推出AI通识公益课程,惠及7000余名学生。 - 借助AI技术,公益项目效率提升,未来创新路径拓宽。 9. **Firecrawl /search API发布** - 一键搜索与抓取: 通过一次API调用,无需手动解析复杂搜索结果,快速获取网页完整内容。 - 多格式输出: 支持Markdown、HTML、纯链接和截图,满足不同AI模型的数据需求。 - 社区驱动: 开源工具,GitHub获超10K Star,提供Python和Node.js SDK,降低开发门槛。 - 详情链接: [https://github.com/mendableai/firesearch](https://github.com/mendableai/firesearch) 10. **Bland TTS一键克隆任意人声** - 仅需一段短音频即可精准克隆任意人声,大幅降低技术门槛。 - 引入上下文学习,根据语义动态调整语气和情感,提升自然度。 - 支持音效生成,扩展至多维度声音创作,增强沉浸式体验。 - 详情链接: [https://bland.com/enterprise](https://bland.com/enterprise) 11. **Mary Meeker最新报告:AI训练成本逼近百亿美元,推理成本暴跌99%** - 训练成本指数级增长,形成头部玩家才能参与的军备竞赛,将大量中小型企业挤出赛道。 - 推理成本因硬件迭代雪崩式下降,推动AI应用大规模普及,降低开发者创新门槛。 - AI行业面临烧钱与构建技术壁垒的平衡挑战,网络效应成为可持续盈利的关键。 12. **Jaaz开源AI设计Agent** - Jaaz通过简单API配置实现批量图像生成,适合快速生成大量视觉内容。 - 当前版本API支持有限,但开源特性为未来扩展提供了可能。 - 未来可扩展为全能型创意平台,满足多样化需求。 - 详情链接: [https://github.com/11cafe/jaaz](https://github.com/11cafe/jaaz) 13. **《逆水寒》手游与可灵AI合作,上线“图生动图”玩法** - 玩家可轻松创作个性化动图,提升游戏趣味性。 - 支持双人互动,创造温馨有趣的亲密场景。 - 动图生成为付费服务,费用依品质与时长而定。

9分钟
99+
6个月前

【AI日报】EP.159 6月5 ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型

Aishaobing的个人播客

**AI日报:ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能** 1. **OpenAI宣布免费向所有ChatGPT用户开放记忆功能** - OpenAI更新支持文档,宣布将记忆功能免费向所有ChatGPT用户开放,包括登录的免费用户,提升个性化对话体验。 - 记忆功能支持短期对话连续性,免费用户可体验基础版本。 - 付费用户可引用更久远对话记录,享受更高便捷性和深度互动。 - 用户可管理记忆设置,随时关闭或删除特定记忆内容,保护隐私。 2. **蚂蚁集团推出“AI健康管家”,4000万用户享受智能健康服务** - “AI健康管家”通过信通院医疗健康行业大模型可信评估,成为首批通过评估的产品之一。 - 已服务超4000万用户,60多位知名医生AI智能体入驻。 - 提供预约医生、健康评估、医疗报告解读等个性化服务。 3. **Anthropic开设一门关于使用MCP构建AI应用程序的免费课程** - Anthropic与DeepLearning.AI合作推出免费课程‘MCP: 使用模型上下文协议构建富上下文AI应用’。 - 课程涵盖MCP核心概念、架构及实践项目,帮助开发者快速上手并构建智能AI应用。 - MCP开源且支持多种工具和数据源集成,推动AI开发标准化与跨领域融合。 - [详情链接](https://www.deeplearning.ai/short-courses/mcp-build-rich-context-ai-apps-with-anthropic/) 4. **谷歌DeepMind推出新技术: 无3D模型也能生成真实运动视频** - DeepMind团队与布朗大学合作开发了‘力提示’技术,无需3D模型和物理引擎即可生成逼真的运动效果。 - 用户通过指定力的方向和强度就能操控AI生成的视频内容。 - 模型具备强大泛化能力,能适应新场景和物体,甚至掌握部分物理规则。 - [详情链接](https://force-prompting.github.io/) 5. **Exa联手OpenRouter解锁400+AI模型的网络搜索功能** - Exa与OpenRouter合作,为超过400种大语言模型提供实时网络搜索功能。 - 基于RAG技术,模型能动态获取最新网络信息,突破传统知识更新局限。 - 开发者可通过OpenRouter灵活调用,降低开发成本,拓展AI应用场景。 6. **中国知网推出CNKI AI** - 中国知网推出了基于人工智能技术的全新探索成果—CNKI AI。 - 提供问答式增强检索和生成式知识服务,助力学术研究和科技创新。 - 高质数据与可信可控特性确保服务高效、精准且可靠。 - 双路检索与段落检索提升查全查准率,满足多样化需求。 - [详情链接](https://www.wjx.cn/vm/eikFgVh.aspx) 7. **Anthropic推出Claude Explains博客项目,探索AI与人类专家协作新模式** - Anthropic推出了名为‘Claude Explains’的博客项目,展示其AI模型Claude在内容创作中的能力。 - 博客内容由Claude AI生成并经人类专家编辑,首批文章聚焦技术主题,未来计划扩展至更多领域。 8. **Claude Pro升级重磅功能: 研究模式与远程MCP整合全面开放** - Anthropic宣布Claude Pro新增研究模式和远程MCP整合功能,提升AI助手的实用性和生产力。 - 研究模式将复杂研究任务从小时级压缩到分钟级,大幅提升效率。 - 远程MCP整合功能使Claude Pro用户能无缝连接多种工具,简化跨平台协作。 9. **Fish Audio推出OpenAudio S1: 200万小时数据驱动的超自然语音模型** - OpenAudio S1基于200万小时音频训练,支持多样语言风格与情感表达。 - 提供S1(40亿参数)和S1-mini(5亿参数)两种版本,满足不同场景需求。 - 使用RLHF技术,生成情感化语音,提升用户体验并降低成本。 10. **OpenAI Codex升级: 语音输入和联网功能助力编程更智能** - OpenAI对其编程工具Codex进行了全面升级,新增了语音输入和联网能力。 - 新增联网功能,Codex可自动完成环境配置、代码检查和测试。 - 语音输入功能让开发者能更自然地传达指令,提高工具易用性。 - Codex现向ChatGPT Plus用户开放,降低使用门槛,让更多开发者受益。 11. **OpenAI升级AI智能体开发工具,支持TypeScript、改进语音对话** - Agents SDK增加了对TypeScript的支持,使JavaScript和Node.js开发者也能参与智能体开发。 - RealtimeAgent功能支持低延迟语音应用,可暂停执行并手动确认智能体状态。 - 优化语音对语音模型,降低延迟、提高对话自然性与中断处理能力。 12. **华为WATCH 5智能手表接入双大模型,运动健康体验全面升级** - 华为正式发布WATCH 5智能手表,通过接入盘古大模型和DeepSeek大模型,在语音交互、健康监测及生态互联方面实现突破性提升。 - WATCH 5支持双AI大模型,语音交互更便捷且健康数据分析更精准。 - 腕上小艺功能可分析20+运动与健康领域近200项指标,提供个性化指导。 - 支持生态互联,兼容华为设备及其他第三方健康管理平台,助力全面健康生活。 13. **DeepSeek可能使用了Google Gemini数据训练新AI模型** - DeepSeek最近发布的R1推理AI模型更新版在多项基准测试中表现出色,但其训练数据来源引发争议。 - 多位开发者指出DeepSeek模型与Google Gemini系列有相似之处。 - OpenAI发现DeepSeek可能通过“数据蒸馏”技术获取训练数据,违反了相关规则。 14. **松下推出“OmniFlow”多模态生成AI实现文本、图像与音频的自由转换** - 松下控股公司联合UCLA研究人员开发了名为“OmniFlow”的多模态生成AI。 - 创新技术‘OmniFlow’支持文本、图像、音频自由转换,大幅提升多模态生成AI的应用潜力。 - 数据需求低至传统方法的1/60,显著降低数据采集成本,优化模型训练效率。 - 在文本转图像和文本转音频任务中表现最优,展现最佳性能,未来有望应用于工厂与生活方式领域。

7分钟
99+
6个月前

【AI日报】EP.158 5月31 阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源

Aishaobing的个人播客

### AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext **1、阿里云通义灵码AI IDE正式上线,带来编程新体验** - 阿里云推出了通义灵码AI IDE,这款深度适配千问3的人工智能开发环境具备强大的编程智能体模式、长期记忆和行间建议预测功能。 - 提供行间对话功能,显著提升开发效率,已成为国内最受欢迎的编程辅助工具之一。 - 详情链接: https://github.com/Alibaba-NLP/WebAgent **2、小米多模态大模型Xiaomi MiMo-VL开源** - MiMo-VL-7B在多项多模态任务中表现出色,参数量仅为7B却超越了更大规模的闭源模型。 - 通过高质量预训练数据和混合在线强化学习算法,在图片、视频、语言等多任务上展现了卓越的通用性。 - 详情链接: https://huggingface.co/XiaomiMiMo **3、黑森林实验室推出FLUX.1Kontext: 可通过文本和参考图像对图像进行多次修改** - FLUX.1Kontext是一款强大的图像生成模型,支持文本和参考图像的多次编辑,具有角色一致性、局部编辑、风格参考和低延迟等特性。 - 作为流模型,可从现有图像出发,通过简单文本指令实现即时灵活编辑。 - 详情链接: https://bfl.ai/announcements/flux-1-kontext **4、Midjourney V7重磅更新: 渲染速度飙升40%,新增用户投票决定功能开发** - Midjourney V7版本带来了多项重大更新,包括渲染速度提升40%、AI版主功能升级以及开启第二轮社区路线图投票活动。 - 这些更新不仅提高了工作效率,还增强了用户的创作体验。 - 详情链接: https://midjourney.com/ideas **5、DeepSeek成为世界前二AGI实验室** - DeepSeek R1-0528在技术性能和开源权重领域取得重大突破,超越xAI、Meta和Anthropic,与谷歌并列第二。 - 智能指数得分从60跃升至68,进步幅度媲美OpenAI o1到o3模型。 **6、Hugging Face进军人形机器人市场: 推出售价3000美元的开源机器人HopeJR** - Hugging Face通过发布两款开源人形机器人HopeJR和Reachy Mini,正式进军机器人硬件领域,旨在打破大科技公司在机器人技术上的垄断。 - 机器人开源且价格实惠,避免机器人技术被少数大公司掌控。 **7、字节跳动火山方舟正式接入DeepSeek-R1-0528版本** - 火山方舟平台已接入最新版DeepSeek-R1-0528大模型,其高性能服务体系和丰富功能为企业和开发者带来了高效便捷的应用体验。 - 提供包括Function Call、联网等功能支持,覆盖多元应用场景,满足高并发需求。 **8、Anthropic重磅开源! ‘电路追踪’工具解锁AI大脑,揭秘大模型决策全过程** - Anthropic发布了名为‘电路追踪’的开源工具,通过生成归因图展示大语言模型的内部决策路径,提升对AI决策机制的理解,并推动AI技术的透明化发展。 **9、阿里巴巴开源自主搜索AI智能体WebAgent 让研究更高效** - WebAgent能够模拟人类行为在网络环境中主动搜索、分析和决策,极大提升信息检索效率。 - 通过WebDancer和WebWalker两大模块实现复杂信息检索,其中WebDancer采用创新算法显著提高数据效率和策略鲁棒性。 - 详情链接: https://github.com/Alibaba-NLP/WebAgent **10、Hume发布语音语言模型Hume EVI3: 低延迟、高情感** - Hume公司发布了全新的语音语言模型EVI3,它在语音生成方面具有低延迟和高情感表现力的特点,为语音交互带来了革命性进步。 - 详情链接: https://demo.hume.ai **11、Manus Slides重磅发布: 一键生成专业幻灯片** - Manus推出全新功能Manus Slides,通过单一提示词快速生成结构化幻灯片,适用于多种场景,大幅提升演示文稿创作效率。 **12、手机照片一键变艺术! Runway Gen-4References解锁相机胶卷新玩法** - Runway公司的Gen-4References功能现已支持移动设备,用户可以通过手机上传照片并结合自然语言提示生成风格一致的艺术作品,极大提升了创作便捷性和多样性。

9分钟
99+
6个月前

【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI

Aishaobing的个人播客

**AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线** 1. **DeepSeek R1-0528震撼发布** - 支持128K超大上下文,推理能力和代码生成能力大幅提升,且保持免费使用。 - 适合复杂任务,文本召回测试准确度显著提升。 - 代码生成与写作能力优化,媲美顶级模型。 - 免费开放策略降低使用门槛,挑战传统AI商业模式。 - 详情链接: <https://huggingface.co/deepseek-ai/DeepSeek-R1-0528> 2. **字节发布图像Agent“小云雀AI”** - 通过简单的指令快速生成高质量的视频和图片,降低内容创作的技术门槛。 - 用户只需一句指令,‘小云雀AI’就能主动思考并生成爆款视频与图片。 - 基于自研‘云雀’大模型,融合深度学习与多模态技术。 - 当前已上线安卓客户端,iOS版本预计6月发布。 3. **可灵2.1重磅上线** - 价格大幅降低65%,性价比显著提升。 - 新增标准版、高品质版与大师版三种模型,满足不同用户需求。 - 生成效果优于前版本,速度更快,适合短视频和广告制作。 4. **全球首款AI代理浏览器Opera Neon发布** - 通过AI驱动的智能聊天、任务自动化及内容创作功能,重新定义了网络体验。 - 能主动执行搜索、表单填写、购物等任务,提升用户效率。 - 内置AI助手Neon Chat支持多语言交互,提供上下文相关答案。 - 详情链接: <https://www.operaneon.com/> 5. **Meta发布Multi-SpatialMLLM** - 通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型的空间理解能力。 - 利用MultiSPA数据集及五项任务训练,大幅提升了多帧空间推理能力。 - 在多项基准测试中表现出色,超越传统模型。 6. **通义实验室、北大发布新技术ZeroSearch** - 通过模拟搜索引擎激活大语言模型的检索能力,大幅降低训练成本达88%。 - 采用结构化训练模板和“模拟微调”策略,提升生成文档质量及模型泛化能力。 - 实验表明,ZeroSearch性能优于传统方法,尤其在大规模模型中表现更佳。 - 详情链接: <https://arxiv.org/pdf/2505.04588> 7. **字节推出全新AI剪辑应用“剪小映”** - 主打AI视频剪辑,降低创作门槛,让用户轻松制作高质量视频。 - 集成AI技术,鼓励用户分享生活。 - 火山引擎豆包大模型为应用提供强大支持,提升视频处理效率。 8. **MotionPro炸场! AI视频生成革命来袭** - 通过区域轨迹和运动掩码技术实现精细化控制,为视频生成带来灵活性和精确性。 - 同时控制物体与镜头运动,无需特定数据集,支持复杂镜头和物体轨迹的精准生成。 - 开源生态支持,提供优化的训练框架和数据构建工具。 - 详情链接: <https://huggingface.co/papers/2505.20287> 9. **马斯克的xAI与Telegram达成3亿美元合作协议** - xAI支付3亿美元部署Grok AI聊天机器人,提升Telegram用户体验并增加收入。 - Grok AI将提升Telegram用户交流体验,提供智能化聊天服务。 - 合作将使Telegram盈利模式多样化,推动社交媒体智能化进程。 10. **OpenAI CFO透露重组新架构为未来可能的IPO打开大门** - OpenAI正在进行组织重组为IPO做准备,但上市时机取决于市场氛围。 - 微软投资超130亿美元,OpenAI转型公共利益公司平衡股东回报与社会责任。 - 稳定性是关键,上市需公司准备充分且市场窗口合适。 11. **像素蛋糕“方糖大模型”成功获批** - 通过国家网信办备案,成为影像行业首个获官方资质的应用级图像大模型。 - 自主研发彰显像素蛋糕在AI技术领域的实力与创新能力。 - 符合国家政策要求,确保用户使用环境的安全与可靠性。 12. **开源+低成本! Paper2Poster让学术论文秒变学术海报** - 将PDF论文自动转化为结构清晰、视觉友好的学术海报,效率远超传统手动方式。 - 生成一张海报仅需0.005美元,开源特性降低学术工具使用门槛。 - 发布100个论文-海报对的数据集,推动多模态内容生成领域规范化发展。 - 详情链接: <https://arxiv.org/abs/2505.21497> 13. **Resemble AI开源TTS Chatterbox** - 基于0.5B规模的LLaMA架构,训练数据超50万小时。 - 盲测中63.75%的听众更偏好其真实感和流畅度。 - 支持实时合成,延迟低于200ms,具备零样本语音克隆与情感夸张控制功能。 - 开源特性降低门槛,嵌入水印技术确保内容可追溯。 - 详情链接: <https://github.com/resemble-ai/chatterbox> 14. **蚂蚁集团开源Ming-lite-omni** - 220亿参数的多模态模型,具备强大能力。 - 模型权重和推理代码已向公众开放,促进开发者使用。 - 性能对标GPT-4o,成为开源多模态领域的重要选择。

9分钟
99+
6个月前

【AI日报】EP.157 5月29 腾讯语音数字人模型HunyuanVideo-Avatar,Trae国际版开启付费

Aishaobing的个人播客

**AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放** 1. **腾讯混元开源语音数字人模型HunyuanVideo-Avatar** - 腾讯发布的HunyuanVideo-Avatar模型可依据人物图像与音频生成自然数字人视频,适用于短视频创作、电商广告等领域。 - 创新性地根据图像和音频生成自然数字人视频,处于业内顶尖水平。 - 适用于短视频创作、电商广告等多领域,降低视频制作时间和成本。 - 支持多种风格场景,精准驱动角色与音频完美同步。 - 体验入口: [https://hunyuan.tencent.com/modelSquare/home/play?modelId=126](https://hunyuan.tencent.com/modelSquare/home/play?modelId=126) 2. **Trae国际版开启付费订阅模式** - Trae推出付费订阅,首月Pro订阅仅3美元,后续每月10美元或年付每月7.5美元,支持支付宝支付。 - 推出付费订阅模式,首月仅3美元,性价比高。 - 支持Claude4和Gemini2.5Pro等先进AI模型,优化AI上下文理解能力。 - 基于VS Code架构,支持无缝迁移插件和设置,多语言且界面直观。 3. **Claude网页搜索功能全面开放** - Anthropic宣布Claude网页搜索功能向免费用户开放,可获取实时网络信息并提供内联引用,提升信息查询能力。 - Claude网页搜索功能免费开放,用户可获取实时网络信息。 - 适用于多种场景,如销售分析、文献检索、产品比较等。 - 通过Brave Search提供结果,确保引用透明可靠。 4. **印度程序员冒充AI的初创公司Builder.ai破产** - Builder.ai因财务问题破产,烧光超5亿美元投资,背负巨额债务。 - 实际操作依赖大量人力,未实现AI驱动开发,开发工具效率低下。 - 事件引发对AI在软件开发中真实应用的反思。 5. **腾讯元宝再进化:AI直通微信读书、起点读书平台** - 腾讯元宝实现与微信读书、起点读书无缝连接,用户可直接跳转阅读。 - 腾讯元宝与微信读书、起点读书无缝连接,便捷搜索跳转。 - 推荐优质书籍,支持一键跳转,免去额外查找步骤。 - 推动AI应用与内容生态融合,向多模态、可行动AI助手演化。 6. **快手CFO:预计加大AI开发支出将影响利润率** - 快手计划加大AI投资,虽可灵AI收入增长,但AI支出预计将导致集团整体利润率下降约1%至2%。 - 快手加大AI开发支出,旨在提升工具变现能力。 - 可灵AI第一季度收入超1.5亿元,总收入同比增长11%。 - AI投资对利润增长造成压力,需平衡投资与盈利。 7. **Mistral推出全新Agents API** - Mistral推出Agents API,集成代码执行、图像生成等功能,支持代理协作,适用于多领域提升工作效率。 - Agents API推出,简化AI代理创建,集成多种功能。 - 支持代码执行、图像生成、实时搜索和持久记忆。 - 适用于软件开发、项目管理、财务分析等多个领域。 - 官方博客: [https://mistral.ai/news/agents-api](https://mistral.ai/news/agents-api) 8. **Claude移动端语音对话功能测试版上线** - Claude推出移动端语音对话测试版,支持通过语音指令查询日程、搜索文档等操作。 - Claude移动端语音对话功能上线,支持多种操作。 - 采用“push-to-talk”机制,暂不支持实时打断。 - 支持网页搜索和文件上传,免费用户也将逐步获得该功能。 9. **OpenAI计划推出“使用ChatGPT登录”第三方应用功能** - OpenAI探索使用ChatGPT账号登录第三方应用,已推出开发者预览。 - OpenAI计划推出“使用ChatGPT登录”功能,拓展业务。 - 征集开发者兴趣,要求说明应用用户基础等信息。 - 帮助OpenAI与其他科技巨头竞争,增加用户粘性。 10. **掘金发布MCP,AI生成前端项目一键部署** - 掘金推出MCP功能,开发者可一键将AI生成的前端项目部署至掘金平台。 - 掘金发布MCP,实现AI生成前端项目一键部署。 - 通过简单Token配置,一行命令完成项目部署。 - 提供免费存储空间,支持项目审核,增强社区生态。 11. **多模态大模型视觉推理能力评估:o3仅得25.8%分数** - 近日发布的RBench-V基准测试显示,多模态大模型在视觉推理能力上表现不足,准确率远低于人类专家。 - RBench-V基准测试评估多模态模型视觉推理能力。 - o3模型准确率仅25.8%,低于人类82.3%。 - 当前模型缺乏深层理解,需改进推理方式。 - 项目主页: [https://evalmodels.github.io/rbenchv/](https://evalmodels.github.io/rbenchv/) 12. **中国石油发布3000亿参数昆仑大模型** - 中国石油在北京发布3000亿参数的昆仑大模型,推动油气全产业链的智能化进程。 - 昆仑大模型参数显著提升,语言、视觉、多模态领域均有进展。 - 应用于油气勘探、炼油化工及销售等多个环节。 - 中国石油与多家企业合作,加速数字化转型进程。

7分钟
99+
6个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧