### AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar
1. **开源端到端语音大模型Step-Audio-AQAA**
- Step-Audio-AQAA是一个开源的端到端语音大模型,能够直接从原始音频输入生成自然流畅的语音输出,提升人机交互体验。
- 模型架构由双码本音频标记器、骨干LLM和神经声码器三个模块组成,能够高效处理语音中的复杂信息。
- 该模型的推出标志着语音交互技术的重要进展,为未来的智能语音应用提供了新思路。
- 详情链接: [https://huggingface.co/stepfun-ai/Step-Audio-AQAA](https://huggingface.co/stepfun-ai/Step-Audio-AQAA)
2. **百度发布“绘想”平台与MuseSteamer**
- 百度发布了“绘想”平台与MuseSteamer,通过生成式AI和多模态技术提供全面的视频生成解决方案,满足搜索、广告等场景需求。
- MuseSteamer具备强大的可控性和高性价比,用户只需上传图片即可生成专业级视频内容,极大简化了视频制作流程。
- 支持音视频一体化生成,实现电影级制作效果,并支持连续10秒动态视频生成,提升创作效率。
- 详情链接: [https://huixiang.baidu.com/](https://huixiang.baidu.com/)
3. **浙大与阿里联合发布OmniAvatar**
- 浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破,能够生成自然流畅的全身数字人视频,尤其在歌唱场景中表现出色。
- 该模型支持通过文本提示精细控制生成细节,并具备多场景应用潜力,为营销、教育及娱乐等领域带来创新可能。
- 视频链接: [点击观看视频](#)
4. **百度搜索迎来十年来最大改版**
- 百度搜索进行了十年来最大规模的改版,引入了智能框、百看和AI助手等创新功能,显著提升了用户的搜索体验和创作能力。
- 智能框支持千字输入,增强多模态交互能力;百看功能升级,支持混合内容输出和智能体服务;AI助手新增视频通话功能,提升创作与搜索能力。
5. **xAI控制台新增Grok4及Grok4Code引用**
- xAI在开发者控制台中新增了对Grok4及Grok4Code的引用,预示着下一代人工智能模型的发布即将来临。
- Grok4作为xAI的旗舰模型,专注于自然语言处理、数学推理和综合推理能力的提升;Grok4Code专为编程优化,计划与代码编辑器无缝整合,提高开发效率。
- xAI通过API提供Grok4访问权限,未来将扩展至多模态能力,降低开发者整合门槛。
6. **Gemini Live重磅升级**
- Gemini Live的升级通过与Google生态系统的深度整合,提升了用户的智能交互体验,同时兼顾了隐私保护,展现了其在智能助手领域的潜力。
- Gemini Live将与Google Maps、Calendar等应用深度整合,提升跨应用操作效率;支持多模态交互,如扫描信息自动生成任务或日程,增强实用性。
- Google注重隐私保护,用户可自主管理权限以确保数据安全。
- 视频链接: [点击观看视频](#)
7. **武汉首发全国首辆AI外卖配送车**
- 武汉推出了全国首辆搭载AI技术的外卖配送车——智音车,配送效率提升显著,标志外卖行业的技术革新。
- 智音车配备北斗双频芯片,提升外卖配送效率;外卖小哥配送效率提升30%,日均多赚80元;定位精度高达1米,智音车技术前景广阔。
8. **Anthropic年化收入已达40亿美元**
- 文章指出,AI独角兽Anthropic年化收入已达40亿美元,较年初增长近四倍,同时其竞争对手Cursor也在积极扩展业务,双方竞争加剧。
- Cursor依赖Anthropic的技术,并通过引入高管和创新提升竞争力。
- 人工智能技术的快速发展推动了编程工具的需求增长,各公司都在争夺市场份额。
空空如也
暂无小宇宙热门评论