Aishaobing的个人播客 - 【AI日报】EP.175 7月3 百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型 - EarsOnMe

主播

节目简介

来源：小宇宙

### AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar

1. **开源端到端语音大模型Step-Audio-AQAA**

- Step-Audio-AQAA是一个开源的端到端语音大模型，能够直接从原始音频输入生成自然流畅的语音输出，提升人机交互体验。

- 模型架构由双码本音频标记器、骨干LLM和神经声码器三个模块组成，能够高效处理语音中的复杂信息。

- 该模型的推出标志着语音交互技术的重要进展，为未来的智能语音应用提供了新思路。

- 详情链接: [https://huggingface.co/stepfun-ai/Step-Audio-AQAA](https://huggingface.co/stepfun-ai/Step-Audio-AQAA)

2. **百度发布“绘想”平台与MuseSteamer**

- 百度发布了“绘想”平台与MuseSteamer，通过生成式AI和多模态技术提供全面的视频生成解决方案，满足搜索、广告等场景需求。

- MuseSteamer具备强大的可控性和高性价比，用户只需上传图片即可生成专业级视频内容，极大简化了视频制作流程。

- 支持音视频一体化生成，实现电影级制作效果，并支持连续10秒动态视频生成，提升创作效率。

- 详情链接: [https://huixiang.baidu.com/](https://huixiang.baidu.com/)

3. **浙大与阿里联合发布OmniAvatar**

- 浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破，能够生成自然流畅的全身数字人视频，尤其在歌唱场景中表现出色。

- 该模型支持通过文本提示精细控制生成细节，并具备多场景应用潜力，为营销、教育及娱乐等领域带来创新可能。

- 视频链接: [点击观看视频](#)

4. **百度搜索迎来十年来最大改版**

- 百度搜索进行了十年来最大规模的改版，引入了智能框、百看和AI助手等创新功能，显著提升了用户的搜索体验和创作能力。

- 智能框支持千字输入，增强多模态交互能力；百看功能升级，支持混合内容输出和智能体服务；AI助手新增视频通话功能，提升创作与搜索能力。

5. **xAI控制台新增Grok4及Grok4Code引用**

- xAI在开发者控制台中新增了对Grok4及Grok4Code的引用，预示着下一代人工智能模型的发布即将来临。

- Grok4作为xAI的旗舰模型，专注于自然语言处理、数学推理和综合推理能力的提升；Grok4Code专为编程优化，计划与代码编辑器无缝整合，提高开发效率。

- xAI通过API提供Grok4访问权限，未来将扩展至多模态能力，降低开发者整合门槛。

6. **Gemini Live重磅升级**

- Gemini Live的升级通过与Google生态系统的深度整合，提升了用户的智能交互体验，同时兼顾了隐私保护，展现了其在智能助手领域的潜力。

- Gemini Live将与Google Maps、Calendar等应用深度整合，提升跨应用操作效率；支持多模态交互，如扫描信息自动生成任务或日程，增强实用性。

- Google注重隐私保护，用户可自主管理权限以确保数据安全。

- 视频链接: [点击观看视频](#)

7. **武汉首发全国首辆AI外卖配送车**

- 武汉推出了全国首辆搭载AI技术的外卖配送车——智音车，配送效率提升显著，标志外卖行业的技术革新。

- 智音车配备北斗双频芯片，提升外卖配送效率；外卖小哥配送效率提升30%，日均多赚80元；定位精度高达1米，智音车技术前景广阔。

8. **Anthropic年化收入已达40亿美元**

- 文章指出，AI独角兽Anthropic年化收入已达40亿美元，较年初增长近四倍，同时其竞争对手Cursor也在积极扩展业务，双方竞争加剧。

- Cursor依赖Anthropic的技术，并通过引入高管和创新提升竞争力。

- 人工智能技术的快速发展推动了编程工具的需求增长，各公司都在争夺市场份额。

【AI日报】EP.175 7月3 百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型