Aishaobing的个人播客 - 【AI日报】EP.150 5月17 腾讯混元图像2.0毫秒级生图；Windsurf重磅发布SWE-1系列 - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【AI日报】

1. **腾讯混元图像2.0发布：毫秒级生图与超写实画质**

- 腾讯发布了混元图像2.0模型，实现毫秒级生成速度和超写实画质。

- 新增实时绘画板功能，支持多图融合，优化设计流程。

- 详情链接: https://hunyuan.tencent.com/

2. **Windsurf重磅发布SWE-1系列：全流程软件工程AI模型**

- Windsurf推出SWE-1系列AI模型，涵盖从编码到终端操作的全流程，提高开发效率高达99%。

- 包含SWE-1、SWE-1-lite和SWE-1-mini三种模型，满足不同用户需求。

- 强化了对多工具协作的支持，降低部署成本。

3. **DeepSeek-V3发布新论文：低成本大模型训练的奥秘**

- DeepSeek团队发布关于DeepSeek-V3的技术论文，探讨低成本大模型训练方法。

- 采用DeepSeekMoE架构和MLA架构提升内存效率，每个token仅需70KB内存。

- 通过混合专家架构显著降低激活参数数量，训练成本减少一个数量级。

- 详情链接: https://arxiv.org/pdf/2505.09343

4. **Manus推出图像生成Agent：从文字到视觉的任务执行革命**

- Manus推出的图像生成Agent不仅能生成高质量图像，还能理解用户意图并协同多种工具完成复杂任务。

- 支持多语言输入与上下文理解，适用于全球市场。

- 应用于创意设计、游戏开发和营销等领域，简化工作流程并增强自动化能力。

5. **ElevenLabs发布可定制音效控制面板SB-1 Infinite Soundboard**

- ElevenLabs发布基于AI的可定制音效控制面板SB-1 Infinite Soundboard，支持文本驱动的音效生成。

- 适用于直播、影视、表演等场景，提升沉浸感与创作效率。

- 免费账户解锁全部功能，广受创作者欢迎。

6. **MiniMax Speech-02登顶全球TTS榜首**

- MiniMax Audio推出的Speech-02系列语音模型凭借超高语音逼真度和多语言支持，在两大权威榜单上击败众多竞争对手。

- 包括Speech-02-HD和Speech-02-Turbo两款模型，分别针对高保真和实时应用场景优化。

- 核心技术突破包括零样本克隆和多语言支持，支持30+种语言。

7. **DeepL翻译服务升级：推出自研AI模型与写作助手**

- DeepL推出了新的API，用户可以通过它访问自主研发的语言模型和写作助手DeepL Write。

- DeepL Write提供写作辅助，专注提升文本质量，支持33种语言。

- 承诺保护用户数据安全，不会利用用户内容训练模型。

8. **OpenAI领跑AI工具流量市场，谷歌暂居第二**

- OpenAI的AI工具流量大幅增长，占据近80%市场份额。

- 谷歌的Gemini流量稳定在2500万，未成为首选AI产品。

- DeepSeek和Grok增长迅速，正挑战谷歌市场地位。

9. **Llamafile0.9.3震撼支持Qwen3：单文件运行大模型**

- Llamafile0.9.3发布，支持Qwen3系列大语言模型，通过单文件集成实现跨平台便携性。

- Qwen3加持，性能卓越，支持119种语言，适合本地化AI应用。

- 跨平台兼容性强，支持多种CPU架构，提供Web GUI和API接口。

- 详情链接: https://localhost:8080

10. **SmolVLM登场：WebGPU驱动实时网络摄像头AI**

- Hugging Face推出的SmolVLM多模态模型通过WebGPU技术实现实时网络摄像头图像识别。

- 无需服务器支持，所有计算在用户设备上完成，提升隐私保护。

- 开源生态里程碑，支持多种任务，包括图像描述、物体识别和视觉问答。

- 详情链接: https://hugging-face.co/spaces/webml-community/smolvlm-realtime-webgpu

11. **Hugging Face上线MCP免费教程：一天速成AI上下文协议**

- Hugging Face推出了MCP免费在线课程，帮助开发者快速掌握AI上下文交互系统。

- 详解客户端-服务器架构与JSON-RPC2.0标准，轻松开发并集成外部资源。

- 社区支持与实践导向，开源项目、Discord交流、真实案例作业助力高效学习。

- 详情链接: https://huggingface.co/learn/mcp-course/unit0/introduction

12. **复旦携手腾讯推出说话人视频生成工具DICE-Talk**

- DICE-Talk是一项由复旦大学与腾讯联合研发的视频生成工具，通过身份-情感分离处理机制解决了表情跳变的问题。

- 能够解构身份信息并协同情感生成，支持多种情感状态的自然过渡。

- 用户只需上传图像和音频即可生成对应情感的动态视频。

- 详情链接: https://github.com/toto222/DICE-Talk

【AI日报】EP.150 5月17 腾讯混元图像2.0毫秒级生图；Windsurf重磅发布SWE-1系列

加入我们的 Discord

扫描微信二维码

播放列表