Aishaobing的个人播客 - 【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

**AI日报：DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI；可灵2.1重磅上线**

1. **DeepSeek R1-0528震撼发布**

- 支持128K超大上下文，推理能力和代码生成能力大幅提升，且保持免费使用。

- 适合复杂任务，文本召回测试准确度显著提升。

- 代码生成与写作能力优化，媲美顶级模型。

- 免费开放策略降低使用门槛，挑战传统AI商业模式。

- 详情链接: <https://huggingface.co/deepseek-ai/DeepSeek-R1-0528>

2. **字节发布图像Agent“小云雀AI”**

- 通过简单的指令快速生成高质量的视频和图片，降低内容创作的技术门槛。

- 用户只需一句指令，‘小云雀AI’就能主动思考并生成爆款视频与图片。

- 基于自研‘云雀’大模型，融合深度学习与多模态技术。

- 当前已上线安卓客户端，iOS版本预计6月发布。

3. **可灵2.1重磅上线**

- 价格大幅降低65%，性价比显著提升。

- 新增标准版、高品质版与大师版三种模型，满足不同用户需求。

- 生成效果优于前版本，速度更快，适合短视频和广告制作。

4. **全球首款AI代理浏览器Opera Neon发布**

- 通过AI驱动的智能聊天、任务自动化及内容创作功能，重新定义了网络体验。

- 能主动执行搜索、表单填写、购物等任务，提升用户效率。

- 内置AI助手Neon Chat支持多语言交互，提供上下文相关答案。

- 详情链接: <https://www.operaneon.com/>

5. **Meta发布Multi-SpatialMLLM**

- 通过整合深度感知、视觉对应和动态感知三大组件，显著提升了多模态大语言模型的空间理解能力。

- 利用MultiSPA数据集及五项任务训练，大幅提升了多帧空间推理能力。

- 在多项基准测试中表现出色，超越传统模型。

6. **通义实验室、北大发布新技术ZeroSearch**

- 通过模拟搜索引擎激活大语言模型的检索能力，大幅降低训练成本达88%。

- 采用结构化训练模板和“模拟微调”策略，提升生成文档质量及模型泛化能力。

- 实验表明，ZeroSearch性能优于传统方法，尤其在大规模模型中表现更佳。

- 详情链接: <https://arxiv.org/pdf/2505.04588>

7. **字节推出全新AI剪辑应用“剪小映”**

- 主打AI视频剪辑，降低创作门槛，让用户轻松制作高质量视频。

- 集成AI技术，鼓励用户分享生活。

- 火山引擎豆包大模型为应用提供强大支持，提升视频处理效率。

8. **MotionPro炸场! AI视频生成革命来袭**

- 通过区域轨迹和运动掩码技术实现精细化控制，为视频生成带来灵活性和精确性。

- 同时控制物体与镜头运动，无需特定数据集，支持复杂镜头和物体轨迹的精准生成。

- 开源生态支持，提供优化的训练框架和数据构建工具。

- 详情链接: <https://huggingface.co/papers/2505.20287>

9. **马斯克的xAI与Telegram达成3亿美元合作协议**

- xAI支付3亿美元部署Grok AI聊天机器人，提升Telegram用户体验并增加收入。

- Grok AI将提升Telegram用户交流体验，提供智能化聊天服务。

- 合作将使Telegram盈利模式多样化，推动社交媒体智能化进程。

10. **OpenAI CFO透露重组新架构为未来可能的IPO打开大门**

- OpenAI正在进行组织重组为IPO做准备，但上市时机取决于市场氛围。

- 微软投资超130亿美元，OpenAI转型公共利益公司平衡股东回报与社会责任。

- 稳定性是关键，上市需公司准备充分且市场窗口合适。

11. **像素蛋糕“方糖大模型”成功获批**

- 通过国家网信办备案，成为影像行业首个获官方资质的应用级图像大模型。

- 自主研发彰显像素蛋糕在AI技术领域的实力与创新能力。

- 符合国家政策要求，确保用户使用环境的安全与可靠性。

12. **开源+低成本! Paper2Poster让学术论文秒变学术海报**

- 将PDF论文自动转化为结构清晰、视觉友好的学术海报，效率远超传统手动方式。

- 生成一张海报仅需0.005美元，开源特性降低学术工具使用门槛。

- 发布100个论文-海报对的数据集，推动多模态内容生成领域规范化发展。

- 详情链接: <https://arxiv.org/abs/2505.21497>

13. **Resemble AI开源TTS Chatterbox**

- 基于0.5B规模的LLaMA架构，训练数据超50万小时。

- 盲测中63.75%的听众更偏好其真实感和流畅度。

- 支持实时合成，延迟低于200ms，具备零样本语音克隆与情感夸张控制功能。

- 开源特性降低门槛，嵌入水印技术确保内容可追溯。

- 详情链接: <https://github.com/resemble-ai/chatterbox>

14. **蚂蚁集团开源Ming-lite-omni**

- 220亿参数的多模态模型，具备强大能力。

- 模型权重和推理代码已向公众开放，促进开发者使用。

- 性能对标GPT-4o，成为开源多模态领域的重要选择。

【AI日报】EP.157 5月30 DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI

加入我们的 Discord

扫描微信二维码

播放列表