Aishaobing的个人播客 - 【AI日报】EP.192 8月6 阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【开源模型】 🔊 小米全量开源MiDashengLM-7B

* 音频理解性能刷新SOTA，推理效率高出业界20倍

* 双核心架构，融合专业音频处理与语言理解

* 支持终端离线部署，降低使用成本

【AI应用】 ✍️ 腾讯AI工作台ima推出新功能

* 支持AI播客生成，帮助消化长篇文章

* 新增文件夹一键导入及Xmind脑图导入功能

* 支持知识库内容置顶，提升检索效率

【AIGC】 🎨 阿里通义千问开源文生图模型Qwen-Image

* 在文本渲染和图像编辑方面表现出色

* 支持多行、段落级文本生成，能精准渲染复杂场景和中文书法

* 具备风格迁移、物体增减等专业级图像编辑能力

详情链接: https://modelscope.cn/models/Qwen/Qwen-Image

【行业动态】 📈 ChatGPT周活达7亿，OpenAI年化收入达120亿美元

* 周活跃用户达到7亿，同比增长超四倍

* 年化收入达到120亿美元，远超预期

* 新增休息提醒功能，关注用户健康

【AI模型】 🤫 Anthropic疑似内测Claude Opus 4.1，代号leopard

* 新模型主打问题解决能力，强化逻辑推理与复杂任务处理

* 代号"leopard"暗示更快的响应速度和精准分析能力

* 内测版本表明已进入生产环境测试，接近正式发布

【开发工具】 💻 智谱推出开发效率工具Zread.ai，搭载GLM-4.5

* 提供一站式代码理解与文档生成服务

* 可自动生成项目导读，涵盖架构解析、模块说明等

* 背后采用GLM-4.5模型，支持深入技术问答

【AIGC】 🎬 xAI 发布 Grok Imagine4，支持文生图与视频并开放NSFW内容

* 文生图生成速度快，接近实时浏览体验

* 支持图生视频，但画面细节和流畅性有待优化

* 原生支持NSFW内容生成，引发伦理讨论

【AI技术】 📹 阿里与南开大学推出视频压缩新技术LLaVA-Scissor

* 旨在解决传统视频模型中token数量激增的问题

* 通过SCC算法减少token数量，同时保留关键语义信息

* 在低token保留率下仍表现出色，尤其在视频问答任务中

【机器人】 🤖 北京人形机器人创新中心发布全球首个人形机器人3D视觉系统

* 采用Humanoid Occupancy视觉感知系统，实现三维空间精细化建模

* 支持多模态传感器协同工作，提升环境信息整合能力

* 构建大规模数据集，为研究提供宝贵资源

详情链接: https://arxiv.org/pdf/2507.20217

【机器人】 🦾 OpenMind推出机器人操作系统OM1，打造“机器人领域的安卓”

* 专注于机器人软件生态，旨在成为机器人领域的Android

* FABRIC协议构建信任和协作网络，提升群体智能

* 选择家庭场景作为切入点，满足人性化交互需求

【AI日报】EP.192 8月6 阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B

加入我们的 Discord

扫描微信二维码

播放列表