【开源模型】 🔊 小米全量开源MiDashengLM-7B
* 音频理解性能刷新SOTA,推理效率高出业界20倍
* 双核心架构,融合专业音频处理与语言理解
* 支持终端离线部署,降低使用成本
【AI应用】 ✍️ 腾讯AI工作台ima推出新功能
* 支持AI播客生成,帮助消化长篇文章
* 新增文件夹一键导入及Xmind脑图导入功能
* 支持知识库内容置顶,提升检索效率
【AIGC】 🎨 阿里通义千问开源文生图模型Qwen-Image
* 在文本渲染和图像编辑方面表现出色
* 支持多行、段落级文本生成,能精准渲染复杂场景和中文书法
* 具备风格迁移、物体增减等专业级图像编辑能力
详情链接: https://modelscope.cn/models/Qwen/Qwen-Image
【行业动态】 📈 ChatGPT周活达7亿,OpenAI年化收入达120亿美元
* 周活跃用户达到7亿,同比增长超四倍
* 年化收入达到120亿美元,远超预期
* 新增休息提醒功能,关注用户健康
【AI模型】 🤫 Anthropic疑似内测Claude Opus 4.1,代号leopard
* 新模型主打问题解决能力,强化逻辑推理与复杂任务处理
* 代号"leopard"暗示更快的响应速度和精准分析能力
* 内测版本表明已进入生产环境测试,接近正式发布
【开发工具】 💻 智谱推出开发效率工具Zread.ai,搭载GLM-4.5
* 提供一站式代码理解与文档生成服务
* 可自动生成项目导读,涵盖架构解析、模块说明等
* 背后采用GLM-4.5模型,支持深入技术问答
【AIGC】 🎬 xAI 发布 Grok Imagine4,支持文生图与视频并开放NSFW内容
* 文生图生成速度快,接近实时浏览体验
* 支持图生视频,但画面细节和流畅性有待优化
* 原生支持NSFW内容生成,引发伦理讨论
【AI技术】 📹 阿里与南开大学推出视频压缩新技术LLaVA-Scissor
* 旨在解决传统视频模型中token数量激增的问题
* 通过SCC算法减少token数量,同时保留关键语义信息
* 在低token保留率下仍表现出色,尤其在视频问答任务中
【机器人】 🤖 北京人形机器人创新中心发布全球首个人形机器人3D视觉系统
* 采用Humanoid Occupancy视觉感知系统,实现三维空间精细化建模
* 支持多模态传感器协同工作,提升环境信息整合能力
* 构建大规模数据集,为研究提供宝贵资源
详情链接: https://arxiv.org/pdf/2507.20217
【机器人】 🦾 OpenMind推出机器人操作系统OM1,打造“机器人领域的安卓”
* 专注于机器人软件生态,旨在成为机器人领域的Android
* FABRIC协议构建信任和协作网络,提升群体智能
* 选择家庭场景作为切入点,满足人性化交互需求
空空如也
暂无小宇宙热门评论