Aishaobing的个人播客 - 【AI日报】EP.196 8月13 智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术 - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【AI大模型】

💡 智谱发布并开源视觉推理模型GLM-4.5V

* 总参数达106B，在41个视觉多模态榜单中达SOTA性能

* 具备图像推理、视频理解、GUI任务等全场景视觉推理能力

* 新增“思考模式”开关，平衡效率与效果

* API价格低至输入2元/M tokens，输出6元/M tokens

【具身智能】

🤖 阿里达摩院开源三项具身智能核心技术

* 开源VLA模型、世界理解模型、机器人上下文协议三项核心技术

* RynnVLA-001模型能从第一人称视角视频学习人类操作技能

* RynnEC模型可从11个维度全面解析场景物体，无需依赖3D模型

项目链接：https://github.com/alibaba-damo-academy/RynnRCP

【科技巨头】

🍎 苹果计划将Apple Intelligence升级至GPT-5

* 计划在iOS26等新系统中将ChatGPT核心模型升级至GPT-5

* 新功能将包括多语言实时翻译及屏幕内容分析

* 首次向开发者开放设备端API，支持第三方应用接入

【AI应用】

🗺️ 高德地图全面接入通义大模型，推出首个AI原生Agent

* 内置智能体“小高老师”，支持音频/文本等多模态全双工语音交互

* 基于36万亿token预训练的Qwen大模型，实现空间语义深度理解

* 联合推出复杂POI推理Agent，提供精准推荐与导航

【人形机器人】

🦾 宇树科技将出征首届世界人形机器人运动会

* 除自有团队外，赛场上将有多个队伍使用宇树的机器人硬件参赛

* 运动会汇聚了来自16个国家的共计280支队伍

* 体现了宇树设备在开放生态中的广泛应用和竞争力

【AI应用】

🧠 Claude AI上线“记忆功能”，支持多背景切换

* 自动记忆并复用历史对话背景，实现跨会话无缝衔接

* 支持为不同项目设定独立背景，一键切换工作/生活场景

* 目前仅向Claude Max、Team、Enterprise付费用户开放

【AI大模型】

🚀 360智脑推出Light-IF系列模型并全面开源

* 以“预览-自检式推理+信息熵控制”框架专治“懒惰推理”

* 在SuperCLUE等四大基准全面领先，小参数可越级打大模型

* 模型权重、数据集与代码将陆续在Hugging Face和GitHub发布

【视频技术】

🎬 字节跳动推视频字幕无痕擦除方案

* 基于DiT大模型，实现像素级修复、多语言适配和口型同步

* 突破中英限制，覆盖小语种，形成一站式“擦除-翻译-口型同步”

* 已在万集数据上验证，成功率100%，分布式计算提升效率

详情地址：https://console.volcengine.com/vod/

【AI视频生成】

🎮 昆仑万维开源世界模型Matrix-Game2.0

* 业内首个通用场景实时长序列开源世界模型

* 可实时生成分钟级25fps高连贯视频，用于游戏/影视/VR

* 摒弃语言提示，通过纯视觉驱动交互，适应多风格场景

【AI视频生成】

🌍 昆仑万维开源Matrix-3D，单图即可生成3D全景视频

* 直接由单张图像产出高质量全景视频与可探索3D场景

* 采用Mesh渲染图驱动扩散模型，保证相机轨迹一致性

* 全面开放代码与数据集

项目链接：https://github.com/SkyworkAI/Matrix-3D

【AI日报】EP.196 8月13 智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术

加入我们的 Discord

扫描微信二维码

播放列表