Aishaobing的个人播客 - 【AI日报】EP.209 9月3 腾讯开源3D世界模型HunyuanWorld-Voyager；即梦A - EarsOnMe

主播

节目简介

来源：小宇宙

【开源项目】 🧩 腾讯开源超长程世界模型 HunyuanWorld‑Voyager，原生3D重建登场

基于单张图像生成世界一致性的3D点云并支持沉浸式探索。

视频生成与场景重建效果领先，面向VR、游戏与空间智能。

- 参考链接：https://upload.chinaz.com/video/2025/0902/6389242348453431527577699.mp4

【开源项目】 🧩 通义实验室发布 AgentScope 1.0，多智能体开发一体化框架

三层架构（Core、Runtime、Studio）覆盖开发、部署、监控全生命周期。

支持实时介入控制、智能上下文管理与高效工具调用，强化安全与稳定。

- 项目链接：https://github.com/agentscope-ai/agentscope

【行业动态】 📰 即梦AI开放图像与视频生成API，一站式创作加速企业落地

与火山引擎开放API，覆盖文生图3.0/3.1、视频生成3.0pro与动作模仿等。

助力企业高效生产创意内容，加速商业应用创新。

【AI模型】 🧠 腾讯开源 Hunyuan‑MT‑7B，WMT2025 30项夺冠

支持31种语言，在多语种基准中强势夺魁。

开源推动多语言NLP应用普及与合作。

【技术突破】 🚀 苹果推出 STARFlow，图像生成架构对标 DALL‑E 与 Midjourney

将正则化流与自回归Transformer结合，提升高分辨率生成效率与质量。

深浅设计与潜在空间操作进一步优化模型表现，前景广阔。

- 参考链接：https://arxiv.org/pdf/2506.06276

【效率工具】 ⚙️ 苹果 FastVLM 上线，85倍速本地视觉AI可5分钟上手

在Apple Silicon设备近乎即时处理图像与字幕，视频字幕速度提升85倍、体积缩小3倍以上。

可浏览器直载轻量版，数据全程本地确保隐私。

【AI模型】 🧠 CoMPaSS‑FLUX.1 发布，显著强化文本到图像的空间理解

基于FLUX.1的LoRA适配器，显著提升物体间空间关系理解。

多项基准全面提升，同时保持高质量生成。

- 项目链接：https://huggingface.co/blurgy/CoMPaSS-FLUX.1

【行业动态】 📰 Cherry Studio × 硅基流动：免费提供 Qwen38B，丰富多模型体验

免费提供Qwen38B接入，强化多平台、多模型支持。

面向跨行业场景的智能助手，提升生产力与个性化体验。

【效率工具】 ⚙️ 谷歌上线 Gemini API URL Context，可详解网页多模态内容

面向开发者的一键解析：可理解网页、PDF、图片等内容，处理上限约34MB。

无法越过付费墙，且不处理YouTube与Google Docs等专用源。

- 参考链接：https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/

【开源项目】 🧩 腾讯优图开源 Youtu‑Agent，自主智能体框架面向社区

面向构建、运行、评估自主智能体，支持数据分析、文件处理等任务。

模块化设计与对开源模型的友好支持，推动社区协作与创新。

- 项目链接：https://github.com/TencentCloudADP/Youtu-agent

【AI日报】EP.209 9月3 腾讯开源3D世界模型HunyuanWorld-Voyager；即梦A