Aishaobing的个人播客 - 【AI日报】EP.190 8月1 GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【开源项目】

🤖 阿里开源WebAgent项目WebShaper

* 模拟人类搜索行为，GAIA评测中性能超越Claude4-Sonnet

* WebSailor-72B模型在权威评测中超越多数闭源模型

* 项目提供工业级训练框架和评估标准，降低AI智能体使用门槛

项目链接: https://github.com/Alibaba-NLP/WebAgent

论文链接: https://arxiv.org/pdf/2507.15061

【AI视频】

📹 Moonvalley发布Sketch-to-Video功能

* 支持通过手绘草图和文本描述生成电影级高质量视频

* 功能依托Marey模型，使用授权素材训练以确保版权安全

* 显著降低视频制作成本与门槛，赋能全球创作者

【大模型】

🎨 腾讯发布X-Omni多模态模型

* 解决AI模型在图像生成中的文字渲染不准确问题，尤其擅长长文本渲染

* 采用强化学习框架和统一建模技术，提升输出的稳定性和准确性

* 在长文本渲染和图像理解任务中超越主流模型

项目链接: https://x-omni-team.github.io

论文链接: https://arxiv.org/pdf/2507.22058

【行业动态】

🔍 百度搜索测试AI应用中心入口

* 在电脑端首页灰度测试智能体应用入口，提升用户搜索体验

* 智能体主要来源于文心智能体平台、外部优质AI及百度自研应用

* 功能目前处于测试阶段，尚未获得官方正式回应

【AI图像】

✨ Midjourney推出“为您推荐”功能

* 在探索页面新增“为您推荐”按钮，提供个性化的图片与视频内容

* 基于用户历史交互数据（如点赞、moodboard上传）和偏好学习算法进行推荐

* 推荐结果支持参数调整，以优化输出效果

【大模型】

🤫 GPT-5-Auto与GPT-5-Reasoning现身Mac客户端

* GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理

* GPT-5-Auto具备高度自动化能力，可执行多步骤任务，减少用户干预

* 预示OpenAI下一代模型已进入内部测试阶段，预计2025年夏季正式发布

【AI工具】

💻 Ollama发布桌面客户端

* 提供图形化界面，支持拖拽文档和多模态识别，告别命令行操作

* 保持本地运行优势，保障用户数据隐私与合规要求

* 降低了本地部署和使用AI模型的门槛

详情链接: https://ollama.com/download

【开源项目】

🤝 OWL团队开源多智能体工具Eigent

* 通过多层次并行处理机制，革新复杂任务处理效率

* 支持动态创建Workforce，整合多种数据源和工具，灵活定制

* 引入“Human-in-the-Loop”机制，允许用户在关键节点人工干预

详情链接: https://github.com/eigent-ai/eigent

【商业】

💰 OpenAI今年收入激增至120亿美元

* 今年前七个月收入已达120亿美元，月收入预计将达到10亿美元

* 周活跃用户数突破7亿，显示其产品的广泛市场认可

* 目标到2029年实现年收入1250亿美元，展现雄心壮志

【硬件】

⚖️ 英伟达H20芯片因安全风险被国信办约谈

* 国信办关注其“追踪定位”和“远程关闭”技术带来的安全风险

* 要求英伟达详细说明其对华销售芯片的漏洞后门问题

* 网信办依据《网络安全法》等法规要求英伟达提交相关证明材料

【AI视频】

🏆 万兴科技天幕2.0模型携手华为云

* 天幕2.0模型在SuperCLUE权威榜单中位列国内第四

* 与华为云共建AI视频大模型实验室，推动行业技术革新

* 未来合作有望拓展至更多领域，提升用户数字创意体验

【AI日报】EP.190 8月1 GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper

加入我们的 Discord

扫描微信二维码

播放列表