Aishaobing的个人播客 - 节目列表

9个月前

【AI日报】EP.199 8月18 腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher

【AI工具】 🎵 腾讯推音效生成工具AudioGenie * 支持视频、文本和图像等多模态输入，一键生成电影级音效。 * 采用无训练多智能体框架，实现高效协同与自我纠错。 * 在MA-Bench基准测试中表现优异，挑战Claude与Gemini。详情链接: https://audiogenie.github.io/ 【AI智能体】 🤖 阿里推出多模态深度研究智能体WebWatcher * 一个开源的多模态深度研究智能体，能处理复杂的多模态任务。 * 整合网页浏览、图像搜索、代码解释器和OCR等多种工具。 * 在多个评测中表现显著优于其他主流模型。详情链接: https://github.com/Alibaba-NLP/WebAgent 【3D建模】 🏗️ 港大、哈工大、浙大联合推出可解耦3D模型技术OmniPart * 实现3D模型部件的独立性和结构清晰性，重塑创意设计。 * 采用自回归模型与部件掩码的两阶段生成框架，提升建模精确度。 * 适用于游戏开发、动画制作等多个创意领域。详情链接: https://omnipart.github.io/ 【AI模型】 🖼️ Meta 发布 DINOv3，无需标注数据的通用图像处理 AI 新模型 * 基于17亿张图像进行自监督学习训练，拥有70亿个参数。 * 性能优于上一代模型 DINOv2，无需标注数据。 * 已在GitHub上开放多个预训练模型变体及代码，允许商业使用。详情链接: https://github.com/facebookresearch/dinov3 【行业大模型】 ⚖️ 我国首个法律垂直大模型“小包公”发布 * 正式发布，标志着法律人工智能进入规模化应用阶段。 * 整合了2亿份裁判文书和420余万部法律法规，提供能溯源、可验证的法律依据。 * 有望缓解法律服务资源分布不均问题。【行业动态】 📈 ChatGPT移动端收入突破20亿美元 * 移动应用收入是竞争对手总和的30倍，显示出其在AI助手领域的主导地位。 * 月收入增长高达673%，远超其他聊天机器人。 * 全球下载量达6.9亿次，是Grok的17倍。【移动AI】 📱 安卓手机集体抄作业灵动岛，新芯片推动AI功能爆发 * 各安卓厂商推出类似苹果灵动岛的交互设计，提升用户体验。 * 新一代芯片算力翻倍，为AI功能普及奠定基础。 * 厂商全量集成AI功能，提供一键订票、行程规划等智能服务。【AI模型】 🧠 欧洲AI创企发布鸡脑和蝇脑模型，94MB超小AI可离线运行 * Multiverse Computing推出SuperFly和ChickBrain两款超小型AI模型。 * 模型体积小巧，可在物联网设备、智能手机等终端本地运行。 * 性能表现优异，在一些基准测试中超越了原始模型。【AI编程】 👨‍💻 Claude Code重大更新！新增编程导师模式 * 新增针对编程初学者的个性化沟通风格设置，包括解释型和学习型。 * 解释型风格专注于深度教学，帮助开发者理解代码背后的原理。 * 新的导师模式让初学者也能享受一对一代码指导，降低学习门槛。【AI安全】 ⚠️ AI技术被滥用成“退款神器”，商家无奈 * 电商平台出现利用AI伪造商品损坏图片进行恶意退款的现象。 * 该行为可能构成民事欺诈或刑事诈骗。 * 法律专家呼吁加强监管和技术创新以应对这一问题。【行业报告】 📊 IDC报告：2024年中国AI公有云服务市场激增，阿里云蝉联第一 * 2024年中国AI公有云服务市场规模预计达到195.9亿元，同比增长55.3%。 * 计算机视觉和对话式AI市场表现突出。 * 报告指出技术提供商需重构云服务架构，加强AI治理。

7分钟

9个月前

【AI日报】EP.198 8月16 可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5

【视频生成】快手可灵2.1推出全新首尾帧功能 * 新增首尾帧功能，提升视频开头和结尾的精细控制 * 支持自定义首尾帧图像，解决转场生硬问题 * 生成速度和成本下降，提高创作者使用效率【AI音乐】昆仑万维上线AI音乐模型Mureka V7.5 * 在中文歌曲创作中展现卓越能力，包括音色、咬字和情感表现 * 结合MoE-TTS语音合成框架，通过自然语言精准控制声音特征 * 为AI音乐创作和语音合成领域提供了新思路【AI开发工具】腾讯云推出CloudBase AI CLI，可减少80%编码量 * 提供统一的命令行入口，简化开发流程 * 支持全平台通用性和多模型协作能力 * 提供免费体验额度，降低使用门槛详情链接: https://static.cloudbase.net/cli/install/install.sh -fsS | bash 【AI Agent】海外新品MuleRun爆火，AI Agent自动玩游戏做建模 * Al Agent能够自动完成游戏任务，极大提升用户体验 * 为用户提供专属的虚拟机环境，支持运行多种软件和应用 * 社区驱动的Agent生态降低了自动化工具的使用门槛详情链接: https://discord.com/invite/kKAAEYay5F 【AI视觉】Meta重磅开源DINOv3，无需人工标注 * 基于自监督学习，无需人工标注，从海量图像中自主提取特征 * 高分辨率特征提取，同时捕捉全局信息与局部细节 * 适用于环境监测、医疗、自动驾驶等跨领域应用详情链接: https://github.com/facebookresearch/dinov3 【人形机器人】宇树H1夺机器人史首枚1500米金牌 * 在全球首个以人形机器人为核心的竞技赛事中夺得历史首枚1500米赛金牌 * 在软件上针对跑步速度与耐力进行了优化升级，展现了极限性能【AI助手】谷歌Gemini迎来重大更新，新增记忆功能和隐私聊天模式 * 记忆功能可记录用户偏好和习惯，提升个性化服务体验 * 临时聊天模式保障隐私，对话内容不会被保存或用于训练 * 体现了AI助手在个性化与隐私保护上的双重突破【开源项目】香港大学联手开源项目OpenCUA，打造个性化电脑智能助手 * 提供无缝的注释基础设施，用于捕捉人类在电脑上的操作演示 * 集成了AgentNet数据集，覆盖超200个应用程序和网站 * 支持可扩展的工作流程，提升长链推理能力详情链接: https://opencua.xlang.ai/ 【行业动态】OpenAI或在ChatGPT引入广告 * 正探索在ChatGPT中引入广告，但需谨慎处理以确保用户体验 * 高管认为订阅模式仍有巨大增长潜力 * 预计2024年订阅收入将达127亿美元【AI模型】谷歌发布超小型开源AI模型Gemma 3 270M * 拥有2.7亿参数的开源模型，适合在智能手机上离线运行 * 在指令跟随任务中表现出色，能效高 * 支持快速微调，适用于企业开发和创造性应用详情链接: https://developers.googleblog.com/en/introducing-gemma-3-270m/

8分钟

【AI日报】EP.197 8月15 腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana

【AI模型】腾讯混元开源游戏视频生成框架 Hunyuan-GameCraft * 通过一张图、文字描述和动作指令，生成高清动态游戏视频。 * 支持自由流畅的动作控制，适用于消费级硬件，降低开发门槛。 * 解决了传统游戏内容生产中动作僵硬、场景静态和成本高昂的问题。详情链接：https://hunyuan-gamecraft.github.io/ 【AI模型】新图像编辑模型 nano-banana 发布，角色还原能力超强 * 在角色还原、场景重构和图像融合方面超越了 FLUX Kontext 模型。 * 能精准保留图像中人物角色的细节特征，确保编辑后的视觉真实性。 * 处理复杂背景替换或多元素融合场景时，能生成自然连贯的画面效果。详情链接：https://lmarena.ai/?chat-modality=image 【AI模型】字节跳动开源 Agent 专用模型 M3-Agent-Control * 基于 Qwen 3 32B 训练，拥有328亿参数，采用BF16张量类型。 * 旨在推动智能技术的开放和普及，为开发者和企业提供更多可能性。详情链接：https://huggingface.co/ByteDance-Seed/M3-Agent-Control 【AI应用】 Kimi 即将推出全球版 PPT 生成功能 * 其 Kimi K2 模型拥有1万亿总参数和326亿活跃参数。 * Kimi K2 在多个基准测试中超越了 DeepSeek 等开源模型。 * 新功能将为用户提供更高效、智能的PPT生成体验，推动AI办公场景普及。【行业动态】阿里1688将于10月全面上线“诚信通 AI 版”会员 * 新入驻商家必须开通AI版，现有基础版将在过渡期后下架。 * 1688将升级免费AI数字员工功能，帮助商家提升获客和运营效率。【硬件】苹果智能家居中心再度延期至2026年中期 * 因技术问题推迟，设备将配备7英寸显示屏，外观类似Google Nest Hub。 * 基于大型语言模型的全新 Siri 将成为该设备的核心功能。【行业动态】万兴科技抢先接入 OpenAI 的 GPT-5 模型 * 成为首批集成OpenAI最新模型的厂商之一。 * 公司同时提醒投资者注意潜在风险，体现了对市场的理性态度。【行业动态】全球 AI 独角兽数量增至498家，总值达2.7万亿美元 * 目前全球已有近500家AI独角兽公司，总价值达到2.7万亿美元。 * 过去两年中诞生了100家新的独角兽公司，显示出迅猛的增长势头。【AI应用】谷歌为 Slides 和 Vids 引入全新 AI 图像编辑功能 * 用户可通过文本提示快速替换和扩展图片背景。 * 功能预计8月14日全面上线，覆盖 Google Workspace 多个订阅版本。【AI模型】昆仑万维发布 Skywork Deep Research Agent v2 * 引入多模态深度调研和浏览器智能体，提升信息处理能力。 * 该模型在权威评测中表现优异，刷新行业SOTA纪录。详情链接：https://skywork.ai

7分钟

【AI日报】EP.196 8月13 智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术

【AI大模型】 💡 智谱发布并开源视觉推理模型GLM-4.5V * 总参数达106B，在41个视觉多模态榜单中达SOTA性能 * 具备图像推理、视频理解、GUI任务等全场景视觉推理能力 * 新增“思考模式”开关，平衡效率与效果 * API价格低至输入2元/M tokens，输出6元/M tokens 【具身智能】 🤖 阿里达摩院开源三项具身智能核心技术 * 开源VLA模型、世界理解模型、机器人上下文协议三项核心技术 * RynnVLA-001模型能从第一人称视角视频学习人类操作技能 * RynnEC模型可从11个维度全面解析场景物体，无需依赖3D模型项目链接：https://github.com/alibaba-damo-academy/RynnRCP 【科技巨头】 🍎 苹果计划将Apple Intelligence升级至GPT-5 * 计划在iOS26等新系统中将ChatGPT核心模型升级至GPT-5 * 新功能将包括多语言实时翻译及屏幕内容分析 * 首次向开发者开放设备端API，支持第三方应用接入【AI应用】 🗺️ 高德地图全面接入通义大模型，推出首个AI原生Agent * 内置智能体“小高老师”，支持音频/文本等多模态全双工语音交互 * 基于36万亿token预训练的Qwen大模型，实现空间语义深度理解 * 联合推出复杂POI推理Agent，提供精准推荐与导航【人形机器人】 🦾 宇树科技将出征首届世界人形机器人运动会 * 除自有团队外，赛场上将有多个队伍使用宇树的机器人硬件参赛 * 运动会汇聚了来自16个国家的共计280支队伍 * 体现了宇树设备在开放生态中的广泛应用和竞争力【AI应用】 🧠 Claude AI上线“记忆功能”，支持多背景切换 * 自动记忆并复用历史对话背景，实现跨会话无缝衔接 * 支持为不同项目设定独立背景，一键切换工作/生活场景 * 目前仅向Claude Max、Team、Enterprise付费用户开放【AI大模型】 🚀 360智脑推出Light-IF系列模型并全面开源 * 以“预览-自检式推理+信息熵控制”框架专治“懒惰推理” * 在SuperCLUE等四大基准全面领先，小参数可越级打大模型 * 模型权重、数据集与代码将陆续在Hugging Face和GitHub发布【视频技术】 🎬 字节跳动推视频字幕无痕擦除方案 * 基于DiT大模型，实现像素级修复、多语言适配和口型同步 * 突破中英限制，覆盖小语种，形成一站式“擦除-翻译-口型同步” * 已在万集数据上验证，成功率100%，分布式计算提升效率详情地址：https://console.volcengine.com/vod/ 【AI视频生成】 🎮 昆仑万维开源世界模型Matrix-Game2.0 * 业内首个通用场景实时长序列开源世界模型 * 可实时生成分钟级25fps高连贯视频，用于游戏/影视/VR * 摒弃语言提示，通过纯视觉驱动交互，适应多风格场景【AI视频生成】 🌍 昆仑万维开源Matrix-3D，单图即可生成3D全景视频 * 直接由单张图像产出高质量全景视频与可探索3D场景 * 采用Mesh渲染图驱动扩散模型，保证相机轨迹一致性 * 全面开放代码与数据集项目链接：https://github.com/SkyworkAI/Matrix-3D

【AI日报】EP.195 8月12 昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索

【AI模型】 🤖 昆仑万维发布SkyReels-A3模型，照片可根据语音对口型 * 基于DiT视频扩散模型，实现音频驱动数字人创作 * 可使静态图像或视频中的人物根据语音开口说话或唱歌 * 支持改台词、运镜控制等功能详情链接: https://skyworkai.github.io/skyreels-a3.github.io/ 【AI模型】 🚀 xAI宣布Grok 4 AI模型永久免费开放 * Grok 4人工智能模型将永久免费开放给全球用户 * 提供Auto模式和Expert模式，满足不同用户需求 * 免费开放可能推动AI技术的普及和应用【行业动态】 📖 OpenAI发布GPT-5提示词指南，解锁AI编程与多模态 * 通过精准的提示设计提升代理任务、代码生成和指令遵循的表现 * 支持生成前端界面、调试大型代码库，并结合Responses API提高效率 * 引入多模态交互功能，包括文本、图像、语音处理详情链接: https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide 【AI应用】 💻 百度搜索PC端全面上线AI搜索功能 * 新增“超级智能双行框”和“工作台”模块 * 集成AI阅读、AI写作和AI PPT工具，提升用户效率 * 月活跃用户已超过3.22亿，稳居国内AI搜索行业第一【AI应用】 🖥️ Windows Copilot免费接入GPT-5，使用限制低于ChatGPT * Windows 11和10的Copilot应用已全面支持GPT-5智能模式 * 用户无需更新即可启用，使用限制比ChatGPT更宽松 * 用户可通过简单步骤免费访问Copilot和GPT-5 【AI模型】 🩺 百川智能开源医疗大模型Baichuan-M2，评测超OpenAI * 在HealthBench评测中得分60.1，超越OpenAI的gpt-oss120b模型 * 模型经过极致轻量化处理，可在单卡部署，降低成本 * 复杂医疗问题处理能力与GPT-5相当详情链接: https://huggingface.co/baichuan-inc/Baichuan-M2-32B 【行业动态】 📱 苹果宣布GPT-5将集成至iOS26 * iOS26将集成ChatGPT-5模型，提升Apple智能性能 * 新增实时翻译功能，改善跨语言交流体验 * 用户无需OpenAI账户即可使用，关联账户可享更多优惠【AI框架】 🎨 谷歌推出BlenderFusion，颠覆3D视觉编辑与生成合成 * 集成先进3D编辑工具与扩散模型，实现高效3D视觉编辑与生成 * 工作流程包括分层、编辑和合成三个阶段 * 通过优化模型提升对复杂场景的处理能力详情链接: https://blenderfusion.github.io/ 【AI模型】 🔉 开源轻量级TTS模型Kitten TTS发布，参数量仅1500万 * 开源轻量级文本转语音模型，体积小于25MB，适合各种设备部署 * 支持无GPU运行，可在普通CPU上实现高质量语音合成 * 参数量仅1500万，提供简单安装和使用指南详情链接: https://huggingface.co/KittenML/kitten-tts-nano-0.1 【AI模型】 📲 MiniCPM-V4.0视觉模型发布，专为移动端优化 * 在OpenCompass评测中得分69.0，超越多款同类模型 * 专为移动设备设计，响应速度快且无发热问题 * 提供开源iOS应用及详细使用指南，便于用户上手详情链接: https://huggingface.co/openbmb/MiniCPM-V-4 【行业报告】 📈 Stripe报告：AI初创公司营收增速超SaaS三倍 * AI企业营收增长速度远超传统SaaS企业，100万美元年化营收仅需11.5个月 * AI公司从成立之初便具备国际化基因，第一年覆盖国家数量是SaaS企业的两倍 * 按用量计费和按成果计费等商业模式日益流行，推动AI企业快速变现

【AI日报】EP.194 8月8 阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1

【模型更新】 🧠 阿里新发布Qwen3-4B模型：小巧强劲，手机也能跑 AI! * 阿里通义千问团队发布的小型语言模型，为移动端AI应用提供新路径。 * Qwen3-4B-Instruct-2507性能超越闭源模型GPT-4.1-nano，接近大规模模型Qwen3-30B-A3B。 * Qwen3-4B-Thinking-2507在数学推理评测中表现出强大的逻辑推理能力。【模型开源】 📖 小红书发布开源多模态大模型 dots.vlm1 * 由小红书Hi Lab发布，基于NaViT视觉编码器和DeepSeek V3大语言模型。 * 在图表推理、STEM数学推理等方面表现突出，性能接近Gemini2.5Pro和Seed-VL1.5。 * 采用原生自研的NaViT视觉编码器，支持动态分辨率，提升了图文对齐质量。【模型上线】 🗣️ MiniMax Speech 2.5语音生成模型上线 * 新一代语音生成模型，在中文方面保持全球最强水平。 * 支持40种语言切换，音色复刻达到行业天花板级精度。 * 多语种覆盖范围扩展至40个语种，助力全球化内容创作。【产品更新】 🎬 Midjourney 推出 HD 视频模式 * 为专业用户提供更高清、更高质量的视频生成工具。 * 分辨率和清晰度显著提升，成本约为SD模式的3.2倍。 * 通过不断优化技术，与OpenAI的Sora和Runway的Gen-4等展开竞争。【工具更新】 CURSOR 1.4正式发布：聚焦异步长程任务 * 增强异步和长程任务处理能力，支持后台Agent运行。 * 优化大型代码库的索引与搜索功能，提升代码补全和查询效率。 * 推动AI编码工具向全自动化转型，增强Agent自主性及协作功能。详情链接:https://cursor.com/en/changelog 【行业动态】 📈 谷歌否认AI搜索功能影响网站流量 * 谷歌声称AI搜索未显著影响网站流量，但数据显示零点击搜索比例显著增加。 * 谷歌强调点击质量提高，但未提供具体数据支持其结论。 * 用户趋势转向Reddit和TikTok等其他平台，导致谷歌流量变化。【模型开源】 📱 MiniCPM-V4.0开源发布，堪称“手机上的GPT-4V” * 轻量级多模态大模型，参数量仅4.1B，展现强大的图像、视频理解能力。 * 在iPhone16Pro Max上实测，首次响应延迟不到2秒，解码速度超17token/秒。 * 提供丰富的生态支持，兼容主流框架，并提供iOS应用及教程。详情链接:https://github.com/OpenBMB/MiniCPM-o 【硬件支持】 💻 AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型 * AMD与高通联合宣布支持OpenAI的gpt-oss系列模型，推动边缘计算与AI结合。 * 锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器。 * 高通骁龙平台展示了gpt-oss-20b的出色推理能力。【框架开源】 📦 腾讯重磅开源WeKnora! * 基于大语言模型的文档理解与检索工具，能从PDF、Word等格式中提取结构化内容。 * 支持多模态文档解析、多轮对话和自然语言查询。 * 采用模块化架构设计，便于灵活配置和扩展。详情链接:https://github.com/Tencent/WeKnora 【行业传闻】 📢 OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露 * 一份疑似GPT-5的详细说明信息在GitHub Models平台上意外曝光。 * GPT-5被描述为OpenAI最先进的模型，在推理、代码质量和用户体验方面有重大改进。 * 信息显示GPT-5将推出gpt-5、gpt-5-mini、gpt-5-nano和gpt-5-chat等多个版本。【新品发布】 🎤 FlowSpeech: 全球首个书面语转口语的TTS * 创新的AI文本转语音工具，能将书面文字转化为自然流畅的口语表达。 * 通过上下文感知和多模态技术，解决传统TTS语调和情感表达不足的问题。 * 计划推出个性化声音定制服务，拓展应用边界。详情链接:https://listenhub.ai/zh?tab=flowspeech

【AI日报】EP.193 8月7 百度推全球首批AI数字员工；Claude Opus4.1出世

【模型更新】 💻 Claude Opus 4.1横空出世，编程能力直冲74.5%新高 * 编程性能大幅提升，在SWE-bench评测中达到74.5% * 数据分析与细节追踪能力显著增强 * 安全性进一步提高，无害响应率达到98.76% 【模型开源】 💻 OpenAI重磅推出gpt-oss-120b与20b，从闭源到开源 * 首次回归开源领域, 推出gpt-oss-120b和gpt-oss-20b两款模型 * 采用Apache2.0许可证，允许自由使用和修改 * 采用混合专家架构，参数规模庞大且运行高效详情链接：https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/ 【世界模型】 💻 谷歌DeepMind重磅发布Genie 3：革命性世界模型 * 实时生成720P高保真3D世界，提升沉浸感 * 支持通过文本指令动态修改虚拟世界事件，增强交互性 * 无需传统物理引擎, 通过视频数据集自主学习物理规律详情链接：https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/ 【应用更新】 💻 谷歌Gemini推出AI故事书生成器 * 几句话就能制作10页图文并茂的故事书，支持中文 * 支持黏土动画、动漫和漫画等多种视觉风格 * 全球上线, 兼容多语言版本, 对中文用户友好【AI音乐】 💻 ElevenLabs 推出 AI 音乐生成器，并获准商用 * 推出全新AI音乐生成模型, 首次拓展至AI音乐创作领域 * 与Merlin Network和Kobalt Music Group达成授权协议以规避版权问题 * 该举措反映了AI创作工具市场的成熟化与规范化趋势【行业应用】 💻 百度智能云宣布推出全球首批AI数字员工 * 涵盖营销经理、还款助理等核心业务职能 * 具备‘懂业务、给结果、可进化’三大特性 * 融合大模型、数字人技术及行业Know-How，实现开箱即用【公司动态】 💻 OpenAI洽谈股权出售，估值或达5000亿美元 * OpenAI正在洽谈一项股权出售交易, 估值预计达5000亿美元 * 旨在扩大技术研发能力，加速产品推广 * ChatGPT等产品的成功使其成为全球最有价值的私营科技公司之一【开发工具】 💻 00后创始人推出云端AI团队开发工具Vinsoo * 引入云端智能Agent团队, 实现多智能体并行任务执行 * 采用本地与云端结合的混合架构，支持本地编码同步云端 * 为每个云端智能体配置独立的沙盒运行环境，保障安全详情链接：https://www.aiyouthlab.com/ 【人才培养】 💻 腾讯2026校招启动，推出AI产品经理培训生项目 * 面向2025至2026年毕业生, 开放70余种岗位，重点布局AI * 推出AI产品经理培训生项目, 旨在培养顶尖AI产品人才 * 提供导师带教、课程资源、内部转岗等全面关爱体系【模型开源】 💻 马斯克宣布 Grok2下周开源，xAI持续加码开源生态 * Elon Musk宣布xAI将于下周开源Grok2，推动AI技术发展 * Grok2已于2024年8月13日以Beta版本发布，提升了推理能力 * X平台向Premium用户推出图片生成功能，增强用户体验【行业活动】 💻 腾讯联合开放原子基金会启动第三届开源大赛 * 总奖金池超百万元，聚焦大模型、数据库、操作系统等核心技术领域 * 面向全球开发者开放报名，通过开源协作解决产业问题 * 优秀参赛者有机会获得工作机会，推动中国开源生态建设详情链接：https://competition.atomgit.com

7分钟

【AI日报】EP.192 8月6 阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B

【开源模型】 🔊 小米全量开源MiDashengLM-7B * 音频理解性能刷新SOTA，推理效率高出业界20倍 * 双核心架构，融合专业音频处理与语言理解 * 支持终端离线部署，降低使用成本【AI应用】 ✍️ 腾讯AI工作台ima推出新功能 * 支持AI播客生成，帮助消化长篇文章 * 新增文件夹一键导入及Xmind脑图导入功能 * 支持知识库内容置顶，提升检索效率【AIGC】 🎨 阿里通义千问开源文生图模型Qwen-Image * 在文本渲染和图像编辑方面表现出色 * 支持多行、段落级文本生成，能精准渲染复杂场景和中文书法 * 具备风格迁移、物体增减等专业级图像编辑能力详情链接: https://modelscope.cn/models/Qwen/Qwen-Image 【行业动态】 📈 ChatGPT周活达7亿，OpenAI年化收入达120亿美元 * 周活跃用户达到7亿，同比增长超四倍 * 年化收入达到120亿美元，远超预期 * 新增休息提醒功能，关注用户健康【AI模型】 🤫 Anthropic疑似内测Claude Opus 4.1，代号leopard * 新模型主打问题解决能力，强化逻辑推理与复杂任务处理 * 代号"leopard"暗示更快的响应速度和精准分析能力 * 内测版本表明已进入生产环境测试，接近正式发布【开发工具】 💻 智谱推出开发效率工具Zread.ai，搭载GLM-4.5 * 提供一站式代码理解与文档生成服务 * 可自动生成项目导读，涵盖架构解析、模块说明等 * 背后采用GLM-4.5模型，支持深入技术问答【AIGC】 🎬 xAI 发布 Grok Imagine4，支持文生图与视频并开放NSFW内容 * 文生图生成速度快，接近实时浏览体验 * 支持图生视频，但画面细节和流畅性有待优化 * 原生支持NSFW内容生成，引发伦理讨论【AI技术】 📹 阿里与南开大学推出视频压缩新技术LLaVA-Scissor * 旨在解决传统视频模型中token数量激增的问题 * 通过SCC算法减少token数量，同时保留关键语义信息 * 在低token保留率下仍表现出色，尤其在视频问答任务中【机器人】 🤖 北京人形机器人创新中心发布全球首个人形机器人3D视觉系统 * 采用Humanoid Occupancy视觉感知系统，实现三维空间精细化建模 * 支持多模态传感器协同工作，提升环境信息整合能力 * 构建大规模数据集，为研究提供宝贵资源详情链接: https://arxiv.org/pdf/2507.20217 【机器人】 🦾 OpenMind推出机器人操作系统OM1，打造“机器人领域的安卓” * 专注于机器人软件生态，旨在成为机器人领域的Android * FABRIC协议构建信任和协作网络，提升群体智能 * 选择家庭场景作为切入点，满足人性化交互需求

8分钟

【AI日报】EP.190 8月1 GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper

【开源项目】 🤖 阿里开源WebAgent项目WebShaper * 模拟人类搜索行为，GAIA评测中性能超越Claude4-Sonnet * WebSailor-72B模型在权威评测中超越多数闭源模型 * 项目提供工业级训练框架和评估标准，降低AI智能体使用门槛项目链接: https://github.com/Alibaba-NLP/WebAgent 论文链接: https://arxiv.org/pdf/2507.15061 【AI视频】 📹 Moonvalley发布Sketch-to-Video功能 * 支持通过手绘草图和文本描述生成电影级高质量视频 * 功能依托Marey模型，使用授权素材训练以确保版权安全 * 显著降低视频制作成本与门槛，赋能全球创作者【大模型】 🎨 腾讯发布X-Omni多模态模型 * 解决AI模型在图像生成中的文字渲染不准确问题，尤其擅长长文本渲染 * 采用强化学习框架和统一建模技术，提升输出的稳定性和准确性 * 在长文本渲染和图像理解任务中超越主流模型项目链接: https://x-omni-team.github.io 论文链接: https://arxiv.org/pdf/2507.22058 【行业动态】 🔍 百度搜索测试AI应用中心入口 * 在电脑端首页灰度测试智能体应用入口，提升用户搜索体验 * 智能体主要来源于文心智能体平台、外部优质AI及百度自研应用 * 功能目前处于测试阶段，尚未获得官方正式回应【AI图像】 ✨ Midjourney推出“为您推荐”功能 * 在探索页面新增“为您推荐”按钮，提供个性化的图片与视频内容 * 基于用户历史交互数据（如点赞、moodboard上传）和偏好学习算法进行推荐 * 推荐结果支持参数调整，以优化输出效果【大模型】 🤫 GPT-5-Auto与GPT-5-Reasoning现身Mac客户端 * GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理 * GPT-5-Auto具备高度自动化能力，可执行多步骤任务，减少用户干预 * 预示OpenAI下一代模型已进入内部测试阶段，预计2025年夏季正式发布【AI工具】 💻 Ollama发布桌面客户端 * 提供图形化界面，支持拖拽文档和多模态识别，告别命令行操作 * 保持本地运行优势，保障用户数据隐私与合规要求 * 降低了本地部署和使用AI模型的门槛详情链接: https://ollama.com/download 【开源项目】 🤝 OWL团队开源多智能体工具Eigent * 通过多层次并行处理机制，革新复杂任务处理效率 * 支持动态创建Workforce，整合多种数据源和工具，灵活定制 * 引入“Human-in-the-Loop”机制，允许用户在关键节点人工干预详情链接: https://github.com/eigent-ai/eigent 【商业】 💰 OpenAI今年收入激增至120亿美元 * 今年前七个月收入已达120亿美元，月收入预计将达到10亿美元 * 周活跃用户数突破7亿，显示其产品的广泛市场认可 * 目标到2029年实现年收入1250亿美元，展现雄心壮志【硬件】 ⚖️ 英伟达H20芯片因安全风险被国信办约谈 * 国信办关注其“追踪定位”和“远程关闭”技术带来的安全风险 * 要求英伟达详细说明其对华销售芯片的漏洞后门问题 * 网信办依据《网络安全法》等法规要求英伟达提交相关证明材料【AI视频】 🏆 万兴科技天幕2.0模型携手华为云 * 天幕2.0模型在SuperCLUE权威榜单中位列国内第四 * 与华为云共建AI视频大模型实验室，推动行业技术革新 * 未来合作有望拓展至更多领域，提升用户数字创意体验

【AI日报】EP.189 7月30 火山引擎发布豆包3.0；通义开源Qwen3非思考模型

【模型发布】🌋 火山引擎发布豆包3.0系列模型，加速Agent落地 * 发布图像编辑模型3.0、同声传译模型2.0及大模型1.6系列 * 开源“扣子”核心能力，并推出企业自有模型托管方案 * 图像编辑模型3.0提升自然语言指令处理能力，适用于影像创作与广告营销领域【开源动态】📖 通义千问开源Qwen3非思考模式模型 * 新版本在非思考模式下性能媲美Gemini2.5-Flash、GPT-4o等顶级闭源模型 * 通用能力显著提升，涵盖指令遵循、逻辑推理、数学、科学、编程等 * 长文本理解能力达到256K，支持多语言，适合全球化应用场景【产品更新】🤖 OpenAI推出全新学习助手ChatGPT Study * 为学生和教育工作者提供个性化和互动的学习体验 * 集成交互式提示、支架式回应、个性化教育和知识点检查四种主要功能 * 对所有免费版、Plus、Pro及Team用户开放【模型发布】🖼️ 我国发布HYPIR图像复原大模型，老照片1.7秒变8K * 能在1.7秒内将老照片修复至8K超高清画质 * 在保真文字方面表现出色，能高保真还原原始文字内容 * 标志着图像复原技术进入全新时代【产品更新】📹 谷歌NotebookLM推出视频概览功能 * 新功能将复杂信息转化为带旁白的幻灯片，为学习增添直观的视觉体验 * 能够从用户上传的资料中提取信息，自动生成带旁白的幻灯片 * 未来计划支持多语言，并不断丰富和扩展表现形式【模型更新】✨ 谷歌悄然升级Imagen 4，性能与性价比大幅提升 * Imagen4Ultra在权威排行榜中跃升至第三，与GPT-4o并肩 * 在图像细节、真实感和风格一致性方面表现出色 * 价格远低于GPT-4o，且生成速度快，平均仅需9.5秒【开源动态】🎨 昆仑万维开源多模态模型Skywork UniPic * 融合图像理解、文本到图像生成和图像编辑能力 * 1.5B参数规模，可在消费级显卡上流畅运行，降低技术门槛详情链接:https://huggingface.co/Skywork/Skywork-UniPic-1.5B 【汽车科技】🚗 理想i8发布，首搭智能司机大模型，售价32.18万元起 * 全新六座纯电SUV，全系标配双电机四驱、自研5C电池及激光雷达 * 全球首搭VLA司机大模型，支持自然语言交互，提升安全与智能化水平【产品更新】🔍 谷歌在英国推出AI搜索模式 * 基于最新的Gemini 2.5模型，支持复杂多部分问题处理 * 利用查询扩展技术分解用户问题，深入挖掘网络内容 * 支持语音和图像提问，提升交互体验【开源动态】🛠️ OWL团队开源多智能体工具Eigent * 通过多智能体协作实现高效任务处理，提升复杂任务执行效率 * 支持多种大语言模型和多模态数据处理 * 开源特性允许开发者自由检查代码、贡献功能或定制化使用详情链接:https://github.com/eigent-ai/eigent 【行业动态】📊 2025年用户增速最快亿级APP榜单：DeepSeek、豆包领跑AIGC赛道 * DeepSeek以1.63亿月活跃用户位居AIGC行业第一 * 豆包实现410.69%的同比增长，月活跃用户达1.41亿

11分钟

【AI日报】EP.188 7月126 扣子空间网页设计功能上线；阿里Wan 2.2即将上线

【AI应用】 🎨 coze扣子空间网页设计功能上线 * 利用AI技术将网页设计时间从数天缩短至5分钟。 * 用户通过自然语言输入或上传参考图片生成个性化网页。 * 适用于活动营销页面、机构主页和个人主页等场景。源链接：https://coze.cn 【大模型】 🌐 通义千问推出机器翻译模型Qwen-MT * 基于Qwen3模型开发，支持92种语言互译，覆盖全球95%以上人口。 * 具备高度可控性、低延迟和低成本优势。 * 提供术语干预、领域提示、记忆库等专业翻译功能。详情链接：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen-mt-turbo 【AI应用】 🤖 ChatGPT Agent功能全面推出 * 全面提升任务自动化能力，向Plus、Pro和Team用户开放。 * 在多项基准测试中表现优异，效率和精准度显著提高。 * 增强了安全性，但金融等敏感操作仍需用户控制。【AI视频】 🎬 阿里通义万相2.2即将上线 * 作为Wan2.1的升级版，新增文本到视频(T2V)功能。 * 支持更高分辨率和更长的视频生成，并新增赛博朋克、写实动画等艺术风格。 * 优化硬件需求，T2V-1.3B模型可在低显存设备上运行。【AI安全】 🛡️ Anthropic推出审计Agent，助力AI模型对齐测试 * 用于检测AI模型的对齐问题，提高测试效率。 * 旨在解决AI模型可能过度迎合用户的问题。 * 提供三种审计Agent，分别负责调查、评估和红队测试，并已开源代码。【大模型】 🚀 OpenAI即将发布GPT-5，预计八月亮相 * 预计于8月初正式发布，整合多种强大的推理能力。 * 将同步推出迷你版(mini)和nano版，扩展应用范围。 * 计划在7月底前发布一个开放权重的语言模型。【AI开发】 🛠️ 谷歌发布AI应用构建工具Opal * 一款无代码AI应用开发工具，用自然语言即可创建AI应用。 * 将自然语言转化为可视化AI工作流，简化开发流程。 * 支持云端分享，推动协作与创新。【3D生成】 📦 南洋理工与上海AI Lab发布PhysX-3D * 旨在解决AI生成3D模型缺乏物理属性的问题。 * 提出3D模型的‘灵魂五问’，涵盖尺寸、材质、功能可供性等核心物理维度。 * 通过PhysXGen生成框架结合几何与物理属性，实现更真实的3D建模。详情链接：https://arxiv.org/pdf/2507.12465 项目链接：https://physx-3d.github.io/ 【大模型】 🧠 快手开源KAT-V1大模型 * 具备自动思考与非思考能力的融合，能根据任务复杂度调整模式。 * 40B版本性能接近DeepSeek-R1，200B版本在多项基准测试中表现优越。 * 使用强化学习算法Step-SRPO提升推理能力和思考密度。详情链接：https://huggingface.co/Kwaipilot/KAT-V1-40B 【大模型】 🔥 讯飞星火X1深度推理大模型升级版上线 * 在幻觉治理方面取得重大进展，提高了大模型的可靠性。 * 多语言支持覆盖130多种语种，实现无障碍跨语言交流。 * 语音同传技术提升，翻译质量得分超90分，响应时间缩短至2秒。详情链接：https://xinghuo.xfyun.cn/desk