【AI日报】阿里开源Qwen-Image-Edit;淘宝"AI万能搜"功能灰度测试;小红书发布DynamicFace人脸生成技术 1. 【AI图像编辑】阿里开源Qwen-Image-Edit:中文渲染秒杀GPT-4o,精准文本编辑+语义外观双控 * 突破性文本编辑能力,支持中英文精准渲染,尤其在中文场景下表现卓越 * 双重编码机制确保语义与外观的平衡,提升图像编辑的准确性和视觉一致性 * 开源赋能全球AI创作生态,提供多种平台和工具支持,推动技术普及与应用 详情链接:https://github.com/QwenLM/Qwen-Image 2. 【电商AI】淘宝"AI万能搜"功能灰度测试,探索电商新购物模式 * AI万能搜基于大模型技术,提升用户购物决策效率 * 功能聚焦穿搭指南、送礼清单、选购攻略和问口碑四大场景 * 用户可清晰看到AI的思考逻辑,包括获取信息、查询需求和分析总结 3. 【人脸生成】小红书发布DynamicFace人脸生成技术,实现高质量图像视频人脸融合 * DynamicFace技术强调可控性,允许用户对人脸生成过程进行精确控制 * 该技术在图像和视频两个维度都实现了优化,特别是在保持高度一致性方面表现突出 * 小红书在推出这一技术的过程中,如何平衡创新与安全将是业界关注的重点 4. 【API升级】Gemini API重磅升级!URL Context功能上线,网站内容直接变现新模式来袭! * URL Context功能让开发者可以直接在提示中提供网页链接,模型自动访问并解析内容,提升开发效率 * 使用URL Context时,提取的内容将计入输入Tokens费用,需权衡成本与内容量 * 新的商业模式可能通过联盟机制实现,内容提供商可从Tokens费用中分得利润,激励高质量内容生成 详情链接:https://ai.google.dev/gemini-api/docs/url-context?hl=zh-cn 5. 【AI模型】Nvidia推出新型小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关 * Nemotron-Nano-9B-v2是一款新型小型语言模型,支持用户灵活控制推理功能 * 模型基于混合架构,能够高效处理长序列信息,适用于多语言任务 * 以开放模型许可证发布,允许商业用途和衍生模型的创建 详情链接:https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2 6. 【图像生成】马斯克发布Grok Imagine 0.1版本,野心打造宇宙最强想象力放大器 * Grok Imagine是xAI推出的图像生成功能,目标是与DALL-E、Midjourney等竞争 * 马斯克公开承认当前版本仍需改进,但对未来发展充满信心 * 功能定位为"想象力放大器",旨在帮助用户拓展创意思维和想象边界 7. 【移动开发】Vercel v0 iOS版发布:AI驱动的移动开发新篇章 * Vercel v0 iOS版正式推出,为移动开发者带来全新构建体验 * 利用自然语言提示生成全栈Web应用,提升开发效率 * 现已开放候补名单注册,欢迎开发者抢先体验 详情链接:https://v0.app/ios 8. 【智能汽车】理想汽车发布MindGPT 3.1智能体模型,每秒200字符输出速度提升5倍 * MindGPT3.1将智能体能力深度融入大模型架构,支持边想边搜功能 * 每秒输出速度最高可达200个tokens,性能提升近5倍 * 代码能力增强,可实现贪吃蛇游戏、弹球控制等经典编程案例 9. 【动漫制作】AI技术简化动漫制作流程,ToonComposer实现自动上色和生成动画 * ToonComposer通过生成式AI技术,简化了动画制作流程,用户仅需一张草图和一帧彩色图像即可生成完整动画 * 该系统可节省高达70%的人工工作时间,让创作者专注于创意 * 提供区域控制功能,用户可自由标记草图区域,系统会智能填充,提升创作效率 详情链接:https://lg-li.github.io/project/tooncomposer/ 10. 【音频生成】ElevenLabs发布全新视频到音乐生成流程 * 视频到音乐生成流程:基于视频内容自动生成定制化配乐 * AI学生包:提供免费积分和折扣工具,支持教育领域应用 * 技术与商业突破:扩展多模态能力,并推动AI音频生态升级
【AI工具】 🎵 腾讯推音效生成工具AudioGenie * 支持视频、文本和图像等多模态输入,一键生成电影级音效。 * 采用无训练多智能体框架,实现高效协同与自我纠错。 * 在MA-Bench基准测试中表现优异,挑战Claude与Gemini。 详情链接: https://audiogenie.github.io/ 【AI智能体】 🤖 阿里推出多模态深度研究智能体WebWatcher * 一个开源的多模态深度研究智能体,能处理复杂的多模态任务。 * 整合网页浏览、图像搜索、代码解释器和OCR等多种工具。 * 在多个评测中表现显著优于其他主流模型。 详情链接: https://github.com/Alibaba-NLP/WebAgent 【3D建模】 🏗️ 港大、哈工大、浙大联合推出可解耦3D模型技术OmniPart * 实现3D模型部件的独立性和结构清晰性,重塑创意设计。 * 采用自回归模型与部件掩码的两阶段生成框架,提升建模精确度。 * 适用于游戏开发、动画制作等多个创意领域。 详情链接: https://omnipart.github.io/ 【AI模型】 🖼️ Meta 发布 DINOv3,无需标注数据的通用图像处理 AI 新模型 * 基于17亿张图像进行自监督学习训练,拥有70亿个参数。 * 性能优于上一代模型 DINOv2,无需标注数据。 * 已在GitHub上开放多个预训练模型变体及代码,允许商业使用。 详情链接: https://github.com/facebookresearch/dinov3 【行业大模型】 ⚖️ 我国首个法律垂直大模型“小包公”发布 * 正式发布,标志着法律人工智能进入规模化应用阶段。 * 整合了2亿份裁判文书和420余万部法律法规,提供能溯源、可验证的法律依据。 * 有望缓解法律服务资源分布不均问题。 【行业动态】 📈 ChatGPT移动端收入突破20亿美元 * 移动应用收入是竞争对手总和的30倍,显示出其在AI助手领域的主导地位。 * 月收入增长高达673%,远超其他聊天机器人。 * 全球下载量达6.9亿次,是Grok的17倍。 【移动AI】 📱 安卓手机集体抄作业灵动岛,新芯片推动AI功能爆发 * 各安卓厂商推出类似苹果灵动岛的交互设计,提升用户体验。 * 新一代芯片算力翻倍,为AI功能普及奠定基础。 * 厂商全量集成AI功能,提供一键订票、行程规划等智能服务。 【AI模型】 🧠 欧洲AI创企发布鸡脑和蝇脑模型,94MB超小AI可离线运行 * Multiverse Computing推出SuperFly和ChickBrain两款超小型AI模型。 * 模型体积小巧,可在物联网设备、智能手机等终端本地运行。 * 性能表现优异,在一些基准测试中超越了原始模型。 【AI编程】 👨💻 Claude Code重大更新!新增编程导师模式 * 新增针对编程初学者的个性化沟通风格设置,包括解释型和学习型。 * 解释型风格专注于深度教学,帮助开发者理解代码背后的原理。 * 新的导师模式让初学者也能享受一对一代码指导,降低学习门槛。 【AI安全】 ⚠️ AI技术被滥用成“退款神器”,商家无奈 * 电商平台出现利用AI伪造商品损坏图片进行恶意退款的现象。 * 该行为可能构成民事欺诈或刑事诈骗。 * 法律专家呼吁加强监管和技术创新以应对这一问题。 【行业报告】 📊 IDC报告:2024年中国AI公有云服务市场激增,阿里云蝉联第一 * 2024年中国AI公有云服务市场规模预计达到195.9亿元,同比增长55.3%。 * 计算机视觉和对话式AI市场表现突出。 * 报告指出技术提供商需重构云服务架构,加强AI治理。
【视频生成】快手可灵2.1推出全新首尾帧功能 * 新增首尾帧功能,提升视频开头和结尾的精细控制 * 支持自定义首尾帧图像,解决转场生硬问题 * 生成速度和成本下降,提高创作者使用效率 【AI音乐】昆仑万维上线AI音乐模型Mureka V7.5 * 在中文歌曲创作中展现卓越能力,包括音色、咬字和情感表现 * 结合MoE-TTS语音合成框架,通过自然语言精准控制声音特征 * 为AI音乐创作和语音合成领域提供了新思路 【AI开发工具】腾讯云推出CloudBase AI CLI,可减少80%编码量 * 提供统一的命令行入口,简化开发流程 * 支持全平台通用性和多模型协作能力 * 提供免费体验额度,降低使用门槛 详情链接: https://static.cloudbase.net/cli/install/install.sh -fsS | bash 【AI Agent】海外新品MuleRun爆火,AI Agent自动玩游戏做建模 * Al Agent能够自动完成游戏任务,极大提升用户体验 * 为用户提供专属的虚拟机环境,支持运行多种软件和应用 * 社区驱动的Agent生态降低了自动化工具的使用门槛 详情链接: https://discord.com/invite/kKAAEYay5F 【AI视觉】Meta重磅开源DINOv3,无需人工标注 * 基于自监督学习,无需人工标注,从海量图像中自主提取特征 * 高分辨率特征提取,同时捕捉全局信息与局部细节 * 适用于环境监测、医疗、自动驾驶等跨领域应用 详情链接: https://github.com/facebookresearch/dinov3 【人形机器人】宇树H1夺机器人史首枚1500米金牌 * 在全球首个以人形机器人为核心的竞技赛事中夺得历史首枚1500米赛金牌 * 在软件上针对跑步速度与耐力进行了优化升级,展现了极限性能 【AI助手】谷歌Gemini迎来重大更新,新增记忆功能和隐私聊天模式 * 记忆功能可记录用户偏好和习惯,提升个性化服务体验 * 临时聊天模式保障隐私,对话内容不会被保存或用于训练 * 体现了AI助手在个性化与隐私保护上的双重突破 【开源项目】香港大学联手开源项目OpenCUA,打造个性化电脑智能助手 * 提供无缝的注释基础设施,用于捕捉人类在电脑上的操作演示 * 集成了AgentNet数据集,覆盖超200个应用程序和网站 * 支持可扩展的工作流程,提升长链推理能力 详情链接: https://opencua.xlang.ai/ 【行业动态】OpenAI或在ChatGPT引入广告 * 正探索在ChatGPT中引入广告,但需谨慎处理以确保用户体验 * 高管认为订阅模式仍有巨大增长潜力 * 预计2024年订阅收入将达127亿美元 【AI模型】谷歌发布超小型开源AI模型Gemma 3 270M * 拥有2.7亿参数的开源模型,适合在智能手机上离线运行 * 在指令跟随任务中表现出色,能效高 * 支持快速微调,适用于企业开发和创造性应用 详情链接: https://developers.googleblog.com/en/introducing-gemma-3-270m/
【AI模型】 腾讯混元开源游戏视频生成框架 Hunyuan-GameCraft * 通过一张图、文字描述和动作指令,生成高清动态游戏视频。 * 支持自由流畅的动作控制,适用于消费级硬件,降低开发门槛。 * 解决了传统游戏内容生产中动作僵硬、场景静态和成本高昂的问题。 详情链接:https://hunyuan-gamecraft.github.io/ 【AI模型】 新图像编辑模型 nano-banana 发布,角色还原能力超强 * 在角色还原、场景重构和图像融合方面超越了 FLUX Kontext 模型。 * 能精准保留图像中人物角色的细节特征,确保编辑后的视觉真实性。 * 处理复杂背景替换或多元素融合场景时,能生成自然连贯的画面效果。 详情链接:https://lmarena.ai/?chat-modality=image 【AI模型】 字节跳动开源 Agent 专用模型 M3-Agent-Control * 基于 Qwen 3 32B 训练,拥有328亿参数,采用BF16张量类型。 * 旨在推动智能技术的开放和普及,为开发者和企业提供更多可能性。 详情链接:https://huggingface.co/ByteDance-Seed/M3-Agent-Control 【AI应用】 Kimi 即将推出全球版 PPT 生成功能 * 其 Kimi K2 模型拥有1万亿总参数和326亿活跃参数。 * Kimi K2 在多个基准测试中超越了 DeepSeek 等开源模型。 * 新功能将为用户提供更高效、智能的PPT生成体验,推动AI办公场景普及。 【行业动态】 阿里1688将于10月全面上线“诚信通 AI 版”会员 * 新入驻商家必须开通AI版,现有基础版将在过渡期后下架。 * 1688将升级免费AI数字员工功能,帮助商家提升获客和运营效率。 【硬件】 苹果智能家居中心再度延期至2026年中期 * 因技术问题推迟,设备将配备7英寸显示屏,外观类似Google Nest Hub。 * 基于大型语言模型的全新 Siri 将成为该设备的核心功能。 【行业动态】 万兴科技抢先接入 OpenAI 的 GPT-5 模型 * 成为首批集成OpenAI最新模型的厂商之一。 * 公司同时提醒投资者注意潜在风险,体现了对市场的理性态度。 【行业动态】 全球 AI 独角兽数量增至498家,总值达2.7万亿美元 * 目前全球已有近500家AI独角兽公司,总价值达到2.7万亿美元。 * 过去两年中诞生了100家新的独角兽公司,显示出迅猛的增长势头。 【AI应用】 谷歌为 Slides 和 Vids 引入全新 AI 图像编辑功能 * 用户可通过文本提示快速替换和扩展图片背景。 * 功能预计8月14日全面上线,覆盖 Google Workspace 多个订阅版本。 【AI模型】 昆仑万维发布 Skywork Deep Research Agent v2 * 引入多模态深度调研和浏览器智能体,提升信息处理能力。 * 该模型在权威评测中表现优异,刷新行业SOTA纪录。 详情链接:https://skywork.ai
【AI大模型】 💡 智谱发布并开源视觉推理模型GLM-4.5V * 总参数达106B,在41个视觉多模态榜单中达SOTA性能 * 具备图像推理、视频理解、GUI任务等全场景视觉推理能力 * 新增“思考模式”开关,平衡效率与效果 * API价格低至输入2元/M tokens,输出6元/M tokens 【具身智能】 🤖 阿里达摩院开源三项具身智能核心技术 * 开源VLA模型、世界理解模型、机器人上下文协议三项核心技术 * RynnVLA-001模型能从第一人称视角视频学习人类操作技能 * RynnEC模型可从11个维度全面解析场景物体,无需依赖3D模型 项目链接:https://github.com/alibaba-damo-academy/RynnRCP 【科技巨头】 🍎 苹果计划将Apple Intelligence升级至GPT-5 * 计划在iOS26等新系统中将ChatGPT核心模型升级至GPT-5 * 新功能将包括多语言实时翻译及屏幕内容分析 * 首次向开发者开放设备端API,支持第三方应用接入 【AI应用】 🗺️ 高德地图全面接入通义大模型,推出首个AI原生Agent * 内置智能体“小高老师”,支持音频/文本等多模态全双工语音交互 * 基于36万亿token预训练的Qwen大模型,实现空间语义深度理解 * 联合推出复杂POI推理Agent,提供精准推荐与导航 【人形机器人】 🦾 宇树科技将出征首届世界人形机器人运动会 * 除自有团队外,赛场上将有多个队伍使用宇树的机器人硬件参赛 * 运动会汇聚了来自16个国家的共计280支队伍 * 体现了宇树设备在开放生态中的广泛应用和竞争力 【AI应用】 🧠 Claude AI上线“记忆功能”,支持多背景切换 * 自动记忆并复用历史对话背景,实现跨会话无缝衔接 * 支持为不同项目设定独立背景,一键切换工作/生活场景 * 目前仅向Claude Max、Team、Enterprise付费用户开放 【AI大模型】 🚀 360智脑推出Light-IF系列模型并全面开源 * 以“预览-自检式推理+信息熵控制”框架专治“懒惰推理” * 在SuperCLUE等四大基准全面领先,小参数可越级打大模型 * 模型权重、数据集与代码将陆续在Hugging Face和GitHub发布 【视频技术】 🎬 字节跳动推视频字幕无痕擦除方案 * 基于DiT大模型,实现像素级修复、多语言适配和口型同步 * 突破中英限制,覆盖小语种,形成一站式“擦除-翻译-口型同步” * 已在万集数据上验证,成功率100%,分布式计算提升效率 详情地址:https://console.volcengine.com/vod/ 【AI视频生成】 🎮 昆仑万维开源世界模型Matrix-Game2.0 * 业内首个通用场景实时长序列开源世界模型 * 可实时生成分钟级25fps高连贯视频,用于游戏/影视/VR * 摒弃语言提示,通过纯视觉驱动交互,适应多风格场景 【AI视频生成】 🌍 昆仑万维开源Matrix-3D,单图即可生成3D全景视频 * 直接由单张图像产出高质量全景视频与可探索3D场景 * 采用Mesh渲染图驱动扩散模型,保证相机轨迹一致性 * 全面开放代码与数据集 项目链接:https://github.com/SkyworkAI/Matrix-3D
【AI模型】 🤖 昆仑万维发布SkyReels-A3模型,照片可根据语音对口型 * 基于DiT视频扩散模型,实现音频驱动数字人创作 * 可使静态图像或视频中的人物根据语音开口说话或唱歌 * 支持改台词、运镜控制等功能 详情链接: https://skyworkai.github.io/skyreels-a3.github.io/ 【AI模型】 🚀 xAI宣布Grok 4 AI模型永久免费开放 * Grok 4人工智能模型将永久免费开放给全球用户 * 提供Auto模式和Expert模式,满足不同用户需求 * 免费开放可能推动AI技术的普及和应用 【行业动态】 📖 OpenAI发布GPT-5提示词指南,解锁AI编程与多模态 * 通过精准的提示设计提升代理任务、代码生成和指令遵循的表现 * 支持生成前端界面、调试大型代码库,并结合Responses API提高效率 * 引入多模态交互功能,包括文本、图像、语音处理 详情链接: https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide 【AI应用】 💻 百度搜索PC端全面上线AI搜索功能 * 新增“超级智能双行框”和“工作台”模块 * 集成AI阅读、AI写作和AI PPT工具,提升用户效率 * 月活跃用户已超过3.22亿,稳居国内AI搜索行业第一 【AI应用】 🖥️ Windows Copilot免费接入GPT-5,使用限制低于ChatGPT * Windows 11和10的Copilot应用已全面支持GPT-5智能模式 * 用户无需更新即可启用,使用限制比ChatGPT更宽松 * 用户可通过简单步骤免费访问Copilot和GPT-5 【AI模型】 🩺 百川智能开源医疗大模型Baichuan-M2,评测超OpenAI * 在HealthBench评测中得分60.1,超越OpenAI的gpt-oss120b模型 * 模型经过极致轻量化处理,可在单卡部署,降低成本 * 复杂医疗问题处理能力与GPT-5相当 详情链接: https://huggingface.co/baichuan-inc/Baichuan-M2-32B 【行业动态】 📱 苹果宣布GPT-5将集成至iOS26 * iOS26将集成ChatGPT-5模型,提升Apple智能性能 * 新增实时翻译功能,改善跨语言交流体验 * 用户无需OpenAI账户即可使用,关联账户可享更多优惠 【AI框架】 🎨 谷歌推出BlenderFusion,颠覆3D视觉编辑与生成合成 * 集成先进3D编辑工具与扩散模型,实现高效3D视觉编辑与生成 * 工作流程包括分层、编辑和合成三个阶段 * 通过优化模型提升对复杂场景的处理能力 详情链接: https://blenderfusion.github.io/ 【AI模型】 🔉 开源轻量级TTS模型Kitten TTS发布,参数量仅1500万 * 开源轻量级文本转语音模型,体积小于25MB,适合各种设备部署 * 支持无GPU运行,可在普通CPU上实现高质量语音合成 * 参数量仅1500万,提供简单安装和使用指南 详情链接: https://huggingface.co/KittenML/kitten-tts-nano-0.1 【AI模型】 📲 MiniCPM-V4.0视觉模型发布,专为移动端优化 * 在OpenCompass评测中得分69.0,超越多款同类模型 * 专为移动设备设计,响应速度快且无发热问题 * 提供开源iOS应用及详细使用指南,便于用户上手 详情链接: https://huggingface.co/openbmb/MiniCPM-V-4 【行业报告】 📈 Stripe报告:AI初创公司营收增速超SaaS三倍 * AI企业营收增长速度远超传统SaaS企业,100万美元年化营收仅需11.5个月 * AI公司从成立之初便具备国际化基因,第一年覆盖国家数量是SaaS企业的两倍 * 按用量计费和按成果计费等商业模式日益流行,推动AI企业快速变现
【模型更新】 🧠 阿里新发布Qwen3-4B模型:小巧强劲,手机也能跑 AI! * 阿里通义千问团队发布的小型语言模型,为移动端AI应用提供新路径。 * Qwen3-4B-Instruct-2507性能超越闭源模型GPT-4.1-nano,接近大规模模型Qwen3-30B-A3B。 * Qwen3-4B-Thinking-2507在数学推理评测中表现出强大的逻辑推理能力。 【模型开源】 📖 小红书发布开源多模态大模型 dots.vlm1 * 由小红书Hi Lab发布,基于NaViT视觉编码器和DeepSeek V3大语言模型。 * 在图表推理、STEM数学推理等方面表现突出,性能接近Gemini2.5Pro和Seed-VL1.5。 * 采用原生自研的NaViT视觉编码器,支持动态分辨率,提升了图文对齐质量。 【模型上线】 🗣️ MiniMax Speech 2.5语音生成模型上线 * 新一代语音生成模型,在中文方面保持全球最强水平。 * 支持40种语言切换,音色复刻达到行业天花板级精度。 * 多语种覆盖范围扩展至40个语种,助力全球化内容创作。 【产品更新】 🎬 Midjourney 推出 HD 视频模式 * 为专业用户提供更高清、更高质量的视频生成工具。 * 分辨率和清晰度显著提升,成本约为SD模式的3.2倍。 * 通过不断优化技术,与OpenAI的Sora和Runway的Gen-4等展开竞争。 【工具更新】 CURSOR 1.4正式发布:聚焦异步长程任务 * 增强异步和长程任务处理能力,支持后台Agent运行。 * 优化大型代码库的索引与搜索功能,提升代码补全和查询效率。 * 推动AI编码工具向全自动化转型,增强Agent自主性及协作功能。 详情链接:https://cursor.com/en/changelog 【行业动态】 📈 谷歌否认AI搜索功能影响网站流量 * 谷歌声称AI搜索未显著影响网站流量,但数据显示零点击搜索比例显著增加。 * 谷歌强调点击质量提高,但未提供具体数据支持其结论。 * 用户趋势转向Reddit和TikTok等其他平台,导致谷歌流量变化。 【模型开源】 📱 MiniCPM-V4.0开源发布,堪称“手机上的GPT-4V” * 轻量级多模态大模型,参数量仅4.1B,展现强大的图像、视频理解能力。 * 在iPhone16Pro Max上实测,首次响应延迟不到2秒,解码速度超17token/秒。 * 提供丰富的生态支持,兼容主流框架,并提供iOS应用及教程。 详情链接:https://github.com/OpenBMB/MiniCPM-o 【硬件支持】 💻 AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型 * AMD与高通联合宣布支持OpenAI的gpt-oss系列模型,推动边缘计算与AI结合。 * 锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器。 * 高通骁龙平台展示了gpt-oss-20b的出色推理能力。 【框架开源】 📦 腾讯重磅开源WeKnora! * 基于大语言模型的文档理解与检索工具,能从PDF、Word等格式中提取结构化内容。 * 支持多模态文档解析、多轮对话和自然语言查询。 * 采用模块化架构设计,便于灵活配置和扩展。 详情链接:https://github.com/Tencent/WeKnora 【行业传闻】 📢 OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露 * 一份疑似GPT-5的详细说明信息在GitHub Models平台上意外曝光。 * GPT-5被描述为OpenAI最先进的模型,在推理、代码质量和用户体验方面有重大改进。 * 信息显示GPT-5将推出gpt-5、gpt-5-mini、gpt-5-nano和gpt-5-chat等多个版本。 【新品发布】 🎤 FlowSpeech: 全球首个书面语转口语的TTS * 创新的AI文本转语音工具,能将书面文字转化为自然流畅的口语表达。 * 通过上下文感知和多模态技术,解决传统TTS语调和情感表达不足的问题。 * 计划推出个性化声音定制服务,拓展应用边界。 详情链接:https://listenhub.ai/zh?tab=flowspeech
【模型更新】 💻 Claude Opus 4.1横空出世,编程能力直冲74.5%新高 * 编程性能大幅提升,在SWE-bench评测中达到74.5% * 数据分析与细节追踪能力显著增强 * 安全性进一步提高,无害响应率达到98.76% 【模型开源】 💻 OpenAI重磅推出gpt-oss-120b与20b,从闭源到开源 * 首次回归开源领域, 推出gpt-oss-120b和gpt-oss-20b两款模型 * 采用Apache2.0许可证,允许自由使用和修改 * 采用混合专家架构,参数规模庞大且运行高效 详情链接:https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/ 【世界模型】 💻 谷歌DeepMind重磅发布Genie 3:革命性世界模型 * 实时生成720P高保真3D世界,提升沉浸感 * 支持通过文本指令动态修改虚拟世界事件,增强交互性 * 无需传统物理引擎, 通过视频数据集自主学习物理规律 详情链接:https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/ 【应用更新】 💻 谷歌Gemini推出AI故事书生成器 * 几句话就能制作10页图文并茂的故事书,支持中文 * 支持黏土动画、动漫和漫画等多种视觉风格 * 全球上线, 兼容多语言版本, 对中文用户友好 【AI音乐】 💻 ElevenLabs 推出 AI 音乐生成器,并获准商用 * 推出全新AI音乐生成模型, 首次拓展至AI音乐创作领域 * 与Merlin Network和Kobalt Music Group达成授权协议以规避版权问题 * 该举措反映了AI创作工具市场的成熟化与规范化趋势 【行业应用】 💻 百度智能云宣布推出全球首批AI数字员工 * 涵盖营销经理、还款助理等核心业务职能 * 具备‘懂业务、给结果、可进化’三大特性 * 融合大模型、数字人技术及行业Know-How,实现开箱即用 【公司动态】 💻 OpenAI洽谈股权出售,估值或达5000亿美元 * OpenAI正在洽谈一项股权出售交易, 估值预计达5000亿美元 * 旨在扩大技术研发能力,加速产品推广 * ChatGPT等产品的成功使其成为全球最有价值的私营科技公司之一 【开发工具】 💻 00后创始人推出云端AI团队开发工具Vinsoo * 引入云端智能Agent团队, 实现多智能体并行任务执行 * 采用本地与云端结合的混合架构,支持本地编码同步云端 * 为每个云端智能体配置独立的沙盒运行环境,保障安全 详情链接:https://www.aiyouthlab.com/ 【人才培养】 💻 腾讯2026校招启动,推出AI产品经理培训生项目 * 面向2025至2026年毕业生, 开放70余种岗位,重点布局AI * 推出AI产品经理培训生项目, 旨在培养顶尖AI产品人才 * 提供导师带教、课程资源、内部转岗等全面关爱体系 【模型开源】 💻 马斯克宣布 Grok2下周开源,xAI持续加码开源生态 * Elon Musk宣布xAI将于下周开源Grok2,推动AI技术发展 * Grok2已于2024年8月13日以Beta版本发布,提升了推理能力 * X平台向Premium用户推出图片生成功能,增强用户体验 【行业活动】 💻 腾讯联合开放原子基金会启动第三届开源大赛 * 总奖金池超百万元,聚焦大模型、数据库、操作系统等核心技术领域 * 面向全球开发者开放报名,通过开源协作解决产业问题 * 优秀参赛者有机会获得工作机会,推动中国开源生态建设 详情链接:https://competition.atomgit.com
【开源模型】 🔊 小米全量开源MiDashengLM-7B * 音频理解性能刷新SOTA,推理效率高出业界20倍 * 双核心架构,融合专业音频处理与语言理解 * 支持终端离线部署,降低使用成本 【AI应用】 ✍️ 腾讯AI工作台ima推出新功能 * 支持AI播客生成,帮助消化长篇文章 * 新增文件夹一键导入及Xmind脑图导入功能 * 支持知识库内容置顶,提升检索效率 【AIGC】 🎨 阿里通义千问开源文生图模型Qwen-Image * 在文本渲染和图像编辑方面表现出色 * 支持多行、段落级文本生成,能精准渲染复杂场景和中文书法 * 具备风格迁移、物体增减等专业级图像编辑能力 详情链接: https://modelscope.cn/models/Qwen/Qwen-Image 【行业动态】 📈 ChatGPT周活达7亿,OpenAI年化收入达120亿美元 * 周活跃用户达到7亿,同比增长超四倍 * 年化收入达到120亿美元,远超预期 * 新增休息提醒功能,关注用户健康 【AI模型】 🤫 Anthropic疑似内测Claude Opus 4.1,代号leopard * 新模型主打问题解决能力,强化逻辑推理与复杂任务处理 * 代号"leopard"暗示更快的响应速度和精准分析能力 * 内测版本表明已进入生产环境测试,接近正式发布 【开发工具】 💻 智谱推出开发效率工具Zread.ai,搭载GLM-4.5 * 提供一站式代码理解与文档生成服务 * 可自动生成项目导读,涵盖架构解析、模块说明等 * 背后采用GLM-4.5模型,支持深入技术问答 【AIGC】 🎬 xAI 发布 Grok Imagine4,支持文生图与视频并开放NSFW内容 * 文生图生成速度快,接近实时浏览体验 * 支持图生视频,但画面细节和流畅性有待优化 * 原生支持NSFW内容生成,引发伦理讨论 【AI技术】 📹 阿里与南开大学推出视频压缩新技术LLaVA-Scissor * 旨在解决传统视频模型中token数量激增的问题 * 通过SCC算法减少token数量,同时保留关键语义信息 * 在低token保留率下仍表现出色,尤其在视频问答任务中 【机器人】 🤖 北京人形机器人创新中心发布全球首个人形机器人3D视觉系统 * 采用Humanoid Occupancy视觉感知系统,实现三维空间精细化建模 * 支持多模态传感器协同工作,提升环境信息整合能力 * 构建大规模数据集,为研究提供宝贵资源 详情链接: https://arxiv.org/pdf/2507.20217 【机器人】 🦾 OpenMind推出机器人操作系统OM1,打造“机器人领域的安卓” * 专注于机器人软件生态,旨在成为机器人领域的Android * FABRIC协议构建信任和协作网络,提升群体智能 * 选择家庭场景作为切入点,满足人性化交互需求
【开源项目】 🤖 阿里开源WebAgent项目WebShaper * 模拟人类搜索行为,GAIA评测中性能超越Claude4-Sonnet * WebSailor-72B模型在权威评测中超越多数闭源模型 * 项目提供工业级训练框架和评估标准,降低AI智能体使用门槛 项目链接: https://github.com/Alibaba-NLP/WebAgent 论文链接: https://arxiv.org/pdf/2507.15061 【AI视频】 📹 Moonvalley发布Sketch-to-Video功能 * 支持通过手绘草图和文本描述生成电影级高质量视频 * 功能依托Marey模型,使用授权素材训练以确保版权安全 * 显著降低视频制作成本与门槛,赋能全球创作者 【大模型】 🎨 腾讯发布X-Omni多模态模型 * 解决AI模型在图像生成中的文字渲染不准确问题,尤其擅长长文本渲染 * 采用强化学习框架和统一建模技术,提升输出的稳定性和准确性 * 在长文本渲染和图像理解任务中超越主流模型 项目链接: https://x-omni-team.github.io 论文链接: https://arxiv.org/pdf/2507.22058 【行业动态】 🔍 百度搜索测试AI应用中心入口 * 在电脑端首页灰度测试智能体应用入口,提升用户搜索体验 * 智能体主要来源于文心智能体平台、外部优质AI及百度自研应用 * 功能目前处于测试阶段,尚未获得官方正式回应 【AI图像】 ✨ Midjourney推出“为您推荐”功能 * 在探索页面新增“为您推荐”按钮,提供个性化的图片与视频内容 * 基于用户历史交互数据(如点赞、moodboard上传)和偏好学习算法进行推荐 * 推荐结果支持参数调整,以优化输出效果 【大模型】 🤫 GPT-5-Auto与GPT-5-Reasoning现身Mac客户端 * GPT-5-Reasoning专注于复杂任务的逻辑拆解与多步推理 * GPT-5-Auto具备高度自动化能力,可执行多步骤任务,减少用户干预 * 预示OpenAI下一代模型已进入内部测试阶段,预计2025年夏季正式发布 【AI工具】 💻 Ollama发布桌面客户端 * 提供图形化界面,支持拖拽文档和多模态识别,告别命令行操作 * 保持本地运行优势,保障用户数据隐私与合规要求 * 降低了本地部署和使用AI模型的门槛 详情链接: https://ollama.com/download 【开源项目】 🤝 OWL团队开源多智能体工具Eigent * 通过多层次并行处理机制,革新复杂任务处理效率 * 支持动态创建Workforce,整合多种数据源和工具,灵活定制 * 引入“Human-in-the-Loop”机制,允许用户在关键节点人工干预 详情链接: https://github.com/eigent-ai/eigent 【商业】 💰 OpenAI今年收入激增至120亿美元 * 今年前七个月收入已达120亿美元,月收入预计将达到10亿美元 * 周活跃用户数突破7亿,显示其产品的广泛市场认可 * 目标到2029年实现年收入1250亿美元,展现雄心壮志 【硬件】 ⚖️ 英伟达H20芯片因安全风险被国信办约谈 * 国信办关注其“追踪定位”和“远程关闭”技术带来的安全风险 * 要求英伟达详细说明其对华销售芯片的漏洞后门问题 * 网信办依据《网络安全法》等法规要求英伟达提交相关证明材料 【AI视频】 🏆 万兴科技天幕2.0模型携手华为云 * 天幕2.0模型在SuperCLUE权威榜单中位列国内第四 * 与华为云共建AI视频大模型实验室,推动行业技术革新 * 未来合作有望拓展至更多领域,提升用户数字创意体验
【模型发布】🌋 火山引擎发布豆包3.0系列模型,加速Agent落地 * 发布图像编辑模型3.0、同声传译模型2.0及大模型1.6系列 * 开源“扣子”核心能力,并推出企业自有模型托管方案 * 图像编辑模型3.0提升自然语言指令处理能力,适用于影像创作与广告营销领域 【开源动态】📖 通义千问开源Qwen3非思考模式模型 * 新版本在非思考模式下性能媲美Gemini2.5-Flash、GPT-4o等顶级闭源模型 * 通用能力显著提升,涵盖指令遵循、逻辑推理、数学、科学、编程等 * 长文本理解能力达到256K,支持多语言,适合全球化应用场景 【产品更新】🤖 OpenAI推出全新学习助手ChatGPT Study * 为学生和教育工作者提供个性化和互动的学习体验 * 集成交互式提示、支架式回应、个性化教育和知识点检查四种主要功能 * 对所有免费版、Plus、Pro及Team用户开放 【模型发布】🖼️ 我国发布HYPIR图像复原大模型,老照片1.7秒变8K * 能在1.7秒内将老照片修复至8K超高清画质 * 在保真文字方面表现出色,能高保真还原原始文字内容 * 标志着图像复原技术进入全新时代 【产品更新】📹 谷歌NotebookLM推出视频概览功能 * 新功能将复杂信息转化为带旁白的幻灯片,为学习增添直观的视觉体验 * 能够从用户上传的资料中提取信息,自动生成带旁白的幻灯片 * 未来计划支持多语言,并不断丰富和扩展表现形式 【模型更新】✨ 谷歌悄然升级Imagen 4,性能与性价比大幅提升 * Imagen4Ultra在权威排行榜中跃升至第三,与GPT-4o并肩 * 在图像细节、真实感和风格一致性方面表现出色 * 价格远低于GPT-4o,且生成速度快,平均仅需9.5秒 【开源动态】🎨 昆仑万维开源多模态模型Skywork UniPic * 融合图像理解、文本到图像生成和图像编辑能力 * 1.5B参数规模,可在消费级显卡上流畅运行,降低技术门槛 详情链接:https://huggingface.co/Skywork/Skywork-UniPic-1.5B 【汽车科技】🚗 理想i8发布,首搭智能司机大模型,售价32.18万元起 * 全新六座纯电SUV,全系标配双电机四驱、自研5C电池及激光雷达 * 全球首搭VLA司机大模型,支持自然语言交互,提升安全与智能化水平 【产品更新】🔍 谷歌在英国推出AI搜索模式 * 基于最新的Gemini 2.5模型,支持复杂多部分问题处理 * 利用查询扩展技术分解用户问题,深入挖掘网络内容 * 支持语音和图像提问,提升交互体验 【开源动态】🛠️ OWL团队开源多智能体工具Eigent * 通过多智能体协作实现高效任务处理,提升复杂任务执行效率 * 支持多种大语言模型和多模态数据处理 * 开源特性允许开发者自由检查代码、贡献功能或定制化使用 详情链接:https://github.com/eigent-ai/eigent 【行业动态】📊 2025年用户增速最快亿级APP榜单:DeepSeek、豆包领跑AIGC赛道 * DeepSeek以1.63亿月活跃用户位居AIGC行业第一 * 豆包实现410.69%的同比增长,月活跃用户达1.41亿
【AI应用】 🎨 coze扣子空间网页设计功能上线 * 利用AI技术将网页设计时间从数天缩短至5分钟。 * 用户通过自然语言输入或上传参考图片生成个性化网页。 * 适用于活动营销页面、机构主页和个人主页等场景。 源链接:https://coze.cn 【大模型】 🌐 通义千问推出机器翻译模型Qwen-MT * 基于Qwen3模型开发,支持92种语言互译,覆盖全球95%以上人口。 * 具备高度可控性、低延迟和低成本优势。 * 提供术语干预、领域提示、记忆库等专业翻译功能。 详情链接:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen-mt-turbo 【AI应用】 🤖 ChatGPT Agent功能全面推出 * 全面提升任务自动化能力,向Plus、Pro和Team用户开放。 * 在多项基准测试中表现优异,效率和精准度显著提高。 * 增强了安全性,但金融等敏感操作仍需用户控制。 【AI视频】 🎬 阿里通义万相2.2即将上线 * 作为Wan2.1的升级版,新增文本到视频(T2V)功能。 * 支持更高分辨率和更长的视频生成,并新增赛博朋克、写实动画等艺术风格。 * 优化硬件需求,T2V-1.3B模型可在低显存设备上运行。 【AI安全】 🛡️ Anthropic推出审计Agent,助力AI模型对齐测试 * 用于检测AI模型的对齐问题,提高测试效率。 * 旨在解决AI模型可能过度迎合用户的问题。 * 提供三种审计Agent,分别负责调查、评估和红队测试,并已开源代码。 【大模型】 🚀 OpenAI即将发布GPT-5,预计八月亮相 * 预计于8月初正式发布,整合多种强大的推理能力。 * 将同步推出迷你版(mini)和nano版,扩展应用范围。 * 计划在7月底前发布一个开放权重的语言模型。 【AI开发】 🛠️ 谷歌发布AI应用构建工具Opal * 一款无代码AI应用开发工具,用自然语言即可创建AI应用。 * 将自然语言转化为可视化AI工作流,简化开发流程。 * 支持云端分享,推动协作与创新。 【3D生成】 📦 南洋理工与上海AI Lab发布PhysX-3D * 旨在解决AI生成3D模型缺乏物理属性的问题。 * 提出3D模型的‘灵魂五问’,涵盖尺寸、材质、功能可供性等核心物理维度。 * 通过PhysXGen生成框架结合几何与物理属性,实现更真实的3D建模。 详情链接:https://arxiv.org/pdf/2507.12465 项目链接:https://physx-3d.github.io/ 【大模型】 🧠 快手开源KAT-V1大模型 * 具备自动思考与非思考能力的融合,能根据任务复杂度调整模式。 * 40B版本性能接近DeepSeek-R1,200B版本在多项基准测试中表现优越。 * 使用强化学习算法Step-SRPO提升推理能力和思考密度。 详情链接:https://huggingface.co/Kwaipilot/KAT-V1-40B 【大模型】 🔥 讯飞星火X1深度推理大模型升级版上线 * 在幻觉治理方面取得重大进展,提高了大模型的可靠性。 * 多语言支持覆盖130多种语种,实现无障碍跨语言交流。 * 语音同传技术提升,翻译质量得分超90分,响应时间缩短至2秒。 详情链接:https://xinghuo.xfyun.cn/desk
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧