【AI模型】 🤖 豆包1.6-Vision发布:多模态更强,成本再降50% 强化工具调用与视觉理解,推理与开发效率双提升。 综合成本较上一代约降一半,性价比显著提升。 【技术突破】 🔬 通义千问Qwen3-LiveTranslate-Flash:同传延迟刷新至3秒 覆盖18种语言与多方言,视觉上下文加持复杂场景更准。 行业领先的3秒级同传,显著提升实时沟通流畅度。 【AI模型】 🤖 DeepSeek V3.2-exp:稀疏注意力将API成本砍半 “闪电索引器”与“细粒度标记选择”协同,长上下文处理更高效。 初测显示调用成本下降约50%,更经济可用。 - 参考链接:https://www.chinaz.com/tags/855878.shtml - 参考链接:https://www.chinaz.com/tags/919172.shtml - 参考链接:https://www.chinaz.com/tags/937841.shtml 【AI模型】 🤖 Claude Sonnet 4.5发布:编码与复杂任务全面跃升 在编码基准与长时自主执行上表现卓越,新增检查点、上下文编辑与内存工具。 更强对齐与安全,适配高风险企业场景。 【行业动态】 📰 ChatGPT上线“即时结账”:聊天里一键下单 接入Stripe“代理商务协议”,多支付方式安全便捷。 后续将支持多件购物车与全球市场,重塑电商闭环体验。 【行业动态】 📰 OpenAI将推“AI版TikTok”:Sora2全AI生成短视频 10秒短片形态,支持身份认证与肖像使用标记。 同步强调安全与版权管控,力保社区健康与用户留存。 【效率工具】 ⚙️ Claude Code 2.0:检查点+VS Code插件,编程效率飞跃 新增状态回滚、内联差异与图形化交互,IDE与终端协同更顺滑。 Sonnet4.5在OSWorld拿下61.4%,擅长复杂代理构建。 【效率工具】 ⚙️ 百度地图小度想想2.0:出行智能助手全面进化 出行知识库+实时搜索,复杂出行意图理解更准。 跨端记忆打通手机与车机,支持即时/近期/长期个性化推荐。 【开源项目】 🧩 蚂蚁集团开源万亿参数Ring-1T-preview:逼近GPT-5水准 在AIME25与CodeForces等测试表现优异,强化推理与代码生成。 团队持续后训练,潜力有望进一步释放。 【技术突破】 🔬 DeepMind提出“帧链”:通用视频理解迈出关键一步 让视频模型具备跨时空推理能力,Veo3多任务强势表现。 通用视频模型或将替代专用模型,开启机器视觉新阶段。 - 源链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf 【开源项目】 🧩 智谱GLM-4.6开源:编程能力对齐Sonnet4,国产硬件适配破局 Agentic Coding等能力大幅升级,超越DeepSeek V3.2-Exp于代码生成。 已在寒武纪与摩尔线程硬件上高效部署。
【技术突破】 🚀 京东物流发布“超脑大模型2.0”和“异狼”具身机械臂 在 JDDiscovery-2025 上,物流从“辅助决策”迈向“具身执行”新阶段。 大模型2小时解千万级变量;“异狼”机械臂自主学习,复杂包裹高精度抓取。 - 参考链接:https://www.chinaz.com/tags/jingdongwuliu.shtml - 参考链接:https://www.chinaz.com/tags/996720.shtml - 参考链接:https://www.chinaz.com/tags/996721.shtml 【AI模型】 🧠 DeepSeek V3.1 Terminus终结版发布,稳定性大幅提升 修复中英文混杂与异常字符等关键问题,优化 Code/Search Agent。 V3系列收官,V4或R2全新架构呼之欲出。 【效率工具】 ⚙️ Kimi 上线全新 Agent 模式“OK Computer”,开启灰度 基于 K2 模型,参数总量达1T,自主编程与工具调用表现突出。 以自然指令完成网站开发、数据分析等复杂任务。 【效率工具】 ⚙️ ChatGPT 推出个性化资讯功能,打造你的专属新闻助手 结合聊天历史,定制推送多领域每日资讯。 旨在提升信息获取效率与体验。 【开源项目】 🔓 Exa Code 发布:为 Coding Agent 提供亿级代码上下文 精准提取相关token,提升信息密度,显著降低幻觉与冗长输出。 免费开源、易集成,助力多场景开发提速。 - 源链接:https://exa.ai/blog/exa-code 【行业动态】 📰 Meta 推出 AI 视频平台 Vibes,轻松创作与分享短视频 支持从零创作、素材再混、动态 remix,多样玩法一站式。 作品可在 Vibes 发布,或跨平台分享至 Instagram 与 Facebook。 - 源链接:https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/ 【技术突破】 🚀 蚂蚁数科发布隐私保护AI算法,推理提速超100倍 Gibbon 框架采用安全两方训练,显著加速传统GBDT。 基于同态查找表的决策图推理,兼顾隐私与高效计算。 【行业动态】 📰 OpenAI 发布 GDPval 基准,GPT-5 多行业逼近专家水平 涵盖九大行业、44种职业评估,GPT-5与Claude Opus4.1部分任务接近专家。 真实工作能力仍待验证,后续将推出更全面测试。 - 源链接:https://openai.com/index/gdpval/
【技术突破】 🚀 生数科技发布 Vidu Q2:细微表情生成更真实 在图生视频细微表情与情感传达上实现显著提升,画面更自然、更生动。 支持图生视频、首尾帧生成与可调时长,为创意影像提供更灵活的制作能力。 【效率工具】 ⚙️ 火山引擎炉米 Lumi 支持视觉模型 LoRA 微调 首次支持豆包、即梦等同款视觉模型的 LoRA 微调,企业可快速定制视觉风格。 提供从图片到视频的全流程 AIGC 能力,助力高效构建生产线。 【行业动态】 📰 阿里云:通义千问开源300+模型,下载量突破6亿 云栖大会披露最新进展,展现开源生态与应用落地的强劲势头。 通义万象生成超3.9亿张图片、7000万+视频,数字内容能力持续攀升。 【开源项目】 🧩 百度开源 Qianfan-VL:多模态视觉理解模型三档规模 依托昆仑芯 P800,兼顾低功耗与高效训练,在 OCR 与教育场景表现突出。 3B/8B/70B 全系开放,GitHub 与 Hugging Face 同步面向开发者使用。 - 项目链接(如有):https://github.com/baidubce/Qianfan-VL 【行业动态】 📰 微软引入 Anthropic 模型扩展 Copilot Assistant 在保持与 OpenAI 紧密合作的同时,多元化引入 Anthropic 满足企业需求。 管理员启用后,企业可用 Anthropic 模型构建 AI 代理,并在多云环境运行。 【行业动态】 📰 OpenAI 在美国新建五个数据中心,推进“Stargate”算力 总投资约 5000 亿美元,目标算力接近 7GW,基础设施按周扩容。 Oracle 参与建设,阿比林数据中心扩容新增 600MW,支撑生成式 AI 加速发展。 【开源项目】 🧩 英伟达开源 Audio2Face:实时语音驱动面部动画 提供 SDK 与训练框架,支持离线渲染与实时流式,覆盖游戏与影视场景。 多家开发商已采用,显著提升虚拟角色真实感与制作效率。 - 项目链接(如有):https://build.nvidia.com/nvidia/audio2face-3d 【AI模型】 🤖 Meta 发布 CWM:32B 参数代码世界模型支持沙箱推演 生成前先在沙箱模拟运行结果,快速定位错误并提升调试与安全性。 硬件要求高,需双 H100 与 RDMA 支持,适配高性能工程环境。 - 项目链接(如有):https://github.com/facebookresearch/cwm
【效率工具】 ⚙️ 阿里夸克发布AI创作平台“造点”,Wan2.5视频生成7天免费 集成通义万相 Wan2.5 与 Midjourney V7,支持音画同步视频生成与高级图像创作。 提供轻量化创作体验,满足普通用户日常修图与创意需求。 - 参考链接:https://www.chinaz.com/tags/875912.shtml - 参考链接:https://www.chinaz.com/tags/835556.shtml - 参考链接:https://www.chinaz.com/tags/754515.shtml - 参考链接:https://www.chinaz.com/tags/996134.shtml - 参考链接:https://www.chinaz.com/tags/812428.shtml 【AI模型】 🧠 Wan2.5-Preview发布:多模态输入,电影级视听同步视频生成 视频生成支持高保真、高一致性视听同步,覆盖多人声、音效与BGM。 图像生成更强,涵盖逼真摄影、艺术风格与专业图表,并支持对话式指令级编辑。 【行业动态】 📰 可灵AI发布可灵2.5Turbo视频模型,订阅降价近30% 新模型上线同步降价,基础会员66元,最高级会员月费1314元。 二季度营收超2.5亿元,显示视频大模型订阅价格进入分化阶段。 【开源项目】 🧑💻 阿里通义推出Qwen3-ASR-Toolkit:小时级音视频转录开源工具 基于Qwen3-ASR-Flash,突破三分钟限制,支持多格式、智能静音切分与并行上传。 显著提升长时音视频转录的速度与准确率。 - 项目链接:https://github.com/QwenLM/Qwen3-ASR-Toolkit 【效率工具】 ⚙️ 谷歌相册AI编辑全面开放:用自然语言一键修图,安卓全覆盖 支持光线调整、背景移除与老照片修复等高级操作,降低修图门槛。 同步推进AI透明度,支持C2PA内容凭证,维护影像真实性。 【效率工具】 ⚙️ 谷歌推出Mixboard:情绪板生成与图像编辑一站式AI工具 支持模板与文本提示,上传图片或自然语言即可生成视觉方案。 一键再生与编辑提升创作效率,适用于家居装饰与活动策划等场景。 - 项目链接:https://labs.google.com/mixboard/welcome 【AI模型】 🧠 Qwen3-Max发布:代码生成与自主思考双强,MoE架构加持 规模超万亿参数,使用36万亿tokens预训练,提升训练效率与稳定性。 Instruct版本编程基准表现优异,Thinking版本数学推理满分。 【技术突破】 🚀 Figma MCP服务器升级:一键设计转代码,协作效率飞跃 远程访问语义层信息,与Figma Make无缝集成,资源直出代码级资产。 Code Connect映射优化,代码还原度提升,开发时间缩短60%-80%。 - 项目链接:https://127.0.1:3845/sse
【AI模型】 🤖 美团推出推理大模型 LongCat-Flash-Thinking 基于混合专家架构,峰值规模达5600亿参数,动态激活186亿至313亿,在数学、通用推理与代码生成中表现突出。 权重与聊天模板已开放,配套专属聊天站点,便于开发与研究。 - 项目链接:https://longcat.chat/ 【开源项目】 🧩 一图生成动画,人物无缝替换:Wan-Animate 开源 单模型双任务,给一张图和一段参考视频即可出片;骨骼控制、面部隐式特征与 Relighting LoRA 提升同步与动作还原。 适用于MV、电商广告、培训等场景,后续有望支持多人物视频。 - 项目链接:https://github.com/Wan-Video/Wan2.2 【AI模型】 🤖 字节跳动发布豆包翻译大模型:28语互译,比肩GPT-4o 覆盖28种语言对,性能接近或超越主流旗舰模型。定价激进:输入每百万字符1.20元,输出3.60元。 企业可在火山引擎获取完整计费与接入说明。 - 参考链接:https://www.volcengine.com/docs/82379/1820188 【技术突破】 🚀 华为携浙大发布 DeepSeek-R1-Safe:安全与性能双优 基于昇腾千卡算力平台,在多维有害信息防御上接近100%拦截。通用能力损耗控制在1%以内。 为国产算力生态构建安全可靠的大模型提供了范式样本。 【行业动态】 📰 Qwen3-Omni 即将登场:端侧跨模态再升级 采用 Thinker-Talker 双轨设计,支持高效流式与实时交互。已向 Transformers 提交支持 PR,开源集成在路上。 预计将进一步优化资源受限设备上的多模态体验。 【技术突破】 🚀 xAI 发布 Grok4Fast:算力降40%,单任务成本降98% 在 GPQA Diamond、AIME2025 等基准上表现优异,以更少计算实现更高吞吐。 为复杂任务提供高性价比方案,适合企业在成本敏感场景快速落地。 【效率工具】 ⚡ YouTube 上新创作与直播工具,助力变现与运营 工作室新增灵感标签、标题A/B测试、肖像识别等;直播支持小游戏、横竖屏与AI自动高光。 品牌合作与购物计划拓展收入渠道,优化创作者工作流。 【开源项目】 🧩 IBM 推出 Granite-Docling-258M:轻量文档转换模型 2.58亿参数的视觉语言模型,相比传统OCR识别更准,保留版面结构,支持多种输出格式。 已支持中文、阿拉伯语、日语,后续将扩展更多语言。 - 项目链接:https://huggingface.co/ibm-granite/granite-docling-258M 【技术突破】 🚀 中科院发布类脑大模型 SpikingBrain:2%数据达百倍长文速度 混合线性注意力将复杂度由二次降至线性;自适应阈值脉冲神经元显著降能耗、提升稀疏性。 长文本处理速度比主流模型快100倍,训练数据仅需2%。 - 项目链接:https://github.com/BICLab/SpikingBrain-7B 【行业动态】 📰 OpenAI 将推高算力新功能,部分仅向 Pro 开放 未来数周陆续上线,可能收取额外费用以覆盖算力。 Altman 称长期目标仍是降低智能服务成本、提升可及性。
【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio 基于创新预训练与上亿小时数据,具备语音领域少样本In-Context泛化能力。 在多项音频理解基准中超越Google与OpenAI闭源模型,并开放完整预训练方案。 - 项目链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct 【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate 人物一致性与生成质量大幅提升,支持动作模仿与角色扮演两种模式。 独立光照融合LoRA确保光影无缝迁移,适用于短视频与动漫制作。 - 项目链接:https://github.com/Wan-Video/Wan2.2 【行业动态】 📰 Suno v5音乐模型即将登场 被视为AI音乐创作的里程碑,预计引入更强语义控制与多模态输入。 v4.5期间用户作品播放量已达数亿次,新版本引发全球期待。 【行业动态】 📰 生数科技获数亿元融资,视频生成商业化提速 Vidu视频大模型年收入达2000万美元,多模态AI进展显著。 视频生成将重塑内容生产,但也面临版权与虚假信息治理挑战。 【行业动态】 📰 OpenAI修复ChatGPT漏洞,防止Gmail数据被盗 “深度研究”功能曾可被特制邮件诱导外泄敏感信息,OpenAI已紧急修复。 此类攻击难以被常规防护检测,用户需保持警惕与良好安全习惯。 【效率工具】 ⚡️ Chrome引入Gemini,开启跨页智能助理体验 支持理解网页内容、跨选项卡协同与任务安排,深度整合谷歌应用。 面向企业提供数据保护与代理能力,助力更安全高效的浏览与搜索。 【技术突破】 🚀 Luma AI发布Ray3:HDR与“推理”重塑视频生成 支持10/12/16位色深与EXR导出,贴合专业后期工作流。 具备复杂指令理解与自评迭代能力,并可用草图精准控制画面。 【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2 支持最高128k上下文,引入[THINK]特殊token以增强推理表现。 新增视觉编码器并兼容多框架,强化图文多模态能力。 【效率工具】 ⚡️ Notion发布AI智能体:自动纪要与全库分析 基于工作区上下文生成会议笔记、分析报告与竞品评估,可创建/更新页面与数据库。 支持从Slack、邮件与Google Drive触发,20分钟处理数百页文档。 【效率工具】 ⚡️ 腾讯混元3D Studio上线:3D创作从天级提速到分钟级 原生3D分割支持部件自动拆分与独立编辑,AI语义UV 1-2分钟出图。 智能材质编辑通过文本/图片生成高质量PBR纹理,显著提升生产效率。 - 项目链接:https://3d.hunyuan.tencent.com/studio
【效率工具】 ⚙️ 可灵AI发布数字人新功能:一张图片生成1分钟高清视频 从静态图片到动态视频,几步即可生成高质量数字人内容。 支持文字/音频驱动与多语种,为教育、培训与宣传降本增效。 - 项目链接:https://klingavatar.github.io/ 【技术突破】 🚀 腾讯混元携高校推出SRPO:给生成图像“去油”更逼真 引入语义相对偏好优化与Direct-Align,显著提升真实感并降低重建误差。 训练高效,10分钟即可超越现有方法,真实度与美学评分大幅提升。 - 项目链接:https://tencent.github.io/srpo-project-page/ 【开源项目】 🧩 IBM开源Granite-Docling-258M:企业级文档AI模型上线 端到端保留版式结构,精准提取表格、代码与公式,优于传统OCR。 多语种支持与新架构上阵,相比SmolDocling全面进化。 - 项目链接:https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00 【行业动态】 📰 Meta发布首款带屏幕AI眼镜Ray-Ban:随身智能助理更近一步 镜片内置显示,搭配神经腕带肌电识别,实现更自然的交互。 连接云端可用Meta应用、导航与实时翻译,减少对手机依赖。 【行业动态】 📰 DeepSeek R1登上Nature封面:大模型首次通过同行评审 强化学习驱动自主演化,推理能力显著提升。 AIME2024成绩由15.6%跃升至71.0%,与顶级模型相当。 【行业动态】 📰 OpenAI为ChatGPT网页端上线“Thinking时长”可调功能 用户可在GPT-5模式下调节思考时长,平衡回复速度与智能程度。 同步推进儿童版ChatGPT研发,强化未成年人使用安全。 【行业动态】 📰 抖音上线“AI求真”功能:助你识谣辨真更安心 一键跳转“求真卡”,联合辟谣大模型与团队提升信息透明度。 面向全平台误导内容治理,增强用户保护能力。 【开源项目】 🧩 通义DeepResearch发布全开源AI模型:让AI“会做研究” 多项权威基准名列前茅,性能超越多款国际模型。 模型、框架与方案全面开源,推动科研协作与复现。
【开源项目】 🧩 阿里云开源通义DeepResearch:轻量级AI代理,对标OpenAI 以300亿参数(实际激活约30亿)实现强劲检索与推理,支持128K超长上下文。 适用于多日行程规划、法律文档分析等复杂任务。 【行业动态】 📰 夸克发布国内首个全阶段医师考试大模型测试集 覆盖12门核心学科、约7600道题,来源于2024年最新考试。 以梯度化策略提升推理要求,填补高时效与广覆盖测试集空白。 【效率工具】 ⚡ 全球首位AI全栈工程师“Orchids”问世 开箱即用前后端开发,内置身份验证、数据库管理与支付,无需第三方服务。 从原型、UI到完整应用与网站一站式生成。 【效率工具】 ⚡ 微软Copilot将上线类ChatGPT记忆管理,接入Google Drive 可记住用户关键信息,提供更个性化的助理体验;支持访问Drive文件。 部分连接器或纳入每月20美元订阅计划,功能将逐步推送多平台。 【行业动态】 📰 迪士尼、华纳、环球起诉MiniMax,涉AI训练版权 指控海螺AI未经授权使用电影角色进行训练与商业化运营。 按每项著作权最高15万美元请求赔偿,或成AI版权里程碑事件。 - 参考链接:https://www.reuters.com/legal/litigation/disney-universal-warner-bros-discovery-sue-chinas-minimax-copyright-infringement-2025-09-16/ 【效率工具】 ⚡ Gamma 3.0发布:用Agent与API重塑演示文稿工作流 Gamma Agent支持提示驱动的智能编辑,一键全面优化内容与结构。 Gamma API助力企业级集成,团队/商业版覆盖不同规模需求。 【行业动态】 📰 OpenAI更新ChatGPT搜索:更全面也更及时 支持长对话与图像搜索,答案覆盖更广更即时。 响应时间可能变长且偶有错误,建议用户交叉核实。 【效率工具】 ⚡ Notion将推个性化AI智能体,支持分享与售卖 自定义助手头像、名称与行为指令,可用模板或自配流程。 9月18日主题演讲亮相,预计兼容网页版与移动端。 【效率工具】 ⚡ Cursor 1.6发布:自定义命令与MCP协议提升协作 新增自定义命令与/summarize,优化代理终端性能与稳定性。 支持MCP无缝连接外部工具与数据源,拓展AI代理能力边界。 - 参考链接:https://cursor.com/blog/tab-rl 【AI模型】 🤖 谷歌TimesFM-2.5:小型长上下文的时间序列基础模型 仅2亿参数的解码器架构,更小更快且准确性提升。 支持16,384上下文与本地概率预测,GIFT-Eval点/概率预测均居首。 - 项目链接:https://huggingface.co/google/timesfm-2.5-200m-pytorch 【效率工具】 ⚡ Figma AI编辑功能上新:选中画布一键评论即改稿 基于Make扩展成通用AI编辑器,支持自然语言直接修改与实时协作。 由Beta转向限量Alpha,面向付费计划用户开放。 - 参考链接:https://docs.google.com/forms/d/e/1FAIpQLSdGtm-FFZIq1mhn62VRvMBP71yGG_zn9mjKgeqKhDUY-ymMvQ/viewform
【AI模型】 🤖 MiniMax Music 1.5上线:生成音乐时长提升至4分钟 支持强控制力、自然人声、丰富编曲与清晰结构。 16种风格×11种情绪×10个场景自定义,覆盖配乐与虚拟偶像等创作场景。 - 参考链接:https://www.chinaz.com/tags/803315.shtml - 参考链接:https://www.chinaz.com/tags/824394.shtml - 参考链接:https://www.chinaz.com/tags/849274.shtml 【效率工具】 ⚡ 腾讯会议上线AI托管:会议分身、要点记录、一键生成纪要 可代替参会并在突发情况下无缝接管,确保信息不遗漏。 会后自动输出清晰纪要,缓解“撞会”与时间管理压力。 【技术突破】 🚀 蚂蚁发布gPass:AI眼镜可信连接框架 聚焦标准不一与跨设备协同难题,推动眼镜向个人智能体演进。 可信身份流通、端到端加密与无感核身,强化安全与便捷。 【AI模型】 🤖 Anthropic为Claude加入自动记忆与隐身聊天 团队/企业对话可被自动记忆并延续到项目内容与产出。 新增隐身模式保护隐私,兼顾效率与合规。 【行业动态】 📰 苹果AI实时翻译在欧盟受DMA限制暂停 苹果称延迟与数据保护无关,主要受制于DMA规则。 也折射大型科技公司在多地法规下的落地挑战。 【行业动态】 📰 职业球队首度启用AI主教练并取胜 奥克兰球手队以AI“AaronLytics”指挥,5:0完胜对手。 技术可计算“最优解”,但也引发对体育人性与不确定性的讨论。 【效率工具】 ⚡ Google AI Edge Gallery上架:手机端离线多模态AI 集成Gemma系列,支持图像识别、语音转写/翻译、文本对话等。 全离线运行与隐私保护,模型可按需切换。 【行业动态】 📰 首个企业应用AI成熟度模型AIM²发布 定义从“单点试验”到“AI原生”的五级进阶,覆盖六大评估维度。 帮助企业识别短板,规划从概念验证到规模收益的路径。 【效率工具】 ⚡ Claude上线Web Fetch与Search一体化工作流 直接抓取并分析网页与PDF,打通“搜索—抓取—分析”闭环。 白/黑名单与次数限制加强安全控制与可信度。 【行业动态】 📰 FTC调查多家AI聊天机器人,聚焦未成年人安全 涉及Alphabet、CharacterAI、Instagram、Meta、OpenAI、Snap与xAI。 重点审视安全评估、盈利模式与家长告知机制,防范负面影响。
【效率工具】 🛠️ 快手发布 Kwali:一语生成短视频的多Agent助手 云端多Agent自动拆解卖点、受众与情境标签,生成脚本、匹配镜头并剪辑合成。大幅降低制作成本,帮助商家更快投放。 - 项目链接:https://kc.kuaishou.com/kwali 【开源项目】 🧩 字节跳动开源 USO 模型:打破“风格与主题”对立 以创新训练与海量数据实现风格与主题的灵活融合,显著提升图像生成的精准度与可控性,面向创意与商业设计场景。 - 项目链接:https://github.com/bytedance/USO 【行业动态】 📰 微软推出 Copilot Audio 音频模式:更个性化的语音交互 基于 MAI-Voice-1,提供情感、故事、脚本三种模式与多样声音风格;配合 MAI-1 入驻 Office,丰富办公场景语音体验。 - 项目链接:https://copilot.microsoft.com/labs/audio-expression 【AI模型】 🧠 Stability AI 发布 Stable Audio 2.5:专业音频生成再升级 支持最长三分钟音轨的高质量生成与音频修补,满足复杂音乐创作,并与 WPP 合作强化品牌音频识别。 【技术突破】 ⚡ 阿联酋开源 K2 Think:320 亿参数,号称全球最快 最高每秒 2000 tokens 的生成速度,擅长复杂数学与编程推理;开放权重与训练/部署方案,支持商业落地。 - 项目链接:https://www.k2think.ai/guest 【行业动态】 📰 微信公众号上线智能回复:数字分身 7×24 小时在线 可学习历史文章与语言风格,提供个性化回复,提升运营效率与用户黏性。 【技术突破】 ⚡ OpenAI 推出 ChatGPT 开发者模式:AI 直接控制外部工具 支持自定义连接器执行写入与复杂任务,多层安全防护保障准确与安全,迈向自动化代理时代。 - 项目链接:https://platform.openai.com/docs/mcp - 项目链接:https://platform.openai.com/docs/guides/developer-mode 【开源项目】 🧩 字节 Seed 推出 AgentGym-RL 框架:让 LLM 更会决策 以强化学习训练多轮交互代理,配合 ScalingInter-RL 方法平衡探索与利用;多项任务表现超越商业模型。 - 项目链接:https://agentgym-rl.github.io/ 【开源项目】 🧩 月之暗面开源 Checkpoint Engine:LLM 推理原地热更新 最高可在 20 秒内完成万亿参数权重同步,支持数千 GPU 并行,显著减少停机并利于扩展到 SGLang 等框架。 【开源项目】 🧩 B 站开源 IndexTTS-2.0:情感与时长可控的零样本 TTS 引入时间编码实现精准时长控制,音色与情感解耦提升自然度,适用于配音、有声读物与跨语种本地化。 - 项目链接:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo 【效率工具】 🛠️ Replit 发布 Agent 3:自主性提升 10 倍的编程助手 可基于自然语言生成与优化代码,支持多语言与全流程协作(生成、调试、管理),显著提升开发效率。 - 项目链接:https://replit.com/agent3
【AI模型】 🤖 腾讯混元生图模型升级至 Hunyuan Image 2.1,支持写字与原生2K 原生2K分辨率与更强复杂语义理解,支持中英文与高质量文本渲染。 模型已在社区开源,助力多模态图像生成研究与创作。 - 项目链接:https://hunyuan.tencent.com/image 【行业动态】 📰 爱诗科技完成6000万美元B轮融资,阿里巴巴领投 视频生成大模型 PixVerse V5 领跑图生视频赛道,用户规模突破1亿。 开放平台 API 计划将推动视频生成技术的规模化应用。 【AI模型】 🤖 Freepik 上线豆包 Seedream 4.0 图像模型,会员无限生成图片 支持2K/4K分辨率与多种纵横比,满足多场景设计需求。 Premium+与Pro会员享无限生成,火山引擎同步开放 Seedream 4.0 API。 【技术突破】 🚀 阿里通义千问 Qwen3-Next-80B-A3B 推理提速10倍,降本增效 MoE专家混合架构实现高效推理与低资源占用,长上下文更稳。 训练与推理成本显著下降,降低机构部署大模型门槛。 【行业动态】 📰 微软多元化AI供应商,在 Office 365 集成 Anthropic 技术 基于性能引入 Anthropic 能力,优化办公场景智能体验。 推进自研与多供应链并行,调整对单一伙伴的依赖。 【效率工具】 ⚡ 首款 AI Agent 浏览器 Fellou CE 发布,主打“无缝衔接”体验 通过自然语言与自主执行处理复杂任务,显著提升工作效率。 构建开放智能生态,强调隐私与数据安全。 - 项目链接:https://fellou.ai/ 【开源项目】 🧑💻 清华开源 GUAVA:0.1 秒单张照片生成 3D 数字人 结合 EHM 与 3D 高斯泼溅,高质量表情还原与极速渲染。 覆盖自媒体、直播、电商、教育等场景,效率与体验大幅提升。 - 项目链接:https://github.com/Pixel-Talk/GUAVA - 项目链接:https://eastbeanzhang.github.io/GUAVA/ 【效率工具】 ⚡ Claude 升级:一键生成与编辑 Excel、PPT、PDF 等办公文件 面向 Max/Team/Enterprise 预览开放,Pro 将陆续覆盖。 支持代码执行与文件处理,协作产出更快落地。
【AI模型】 🤖 生数科技全球上线 Vidu Q1 参考生图:支持最多7张图片输入 多图参考、多主体一致性与场景生成同步升级,创作可控性更强。 支持服装与背景自由替换,推动多模态创作进入新阶段。 - 参考链接:https://www.chinaz.com/tags/854050.shtml 【AI模型】 🤖 字节跳动发布 Seedream4.0:全新多模态图像创作模型 支持文生图、图生图和多图编辑,覆盖多样化创作场景。 美感与逻辑理解显著提升,推理速度较前代快10倍以上。 【效率工具】 🧰 腾讯推出 AI CLI 工具 CodeBuddy:国内首家全形态AI编程 覆盖插件、IDE与CLI,自然语言驱动代码生成与部署。 官方称编码时间缩短40%,AI生成代码占比超50%。 - 项目链接:https://www.codebuddy.ai/ 【AI模型】 🤖 百度文心大模型 X1.1 发布:学习与执行力再升级 在事实性、指令遵循与智能体表现上全面进步。 面向个人与企业开放体验,千帆平台提供开发接入。 【行业动态】 📰 OpenAI支持AI动画长片《Critterz》:计划2026戛纳首映 预算不足3000万美元,30人团队9个月完成,探索AI降本增效拍片。 人机协同制作流程,应用GPT-5等生成式AI工具。 【开源项目】 🛠️ 上海AI实验室发布 XTuner V1 训练引擎:训练效率显著提升 吞吐量提升5%以上,计算资源利用率(MFU)增长超20%。 采取开源策略,助推大模型训练技术进步与普及。 【行业动态】 📰 谷歌AI搜索模式扩展:新增5种语言支持 覆盖印地语、印尼语、日语、韩语与巴西葡萄牙语。 基于定制Gemini 2.5,强化多模态与推理,辅助而非替代传统结果。 【行业动态】 📰 我国发布30项AI国家标准,15项人形机器人国标在研 既有与在制标准覆盖多领域,规范产业发展与应用安全。 牵头推进《生成式人工智能风险处理指南》国际标准,输出中国方案。
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧