Aishaobing的个人播客

【AI模型】 🤖 豆包1.6-Vision发布：多模态更强，成本再降50% 强化工具调用与视觉理解，推理与开发效率双提升。综合成本较上一代约降一半，性价比显著提升。【技术突破】 🔬 通义千问Qwen3-LiveTranslate-Flash：同传延迟刷新至3秒覆盖18种语言与多方言，视觉上下文加持复杂场景更准。行业领先的3秒级同传，显著提升实时沟通流畅度。【AI模型】 🤖 DeepSeek V3.2-exp：稀疏注意力将API成本砍半 “闪电索引器”与“细粒度标记选择”协同，长上下文处理更高效。初测显示调用成本下降约50%，更经济可用。 - 参考链接：https://www.chinaz.com/tags/855878.shtml - 参考链接：https://www.chinaz.com/tags/919172.shtml - 参考链接：https://www.chinaz.com/tags/937841.shtml 【AI模型】 🤖 Claude Sonnet 4.5发布：编码与复杂任务全面跃升在编码基准与长时自主执行上表现卓越，新增检查点、上下文编辑与内存工具。更强对齐与安全，适配高风险企业场景。【行业动态】 📰 ChatGPT上线“即时结账”：聊天里一键下单接入Stripe“代理商务协议”，多支付方式安全便捷。后续将支持多件购物车与全球市场，重塑电商闭环体验。【行业动态】 📰 OpenAI将推“AI版TikTok”：Sora2全AI生成短视频 10秒短片形态，支持身份认证与肖像使用标记。同步强调安全与版权管控，力保社区健康与用户留存。【效率工具】 ⚙️ Claude Code 2.0：检查点+VS Code插件，编程效率飞跃新增状态回滚、内联差异与图形化交互，IDE与终端协同更顺滑。 Sonnet4.5在OSWorld拿下61.4%，擅长复杂代理构建。【效率工具】 ⚙️ 百度地图小度想想2.0：出行智能助手全面进化出行知识库+实时搜索，复杂出行意图理解更准。跨端记忆打通手机与车机，支持即时/近期/长期个性化推荐。【开源项目】 🧩 蚂蚁集团开源万亿参数Ring-1T-preview：逼近GPT-5水准在AIME25与CodeForces等测试表现优异，强化推理与代码生成。团队持续后训练，潜力有望进一步释放。【技术突破】 🔬 DeepMind提出“帧链”：通用视频理解迈出关键一步让视频模型具备跨时空推理能力，Veo3多任务强势表现。通用视频模型或将替代专用模型，开启机器视觉新阶段。 - 源链接：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf 【开源项目】 🧩 智谱GLM-4.6开源：编程能力对齐Sonnet4，国产硬件适配破局 Agentic Coding等能力大幅升级，超越DeepSeek V3.2-Exp于代码生成。已在寒武纪与摩尔线程硬件上高效部署。

6分钟

【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

【技术突破】 🚀 京东物流发布“超脑大模型2.0”和“异狼”具身机械臂在 JDDiscovery-2025 上，物流从“辅助决策”迈向“具身执行”新阶段。大模型2小时解千万级变量；“异狼”机械臂自主学习，复杂包裹高精度抓取。 - 参考链接：https://www.chinaz.com/tags/jingdongwuliu.shtml - 参考链接：https://www.chinaz.com/tags/996720.shtml - 参考链接：https://www.chinaz.com/tags/996721.shtml 【AI模型】 🧠 DeepSeek V3.1 Terminus终结版发布，稳定性大幅提升修复中英文混杂与异常字符等关键问题，优化 Code/Search Agent。 V3系列收官，V4或R2全新架构呼之欲出。【效率工具】 ⚙️ Kimi 上线全新 Agent 模式“OK Computer”，开启灰度基于 K2 模型，参数总量达1T，自主编程与工具调用表现突出。以自然指令完成网站开发、数据分析等复杂任务。【效率工具】 ⚙️ ChatGPT 推出个性化资讯功能，打造你的专属新闻助手结合聊天历史，定制推送多领域每日资讯。旨在提升信息获取效率与体验。【开源项目】 🔓 Exa Code 发布：为 Coding Agent 提供亿级代码上下文精准提取相关token，提升信息密度，显著降低幻觉与冗长输出。免费开源、易集成，助力多场景开发提速。 - 源链接：https://exa.ai/blog/exa-code 【行业动态】 📰 Meta 推出 AI 视频平台 Vibes，轻松创作与分享短视频支持从零创作、素材再混、动态 remix，多样玩法一站式。作品可在 Vibes 发布，或跨平台分享至 Instagram 与 Facebook。 - 源链接：https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/ 【技术突破】 🚀 蚂蚁数科发布隐私保护AI算法，推理提速超100倍 Gibbon 框架采用安全两方训练，显著加速传统GBDT。基于同态查找表的决策图推理，兼顾隐私与高效计算。【行业动态】 📰 OpenAI 发布 GDPval 基准，GPT-5 多行业逼近专家水平涵盖九大行业、44种职业评估，GPT-5与Claude Opus4.1部分任务接近专家。真实工作能力仍待验证，后续将推出更全面测试。 - 源链接：https://openai.com/index/gdpval/

8分钟

【AI日报】EP.221 9月26 生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源

【技术突破】 🚀 生数科技发布 Vidu Q2：细微表情生成更真实在图生视频细微表情与情感传达上实现显著提升，画面更自然、更生动。支持图生视频、首尾帧生成与可调时长，为创意影像提供更灵活的制作能力。【效率工具】 ⚙️ 火山引擎炉米 Lumi 支持视觉模型 LoRA 微调首次支持豆包、即梦等同款视觉模型的 LoRA 微调，企业可快速定制视觉风格。提供从图片到视频的全流程 AIGC 能力，助力高效构建生产线。【行业动态】 📰 阿里云：通义千问开源300+模型，下载量突破6亿云栖大会披露最新进展，展现开源生态与应用落地的强劲势头。通义万象生成超3.9亿张图片、7000万+视频，数字内容能力持续攀升。【开源项目】 🧩 百度开源 Qianfan-VL：多模态视觉理解模型三档规模依托昆仑芯 P800，兼顾低功耗与高效训练，在 OCR 与教育场景表现突出。 3B/8B/70B 全系开放，GitHub 与 Hugging Face 同步面向开发者使用。 - 项目链接（如有）：https://github.com/baidubce/Qianfan-VL 【行业动态】 📰 微软引入 Anthropic 模型扩展 Copilot Assistant 在保持与 OpenAI 紧密合作的同时，多元化引入 Anthropic 满足企业需求。管理员启用后，企业可用 Anthropic 模型构建 AI 代理，并在多云环境运行。【行业动态】 📰 OpenAI 在美国新建五个数据中心，推进“Stargate”算力总投资约 5000 亿美元，目标算力接近 7GW，基础设施按周扩容。 Oracle 参与建设，阿比林数据中心扩容新增 600MW，支撑生成式 AI 加速发展。【开源项目】 🧩 英伟达开源 Audio2Face：实时语音驱动面部动画提供 SDK 与训练框架，支持离线渲染与实时流式，覆盖游戏与影视场景。多家开发商已采用，显著提升虚拟角色真实感与制作效率。 - 项目链接（如有）：https://build.nvidia.com/nvidia/audio2face-3d 【AI模型】 🤖 Meta 发布 CWM：32B 参数代码世界模型支持沙箱推演生成前先在沙箱模拟运行结果，快速定位错误并提升调试与安全性。硬件要求高，需双 H100 与 RDMA 支持，适配高性能工程环境。 - 项目链接（如有）：https://github.com/facebookresearch/cwm

6分钟

【AI日报】EP.220 9月25 接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵

【效率工具】 ⚙️ 阿里夸克发布AI创作平台“造点”，Wan2.5视频生成7天免费集成通义万相 Wan2.5 与 Midjourney V7，支持音画同步视频生成与高级图像创作。提供轻量化创作体验，满足普通用户日常修图与创意需求。 - 参考链接：https://www.chinaz.com/tags/875912.shtml - 参考链接：https://www.chinaz.com/tags/835556.shtml - 参考链接：https://www.chinaz.com/tags/754515.shtml - 参考链接：https://www.chinaz.com/tags/996134.shtml - 参考链接：https://www.chinaz.com/tags/812428.shtml 【AI模型】 🧠 Wan2.5-Preview发布：多模态输入，电影级视听同步视频生成视频生成支持高保真、高一致性视听同步，覆盖多人声、音效与BGM。图像生成更强，涵盖逼真摄影、艺术风格与专业图表，并支持对话式指令级编辑。【行业动态】 📰 可灵AI发布可灵2.5Turbo视频模型，订阅降价近30% 新模型上线同步降价，基础会员66元，最高级会员月费1314元。二季度营收超2.5亿元，显示视频大模型订阅价格进入分化阶段。【开源项目】 🧑‍💻 阿里通义推出Qwen3-ASR-Toolkit：小时级音视频转录开源工具基于Qwen3-ASR-Flash，突破三分钟限制，支持多格式、智能静音切分与并行上传。显著提升长时音视频转录的速度与准确率。 - 项目链接：https://github.com/QwenLM/Qwen3-ASR-Toolkit 【效率工具】 ⚙️ 谷歌相册AI编辑全面开放：用自然语言一键修图，安卓全覆盖支持光线调整、背景移除与老照片修复等高级操作，降低修图门槛。同步推进AI透明度，支持C2PA内容凭证，维护影像真实性。【效率工具】 ⚙️ 谷歌推出Mixboard：情绪板生成与图像编辑一站式AI工具支持模板与文本提示，上传图片或自然语言即可生成视觉方案。一键再生与编辑提升创作效率，适用于家居装饰与活动策划等场景。 - 项目链接：https://labs.google.com/mixboard/welcome 【AI模型】 🧠 Qwen3-Max发布：代码生成与自主思考双强，MoE架构加持规模超万亿参数，使用36万亿tokens预训练，提升训练效率与稳定性。 Instruct版本编程基准表现优异，Thinking版本数学推理满分。【技术突破】 🚀 Figma MCP服务器升级：一键设计转代码，协作效率飞跃远程访问语义层信息，与Figma Make无缝集成，资源直出代码级资产。 Code Connect映射优化，代码还原度提升，开发时间缩短60%-80%。 - 项目链接：https://127.0.1:3845/sse

7分钟