节目列表: Aishaobing的个人播客 - EarsOnMe

【AI日报】EP.223 10月1 豆包大模型1.6-vision发布；DeepSeek发布V3.2-

【AI模型】 🤖 豆包1.6-Vision发布：多模态更强，成本再降50% 强化工具调用与视觉理解，推理与开发效率双提升。综合成本较上一代约降一半，性价比显著提升。【技术突破】 🔬 通义千问Qwen3-LiveTranslate-Flash：同传延迟刷新至3秒覆盖18种语言与多方言，视觉上下文加持复杂场景更准。行业领先的3秒级同传，显著提升实时沟通流畅度。【AI模型】 🤖 DeepSeek V3.2-exp：稀疏注意力将API成本砍半 “闪电索引器”与“细粒度标记选择”协同，长上下文处理更高效。初测显示调用成本下降约50%，更经济可用。 - 参考链接：https://www.chinaz.com/tags/855878.shtml - 参考链接：https://www.chinaz.com/tags/919172.shtml - 参考链接：https://www.chinaz.com/tags/937841.shtml 【AI模型】 🤖 Claude Sonnet 4.5发布：编码与复杂任务全面跃升在编码基准与长时自主执行上表现卓越，新增检查点、上下文编辑与内存工具。更强对齐与安全，适配高风险企业场景。【行业动态】 📰 ChatGPT上线“即时结账”：聊天里一键下单接入Stripe“代理商务协议”，多支付方式安全便捷。后续将支持多件购物车与全球市场，重塑电商闭环体验。【行业动态】 📰 OpenAI将推“AI版TikTok”：Sora2全AI生成短视频 10秒短片形态，支持身份认证与肖像使用标记。同步强调安全与版权管控，力保社区健康与用户留存。【效率工具】 ⚙️ Claude Code 2.0：检查点+VS Code插件，编程效率飞跃新增状态回滚、内联差异与图形化交互，IDE与终端协同更顺滑。 Sonnet4.5在OSWorld拿下61.4%，擅长复杂代理构建。【效率工具】 ⚙️ 百度地图小度想想2.0：出行智能助手全面进化出行知识库+实时搜索，复杂出行意图理解更准。跨端记忆打通手机与车机，支持即时/近期/长期个性化推荐。【开源项目】 🧩 蚂蚁集团开源万亿参数Ring-1T-preview：逼近GPT-5水准在AIME25与CodeForces等测试表现优异，强化推理与代码生成。团队持续后训练，潜力有望进一步释放。【技术突破】 🔬 DeepMind提出“帧链”：通用视频理解迈出关键一步让视频模型具备跨时空推理能力，Veo3多任务强势表现。通用视频模型或将替代专用模型，开启机器视觉新阶段。 - 源链接：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf 【开源项目】 🧩 智谱GLM-4.6开源：编程能力对齐Sonnet4，国产硬件适配破局 Agentic Coding等能力大幅升级，超越DeepSeek V3.2-Exp于代码生成。已在寒武纪与摩尔线程硬件上高效部署。

6分钟

99+

8个月前

【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

Aishaobing的个人播客

【技术突破】 🚀 京东物流发布“超脑大模型2.0”和“异狼”具身机械臂在 JDDiscovery-2025 上，物流从“辅助决策”迈向“具身执行”新阶段。大模型2小时解千万级变量；“异狼”机械臂自主学习，复杂包裹高精度抓取。 - 参考链接：https://www.chinaz.com/tags/jingdongwuliu.shtml - 参考链接：https://www.chinaz.com/tags/996720.shtml - 参考链接：https://www.chinaz.com/tags/996721.shtml 【AI模型】 🧠 DeepSeek V3.1 Terminus终结版发布，稳定性大幅提升修复中英文混杂与异常字符等关键问题，优化 Code/Search Agent。 V3系列收官，V4或R2全新架构呼之欲出。【效率工具】 ⚙️ Kimi 上线全新 Agent 模式“OK Computer”，开启灰度基于 K2 模型，参数总量达1T，自主编程与工具调用表现突出。以自然指令完成网站开发、数据分析等复杂任务。【效率工具】 ⚙️ ChatGPT 推出个性化资讯功能，打造你的专属新闻助手结合聊天历史，定制推送多领域每日资讯。旨在提升信息获取效率与体验。【开源项目】 🔓 Exa Code 发布：为 Coding Agent 提供亿级代码上下文精准提取相关token，提升信息密度，显著降低幻觉与冗长输出。免费开源、易集成，助力多场景开发提速。 - 源链接：https://exa.ai/blog/exa-code 【行业动态】 📰 Meta 推出 AI 视频平台 Vibes，轻松创作与分享短视频支持从零创作、素材再混、动态 remix，多样玩法一站式。作品可在 Vibes 发布，或跨平台分享至 Instagram 与 Facebook。 - 源链接：https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/ 【技术突破】 🚀 蚂蚁数科发布隐私保护AI算法，推理提速超100倍 Gibbon 框架采用安全两方训练，显著加速传统GBDT。基于同态查找表的决策图推理，兼顾隐私与高效计算。【行业动态】 📰 OpenAI 发布 GDPval 基准，GPT-5 多行业逼近专家水平涵盖九大行业、44种职业评估，GPT-5与Claude Opus4.1部分任务接近专家。真实工作能力仍待验证，后续将推出更全面测试。 - 源链接：https://openai.com/index/gdpval/

8分钟

99+

8个月前

【AI日报】EP.221 9月26 生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源

Aishaobing的个人播客

【技术突破】 🚀 生数科技发布 Vidu Q2：细微表情生成更真实在图生视频细微表情与情感传达上实现显著提升，画面更自然、更生动。支持图生视频、首尾帧生成与可调时长，为创意影像提供更灵活的制作能力。【效率工具】 ⚙️ 火山引擎炉米 Lumi 支持视觉模型 LoRA 微调首次支持豆包、即梦等同款视觉模型的 LoRA 微调，企业可快速定制视觉风格。提供从图片到视频的全流程 AIGC 能力，助力高效构建生产线。【行业动态】 📰 阿里云：通义千问开源300+模型，下载量突破6亿云栖大会披露最新进展，展现开源生态与应用落地的强劲势头。通义万象生成超3.9亿张图片、7000万+视频，数字内容能力持续攀升。【开源项目】 🧩 百度开源 Qianfan-VL：多模态视觉理解模型三档规模依托昆仑芯 P800，兼顾低功耗与高效训练，在 OCR 与教育场景表现突出。 3B/8B/70B 全系开放，GitHub 与 Hugging Face 同步面向开发者使用。 - 项目链接（如有）：https://github.com/baidubce/Qianfan-VL 【行业动态】 📰 微软引入 Anthropic 模型扩展 Copilot Assistant 在保持与 OpenAI 紧密合作的同时，多元化引入 Anthropic 满足企业需求。管理员启用后，企业可用 Anthropic 模型构建 AI 代理，并在多云环境运行。【行业动态】 📰 OpenAI 在美国新建五个数据中心，推进“Stargate”算力总投资约 5000 亿美元，目标算力接近 7GW，基础设施按周扩容。 Oracle 参与建设，阿比林数据中心扩容新增 600MW，支撑生成式 AI 加速发展。【开源项目】 🧩 英伟达开源 Audio2Face：实时语音驱动面部动画提供 SDK 与训练框架，支持离线渲染与实时流式，覆盖游戏与影视场景。多家开发商已采用，显著提升虚拟角色真实感与制作效率。 - 项目链接（如有）：https://build.nvidia.com/nvidia/audio2face-3d 【AI模型】 🤖 Meta 发布 CWM：32B 参数代码世界模型支持沙箱推演生成前先在沙箱模拟运行结果，快速定位错误并提升调试与安全性。硬件要求高，需双 H100 与 RDMA 支持，适配高性能工程环境。 - 项目链接（如有）：https://github.com/facebookresearch/cwm

6分钟

99+

8个月前

【AI日报】EP.220 9月25 接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵

Aishaobing的个人播客

【效率工具】 ⚙️ 阿里夸克发布AI创作平台“造点”，Wan2.5视频生成7天免费集成通义万相 Wan2.5 与 Midjourney V7，支持音画同步视频生成与高级图像创作。提供轻量化创作体验，满足普通用户日常修图与创意需求。 - 参考链接：https://www.chinaz.com/tags/875912.shtml - 参考链接：https://www.chinaz.com/tags/835556.shtml - 参考链接：https://www.chinaz.com/tags/754515.shtml - 参考链接：https://www.chinaz.com/tags/996134.shtml - 参考链接：https://www.chinaz.com/tags/812428.shtml 【AI模型】 🧠 Wan2.5-Preview发布：多模态输入，电影级视听同步视频生成视频生成支持高保真、高一致性视听同步，覆盖多人声、音效与BGM。图像生成更强，涵盖逼真摄影、艺术风格与专业图表，并支持对话式指令级编辑。【行业动态】 📰 可灵AI发布可灵2.5Turbo视频模型，订阅降价近30% 新模型上线同步降价，基础会员66元，最高级会员月费1314元。二季度营收超2.5亿元，显示视频大模型订阅价格进入分化阶段。【开源项目】 🧑‍💻 阿里通义推出Qwen3-ASR-Toolkit：小时级音视频转录开源工具基于Qwen3-ASR-Flash，突破三分钟限制，支持多格式、智能静音切分与并行上传。显著提升长时音视频转录的速度与准确率。 - 项目链接：https://github.com/QwenLM/Qwen3-ASR-Toolkit 【效率工具】 ⚙️ 谷歌相册AI编辑全面开放：用自然语言一键修图，安卓全覆盖支持光线调整、背景移除与老照片修复等高级操作，降低修图门槛。同步推进AI透明度，支持C2PA内容凭证，维护影像真实性。【效率工具】 ⚙️ 谷歌推出Mixboard：情绪板生成与图像编辑一站式AI工具支持模板与文本提示，上传图片或自然语言即可生成视觉方案。一键再生与编辑提升创作效率，适用于家居装饰与活动策划等场景。 - 项目链接：https://labs.google.com/mixboard/welcome 【AI模型】 🧠 Qwen3-Max发布：代码生成与自主思考双强，MoE架构加持规模超万亿参数，使用36万亿tokens预训练，提升训练效率与稳定性。 Instruct版本编程基准表现优异，Thinking版本数学推理满分。【技术突破】 🚀 Figma MCP服务器升级：一键设计转代码，协作效率飞跃远程访问语义层信息，与Figma Make无缝集成，资源直出代码级资产。 Code Connect映射优化，代码还原度提升，开发时间缩短60%-80%。 - 项目链接：https://127.0.1:3845/sse

7分钟

99+

8个月前

【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿

Aishaobing的个人播客

【AI模型】 🤖 美团推出推理大模型 LongCat-Flash-Thinking 基于混合专家架构，峰值规模达5600亿参数，动态激活186亿至313亿，在数学、通用推理与代码生成中表现突出。权重与聊天模板已开放，配套专属聊天站点，便于开发与研究。 - 项目链接：https://longcat.chat/ 【开源项目】 🧩 一图生成动画，人物无缝替换：Wan-Animate 开源单模型双任务，给一张图和一段参考视频即可出片；骨骼控制、面部隐式特征与 Relighting LoRA 提升同步与动作还原。适用于MV、电商广告、培训等场景，后续有望支持多人物视频。 - 项目链接：https://github.com/Wan-Video/Wan2.2 【AI模型】 🤖 字节跳动发布豆包翻译大模型：28语互译，比肩GPT-4o 覆盖28种语言对，性能接近或超越主流旗舰模型。定价激进：输入每百万字符1.20元，输出3.60元。企业可在火山引擎获取完整计费与接入说明。 - 参考链接：https://www.volcengine.com/docs/82379/1820188 【技术突破】 🚀 华为携浙大发布 DeepSeek-R1-Safe：安全与性能双优基于昇腾千卡算力平台，在多维有害信息防御上接近100%拦截。通用能力损耗控制在1%以内。为国产算力生态构建安全可靠的大模型提供了范式样本。【行业动态】 📰 Qwen3-Omni 即将登场：端侧跨模态再升级采用 Thinker-Talker 双轨设计，支持高效流式与实时交互。已向 Transformers 提交支持 PR，开源集成在路上。预计将进一步优化资源受限设备上的多模态体验。【技术突破】 🚀 xAI 发布 Grok4Fast：算力降40%，单任务成本降98% 在 GPQA Diamond、AIME2025 等基准上表现优异，以更少计算实现更高吞吐。为复杂任务提供高性价比方案，适合企业在成本敏感场景快速落地。【效率工具】 ⚡ YouTube 上新创作与直播工具，助力变现与运营工作室新增灵感标签、标题A/B测试、肖像识别等；直播支持小游戏、横竖屏与AI自动高光。品牌合作与购物计划拓展收入渠道，优化创作者工作流。【开源项目】 🧩 IBM 推出 Granite-Docling-258M：轻量文档转换模型 2.58亿参数的视觉语言模型，相比传统OCR识别更准，保留版面结构，支持多种输出格式。已支持中文、阿拉伯语、日语，后续将扩展更多语言。 - 项目链接：https://huggingface.co/ibm-granite/granite-docling-258M 【技术突破】 🚀 中科院发布类脑大模型 SpikingBrain：2%数据达百倍长文速度混合线性注意力将复杂度由二次降至线性；自适应阈值脉冲神经元显著降能耗、提升稀疏性。长文本处理速度比主流模型快100倍，训练数据仅需2%。 - 项目链接：https://github.com/BICLab/SpikingBrain-7B 【行业动态】 📰 OpenAI 将推高算力新功能，部分仅向 Pro 开放未来数周陆续上线，可能收取额外费用以覆盖算力。 Altman 称长期目标仍是降低智能服务成本、提升可及性。

7分钟

99+

8个月前

【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型；通义万相Wan2.2-Anima

Aishaobing的个人播客

【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio 基于创新预训练与上亿小时数据，具备语音领域少样本In-Context泛化能力。在多项音频理解基准中超越Google与OpenAI闭源模型，并开放完整预训练方案。 - 项目链接：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct 【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate 人物一致性与生成质量大幅提升，支持动作模仿与角色扮演两种模式。独立光照融合LoRA确保光影无缝迁移，适用于短视频与动漫制作。 - 项目链接：https://github.com/Wan-Video/Wan2.2 【行业动态】 📰 Suno v5音乐模型即将登场被视为AI音乐创作的里程碑，预计引入更强语义控制与多模态输入。 v4.5期间用户作品播放量已达数亿次，新版本引发全球期待。【行业动态】 📰 生数科技获数亿元融资，视频生成商业化提速 Vidu视频大模型年收入达2000万美元，多模态AI进展显著。视频生成将重塑内容生产，但也面临版权与虚假信息治理挑战。【行业动态】 📰 OpenAI修复ChatGPT漏洞，防止Gmail数据被盗 “深度研究”功能曾可被特制邮件诱导外泄敏感信息，OpenAI已紧急修复。此类攻击难以被常规防护检测，用户需保持警惕与良好安全习惯。【效率工具】 ⚡️ Chrome引入Gemini，开启跨页智能助理体验支持理解网页内容、跨选项卡协同与任务安排，深度整合谷歌应用。面向企业提供数据保护与代理能力，助力更安全高效的浏览与搜索。【技术突破】 🚀 Luma AI发布Ray3：HDR与“推理”重塑视频生成支持10/12/16位色深与EXR导出，贴合专业后期工作流。具备复杂指令理解与自评迭代能力，并可用草图精准控制画面。【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2 支持最高128k上下文，引入[THINK]特殊token以增强推理表现。新增视觉编码器并兼容多框架，强化图文多模态能力。【效率工具】 ⚡️ Notion发布AI智能体：自动纪要与全库分析基于工作区上下文生成会议笔记、分析报告与竞品评估，可创建/更新页面与数据库。支持从Slack、邮件与Google Drive触发，20分钟处理数百页文档。【效率工具】 ⚡️ 腾讯混元3D Studio上线：3D创作从天级提速到分钟级原生3D分割支持部件自动拆分与独立编辑，AI语义UV 1-2分钟出图。智能材质编辑通过文本/图片生成高质量PBR纹理，显著提升生产效率。 - 项目链接：https://3d.hunyuan.tencent.com/studio

6分钟

99+

8个月前

【AI日报】EP.217 9月19 可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上

Aishaobing的个人播客

【效率工具】 ⚙️ 可灵AI发布数字人新功能：一张图片生成1分钟高清视频从静态图片到动态视频，几步即可生成高质量数字人内容。支持文字/音频驱动与多语种，为教育、培训与宣传降本增效。 - 项目链接：https://klingavatar.github.io/ 【技术突破】 🚀 腾讯混元携高校推出SRPO：给生成图像“去油”更逼真引入语义相对偏好优化与Direct-Align，显著提升真实感并降低重建误差。训练高效，10分钟即可超越现有方法，真实度与美学评分大幅提升。 - 项目链接：https://tencent.github.io/srpo-project-page/ 【开源项目】 🧩 IBM开源Granite-Docling-258M：企业级文档AI模型上线端到端保留版式结构，精准提取表格、代码与公式，优于传统OCR。多语种支持与新架构上阵，相比SmolDocling全面进化。 - 项目链接：https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00 【行业动态】 📰 Meta发布首款带屏幕AI眼镜Ray-Ban：随身智能助理更近一步镜片内置显示，搭配神经腕带肌电识别，实现更自然的交互。连接云端可用Meta应用、导航与实时翻译，减少对手机依赖。【行业动态】 📰 DeepSeek R1登上Nature封面：大模型首次通过同行评审强化学习驱动自主演化，推理能力显著提升。 AIME2024成绩由15.6%跃升至71.0%，与顶级模型相当。【行业动态】 📰 OpenAI为ChatGPT网页端上线“Thinking时长”可调功能用户可在GPT-5模式下调节思考时长，平衡回复速度与智能程度。同步推进儿童版ChatGPT研发，强化未成年人使用安全。【行业动态】 📰 抖音上线“AI求真”功能：助你识谣辨真更安心一键跳转“求真卡”，联合辟谣大模型与团队提升信息透明度。面向全平台误导内容治理，增强用户保护能力。【开源项目】 🧩 通义DeepResearch发布全开源AI模型：让AI“会做研究” 多项权威基准名列前茅，性能超越多款国际模型。模型、框架与方案全面开源，推动科研协作与复现。

5分钟

99+

8个月前

【AI日报】EP.216 9月18 阿里云开源通义DeepResearch；夸克推医师考试大模型；迪士

Aishaobing的个人播客

【开源项目】 🧩 阿里云开源通义DeepResearch：轻量级AI代理，对标OpenAI 以300亿参数（实际激活约30亿）实现强劲检索与推理，支持128K超长上下文。适用于多日行程规划、法律文档分析等复杂任务。【行业动态】 📰 夸克发布国内首个全阶段医师考试大模型测试集覆盖12门核心学科、约7600道题，来源于2024年最新考试。以梯度化策略提升推理要求，填补高时效与广覆盖测试集空白。【效率工具】 ⚡ 全球首位AI全栈工程师“Orchids”问世开箱即用前后端开发，内置身份验证、数据库管理与支付，无需第三方服务。从原型、UI到完整应用与网站一站式生成。【效率工具】 ⚡ 微软Copilot将上线类ChatGPT记忆管理，接入Google Drive 可记住用户关键信息，提供更个性化的助理体验；支持访问Drive文件。部分连接器或纳入每月20美元订阅计划，功能将逐步推送多平台。【行业动态】 📰 迪士尼、华纳、环球起诉MiniMax，涉AI训练版权指控海螺AI未经授权使用电影角色进行训练与商业化运营。按每项著作权最高15万美元请求赔偿，或成AI版权里程碑事件。 - 参考链接：https://www.reuters.com/legal/litigation/disney-universal-warner-bros-discovery-sue-chinas-minimax-copyright-infringement-2025-09-16/ 【效率工具】 ⚡ Gamma 3.0发布：用Agent与API重塑演示文稿工作流 Gamma Agent支持提示驱动的智能编辑，一键全面优化内容与结构。 Gamma API助力企业级集成，团队/商业版覆盖不同规模需求。【行业动态】 📰 OpenAI更新ChatGPT搜索：更全面也更及时支持长对话与图像搜索，答案覆盖更广更即时。响应时间可能变长且偶有错误，建议用户交叉核实。【效率工具】 ⚡ Notion将推个性化AI智能体，支持分享与售卖自定义助手头像、名称与行为指令，可用模板或自配流程。 9月18日主题演讲亮相，预计兼容网页版与移动端。【效率工具】 ⚡ Cursor 1.6发布：自定义命令与MCP协议提升协作新增自定义命令与/summarize，优化代理终端性能与稳定性。支持MCP无缝连接外部工具与数据源，拓展AI代理能力边界。 - 参考链接：https://cursor.com/blog/tab-rl 【AI模型】 🤖 谷歌TimesFM-2.5：小型长上下文的时间序列基础模型仅2亿参数的解码器架构，更小更快且准确性提升。支持16,384上下文与本地概率预测，GIFT-Eval点/概率预测均居首。 - 项目链接：https://huggingface.co/google/timesfm-2.5-200m-pytorch 【效率工具】 ⚡ Figma AI编辑功能上新：选中画布一键评论即改稿基于Make扩展成通用AI编辑器，支持自然语言直接修改与实时协作。由Beta转向限量Alpha，面向付费计划用户开放。 - 参考链接：https://docs.google.com/forms/d/e/1FAIpQLSdGtm-FFZIq1mhn62VRvMBP71yGG_zn9mjKgeqKhDUY-ymMvQ/viewform

6分钟

99+

8个月前

【AI日报】EP.215 9月13 MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁

Aishaobing的个人播客

【AI模型】 🤖 MiniMax Music 1.5上线：生成音乐时长提升至4分钟支持强控制力、自然人声、丰富编曲与清晰结构。 16种风格×11种情绪×10个场景自定义，覆盖配乐与虚拟偶像等创作场景。 - 参考链接：https://www.chinaz.com/tags/803315.shtml - 参考链接：https://www.chinaz.com/tags/824394.shtml - 参考链接：https://www.chinaz.com/tags/849274.shtml 【效率工具】 ⚡ 腾讯会议上线AI托管：会议分身、要点记录、一键生成纪要可代替参会并在突发情况下无缝接管，确保信息不遗漏。会后自动输出清晰纪要，缓解“撞会”与时间管理压力。【技术突破】 🚀 蚂蚁发布gPass：AI眼镜可信连接框架聚焦标准不一与跨设备协同难题，推动眼镜向个人智能体演进。可信身份流通、端到端加密与无感核身，强化安全与便捷。【AI模型】 🤖 Anthropic为Claude加入自动记忆与隐身聊天团队/企业对话可被自动记忆并延续到项目内容与产出。新增隐身模式保护隐私，兼顾效率与合规。【行业动态】 📰 苹果AI实时翻译在欧盟受DMA限制暂停苹果称延迟与数据保护无关，主要受制于DMA规则。也折射大型科技公司在多地法规下的落地挑战。【行业动态】 📰 职业球队首度启用AI主教练并取胜奥克兰球手队以AI“AaronLytics”指挥，5:0完胜对手。技术可计算“最优解”，但也引发对体育人性与不确定性的讨论。【效率工具】 ⚡ Google AI Edge Gallery上架：手机端离线多模态AI 集成Gemma系列，支持图像识别、语音转写/翻译、文本对话等。全离线运行与隐私保护，模型可按需切换。【行业动态】 📰 首个企业应用AI成熟度模型AIM²发布定义从“单点试验”到“AI原生”的五级进阶，覆盖六大评估维度。帮助企业识别短板，规划从概念验证到规模收益的路径。【效率工具】 ⚡ Claude上线Web Fetch与Search一体化工作流直接抓取并分析网页与PDF，打通“搜索—抓取—分析”闭环。白/黑名单与次数限制加强安全控制与可信度。【行业动态】 📰 FTC调查多家AI聊天机器人，聚焦未成年人安全涉及Alphabet、CharacterAI、Instagram、Meta、OpenAI、Snap与xAI。重点审视安全评估、盈利模式与家长告知机制，防范负面影响。

6分钟

99+

9个月前

【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali；字节跳动推出USO模型；Ope

Aishaobing的个人播客

【效率工具】 🛠️ 快手发布 Kwali：一语生成短视频的多Agent助手云端多Agent自动拆解卖点、受众与情境标签，生成脚本、匹配镜头并剪辑合成。大幅降低制作成本，帮助商家更快投放。 - 项目链接：https://kc.kuaishou.com/kwali 【开源项目】 🧩 字节跳动开源 USO 模型：打破“风格与主题”对立以创新训练与海量数据实现风格与主题的灵活融合，显著提升图像生成的精准度与可控性，面向创意与商业设计场景。 - 项目链接：https://github.com/bytedance/USO 【行业动态】 📰 微软推出 Copilot Audio 音频模式：更个性化的语音交互基于 MAI-Voice-1，提供情感、故事、脚本三种模式与多样声音风格；配合 MAI-1 入驻 Office，丰富办公场景语音体验。 - 项目链接：https://copilot.microsoft.com/labs/audio-expression 【AI模型】 🧠 Stability AI 发布 Stable Audio 2.5：专业音频生成再升级支持最长三分钟音轨的高质量生成与音频修补，满足复杂音乐创作，并与 WPP 合作强化品牌音频识别。【技术突破】 ⚡ 阿联酋开源 K2 Think：320 亿参数，号称全球最快最高每秒 2000 tokens 的生成速度，擅长复杂数学与编程推理；开放权重与训练/部署方案，支持商业落地。 - 项目链接：https://www.k2think.ai/guest 【行业动态】 📰 微信公众号上线智能回复：数字分身 7×24 小时在线可学习历史文章与语言风格，提供个性化回复，提升运营效率与用户黏性。【技术突破】 ⚡ OpenAI 推出 ChatGPT 开发者模式：AI 直接控制外部工具支持自定义连接器执行写入与复杂任务，多层安全防护保障准确与安全，迈向自动化代理时代。 - 项目链接：https://platform.openai.com/docs/mcp - 项目链接：https://platform.openai.com/docs/guides/developer-mode 【开源项目】 🧩 字节 Seed 推出 AgentGym-RL 框架：让 LLM 更会决策以强化学习训练多轮交互代理，配合 ScalingInter-RL 方法平衡探索与利用；多项任务表现超越商业模型。 - 项目链接：https://agentgym-rl.github.io/ 【开源项目】 🧩 月之暗面开源 Checkpoint Engine：LLM 推理原地热更新最高可在 20 秒内完成万亿参数权重同步，支持数千 GPU 并行，显著减少停机并利于扩展到 SGLang 等框架。【开源项目】 🧩 B 站开源 IndexTTS-2.0：情感与时长可控的零样本 TTS 引入时间编码实现精准时长控制，音色与情感解耦提升自然度，适用于配音、有声读物与跨语种本地化。 - 项目链接：https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo 【效率工具】 🛠️ Replit 发布 Agent 3：自主性提升 10 倍的编程助手可基于自然语言生成与优化代码，支持多语言与全流程协作（生成、调试、管理），显著提升开发效率。 - 项目链接：https://replit.com/agent3

6分钟

99+

9个月前

【AI日报】EP.214 9月11 腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000

Aishaobing的个人播客

【AI模型】 🤖 腾讯混元生图模型升级至 Hunyuan Image 2.1，支持写字与原生2K 原生2K分辨率与更强复杂语义理解，支持中英文与高质量文本渲染。模型已在社区开源，助力多模态图像生成研究与创作。 - 项目链接：https://hunyuan.tencent.com/image 【行业动态】 📰 爱诗科技完成6000万美元B轮融资，阿里巴巴领投视频生成大模型 PixVerse V5 领跑图生视频赛道，用户规模突破1亿。开放平台 API 计划将推动视频生成技术的规模化应用。【AI模型】 🤖 Freepik 上线豆包 Seedream 4.0 图像模型，会员无限生成图片支持2K/4K分辨率与多种纵横比，满足多场景设计需求。 Premium+与Pro会员享无限生成，火山引擎同步开放 Seedream 4.0 API。【技术突破】 🚀 阿里通义千问 Qwen3-Next-80B-A3B 推理提速10倍，降本增效 MoE专家混合架构实现高效推理与低资源占用，长上下文更稳。训练与推理成本显著下降，降低机构部署大模型门槛。【行业动态】 📰 微软多元化AI供应商，在 Office 365 集成 Anthropic 技术基于性能引入 Anthropic 能力，优化办公场景智能体验。推进自研与多供应链并行，调整对单一伙伴的依赖。【效率工具】 ⚡ 首款 AI Agent 浏览器 Fellou CE 发布，主打“无缝衔接”体验通过自然语言与自主执行处理复杂任务，显著提升工作效率。构建开放智能生态，强调隐私与数据安全。 - 项目链接：https://fellou.ai/ 【开源项目】 🧑‍💻 清华开源 GUAVA：0.1 秒单张照片生成 3D 数字人结合 EHM 与 3D 高斯泼溅，高质量表情还原与极速渲染。覆盖自媒体、直播、电商、教育等场景，效率与体验大幅提升。 - 项目链接：https://github.com/Pixel-Talk/GUAVA - 项目链接：https://eastbeanzhang.github.io/GUAVA/ 【效率工具】 ⚡ Claude 升级：一键生成与编辑 Excel、PPT、PDF 等办公文件面向 Max/Team/Enterprise 预览开放，Pro 将陆续覆盖。支持代码执行与文件处理，协作产出更快落地。

6分钟

99+

9个月前

【AI日报】EP.213 9月10 生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4

Aishaobing的个人播客

【AI模型】 🤖 生数科技全球上线 Vidu Q1 参考生图：支持最多7张图片输入多图参考、多主体一致性与场景生成同步升级，创作可控性更强。支持服装与背景自由替换，推动多模态创作进入新阶段。 - 参考链接：https://www.chinaz.com/tags/854050.shtml 【AI模型】 🤖 字节跳动发布 Seedream4.0：全新多模态图像创作模型支持文生图、图生图和多图编辑，覆盖多样化创作场景。美感与逻辑理解显著提升，推理速度较前代快10倍以上。【效率工具】 🧰 腾讯推出 AI CLI 工具 CodeBuddy：国内首家全形态AI编程覆盖插件、IDE与CLI，自然语言驱动代码生成与部署。官方称编码时间缩短40%，AI生成代码占比超50%。 - 项目链接：https://www.codebuddy.ai/ 【AI模型】 🤖 百度文心大模型 X1.1 发布：学习与执行力再升级在事实性、指令遵循与智能体表现上全面进步。面向个人与企业开放体验，千帆平台提供开发接入。【行业动态】 📰 OpenAI支持AI动画长片《Critterz》：计划2026戛纳首映预算不足3000万美元，30人团队9个月完成，探索AI降本增效拍片。人机协同制作流程，应用GPT-5等生成式AI工具。【开源项目】 🛠️ 上海AI实验室发布 XTuner V1 训练引擎：训练效率显著提升吞吐量提升5%以上，计算资源利用率（MFU）增长超20%。采取开源策略，助推大模型训练技术进步与普及。【行业动态】 📰 谷歌AI搜索模式扩展：新增5种语言支持覆盖印地语、印尼语、日语、韩语与巴西葡萄牙语。基于定制Gemini 2.5，强化多模态与推理，辅助而非替代传统结果。【行业动态】 📰 我国发布30项AI国家标准，15项人形机器人国标在研既有与在制标准覆盖多领域，规范产业发展与应用安全。牵头推进《生成式人工智能风险处理指南》国际标准，输出中国方案。

6分钟

99+

9个月前

【AI日报】EP.223 10月1 豆包大模型1.6-vision发布；DeepSeek发布V3.2-

【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

【AI日报】EP.221 9月26 生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源

【AI日报】EP.220 9月25 接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵

【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿

【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型；通义万相Wan2.2-Anima

【AI日报】EP.217 9月19 可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上

【AI日报】EP.216 9月18 阿里云开源通义DeepResearch；夸克推医师考试大模型；迪士

【AI日报】EP.215 9月13 MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁

【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali；字节跳动推出USO模型；Ope

【AI日报】EP.214 9月11 腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000

【AI日报】EP.213 9月10 生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4

加入我们的 Discord

扫描微信二维码

播放列表

Aishaobing的个人播客 - 节目列表

【AI日报】EP.223 10月1 豆包大模型1.6-vision发布；DeepSeek发布V3.2-

【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

【AI日报】EP.221 9月26 生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源

【AI日报】EP.220 9月25 接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵

【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿

【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型；通义万相Wan2.2-Anima

【AI日报】EP.217 9月19 可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上

【AI日报】EP.216 9月18 阿里云开源通义DeepResearch；夸克推医师考试大模型；迪士

【AI日报】EP.215 9月13 MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁

【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali；字节跳动推出USO模型；Ope

【AI日报】EP.214 9月11 腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000

【AI日报】EP.213 9月10 生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4

加入我们的 Discord

扫描微信二维码

播放列表