Aishaobing的个人播客 - 【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿 - EarsOnMe

主播

节目简介

来源：小宇宙

【AI模型】 🤖 美团推出推理大模型 LongCat-Flash-Thinking
基于混合专家架构，峰值规模达5600亿参数，动态激活186亿至313亿，在数学、通用推理与代码生成中表现突出。
权重与聊天模板已开放，配套专属聊天站点，便于开发与研究。
- 项目链接：https://longcat.chat/
【开源项目】 🧩 一图生成动画，人物无缝替换：Wan-Animate 开源
单模型双任务，给一张图和一段参考视频即可出片；骨骼控制、面部隐式特征与 Relighting LoRA 提升同步与动作还原。
适用于MV、电商广告、培训等场景，后续有望支持多人物视频。
- 项目链接：https://github.com/Wan-Video/Wan2.2
【AI模型】 🤖 字节跳动发布豆包翻译大模型：28语互译，比肩GPT-4o
覆盖28种语言对，性能接近或超越主流旗舰模型。定价激进：输入每百万字符1.20元，输出3.60元。
企业可在火山引擎获取完整计费与接入说明。
- 参考链接：https://www.volcengine.com/docs/82379/1820188
【技术突破】 🚀 华为携浙大发布 DeepSeek-R1-Safe：安全与性能双优
基于昇腾千卡算力平台，在多维有害信息防御上接近100%拦截。通用能力损耗控制在1%以内。
为国产算力生态构建安全可靠的大模型提供了范式样本。
【行业动态】 📰 Qwen3-Omni 即将登场：端侧跨模态再升级
采用 Thinker-Talker 双轨设计，支持高效流式与实时交互。已向 Transformers 提交支持 PR，开源集成在路上。
预计将进一步优化资源受限设备上的多模态体验。
【技术突破】 🚀 xAI 发布 Grok4Fast：算力降40%，单任务成本降98%
在 GPQA Diamond、AIME2025 等基准上表现优异，以更少计算实现更高吞吐。
为复杂任务提供高性价比方案，适合企业在成本敏感场景快速落地。
【效率工具】 ⚡ YouTube 上新创作与直播工具，助力变现与运营
工作室新增灵感标签、标题A/B测试、肖像识别等；直播支持小游戏、横竖屏与AI自动高光。
品牌合作与购物计划拓展收入渠道，优化创作者工作流。
【开源项目】 🧩 IBM 推出 Granite-Docling-258M：轻量文档转换模型
2.58亿参数的视觉语言模型，相比传统OCR识别更准，保留版面结构，支持多种输出格式。
已支持中文、阿拉伯语、日语，后续将扩展更多语言。
- 项目链接：https://huggingface.co/ibm-granite/granite-docling-258M
【技术突破】 🚀 中科院发布类脑大模型 SpikingBrain：2%数据达百倍长文速度
混合线性注意力将复杂度由二次降至线性；自适应阈值脉冲神经元显著降能耗、提升稀疏性。
长文本处理速度比主流模型快100倍，训练数据仅需2%。
- 项目链接：https://github.com/BICLab/SpikingBrain-7B
【行业动态】 📰 OpenAI 将推高算力新功能，部分仅向 Pro 开放
未来数周陆续上线，可能收取额外费用以覆盖算力。
Altman 称长期目标仍是降低智能服务成本、提升可及性。

【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking；阿

加入我们的 Discord

扫描微信二维码

播放列表