Aishaobing的个人播客 - 节目列表

【AI日报】EP.114 3月13 阿里通义开源R1-Omni模型；全国第二例AIGC版权案判决

**AI 新闻速递 📰** 1. **通义开源新模型**：R1-Omni 模型发布，增强多模态情感识别能力。 * 强化学习+可验证奖励，性能提升超 35%。 * [详情链接](https://arxiv.org/abs/2503.05379) 2. **OpenAI 智能体工具**：从“问答”到“执行”，AI 能力再升级。 * Responses API、Agents SDK 和计算机使用工具发布。 3. **百度表格识别模型**：PP-TableMagic 开源，复杂表格识别更轻松。 * 多模型组网，支持定制化微调。 * [详情链接](https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md) 4. **Manus 携手通义千问**：共推国产 AI 智能体产品。 * 基于通义千问开源模型，实现 Manus 全部功能。 5. **MIDI 技术突破**：单张图片生成 360 度 3D 场景。 * 智能分割+多实例同步扩散，效果逼真。 * [详情链接](https://huanngzh.github.io/MIDI-Page/) 6. **VideoPainter**：视频局部编辑，提示词自动修改，支持长视频。 * 基于 Diffusion Transformer 模型。 * [详情链接](https://yxbian23.github.io/project/video-painter/) 7. **Nanobrowser**：开源版 OpenAI Operator，免费 AI 自动化工具。 * 本地操作，保护隐私，支持多种 AI 模型。 * [详情链接](https://github.com/nanobrowser/nanobrowser) 8. **Luma AI 开源 IMM**：图像生成速度提升十倍。 * [详情链接](https://github.com/lumalabs/imm) 9. **人事变动**：前字节跳动 AI 高管骆怡航加入生数科技任 CEO。 10. **AIGC 版权案**：全国第二例判决，确认 AI 生成内容作者享有著作权。 * 江苏常熟法院判决

【AI日报】EP.113 3月12 DeepSeek R2或于3月17日发布

**AI新闻速递 🚀** 1. **腾讯放大招💥**：Hunyuan-TurboS模型发布，融合Transformer和Mamba，专治长文本！ * 性能超越GPT-4o-0806等一众高手🏅。 * 数学、推理、对齐性全面提升。 2. **DeepSeek R2来袭预警🚨**：3月17日见分晓，或将挑战Claude Sonnet地位。 * 编程、多语言推理能力有突破。 * 业内期待与担忧并存。 3. **Pika视频换装秀👗**：Pikaswaps功能上线，轻松替换视频服装。 * 支持1080p高清输出。 * 时尚、电商领域应用前景广阔。 * [视频链接 ](https://www.chinaz.com/feed/0311/16...) 4. **稚晖君人形机器人🤖**：灵犀X2亮相，集运动、交互、作业于一身。 * 多模态交互，理解人类情绪。 * 可装配灵巧手，应用场景广泛。 * [视频链接 ](https://www.chinaz.com/feed/0311/16...) 5. **网易有道翻译升级🆙**：14B小参数翻译大模型2.0，更精准、更高效。 * 降低计算资源消耗，易于部署。 * 已上线各大平台。 6. **百度AI社交App📱**：“月匣”上线，主打情感陪伴。 * 搭载文心一言等多个大模型。 * 300+聊天对象可选。 7. **DuckDuckGo AI助手🦆**：Duck.ai发布，注重隐私，免费使用。 * 多种AI模型可选。 * 匿名查询，保护隐私。 8. **OpenAI合作🤝**：与CoreWeave签119亿美元大单。 * CoreWeave提供AI基础设施。 * CoreWeave计划IPO。 9. **阿里巴巴AI战略🛒**：2025年底商家100%使用AI工具。 * 超50%商家已使用。 * 投资3800亿元升级AI和云计算。 10. **Manus AI泄露事件🔓**：官方回应，将开源更多内容。 * 基于Claude Sonnet构建。 * [详情链接](https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9) 11. **亚马逊云科技☁**：率先推出完全托管DeepSeek-R1。 * 简化企业AI部署。 * 企业级安全保障。 12. **AI市场洗牌🌪**：DALL-E市占率暴跌，黑森林实验室崛起。 * 文本、图像、视频生成领域竞争激烈。 * 新兴竞争者挑战传统巨头。 13. **iOS 18.4 Beta3📱**：苹果AI中文版来了。 * 支持多种国际语言。 * 与阿里巴巴合作。  原文链接： https://www.chinaz.com/feed/0311/16...

【AI日报】EP.112 3月11 国家超算平台阿里千问大模型；抖音打击AI炒股诈骗行为

**AI新闻速递 📰** 1. **【网络安全】** 🚫 抖音重拳出击AI炒股诈骗，封禁违规账号，提醒用户警惕投资风险。 2. **【算力升级】** ♾️ 国家超算互联网平台接入阿里千问大模型，提供QwQ-32B API，开发者可免费获取100万tokens。 3. **【创意特效】** ✨ 可灵AI（Kling）发布1.6版本，新增FuzzyFuzzy、MochiMochi、BoomBoom三大AI特效，让静态图片秒变动态视频。 * 视频演示：[ 点击观看视频] (请注意，这里无法提供实际链接，因为原始文档中没有提供) 4. **【数字人】** 🧍 Hedra推出Character-3模型和Hedra Studio，实现对图像、文本和音频的联合推理，数字人视频生成更进一步。 * 视频演示：[ 点击观看视频] (请注意，这里无法提供实际链接，因为原始文档中没有提供) 5. **【搜索升级】** 🔍 QQ浏览器推出AI问答功能“元宝快答”，基于腾讯混元Turbo S模型，快速检索全网信息，提供精炼答案。 6. **【开源工具】** 💻 Heygem开源版发布，Windows离线视频合成工具，精准克隆外貌和声音，保护用户隐私。 * 项目链接：[https://github.com/GuijiAI/HeyGem.ai](https://github.com/GuijiAI/HeyGem.ai) 7. **【API发布】** 🌐 Firecrawl推出LLM.txt API (Alpha版)，输入网址即可生成适用于LLM训练的文本文件。 * 项目链接：[https://docs.firecrawl.dev/features/alpha/llmstxt](https://docs.firecrawl.dev/features/alpha/llmstxt) 8. **【流量黑洞】** ⚫ ChatGPT跻身全球十大网站，月访问量达40亿，但出站流量极少，引发对信息验证的担忧。 9. **【图像识别】** 👁️‍🗨️ Finer-CAM技术提升AI图像识别能力，精准识别细微差别，分类更清晰，支持多模态零样本学习。 * 项目链接：[https://github.com/Imageomics/Finer-CAM](https://github.com/Imageomics/Finer-CAM) 10. **【AI创作】** ✍️ 百度AI创作应用橙篇接入DeepSeek-R1满血版，AI辅助功能显著提升，助力学习和创作。 11. **【图像修复】** 🖼️ LanPaint：推理版局部重绘方法，无需训练即可修复图片，集成简单，效果出色。 * 项目链接：[https://github.com/scraed/LanPaint](https://github.com/scraed/LanPaint) 12. **【语言模型】** 🗣️ 富士康仅用四周时间推出中文大语言模型FoxBrain，并将开源发布。

【AI日报】EP.111 3月8 X官方账号被冻结！Manus平替开源版来袭；腾讯混元图生视频模型开源

🤖️ **Manus平替开源版火速出圈** * OpenManus项目神速复刻Manus智能体，GitHub星标已超3300！ * 安装超简单，改个配置文件就能用。 * 集成多个顶级大模型，复杂任务也能轻松搞定。 * 项目链接：[https://github.com/mannaandpoem/OpenManus](https://github.com/mannaandpoem/OpenManus) 🦉 **CAMEL-AI不甘示弱，OWL强势登场** * OWL在GAIA测试中表现亮眼，开源框架中拔得头筹。 * 完全开源，开发者快来GitHub围观。 * 团队未来可期，技术博客、工具生态都在路上。 * 项目链接：[https://github.com/camel-ai/owl](https://github.com/camel-ai/owl) 🚀 **阿里通义千问Qwen2-32B推理模型开源社区夺冠** * 性能卓越，力压微软、DeepSeek等一众高手。 * 消费级显卡就能本地部署，成本更低。 🖼️ **腾讯混元图像转视频模型HunyuanVideo-I2V开源** * 静态图片秒变动态视频，上传图片描述一下就OK。 * 自动配音效，还能对口型，让图片“活”起来。 * 开发者快来GitHub和HuggingFace下载体验。 * 体验链接: [https://video.hunyuan.tencent.com/](https://video.hunyuan.tencent.com/) * 项目链接: [https://github.com/Tencent/HunyuanVideo-I2V](https://github.com/Tencent/HunyuanVideo-I2V) 📄 **Mistral AI发布超强OCR API** * 号称全球性能最强，文档信息提取、结构化整理不在话下。 * 支持多语言、多模态，还能保留文档格式。 * 提供自托管选项，数据安全有保障。 * 体验链接: [https://mistral.ai/news/mistral-ocr](https://mistral.ai/news/mistral-ocr) 💻 **Windsurf Wave4版本发布，程序员福音** * 新增预览功能，改代码效果即时可见。 * Tab to Import功能让添加依赖更方便。 * Cascade小助手智能建议下一步操作。 * 详情链接: [https://codeium.com/blog/windsurf-wave-4](https://codeium.com/blog/windsurf-wave-4) 🤝 **Anthropic Console新平台，团队协作更高效** * 支持团队协作编辑、管理prompts。 * Claude 3.7 Sonnet模型推理能力再升级。 * prompts可分享、思考过程可视化、自动生成高质量prompts。 * 详情链接: [https://www.anthropic.com/news/upgraded-anthropic-console](https://www.anthropic.com/news/upgraded-anthropic-console) ❗ **Manus官方X账号被冻结，官方回应来了** * 与加密货币诈骗无关，Manus从未参与任何加密货币项目。 * 公司正采取法律行动，维护品牌形象。 📈 **ChatGPT周活用户数破4亿，六个月翻倍** * 用户增长势头迅猛，功能、模型迭代是关键。 * 移动端表现强劲，用户粘性高。 🎨 **佳士得首场AI艺术拍卖引争议** * 成交额72.8万美元，年轻群体对数字艺术兴趣浓厚。 * 超5600名艺术家联名抗议，认为AI作品侵犯版权。 📱 **腾讯元宝功能上新，分享更灵活** * 分享长图时，可选择是否展示AI思考过程。 * 支持分享短图或长图，操作简单，随时中断。

【AI日报】EP.110 3月7 爆火！国产AI产品Manus邀请码被炒至5万；阿里新开源推理大模型QwQ-32B

**AI日报精选** * **Manus热潮：** 全球首款通用智能体Manus火爆，邀请码被炒至5万元。 * 独立思考，执行复杂任务。 * 市场调研、旅行规划等多领域应用。 * GAIA基准测试创新纪录。 * 详情链接: [https://manus.im/](https://manus.im/) * **阿里开源：** Qwen团队发布QwQ-32B大型语言模型。 * 强化学习，解决复杂问题。 * 数学、编程测试媲美大模型，显存需求更低。 * 扩展上下文长度，具备代理能力。 * 详情链接: [https://qwenlm.github.io/blog/qwq-32b/](https://qwenlm.github.io/blog/qwq-32b/) * **OpenAI更新：** GPT-4.5逐步向ChatGPT Plus用户开放。 * 对话能力提升，复杂推理仍有不足。 * 使用成本高昂，每百万tokens 150美元。 * **豆包升级：** 深度推理模式上线，AI逻辑链条可视化。 * 提升用户信任度和透明性。 * 基于豆包1.5模型，增强智能化。 * 问答、搜索、写作等领域前景广阔。 * **视频生成：** LTX-Video 0.9.5发布，支持商用许可。 * 关键帧条件支持，提升灵活性。 * 分辨率和生成速度显著提升。 * **语音克隆：** Spark-TTS文本转语音系统，支持零样本克隆。 * 无需特定训练数据，生成个性化声音。 * 细粒度控制语速、音高。 * 跨语言生成，适用性广。 * 详情链接: [https://github.com/SparkAudio/Spark-TTS](https://github.com/SparkAudio/Spark-TTS) * **图像动画：** 谷歌发布Whisk Animate预览版，8秒动画短片。 * Veo2模型，静态图像转动态视频。 * 用户反馈积极，创意潜力大。 * **多模态模型：** Cohere发布Aya Vision，32B和8B两个版本。 * 执行多语言和视觉任务。 * 表现超越更大体量模型。 * 发布AyaVisionBench评估工具。 * 详情链接: [https://cohere.com/blog/aya-vision](https://cohere.com/blog/aya-vision) * **数据标注：** 抖音集团寻求AI数据标注供应商。 * 注册资本不低于100万元。 * 独立法人，良好信誉，不接受联合体。 * **“博士级”AI：** OpenAI推出高端AI代理，月费高达2万美元。 * **应用评论：** 苹果App Store将推AI生成评论摘要。 * iOS 18.4引入，快速获取反馈。 * 每周更新，初期美国App Store上线。 * **IBM新模型：** Granite 3.2发布，高效推理与实用性。 * 多模态，文档处理和数据提取出色。 * 思维链功能，Granite Guardian安全模型。 * 详情链接: [https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision](https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision)

【AI日报】EP.109 3月6 抖音测试接入豆包AI；即梦接入DeepSeek支持智能提示词生成

**AI日报精选** 📰 1. **抖音接入豆包AI** 🤖：抖音测试接入豆包AI，字节跳动开启AI生态战略。 * 短视频和消息列表开放入口，打破AI产品与流量平台壁垒。 * 字节跳动推进多条AI产品线，构建全方位AI生态。 * 巨头重视AI在内容生态中的应用。 2. **即梦+DeepSeek** 🎨：即梦接入DeepSeek，支持智能提示词生成。 * 解决AI绘画创作灵感难题。 * 简单输入需求，即可获得精准提示词。 * 提升创作效率和图像质量。 3. **Grok语音模式** 🗣️：Grok语音模式全面开放。 * 11种独特语音交互模式。 * 自带字幕，成为英语学习利器。 * 用户好评，期待多语言支持。 4. **vivo重组AI部门** 🏢：vivo成立新AI部门，大模型训练转向端侧。 * 专注大模型端侧训练。 * 暂停商业化考核，重视AI技术长远发展。 * 推出DeepSeek-R1，提升AI助手智能化。 5. **Fast3R技术** 🖼️：Fast3R实现千张图片一键3D重建。 * 一次前向传播处理多达1500张图片。 * Transformer架构并行处理，省去复杂对齐。 * 速度和内存使用优势显著。 * 详情链接: [https://fast3r-3d.github.io/](https://fast3r-3d.github.io/) 6. **DiffRhythm音乐创作** 🎶：DiffRhythm 10秒AI生成歌曲。 * 扩散模型端到端自动生成音乐。 * 输入歌词和风格，10秒生成完整歌曲。 * 自动创作歌词，完美契合旋律。 * 详情链接: [https://huggingface.co/spaces/ASLP-lab/DiffRhythm](https://huggingface.co/spaces/ASLP-lab/DiffRhythm) 7. **微软ART模型** 🖱️：微软开源ART模型，生成多图层透明图片。 * 根据文本提示和匿名区域布局生成。 * 逐层区域裁剪，速度提升12倍。 * 高质量自编码器，精确控制。 * 详情链接: [https://art-msra.github.io/](https://art-msra.github.io/) 8. **MindMapper思维导图** 🧠：MindMapper扔个链接生成交互式思维导图。 * 网址、视频链接或文本生成思维导图。 * Mermaid.js技术，美观且动态交互。 * 可下载为PNG图片分享。 * 详情链接:[https://github.com/misbahsy/MindMapper](https://github.com/misbahsy/MindMapper) 9. **雷军谈AI** 🗣️：雷军亮相代表通道，小米将AI技术应用到各终端。 * 制造业是国家基石，小米加大研发投入。 * 2025年预计投入300亿元，AI相关业务占四分之一。 * AI技术应用于手机、汽车和智能家居。 10. **爱诗科技融资** 💰：爱诗科技完成A5轮融资，剑指AI视频生成。 * 融资超4亿元，靖亚资本独家投资。 * PixVerse用户超4000万，月活1500万。 * 加速研发和人才引进，拓展B端服务。

【AI日报】EP.108 3月5 可生成汉字！智谱开源文生图模型CogView4

1、**智谱发布首个能生成汉字的开源文生图模型CogView4** - CogView4是首个支持生成汉字的开源文生图模型，具备强大的双语输入能力。 - 该模型在DPG-Bench基准测试中排名第一，成为开源文生图模型中的SOTA。 - 支持Apache2.0协议，后续将增加生态支持和微调工具包。 - 详情链接:https://github.com/THUDM/CogView4 2、**重磅！MiniMax推全新图像生成模型Image-01，使用成本仅为1/10** - Image-01是一款全新的文本到图像生成模型，旨在拓展用户的创意空间。 - 该模型具备精确的提示控制和卓越的视觉构图能力，能够产生逻辑一致且艺术感十足的图像。 - Image-01的服务费用仅为同类产品的十分之一，使专业级AI创作变得更加易于获取。 - 详情链接:https://www.minimax.io/platform/login 3、**腾讯元宝下载量超DeepSeek登顶苹果免费App下载榜第一** - 腾讯元宝成功超越DeepSeek，成为苹果免费App下载榜首。 - 腾讯加大对元宝的推广力度，尤其是在微信平台的曝光。 - 技术升级和功能优化元宝的快速发展提供了保障。 4、**秘塔AI搜索上线「视频」搜索功能** - 新增视频搜索模块，覆盖多模态数据，提升用户体验。 - 用户可快速定位到感兴趣的视频内容，如课程或广告分析。 - 接入DeepSeek R1推理模型，进一步增强搜索智能化水平。 5、**颠覆城市建模！AI生成3D城市模型GaussianCity，生成速度提升60倍！** - GaussianCity技术实现了60倍的生成速度提升，打破传统方法的规模限制。 - 采用BEV-Point表示方法，显著降低显存需求，实现无边界的3D城市生成。 - 该技术已开源，为虚拟现实、自动驾驶和城市规划等领域带来新的应用潜力。 - 详情链接:https://github.com/hzxie/GaussianCity 6、**警惕安全隐患！Ollama大模型工具被指存在严重漏洞** - Ollama的安全漏洞在默认配置下严重，特别是私有化部署用户风险显著。 - 攻击者可利用未授权访问进行模型信息窃取和服务中断，带来重大损失。 - 用户需加强安全意识，及时排查隐患，发现攻击迹象应立即报告相关部门。 7、**超强视频生成模型Wan2.1GP：低配GPU也能搞定大片！** - SOTA性能:Wan2.1GP在多个基准测试中表现优异，超过现有开源和商业解决方案。 - 兼容性强:仅需8.19GB显存，支持几乎所有消费级GPU，适合低端用户。 - 多任务支持:支持文本到视频、图像到视频等多种生成任务，并具备中英文文本生成能力。 - 详情链接:https://github.com/deepbeepmeep/Wan2GP 8、**火山引擎宣布大模型应用开源：上线“大模型应用实验室”，释放AI创新潜力** - 开源应用包括手机助手、Deep Research等，提供多种AI工具，促进开发者创新。 - “大模型应用实验室”上线，为开发者和研究人员提供开放实验环境，探索大模型应用潜力。 - 社区反响热烈，用户认为这一举措降低了AI开发门槛，推动行业协作与创新。 9、**QQ浏览器推出“AI作文辅导”功能** - AI作文辅导功能帮助学生在写作过程中提升能力，而不仅仅是提供答案。 - 该功能通过全流程指导，涵盖立意、提纲、素材和范文生成的每一步。 - QQ浏览器强调多阅读和思考的重要性，鼓励学生掌握写作技巧。 10、**Anthropic融资35亿美元，估值飙升至615亿美元** - Anthropic完成35亿美元E轮融资，估值达到615亿美元，显示出投资者对AI市场的持续热情。 - 公司年收入在2024年达到了10亿美元，同比增长十倍，并在2025年初再次增长30%。 - 亚马逊和谷歌分别向Anthropic投资80亿美元和30亿美元，支持其B2B战略。 11、**从编码到创意写作xAI Grok-3击败GPT4.5全能登顶大模型竞技场** - Grok-3在Chatbot Arena中以微弱优势超越了GPT4.5-Preview，获得超过3,000票，表现卓越。 - 模型在困难提示、编码、数学问题、创意写作等多个领域表现出色，显示出其强大的能力。 - Chatbot Arena使用Elo评级系统进行模型排名，标志着xAI在AI领域的显著进展。 12、**雷军两会建议：建议加强“AI换脸拟声”违法侵权重灾区治理** - 加快推进自动驾驶量产，提升技术应用效率。 - 发展智能网联新能源汽车产业生态，促进绿色出行。 - 加强对“AI换脸拟声”违法侵权的治理，保护用户权益。

【AI日报】EP.107 3月4 字节AI编程工具Trae国内版发布；天价AI域名ai.com挂牌1亿美元

1. **字节跳动发布AI编程工具Trae国内版** 字节跳动推出国内版AI原生集成开发环境Trae，集成了Doubao-1.5-pro技术，支持多种模型切换，提升编程效率。Trae通过动态协作和自然语言描述，帮助开发者快速生成应用，缩短项目周期。 2. **天价域名ai.com挂牌1亿美元** 域名ai.com以1亿美元挂牌出售，若成交将打破历史最高域名交易记录。潜在买家包括OpenAI、微软、Google和Meta等科技巨头。 3. **科大讯飞升级星火深度推理大模型X1** 科大讯飞宣布星火X1模型全面升级，显著提升数学、医疗和教育领域的应用能力。该模型在竞赛级难题处理和医疗诊断方面表现尤为突出。 4. **中国AI发展现状：从追赶者到竞争者** 2025年第一季度，中国AI技术在多领域取得显著进展，部分模型接近美国顶尖水平。DeepSeek的R1模型智能指数达89，接近OpenAI的94。 5. **阿里万相大模型超越DeepSeek-R1** 阿里巴巴的万相大模型在开源社区超越DeepSeek-R1，登上全球开源榜首。万相2.1版本下载量突破百万，GitHub Star数超过6000。 6. **荣耀发布阿尔法计划，投入100亿美元建设AI生态** 荣耀宣布未来五年投入100亿美元，构建AI设备生态，转型为全球AI终端生态公司。阿尔法计划分为三个阶段，聚焦智慧手机、智慧生态系统和智慧世界的构建。 7. **开源OCR工具olmOCR发布** olmOCR是一款开源光学字符识别工具，支持PDF转文本、表格和手写识别。该工具经过大量文献训练，具备高准确率，用户可在线体验或本地部署。 8. **DeepSeek推出极致推理优化系统** DeepSeek-V3/R1推理系统通过跨节点专家并行技术，显著提升AGI发展效率。该系统采用双批次重叠策略和五级流水线，优化GPU计算效率。 9. **Flora推出AI驱动的“无限画布”工具** Flora推出专为创意专业人士设计的“无限画布”工具，支持生成和细化文本、图像和视频，提升创意工作效率。该工具整合现有AI模型，提供免费和专业版服务。 10. **Sesame发布超真实AI语音产品** Sesame团队开发“语音存在”概念，通过情感智能和上下文意识提升数字助手的对话能力。团队计划开源研究成果，并扩展语言支持。 11. **百度文库与百度网盘推出AI创作工具“自由画布”** 百度文库与百度网盘联合推出“自由画布”工具，支持多格式文件混合创作，降低创作门槛。该工具提供个性化标注和便捷分享功能。 12. **智谱AI完成超10亿元战略融资** 智谱AI完成超过10亿元战略融资，将用于推动国产GLM大模型的技术创新和生态发展。公司计划在2025年开源新大模型，进一步推动AI技术普及。相关链接： - 中国AI现状分析报告：https://artificialanalysis.ai/downloads/china-report/2025/Artificial-Analysis-State-of-AI-China-Q1-2025.pdf - olmOCR项目地址：https://github.com/allenai/olmocr - DeepSeek-V3/R1推理系统详情：https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md - Sesame语音产品演示：https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo - 百度文库“自由画布”工具：https://wenku.baidu.com

3分钟

【AI日报】EP.106 2月29 OpenAI最大最贵模型GPT-4.5发布；Trae集成Claude 3.7

### AI日报新闻提要 1. **OpenAI发布GPT-4.5** - OpenAI正式发布了GPT-4.5，这是迄今为止最大、表现最佳的聊天模型。 - 新模型在情商、创造力和可靠性方面表现出色，适用于写作、学习和沟通等领域。 - GPT-4.5将首先向ChatGPT Pro用户开放体验。 2. **百度文心大模型4.5上线定档3月16日** - 百度宣布文心大模型4.5将于3月16日正式上线，具备原生多模态和深度思考能力。 - 百度决定开源该模型，以推动其在更广泛领域的应用。 - 李彦宏强调基础模型的价值在于解决现实问题并实现大规模应用。 3. **Krea推出Wan2.1模型** - Krea正式推出Wan2.1模型，以其卓越的动态效果和对复杂提示的理解而备受关注。 - 用户现在可以免费体验这一新功能，标志着AI视频技术的重大突破。 - 详情链接：[Krea官方网站](https://www.krea.com) 4. **Pika2.2正式发布** - Pika Labs发布了Pika2.2版本，支持最长10秒的视频生成，分辨率提升至1080p。 - 引入的“Pikaframes”技术实现更流畅的场景切换，拓展了用户的创作想象空间。 - 详情链接：[Pika Labs官方网站](https://www.pikalabs.com) 5. **DeepSeek开源高性能文件系统3FS** - DeepSeek发布了高性能并行文件系统3FS及数据处理框架Smallpond。 - 3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量，解决了AI训练与推理的数据处理痛点。 - 详情链接：[GitHub项目地址](https://github.com/deepseek-ai/3FS) 6. **字节AI编程软件Trae集成Claude3.7** - 字节跳动推出的AI编程软件Trae集成了最新的Claude3.7模型，并提供无限免费使用。 - Claude3.7在编程任务中表现出色，显示了字节在AI编程领域的强大布局。 - 详情链接：[Trae官方网站](https://www.trae.ai) 7. **Meta计划推出独立AI助手应用** - Meta公司正在开发独立AI助手应用Meta AI，预计将在2025年4月至6月间发布。 - Meta还计划推出付费订阅服务，并将在4月底举办首次AI开发者大会LlamaCon。 8. **华为AI助手小艺网页版上线** - 华为小艺网页版正式上线，提供问答、识图、阅读、翻译和写作等多样化功能。 - 用户可通过网页浏览器访问，享受全面的人工智能在线服务。 - 详情链接：[华为小艺官网](https://xiaoyi.huawei.com) 9. **Ideogram2a震撼发布** - Ideogram推出了新模型“Ideogram2a”，生成速度显著提升，成本降低至一半。 - 在英文排版设计上表现卓越，生成的图像质量接近专业设计师水平。 - 详情链接：[Ideogram官方网站](https://www.ideogram.ai) 10. **嘎子哥谢孟伟开卖DeepSeek课程** - 谢孟伟推出了名为DeepSeek的AI课程，收费仅10.9元，声称操作简单，能生成多种语言视频。 - 课程效果引发质疑，许多人在网络上讨论购买意愿。 11. **荣耀与阿里在AI领域展开合作** - 荣耀公司与阿里达成合作，接入多个先进的AI模型，提升用户体验。 - YOYO助理推出DeepSeek-R1满血版，支持深度思考模式，提供精准反馈。 - 详情链接：[荣耀官网](https://www.hihonor.com) 12. **雷军宣布小米研发投入** - 小米CEO雷军宣布，2024年研发投入将超过240亿元，2025年将达到300亿元。 - 未来五年，小米的研发投入将累计达到1050亿元，其中四分之一将用于AI及相关业务。

【AI日报】EP.105 2月28 阿里春招3000岗位AI相关占50%；DeepSeek开源DualPipe

### AI日报新闻提要 1. **DeepSeek开源DualPipe与EPLB技术** - DeepSeek推出双向管道并行算法DualPipe和动态负载均衡器EPLB，提升大规模语言模型训练效率。 - DualPipe实现双向数据流管道，提升计算吞吐量。 - EPLB解决混合专家模型中的热点专家问题，整体利用率提升至92%以上。 - 计算-通信重叠优化工具减少约15%的端到端训练耗时。 - 详情链接: [GitHub](https://github.com/deepseek-ai/DualPipe) 2. **阿里春招3000岗位AI相关占50%** - 阿里巴巴启动2026届春季实习生招聘，开放超过3000个岗位，其中近50%与人工智能相关。 - 高德和阿里云等部门的AI岗位比例更高，分别达到65%和80%。 - 阿里AI To C业务已开始大规模招聘，90%岗位集中在AI技术和产品研发。 3. **ElevenLabs发布Scribe语音转文本模型** - Scribe v1支持99种语言，准确率在多语言中创下新高，英语达96.7%。 - 能够区分多达32位不同的说话者，适应复杂音频环境。 - 定价为每小时0.40美元，未来六周内享受50%折扣。 - 详情链接: [ElevenLabs Blog](https://elevenlabs.io/blog/meet-scribe) 4. **微软发布Phi-4多模态与迷你模型** - Phi-4多模态模型集成语音、视觉和文本处理，参数达到5600万。 - 在自动语音识别和翻译任务中表现突出。 - Phi-4迷你模型专注于文本处理，参数为3800万，在文本推理和编程等任务中表现卓越。 5. **Hugging Face推出FastRTC** - FastRTC是一个开源的Python库，简化实时音频和视频AI应用的开发过程。 - 几行代码内完成以往需要数周的工作，使得现有的Python开发者也能轻松构建语音和视频功能。 - 详情链接: [Hugging Face](https://huggingface.co/fastrtc) 6. **FLORA节点式AI画布** - FLORA推出的节点式AI画布通过整合多种AI功能，简化创意流程。 - 支持故事分析与角色设计工具，生成详细提示。 - 支持团队实时协作，界面友好，适合技术背景不深的用户。 7. **OpenAI GPT-4.5出现在Android应用测试版** - GPT-4.5即将推出，最初将面向Pro订阅用户。 - 该模型在ChatGPT的Android应用中作为实验性选项出现，具体功能尚不明确。 - Pro订阅费用为每月200美元，提供更多功能和更少限制。 8. **字节跳动豆包APP推出“照片动起来”功能** - 用户可以将静态老照片转化为动态视频，操作简单。 - 只需上传照片并描述动作，便可生成动态效果。 - 功能旨在帮助用户与过去的自己进行跨越时空的对话，留住美好瞬间。 9. **B站文本转语音模型IndexTTS** - IndexTTS基于XTTS和Tortoise的GPT风格TTS系统，具备拼音纠正汉字发音能力和精准停顿控制。 - 经过数万小时训练，超越多个现有流行TTS系统，展现出行业领先性能。 - 详情链接: [GitHub](https://github.com/index-tts/index-tts) 10. **快手可灵AI全球访问用户环比增长113%** - 快手可灵AI在1月份的全球月访问用户数环比增长了113%。 - 在线娱乐与教育是AI落地的关键场景。 - 新上线的多图参考功能支持用户上传多张参考图片，提升用户体验和创作自由度。 11. **大学老师说AI作文全判0分** - 部分高校教师指出，依赖AI生成内容的学生中存在学术不端行为。 - 学校出台政策，若学生提交AI生成的作文，将被判定为零分。 - 网友对此反应不一，强调学术诚信的重要性。 12. **19岁女棋手因AI作弊被禁赛8年** - 秦思玥在全国围棋锦标赛中使用手机和人工智能程序作弊，情节严重。 - 中国围棋协会撤销其职业段位，并禁止参加围棋赛事和活动长达八年。 13. **Anthropic开放Claude AI GitHub集成** - Claude AI现已开放GitHub集成功能，所有用户均可使用，提升开发效率。 - 开发者可以将代码库同步至Claude，享受更强的代码分析与调试支持。 - 详情链接: [Claude GitHub Integration](https://claude.ai/github-integration)

【AI日报】EP.104 2月27 阿里开源文生视频模型万相2.1；幻方量化回应DeepSeek-R2模型提前发布

### AI日报新闻提要 1. **阿里开源文生视频模型万相2.1** - Wan2.1模型在Vbench评测中以86.22%的成绩领先其他视频生成模型。 - 采用3D因果VAE模块，实现256倍无损视频隐空间压缩。 - 支持多种主流框架，开发者可通过Gradio快速体验。 - 详情链接: [https://github.com/Wan-Video](https://github.com/Wan-Video) 2. **360智脑发布Tiny-R1-32B** - 该模型仅用5%的参数量接近Deepseek-R1的性能。 - 在数学、编程和科学领域表现优异，AIME2024评测中取得78.1分。 - 研发团队承诺公开完整模型仓库，并已上传至Hugging Face平台。 - 详情链接: [https://huggingface.co/qihoo360/TinyR1-32B-Preview](https://huggingface.co/qihoo360/TinyR1-32B-Preview) 3. **DeepSeek发布DeepGEMM库** - DeepGEMM支持FP8通用矩阵乘法，适用于密集型和混合专家模型。 - 在NVIDIA Hopper GPU上实现超过1350TFLOPS的FP8计算性能。 - 核心代码仅300行，展现极高效率与简洁性。 - 详情链接: [https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) 4. **百度“秒哒”开启用户邀测** - 用户可通过邀测邮件访问秒哒，体验H5页面开发和网站开发等功能。 - 申请测试的企业用户数量已突破2万。 - 秒哒具备无代码编程和多智能体协作等核心特性。 - 详情链接: [https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1](https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1) 5. **谷歌推出Gemini2.0Flash-Lite** - Gemini2.0Flash-Lite是成本效益最高的AI模型之一，输入tokens定价为每百万0.075美元，输出tokens为每百万0.30美元。 - 处理大规模文本输出任务表现出色，适合初创公司和小团队。 - 虽然不支持高级功能，但在文本生成领域高效实用。 6. **幻方量化回应DeepSeek-R2模型提前发布** - 幻方量化强调一切以官方消息为准。 - DeepSeek于2023年7月成立深度求索AI公司，并于1月发布了DeepSeek-R1模型。 - 新一代DeepSeek-R2模型有望在代码生成和多语言推理能力上实现提升。 7. **微软开源多模态AI Agent“Magma”** - Magma能够处理图像、视频和文本等多种数据类型，具备心理预测功能。 - 可帮助用户进行自动下单、查询天气等操作，并控制实体机器人。 - 增强了机器人的学习能力和实用性。 - 详情链接: [https://microsoft.github.io/Magma/](https://microsoft.github.io/Magma/) 8. **OpenAI扩展深度研究功能** - OpenAI将深度研究功能扩展至多个用户层级，增强AI助手的研究能力。 - 中国DeepSeek通过开源新模型挑战OpenAI的订阅商业模式。 - 深度研究在效率与局限性之间创造了新的商业机会。 9. **PhotoDoodle AI将照片变成艺术作品** - PhotoDoodle基于Flux.1模型，从少量样本中学习艺术风格并执行编辑指令。 - 位置编码克隆技术确保新元素自然融入背景。 - 研究团队已发布包含六种艺术风格的数据集。 - 详情链接: [https://github.com/showlab/PhotoDoodle](https://github.com/showlab/PhotoDoodle) 10. **OpenAI免费开放ChatGPT高级语音聊天模式** - 高级语音模式基于GPT-4o mini模型，性能接近完整版GPT-4o。 - 支持macOS及Windows 10、11系统的ChatGPT桌面应用程序。 - 提供5种语音选择，支持自定义提示与对话内容回顾功能。 11. **AI特效“快来惹毛我”火爆出圈** - 该特效可将现实建筑转化为可爱的毛绒玩偶风格。 - 在社交平台上迅速走红，吸引大量用户参与并分享生成的视频。 - 用户可通过筛选不同风格的生成图片，确保最终效果更符合个人喜好。 12. **OPPO ColorOS接入满血版DeepSeek-R1** - 小布助手功能显著提升，支持一键AI唤醒、语音对话、联网搜索及结果导出。 - OPPO进行了本地化网络部署，显著提升系统流畅度，用户体验更佳。 - 展现了OPPO在技术创新方面的实力与决心。