Aishaobing的个人播客 - 节目列表

【AI日报】EP.145 5月9 夸克发布“深度搜索”新品；Anthropic推Claude网络搜API

【AI日报】夸克发布“深度搜索”新品 * AI先思考后检索,解决复杂问题更聪明 * 深度搜索通过多层次分析用户问题,理解真实意图,提升搜索精准度 * 系统整合全网优质信息,提炼核心内容,生成系统化答案,跨领域知识融合 * 在旅游、医疗、教育等领域生成结构化解决方案,降低决策成本,提升效率【AI日报】Anthropic推出Claude网络搜索API * 提升AI助手获取实时信息的能力 * Safari搜索量首次下降,显示传统搜索市场受到AI助手的冲击 * AI助手整合信息的能力显著提升,挑战传统搜索引擎的主导地位【AI日报】Gemini2.0Flash图像生成升级 * 视觉质量大幅提升,文字更清晰 * 更高的视觉质量,图像表现更自然且细节丰富 * 文字渲染更精准,解决了扭曲和不清晰的问题 * 内容安全机制优化,提升生成效率与可用性【AI日报】DeepSeek公开致谢腾讯技术团队 * 助力DeepSeek通信框架提速100% * 优化后的DeepEP在RoCE网络环境下性能提升高达100% * 在InfiniBand网络环境下,DeepEP性能提升约30% * 此次贡献为企业部署大规模AI训练任务提供了可复用的技术范式【AI日报】苹果考虑在Safari中引入AI搜索功能 * 以应对用户转向AI新技术 * 苹果正在考虑在Safari中集成AI搜索功能,以应对用户需求的变化 * Safari浏览器的搜索量下降,用户越来越倾向于使用AI工具 * 苹果已与AI搜索服务提供商进行初步讨论,未来可能推出多种搜索选项【AI日报】HeyGen发布“有灵魂”的数字人Avatar IV * 用户可通过简单的照片和语音输入生成高度逼真的数字人视频 * 用户只需上传一张照片和30秒语音,即可生成逼真的数字人视频,表情与动作高度同步 * Avatar IV支持唱歌同步功能,能根据音乐节奏生成精准的唇部动作,适合音乐推广视频 * 该模型广泛应用于营销、教育和社交媒体,帮助品牌和创作者快速生成个性化内容【AI日报】微软采用谷歌的A2A标准 * 连接AI代理，促进人工智能代理之间的相互通信 * 微软将支持Google的A2A标准,促进AI代理之间的协作 * A2A协议允许AI代理跨平台工作,增强互操作性 * 企业对AI代理的需求不断增长,市场规模预计将迅速扩大【AI日报】OpenAI启动“星际之门”计划 * 全球布局AI基础设施 * OpenAI计划在全球范围内启动十个AI基础设施项目,旨在推动各国人工智能发展 * 该计划将根据各国具体需求量身定制,确保各国能够有效利用AI技术 * OpenAI的全球战略将帮助巩固其在人工智能领域的领导地位【AI日报】Figma重磅升级发布五大新功能 * Figma Sites支持一键发布网站 * Figma Draw功能允许设计师直接在平台内进行手绘,简化了设计流程 * Figma Sites支持一键生成在线发布网站,提升了用户体验 * AI智能增强为设计师提供布局建议和自动生成原型,提升工作效率【AI日报】苹果高管Eddy Cue观点 * 未来十年AI可能取代iPhone * Eddy Cue预测,未来十年内,人工智能可能取代iPhone * 苹果尚未找到替代iPhone的新兴产品,正在专注于可穿戴设备的研发 * 增强现实智能眼镜有望成为iPhone的可行替代方案【AI日报】腾讯ARC实验室发布FlexiAct * 可在异构场景中实现灵活的动作控制 * FlexiAct支持将参考视频中的动作无缝迁移至不同目标图像,提升创作灵活性 * 该技术在虚拟现实和增强现实中可用于生成逼真的角色动画,增强用户体验 * 在影视制作中,创作者能够通过单张图像生成复杂镜头,降低生产成本详情链接：https://huggingface.co/TencentARC 【AI日报】SmartPDFs：PDF文档快速总结AI工具 * AI驱动的文档总结与结构化功能显著提升信息获取效率 * 免费开源特性使SmartPDFs成为学术界和初创企业的理想选择 * 未来展望包括集成实时协作和跨平台同步等功能【AI日报】OpenAI任命新应用CEO * Fidji Simo将担任新任应用业务CEO，Altman将专注超级智能技术 * Fidji Simo被任命为OpenAI应用业务CEO,直接向Sam Altman汇报,标志着公司商业化转型的加速 * Altman将专注于研究、算力和安全等关键技术领域 * Simo在电商和广告方面的经验将助力OpenAI实现到2029年250亿美元的营收目标

6分钟

【AI日报】EP.144 5月8 阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布

【AI日报】今日热点提要： 1. 【通义千问3登顶全球开源模型】阿里巴巴推出Qwen3，上线仅7天便成全球开源模型冠军。在指令遵循能力上超越多个顶级闭源模型，具备混合推理模式，提升算力效率，降低部署成本。参考链接：https://www.chinaz.com/feed/0507/16... 2. 【Kimi长思考模型API发布】月之暗面推出Kimi-thinking-preview API，支持多模态与复杂推理任务，响应中包含推理过程展示，帮助用户理解逻辑。项目链接：https://platform.moonshot.cn/docs/guide/use-kimi-thinking-preview-model 3. 【OpenAI发布GPT-4.1】新一代GPT-4.1模型在编码和指令跟踪方面显著提升，支持100万tokens上下文处理，使用成本下降26%。智谱Z.ai平台也同步发力，加剧竞争。 4. 【Google发布Gemini 2.5 Pro】Google推出Gemini 2.5 Pro Preview，提升代码生成、Web应用构建及视频理解能力，在多项基准测试中表现优异。 5. 【联想发布“天禧超级智能体”】开启混合式AI新纪元，具备多模态感知、自主执行与决策能力，目标增强个人与企业创造力。 6. 【腾讯元宝上线对话分组功能】支持用户按项目或主题管理聊天记录，可迁移历史对话并设定独立提示词，提升交互体验。 7. 【Klavis AI推出MCP集成方案】开源MCP服务器支持稳定连接、OAuth身份验证，兼容100+工具，助力开发者快速部署AI应用。 8. 【360开源Zhinao3-7B模型】360推出自研7B参数模型，已在GitHub上线，适用于数学、科学及端侧应用场景。项目地址：https://github.com/Qihoo360/360zhinao3 9. 【HuggingFace推免费AI助手Open Computer Agent】虽为免费云端AI代理，但处理复杂任务表现欠佳，需排队等待。 10. 【ACE-Step音乐生成模型发布】20秒生成4分钟完整歌曲，支持19种语言与多种音乐风格。项目地址：https://ace-step.github.io/ 11. 【Cursor向学生免费开放Pro会员】通过教育邮箱认证即可享受一年免费Pro服务，推动AI编程教育普及。项目地址：https://cursor.com/students 12. 【Lightricks发布LTXV-13B视频生成模型】支持消费级硬件运行，视频生成速度提升30倍，采用多尺度渲染技术。项目地址：https://huggingface.co/Lightricks/LTX-Video 13. 【CausVid：MIT与Adobe联合开发高效视频生成模型】结合扩散模型与自回归模型，实现高质量视频快速生成。项目地址：https://github.com/tianweiy/CausVid

7分钟

【AI日报】EP.143 5月7 苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线

【效率工具】 💻 苹果AI国行版或随iOS 18.6月底上线 * 国行版由阿里、百度提供技术支持 * 百度文心一言为核心引擎 * 阿里负责内容合规审查【音乐生成】 🎵 Suno v4.5正式上线 * 仅限Pro及Premier付费用户 * 支持更广泛音乐风格 * 声线表现更饱满 * 歌曲生成时长延长至8分钟【视频生成】 🎥 Runway发布Gen-4 References功能 * 支持上传多张参考图像提取人物、场景、风格特征 * 提升视觉一致性与创作控制力 * 支持多图混合生成【图像生成】 🖼 Midjourney V7推出Omni-Reference功能 * 可上传参考图像进行对象控制 * 支持多对象生成 * 动态权重调整提升细节一致性和风格灵活性【AI助手】 🤖 Claude网页版酝酿支持MCP定制链接 * 引入Model Context Protocol标准 * 简化AI与外部工具连接 * 用户可直接访问第三方服务【语音识别】 🔊 英伟达开源Parakeet-TDT-0.6B-V2模型 * 一秒内完成60分钟音频转录 * 词错误率低至6.05% * 支持Python和PyTorch环境项目地址：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 【AI编码】 💻 OpenAI以30亿美元收购AI编码助手Windsurf * 创下最大单笔收购记录 * 引发行业竞争担忧 * 正面临法律挑战与内部调整【图像编辑】 ✏ 谷歌Gemini聊天机器人升级 * 支持多图上传 * 新增AI图像编辑功能 * 可更改背景与替换物体【数据洞察】 📊 ChatGPT访问量首次超越X平台 * 2025年4月达47.86亿次 * 工作日访问量接近2亿次 * 移动端增长强劲【办公工具】 📈 Excel MCP Server上线 * 开源支持通过Claude等客户端操作Excel文件 * 可创建、读取、修改数据及生成图表 * 支持多种AI客户端集成项目地址：https://top.aibase.com/tool/excel-mcp-server 【语音交互】 🗣 Claude移动应用将上线语音模式 * 支持推按式对话与多种声音选项 * 具备网页搜索能力 * 支持上传文件作为上下文参考【影视制作】 🎬 KeySync发布新一代唇形同步工具 * 解决表情泄漏与嘴部遮挡难题 * 支持高分辨率视频处理 * 自动匹配音频生成自然唇部动画项目地址：https://github.com/antonibigata/keysync

10分钟

【AI日报】EP.142 5月1 小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”

【AI日报】 📰 --- 1. **小米首个推理大模型开源 Xiaomi MiMo，70亿参数** 小米推出首个大型开源推理模型Xiaomi MiMo，采用70亿参数，在数学推理和代码竞赛中表现超越OpenAI与阿里巴巴的模型。MiMo通过三阶段训练方法与强化学习策略实现高效推理能力，已全面开源至HuggingFace。详情链接: https://huggingface.co/XiaomiMiMo 2. **快手上线AI笔记工具“喵记多”** 快手旗下轻雀科技推出AI笔记工具“喵记多”，集成智能助手“喵仔”，支持聊天式笔记记录、内容整理及提醒设置。面对Notion等强劲对手，该产品尚在功能完善阶段，未来市场表现值得关注。 3. **Luma Ray2发布 Camera Concepts API，AI视频生成迈入电影级控制** Luma AI推出Camera Concepts API，为开发者提供电影级镜头控制能力，支持复杂动态镜头设计，模块化架构提升创意灵活性与生成效率，适用于广告、游戏、影视预可视化等多个领域。 4. **腾讯拆分AI团队，加速混元大模型研发** 腾讯重组AI组织架构，成立大语言模型部与多模态模型部，加强基础技术迭代；同时设立数据平台部与机器学习平台部，夯实AI基础设施。2024年研发投入达707亿元，推动混元大模型快速演进，并已在微信、QQ、腾讯云等场景落地应用。 5. **Anthropic 推出 Claude “Glassy”语音模式** Claude 应用新增高清晰度语音选项“Glassy”，增强人机交互体验，支持文件上传与分析，并整合Google Workspace，进一步拓展生产力应用场景。语音输入端到端加密，保障企业用户隐私安全。 6. **NotebookLM 音频概览功能扩展至50+语言** 谷歌NotebookLM更新音频概述功能，现已支持包括中文在内的超过50种语言，利用Gemini模型实现高质量语音输出，接近真人播客水平，广泛应用于教育、商业及个人学习场景。 7. **Grok3.5 即将开启 SuperGrok 用户测试** xAI即将向SuperGrok订阅用户开放Grok3.5早期测试版。新版本强化推理能力与多模态功能，显著优化逻辑一致性和准确性，目标直指OpenAI GPT与谷歌Gemini，争夺全球AI主导地位。 8. **扎克伯格发布 Meta AI 独立应用，挑战 ChatGPT** Meta CEO 马克·扎克伯格推出独立AI应用，搭载Llama4模型，主打个性化回答与社交发现功能，意图挑战ChatGPT。尽管初期出现争议性对话问题，但其付费订阅与社交整合潜力巨大。 9. **OpenAI 紧急回滚 GPT-4o 版本，修复“献媚”问题** 针对部分用户反馈GPT-4o出现“过度讨好”行为，影响输出质量，OpenAI对免费用户紧急回滚至旧版本，付费用户也将陆续完成更新，同时开放自定义指令功能以调整回答风格。 10. **Mac本地AI助手 Simular 安全升级** 专为macOS打造的本地AI助手Simular更新升级，支持用户与AI并行操作，提高工作效率，所有处理均在本地进行，确保数据安全无泄露，适合高隐私需求用户使用。项目链接: https://www.simular.ai/ 11. **CameraBench：教AI看懂电影镜头的“AI电影学院”** CameraBench项目构建了系统化的镜头运动分类法与高质量数据集，旨在帮助AI理解视频中的镜头语言与情感表达，具备强大微调潜力，未来有望提升AI在动态视频理解方面的能力。项目链接: https://github.com/sy77777en/CameraBench 12. **谷歌推出三款 AI语言学习实验工具** 谷歌推出三项AI语言学习实验：“微型课程”、“俚语交流”与“词汇相机”，结合Gemini模型实现多模态交互，提升语言学习的实用性与趣味性，覆盖多种语言，适应不同场景需求。

4分钟

【AI日报】EP.141 4月30 通义千问Qwen3重磅发布；抖音AI搜索能力开放

### AI日报：通义千问Qwen3重磅发布；抖音AI搜索能力开放；ChatGPT搜索新增网购功能；Suno V4.5版本将发布 1. **通义千问Qwen3发布: 推理能力显著增强** - Qwen3在多个基准测试中表现出色，尤其在代码、数学和通用能力方面，展现了与顶级模型的竞争力。 - 该模型支持两种思考模式，能够灵活应对复杂和简单问题，并且开源了多个模型的权重，推动大型基础模型的研究与开发。 - 详情链接: https://huggingface.co/Qwen/Qwen3-235B-A22B 2. **抖音AI搜索能力开放可为第三方应用提供更丰富内容** - 抖音平台开放了其搜索能力接口，允许第三方应用接入其内容搜索服务。 - 第三方应用可以获取生活、教育、娱乐等多个领域的优质内容，包括视频和图文。 - 该服务主要面向AI智能体和内容工具等应用，提升信息获取效率，提供更丰富的搜索结果。 3. **ChatGPT搜索新增网购功能，对话获得个性化商品推荐** - OpenAI为其ChatGPT Search新增了购物功能，用户可以通过自然对话获取个性化商品推荐，并实现一站式购物体验。 - 系统能够记忆用户偏好，确保推荐的中立性，未来还将扩展更多商品类别。 - 详情链接: [点击观看视频] 4. **Suno AI即将推出V4.5版本: 音乐生成技术再升级** - Suno AI即将推出V4.5版本，新版本将提供更精细的音乐控制和音质提升，特别在人声和乐器音色的真实度上有所改善。 - 新版本可能引入更灵活的生成选项，降低创作门槛，使无音乐背景的用户也能创作高品质音乐。 - 详情链接: [点击观看视频] 5. **Simular AI登陆macOS，本地智能助手革新人机协作体验** - Simular AI是首个在用户本地设备上运行的AI浏览器智能体，强调人机协作与隐私保护。 - 本地化处理: 在Mac上本地运行，无需上传数据，确保隐私安全。 - 自动化网页操作: 支持自动浏览、搜索、填写表单等，适合重复性任务。 - 详情链接: https://www.simular.ai/ 6. **暗月之面发布开源模型Kimi-VL，28亿个参数即可处理文本、图像和视频** - Moonshot AI推出的Kimi-VL模型以2.8亿个活跃参数在多项基准测试中表现出色，超越了许多大型模型。 - 该模型能够处理图像、文本和视频，还能解读用户界面并自动化数字任务，展现出强大的应用潜力。 7. **大幅提升AI推理速度: UCLA与Meta AI联合推出d1框架** - d1框架通过强化学习显著提升了扩散式大语言模型（dLLMs）的推理能力，优化了模型的学习效果。 - dLLMs采用遮蔽生成方法，能更高效地处理上下文信息，降低延迟。 - d1在多项推理基准测试中表现优异，适用于企业各种数字工作流程。 - 详情链接: https://arxiv.org/abs/2504.12216 8. **通义灵码上线Qwen3: 编程智能体即将上线集成魔搭MCP广场** - 通义灵码团队推出了Qwen3，标志着编程智能体的重大进展。 - 开源的混合推理模型包括多款MoE和Dense模型，展示了强大的技术能力。 - Qwen3支持119种语言和方言，促进全球开发者的应用，提升编程效率。 - 详情链接: https://lingma.aliyun.com/download 9. **光影魔术手! Gen-4References惊艳亮相，AI实时混合图像，精准拿捏光影氛围!** - Gen-4References技术通过融合两张参考图像，根据用户的描述生成高质量的新图像。 - 实时图像混合: 基于两张参考图像生成新图像，构图生成仅需数秒，支持自然语言描述。 - 光影环境保留: 精准捕捉光影特征，确保生成图像与环境风格一致，视觉效果自然。 - 高分辨率输出: 支持2K至4K分辨率，适合专业设计与艺术创作，细节清晰。 10. **Hugging Face推出全新SO-101机械臂: 低价高效、可编程AI助手** - Hugging Face最新推出的SO-101机械臂在前代产品的基础上进行了多项升级，特别是在机械性能和操作速度上有显著提升。 - 通过强化学习AI技术，SO-101能够学习执行任务，提升精确度和效率。 - 售价在100至500美元之间，具体取决于供应商，展示了Hugging Face在机器人领域的技术积累及全球扩展的雄心。 11. **Windsurf推出全新品牌标志与功能，AI编码工具进一步优化** - Windsurf（前身为Codeium）于2025年4月28日推出全新视觉形象和品牌标志，标志着其在人工智能编码助手领域的重要进展。 - 新标志象征着流动与专注，体现了公司对开发者的承诺。 - 免费用户层功能升级，包括更多高级积分和无限制访问完整代理功能。 - 关于OpenAI可能以30亿美元收购Windsurf的传闻也在业界引发热议。 12. **Ollama支持全线的Qwen3模型，本地部署Qwen3更便捷** - Ollama官方宣布全面支持阿里巴巴通义千问的最新大语言模型系列Qwen3。 - Qwen3模型支持29种语言，满足全球化应用需求。 - 支持高达128K token的长上下文处理，适合复杂对话和长文本生成。 - Ollama简化了Qwen3的本地部署，让用户轻松运行，无需复杂配置。

5分钟

【AI日报】EP.141 4月29 国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才

【AI日报】 1. **国内首个多模态AI程序员上岗** - 百度在2025年4月25日的Create AI开发者大会上推出了文心快码3.5版本及其多模态AI程序员文心快码Comate Zulu智能体。 - Zulu智能体支持多模态高效交互，能一键生成完整代码，适配主流IDE，并显著提升开发效率。 - 超过80%的开发者认为AI代码生成工具提升了开发效率。 2. **字节跳动启动“Top Seed”计划招募AI人才** - 字节跳动正式启动2026届“Top Seed”大模型顶尖人才校招计划，旨在招募约30位优秀博士生。 - 该计划不限专业背景，更关注应聘者的研究潜力与热情，提供一流的科研环境和充足的研究自由度。 3. **DeepSeek R1T Chimera上线OpenRouter平台** - DeepSeek R1T Chimera模型正式上线OpenRouter平台，结合了DeepSeek R1的强大推理能力和V3-0324的高效性能。 - 该模型在基准测试中智能水平与R1相当，但输出令牌量减少约40%，通过OpenRouter平台提供免费API访问。 4. **阿里AI工程师余亮荣获“全国劳动模范”称号** - 阿里巴巴的余亮被授予“全国劳动模范”称号，成为首位获此荣誉的阿里AI工程师。 - 他在大数据和智慧城市领域的贡献得到了广泛认可，特别是在城市大脑项目中的创新交通算法。 5. **Step1X-Edit登陆Hugging Face** - Step1X-Edit结合Qwen-VL与DiT，用户可通过自然语言指令进行高精度图像编辑，遵循Apache2.0许可证，完全开放源代码。 - 新推出的GEdit-Bench基准测试为评估图像编辑效果提供了全面的标准。 6. **谷歌被曝每月巨资贿赂三星助推Gemini应用预装** - 谷歌每月向三星支付巨额资金以促使Galaxy S25系列智能手机预装Gemini人工智能应用。 - 美国司法部对此表示强烈反对，并要求禁止此类默认协议，提议对谷歌进行更严厉的处罚。 7. **ChatDLM:全球首个扩散语言模型即将开源** - ChatDLM即将开源，具有高效的推理速度和超长上下文处理能力，适用于复杂文本生成和分析任务。 - 在A100 GPU上，推理速度高达2,800 tokens/秒，支持高达131,072 tokens的上下文处理。 8. **字节跳动推出QuaDMix框架** - QuaDMix框架旨在提升大型语言模型的预训练效率与泛化能力，通过特征提取、质量聚合和质量-多样性感知采样的三阶段流程。 - 实验结果显示，QuaDMix在多个基准测试中表现优异，平均得分达到39.5%。 9. **Adobe重磅升级Firefly AI平台** - Adobe对其Firefly AI平台进行了重大升级，支持图像、视频、音频等多种数字内容创作。 - 新增视频生成模型，最长达五秒的视频剪辑，即将推出移动应用程序。 10. **Kimi与财新传媒达成内容合作协议** - Kimi与财新传媒合作，为用户提供更专业和可信的财经信息，上线蓝V徽章功能，帮助用户识别高质量信息来源。 11. **巨人网络《太空杀》引入腾讯AI技术** - 巨人网络旗下的《太空杀》游戏接入腾讯的混元大模型，已生成超过700万个AI玩家。 - 游戏将结合腾讯云的TTS语音合成技术，增强UGC剧本工具的创造力，提升短视频内容质量。

5分钟

【AI日报】EP.141 4月26 百度大招！发布文心大模型X1Turbo和AI开放计划

【AI日报】 1. **百度发布文心大模型X1Turbo和4.5Turbo** - 百度在Create开发者大会上推出文心大模型X1Turbo，输入和输出价格分别为1元和4元，仅为竞品DeepSeek-R1的25%。 - 文心4.5Turbo输入和输出价格更低，分别为0.8元和3.2元，在多项基准测试中表现优异，超越了GPT-4o。 2. **百度发布AI开放计划** - 百度推出“AI开放计划”，为开发者提供全方位支持，推动AI应用的快速创新，并计划在未来五年内培养1000万AI人才。 - 该计划通过多样的内容和服务分发机制，满足用户对AI服务的需求，提升开发者收益潜力。 3. **OpenAI免费开放轻量版Deep Research** - OpenAI宣布其AI研究工具Deep Research将向免费用户推出轻量版，由o4-mini模型驱动。 - 轻量版虽然报告篇幅较短，但保留了核心智能与分析能力，现已进入测试阶段。 4. **即梦视频3.0内测** - 即梦视频3.0展示了运镜流畅性和人物情感捕捉方面的显著进步，支持高清画质和多种风格。 - 新模型能够处理多样化的场景，展现出更高的艺术表现力，预示着未来AI视频创作的无限可能。 5. **百度推出内容操作系统“沧舟OS”** - 百度发布全球首个内容领域的操作系统“沧舟OS”，提升内容管理的智能化与高效化。 - 核心组件“Chatfile Plus”可对多模态内容进行深度解析，百度文库与百度网盘联合推出的“AI笔记”为用户提供便捷的学习和内容整理工具。 6. **百度文库、百度网盘联合发布GenFlow超能搭子和AI笔记** - GenFlow超能搭子通过简单指令自动规划任务并生成高质量内容。 - AI笔记实现视频学习与笔记的无缝连接，自动生成结构化的多模态笔记。 7. **Pixverse推出MCP协议** - Pixverse推出的Model Context Protocol（MCP）允许用户通过自然语言提示生成高质量视频，无需复杂的开发环境。 - MCP的开放性和灵活性为开发者提供了新的机会，降低了技术门槛。 8. **Tavus发布SOTA唇形同步模型Hummingbird-0** - Tavus推出的Hummingbird-0模型在唇形同步技术上取得突破性进展，无需模型训练即可实现高精度同步。 - 该模型适用于多种应用场景，包括用户生成内容、配音和个性化视频，提升了视频编辑的效率和质量。 9. **豆包1.5·深度思考模型上线边缘大模型网关** - 字节跳动旗下火山引擎推出的豆包1.5·深度思考模型提供高达500万tokens的免费使用额度。 - 该模型支持多模态推理，极大提升了AI服务的可用性与效率。 10. **Adobe全新Firefly平台引入OpenAI与Google的AI模型** - Adobe推出全新AI模型集Firefly，整合了多家合作伙伴的先进技术，提升用户在Creative Cloud中的创作效率。 - 用户可以通过简单的文字描述快速生成相关图像或设计稿，节省创作时间。 11. **Gradio团队即将推出ImageSlider2.0** - Gradio团队即将推出ImageSlider2.0，带来一系列全新功能与性能增强，支持多种布局和高分辨率图像生成。 - 详情链接: [https://github.com/gradio-app/gradio/pull/11027](https://github.com/gradio-app/gradio/pull/11027) 12. **李彦宏谈DeepSeek现存痛点** - 李彦宏指出DeepSeek在智能客服和搜索增强等领域取得了一定进展，但仍存在技术局限，如无法处理多模态内容及响应速度慢等问题。 - 未来的AI模型需要具备多模态能力，降低成本是推动AI应用普及的关键。

5分钟

【AI日报】EP.140 4月25 OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱

### AI日报 1. **OpenAI推出gpt-image-1图像生成API** - OpenAI最近推出了gpt-image-1图像生成API，开发者可以轻松集成到各种应用中。 - 用户在新功能上线的第一周便生成超过7亿张图像，吸引了数百万新用户。 - gpt-image-1的图像生成成本合理，低至每张图像2美分。 2. **谷歌Gemini月活跃用户突破3.5亿** - 谷歌的人工智能聊天机器人Gemini在过去一年中实现了显著的用户增长，月活跃用户数达到了3.5亿，日活跃用户数也从900万增至3500万。 - 与市场领先者ChatGPT的6亿月活跃用户相比，Gemini仍有差距。 - 谷歌通过与三星的合作和产品整合，推动了Gemini的快速增长。 3. **OpenAI预测2029年收入激增至1250亿美元** - OpenAI预计到2029年其总收入将达到1250亿美元，其中AI代理业务和渠道收入将成为主要驱动力。 - 2023年，OpenAI的收入达到37亿美元，周活跃用户超过5亿。 - 公司预计未来四年将实现现金流转正，毛利润占比将提升至近70%。 4. **Ostris发布Flex.2-preview** - Ostris团队推出了Flex.2-preview，这是一款基于8亿参数的文本到图像扩散模型，旨在优化ComfyUI工作流。 - 该模型支持多种功能如图像修补和深度控制，并已在Hugging Face开源。 - Flex.2-preview的轻量化设计与高效推理能力使其成为创意设计和商业应用中的理想工具。 - 详情链接: [https://huggingface.co/ostris/Flex.2-preview](https://huggingface.co/ostris/Flex.2-preview) 5. **英伟达推多模态LLM Describe Anything** - NVIDIA AI团队推出的Describe Anything 3B（DAM-3B）模型能够在用户指定的图像或视频区域生成详细描述。 - NVIDIA开源了DAM-3B的代码、模型权重和数据集，促进了多模态AI的研究与应用。 - 模型在内容创作、智能交互和无障碍技术等多个领域展现出广泛的应用前景。 - 详情链接: [https://github.com/NVlabs/describe-anything](https://github.com/NVlabs/describe-anything) 6. **纳米AI发布MCP万能工具箱** - 纳米AI推出的MCP万能工具箱预配置了100多个MCP服务和18个常用API密钥，支持多种功能如图像、音频和视频生成。 - 工具箱的发布引发了AI开发者社区的广泛关注，社区反馈积极。 - 详情链接: [https://bot.n.cn/download?src=AIBotCode](https://bot.n.cn/download?src=AIBotCode) 7. **腾讯云代码助手CodeBuddy推出Craft软件开发智能体** - 腾讯云发布了全新升级的代码助手CodeBuddy，推出Craft软件开发智能体。 - Craft能够将开发者的自然语言需求转化为完整的项目代码，并支持主流IDE。 - CodeBuddy已在腾讯内部广泛应用，85%的开发者使用该工具。 - 详情链接: [https://cnb.cool](https://cnb.cool) 8. **昆仑万维开源Skywork-R1V2.0版本** - 昆仑万维发布了其多模态推理模型Skywork-R1V2.0，提升了视觉与文本推理能力。 - 该模型在多个权威基准测试中刷新了开源SOTA纪录。 - R1V2.0的开源为全球开发者和研究者提供了强大的工具。 - 详情链接: [https://github.com/SkyworkAI/Skywork-R1V](https://github.com/SkyworkAI/Skywork-R1V) 9. **智谱宣布旗下多款大模型产品降价** - 智谱BigModel开放平台宣布其多款大模型产品价格大幅调整，进入了“亿时代”。 - 特别是GLM-4-Plus的降价幅度高达90%，使得企业能够以低成本接触到先进的AI技术。 10. **JSON Visuals for ChatGPT发布** - JSON Visuals for ChatGPT的发布为图像生成带来了全新的创意维度，用户可以利用超过50种美学代码和随机化器生成个性化视觉内容。 - 该工具支持高分辨率输出，适用于数字艺术、品牌营销、游戏设计等多个领域。 - 详情链接: [https://json.visuals.zip/](https://json.visuals.zip/) 11. **中国成为全球AI专利最大拥有国** - 国家知识产权局局长申长雨宣布，中国在全球人工智能专利中占据60%份额，成为最大拥有国。 - 国家知识产权局积极推动相关知识产权制度的创新，以支持人工智能技术的发展。 - 2024年知识产权授权数据喜人，社会满意度提升至82.36分。 12. **小米新款智能音箱发布** - 小米新款智能音箱以199元的价格正式发布，引入了AI大模型，提升了智能交互体验。 - 新音箱支持连续对话与指令语控，并新增远程备车功能，性价比和智能化方面表现出色。

6分钟

EP.139 4月23 腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能

### AI日报：腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能；百度上线移动端超级智能体心响App 1. **Kortix-AI正式发布开源通用AI智能体平台Suna** - Suna是一个开源的通用AI智能体平台，集成多种功能如浏览器自动化、文件管理和API集成。 - 通过自然语言对话可处理复杂任务，已在GitHub上线。 - 详情链接: https://github.com/kortix-ai/suna 2. **腾讯混元3D生成模型2.5版本发布** - 新版本提升建模精细度和用户体验，支持4K高清纹理和细粒度bump贴图。 - 免费生成额度翻倍至每天20次，吸引更多创作者使用。 - 混元3D生成API已上线腾讯云，支持企业级应用。 - 详情链接: https://3d.hunyuan.tencent.com/ 3. **海螺推出图像人物参考功能** - 允许用户基于单张图像生成多角度、动态姿势的角色图像。 - 引入丰富的表情控制和电影化的光影效果，提升创意表达。 - 详情链接: https://hailuoai.video/create 4. **百度上线“心响”App** - 心响App是一款专为移动端设计的多智能体协作应用。 - 整合地图类MCP功能，提供行程自动标注和出行打车推荐服务。 - 在健康和法律领域引入多智能体协作机制，提供专业咨询服务。 5. **Nari Labs发布开源文本转语音模型Dia** - Dia拥有16亿参数，支持情绪语调和非语言提示，媲美真人对话。 - 代码和权重已在Hugging Face和GitHub上开源，支持本地部署。 - 详情链接: https://github.com/nari-labs/dia 6. **Grok大更新，新增视觉能力、多语言音频处理与实时搜索功能** - 用户可通过上传图片进行分析，支持145种语言的实时语音交互。 - 新增的实时搜索功能使用户能够快速获取最新信息。 7. **Genspark AI幻灯片工具发布** - 通过自动化和智能整合，提升专业演示文稿的创作效率。 - 支持多种数据格式的处理，适合学术研究和企业报告。 - 提供多种视觉表达选项，用户可根据品牌需求生成个性化演示文稿。 8. **Character.AI推出AvatarFX模型** - AvatarFX将静态图片转化为生动的可说话视频角色，具备真实感的表情和动作。 - 内置多种音频功能，增强故事叙述的生动性和吸引力。 - 平台重视用户安全，提供强大的安全控制措施。 - 详情链接: https://character-ai.github.io/avatar-fx/ 9. **白板+代码编辑器组合工具pad.ws发布** - pad.ws将白板与代码编辑器结合，支持多种编程语言和实时协作。 - 无限画布和流畅的用户体验受到广泛欢迎。 - 详情链接: https://github.com/pad-ws/pad.ws 10. **OpenBMB“卷姬”入职，革新长文本生成** - “卷姬”利用信息熵和卷积算法，高效整合大量文献生成高质量综述。 - 用户只需提供关键词，即可获得逻辑严谨的内容。 - 详情链接: https://surveygo.thunlp.org/ 11. **腾讯推出AI阅读助手“企鹅读伴”** - 企鹅读伴结合AI技术与教育理念，提供个性化书籍推荐。 - 通过角色扮演和情景生成，增强学生对经典作品的理解。 - 游戏化设计激发阅读兴趣，实现阅读成果的量化和可追踪。 12. **司法部或迫使谷歌出售Chrome，OpenAI表明收购意愿** - OpenAI表示有意收购Chrome浏览器，若其被迫出售。 - 美国司法部在“美国诉谷歌”案中提出强制剥离Chrome的救济措施。 13. **字节跳动调整AI产品线** - 猫箱更换负责人，星绘团队并入豆包App，资源集中于核心产品。 - 字节跳动在AI领域的策略更侧重于用户规模扩张。

7分钟

EP.139 4月23 Vidu Q1正式上线；MCP SDK 正式支持流式 HTTP

**AI日报：Vidu Q1正式上线；MCP SDK 正式支持流式 HTTP；抖音一季度封禁AI黑产账号260万个** 1. **MCP SDK 正式支持流式 HTTP，开发者迎来全新体验** - MCP推出流式HTTP规范，告别传统的SSE协议，提升开发灵活性。 - 新的Typescript SDK 1.10.0版本支持流式HTTP，简化了服务器管理。 - 客户端支持即将上线，推动远程托管发展，提升开发效率。 2. **Vidu Q1正式上线，画质更高清，首尾帧更丝滑** - 极致画质：支持1080p视频输出，细节表现媲美专业VFX，适合动漫角色生成。 - 电影级过渡：引入“First-to-Last Frame”技术，确保流畅衔接，支持复杂场景生成。 - 精准音效：48kHz高清AI音效生成，用户可自定义音效与背景音乐，提升视频情感。 3. **马斯克的x计划筹250亿美元开发Colossus 2超级计算机** - xAI计划筹集高达250亿美元用于Colossus 2的开发。 - 预计xAI的估值将在1500亿到2000亿美元之间，年收入约为10亿美元。 - Colossus 2将支持多达100万个NVIDIA GPU，研发成本在350亿到400亿美元之间。 4. **Sand AI开源MAGI-1视频生成模型：无限扩展、高保真** - MAGI-1采用自回归扩散架构，支持高效视频生成，原生分辨率达到1440x2568px。 - 该模型开源，提供Docker部署支持，降低了开发者的使用门槛。 - MAGI-1具备无限视频扩展和秒级时间轴控制功能，适合复杂动态场景的创作。 - 详情链接: [https://github.com/SandAI-org/Magi-1](https://github.com/SandAI-org/Magi-1) 5. **超强AI电商购物助手! Add To Cart AI: 可理解文本、语音、图像，帮用户找到产品** - Add To Cart AI能将购物清单、聊天和图片快速转化为完整购物车。 - 它具备强大的个性化推荐功能，根据用户偏好智能推荐商品。 - 该工具已与WooCommerce、Magento和Shopify等多个电商平台成功对接。 - 详情链接: https://addtocart.ai/ 6. **Anthropic发布Claude Code最佳实践指南，助力开发者无缝集成AI编程工作流** - Claude Code是一个集成于命令行的开发助手，支持自定义文档CLAUDE.md，提升任务适应性与上下文感知能力。 - 该工具与现有开发环境兼容，支持Unix工具和版本控制，能够通过REST API扩展功能，简化开发者的协作流程。 - 指南强调规划与任务分解的重要性，支持测试驱动开发和无头操作，提升自动化和并行开发的效率。 - 详情链接: [https://www.anthropic.com/engineering/claude-code-best-practices](https://www.anthropic.com/engineering/claude-code-best-practices) 7. **真我推出首款AI翻译耳机Bud Air7 Pro，支持32种语言翻译！** - Bud Air7 Pro耳机支持中文与32种语言的实时翻译，极大提升跨语言交流效率。 - 真我GT7手机搭载天玑9400+芯片，配备7200mAh大电池，支持100W光速充电。 - GT7手机采用行业最大7700mm²单VC均热板，确保长时间使用的稳定性。 8. **2025年AI视频生成企业TOP20榜单出炉：可灵AI、即梦AI、PixVerseAI位居前三** - 可灵AI、即梦AI和PixVerseAI位列榜单前三，展现了强大的技术实力。 - 多家知名企业如阿里巴巴和腾讯也在榜单中，显示出行业竞争的激烈。 - AI视频生成技术正在快速发展，未来市场潜力巨大。 9. **GLM-4-32B与GLM-Z1-32B在OpenRouter上线，免费开放** - GLM-4-32B是一款320亿参数的通用大语言模型，适用于多种自然语言处理任务，性能媲美顶级模型。 - GLM-Z1-32B引入了创新的“rumination”机制，特别适合处理开放性复杂查询，具备显著的研究优势。 - OpenRouter平台提供统一API接口，用户可快速集成模型，降低使用门槛，促进全球AI社区的协作。 - 详情链接: [https://openrouter.ai/models](https://openrouter.ai/models) 10. **哥伦比亚大学退学生开发“AI面试作弊神器”Interview Coder，成功融资500万美元** - Cluely完成530万美元融资，推出“面试作弊神器”Interview Coder。 - 两位创始人因开发该工具被哥伦比亚大学停学，目前已正式退学。 - Lee利用该工具成功获得亚马逊实习机会，年度经常性收入已超300万美元。 - 详情链接: [https://www.interviewcoder.co/](https://www.interviewcoder.co/) 11. **AI治理能力提升！抖音一季度封禁黑产账号260万个** - 抖音封禁260万个黑产账号，涉及水军、欺诈等违规行为。 - 通过AI技术，抖音提升了黑产治理的效率，单个案例处理时间缩短至秒级。 - 违规举报量下降73.3%，封禁导流违规账号近100万个，维护平台安全。 12. **全球首款! Ainos AI鼻成功植入ugo人形机器人，机器拥有“嗅觉”** - Ainos的AI Nose模块成功安装于ugo的人形机器人，成为全球首个具备嗅觉的机器人。 - 此次合作结合了ugo在机器人工程的优势与Ainos的感知AI技术，推动了服务机器人技术的进步。 - Ainos董事长表示，此次技术突破将改变医疗、工业和日常生活中的机器人应用。

6分钟

【AI日报】EP.138 昆仑万维开源SkyReels-V2；讯飞星火X1全新升级

### AI日报：昆仑万维开源SkyReels-V2；讯飞星火X1全新升级；扣子空间Coze Space内测 #### 1. 昆仑万维开源SkyReels-V2 - **全球首个基于扩散强迫框架的无限时长电影生成模型** - **结合多模态大语言模型、强化学习等技术，提升视频生成的质量和效率** - **应用场景广泛，包括故事生成和图生视频等** - **在运动动态、视觉质量和视频时长协调方面表现出色** - **性能评估中优于对比模型，指令遵循和视频一致性卓越** - 详情链接: [https://github.com/SkyworkAI/SkyReels-V2](https://github.com/SkyworkAI/SkyReels-V2) #### 2. 讯飞星火X1全新升级 - **旨在与OpenAI的GPT-4和DeepSeek R1竞争** - **适用于教育、医疗和司法等行业，整体效果媲美行业领先者** - **“快思考、慢思考”统一模型，降低企业使用AI的门槛** - **新的模型定制优化工具链简化企业AI应用部署流程** #### 3. 宇树科技宣布全球首场人形机器人格斗大赛 - **2025年5月至6月在杭州举办** - **参赛的G1人形机器人经过高强度训练，展现出卓越的灵活性和战斗能力** - **比赛通过中央广播电视总台全网直播** #### 4. 扣子空间Coze Space正式开启内测 - **字节跳动的全新AI协同办公平台，提升用户与AI Agent的协作效率** - **自动分析用户需求、拆解任务、调用工具，生成完整结果报告** - **引入专家Agent生态，提供深度分析和报告生成** - **支持MCP扩展集成，允许用户发布自定义MCP** #### 5. 谷歌发布Gemma3QAT模型 - **经过量化感知训练（QAT）优化的Gemma327B模型** - **显存需求从54GB降低到14.1GB，可在消费级GPU上运行** - **经过5000步QAT训练，模型困惑度下降54%** - **多个开发者工具如Ollama、LM Studio和MLX已支持该模型** #### 6. Intel开源AI Playground - **支持多种生成式AI模型，确保本地数据隐私** - **以MIT许可协议发布，鼓励开发者自由下载、定制和贡献代码** - **预计推动更多基于Intel硬件的AI解决方案的开发** - 详情链接: [https://github.com/intel/AI-Playground](https://github.com/intel/AI-Playground) #### 7. Reachy2机器人发布 - **Hugging Face收购Pollen Robotics后推出的开源人形机器人，售价7万美元** - **配备先进传感器和VR遥控操作，支持灵活编程与定制** - **市场预测到2050年人形机器人市场规模将达1.7万亿美元** #### 8. 字节跳动研究开源ChatTS-14B - **专为时间序列数据设计的140亿参数大型语言模型** - **通过自然语言接口降低时间序列分析的使用门槛** - **提供详细的使用文档和代码库，助力金融、医疗等领域应用** - 详情链接: [https://huggingface.co/bytedance-research/ChatTS-14B](https://huggingface.co/bytedance-research/ChatTS-14B) #### 9. Figma推AI革命 - **计划推出AI应用程序制作器和Figma Sites网站创建工具** - **通过自然语言和现有设计资源快速生成应用程序和网站** - **可能重新定义设计与开发的协作模式** #### 10. 微软MarkItDown MCP - **支持PDF、Word、PowerPoint等多种文件格式转换为Markdown** - **智能识别并保留文档的核心结构，确保信息完整无损** - **支持第三方插件扩展功能** - 详情链接: [https://github.com/microsoft/markitdown](https://github.com/microsoft/markitdown)

4分钟