Aishaobing的个人播客 - 节目列表

本期无文字简介。

【AI日报】EP.136 4月18 微信首个AI助手 “元宝” 上线OpenAI发布o4-mini、满血版o3

### AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手“元宝”上线；OpenAI发布o4-mini、满血版o3 #### 1. OpenAI发布两款多模态推理模型o4-mini、满血版o3 - **亮点**： - o4-mini和o3具备多模态处理能力，能同时处理文本、图像和音频，并自动调用外部工具。 - o4-mini在AIME2024和2025测试中准确率分别达到93.4%和92.7%，超越满血版o3。 - 在编程竞赛中，o4-mini获得2700分，跻身全球前200名程序员。 #### 2. 微信首个AI助手“元宝”正式上线 - **亮点**： - 用户可以直接在微信中搜索并添加“元宝”为好友。 - “元宝”支持解析公众号文章、图片和文档，提供智能互动。 - 具备隐私保护功能，支持证件照自动打码。 #### 3. 字节发布豆包1.5深度思考模型 - **亮点**： - 豆包1.5模型在数学、编程等领域表现出色，采用MoE架构，参数配置优越。 - 结合视觉理解技术，能够分析照片，辅助旅行和项目管理。 - 视频搜索能力显著增强，用户可快速获取视频中的相关信息。 #### 4. 月之暗面Kimi开源数学定理证明模型Kimina-Prover - **亮点**： - Kimina-Prover在miniF2F基准测试中达到了80.7%的通过率，超越了之前的最佳结果。 - 该模型结合了大规模强化学习与形式化推理，提升了推理能力和样本效率。 - 可解释性强，用户可以查看推导过程，便于理解模型行为。 - **详情链接**: https://arxiv.org/abs/2504.11354 #### 5. OpenAI开源超Agent:Codex CLI，五小时内破5000颗星 - **亮点**： - Codex CLI在发布后仅5小时便获得5000颗星评价，预计当天将突破1万颗星。 - 该工具可以自动生成代码、运行代码、重构和测试代码，功能强大且实用。 - OpenAI计划持续推出更多智能体产品，并在探索收购AI编程平台以增强竞争力。 - **详情链接**: https://github.com/openai/codex?tab=readme-ov-file #### 6. 谷歌Gemini Live功能全面开放 - **亮点**： - Gemini Live功能现已免费向所有安卓用户开放，原本仅限于Pixel9和Galaxy S25用户。 - 该功能可以实时识别摄像头和屏幕内容，提供即时信息和反馈，提升用户互动体验。 - 微软同日推出类似的AI工具Copilot Vision，显示出实时信息识别技术的快速进步。 #### 7. OpenAI拟以30亿美元收购AI编程工具Windsurf - **亮点**： - OpenAI正在与Windsurf进行30亿美元的收购谈判，若达成将成为其最大规模的并购交易。 - Windsurf是一款广受欢迎的AI编程助手，支持代码生成和解释，已获得超过2亿美元的融资。 - 此次收购将增强OpenAI的编程能力，帮助其在竞争激烈的AI工具市场中占据领先地位。 #### 8. JetBrains推出编码智能体Junie AI - **亮点**： - Junie AI已达生产就绪状态，专注于复杂任务的处理与调试。 - 更新的AI助手支持多种最新AI模型，并新增多文件编辑功能。 - JetBrains将推出免费套餐，提供无限代码补全，以满足不同开发者的需求。 - **详情链接**: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/ #### 9. Reachy2开源人形机器人正式开售 - **亮点**： - 高度仿人设计，具备7自由度手臂，适合多种应用场景。 - 模块化与开源架构，支持Python SDK编程，开发者可根据需求扩展功能。 - 已在全球20多个国家部署，客户包括知名机构，展现出在医疗、零售及教育等领域的广泛应用潜力。 #### 10. 上海人工智能实验室推出升级版多模态大模型“书生・万象3.0” - **亮点**： - 升级版“书生・万象3.0”在多模态处理能力上有显著提升，适用于多种应用场景。 - 该模型在性能和用户体验上都有明显进步，响应速度和理解能力均增强。 - 开源举措为开发者提供了新的平台，鼓励创新和应用，推动行业发展。 #### 11. 豆包深度思考和文生图3.0模型正式开放API - **亮点**： - 豆包1.5·深度思考模型在专业领域推理任务中表现优异，接近全球第一梯队水平。 - 豆包文生图模型3.0实现高分辨率图像生成，提升了创作效率，具备商业级设计能力。 - 两款模型的开放API为企业客户提供更高效、通用的推理与图像生成能力，推动AI技术发展。 - **详情链接**: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

【AI日报】EP.135 4月17 ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio

### AI日报 1. **字节跳动整合AI研发团队** - 字节跳动将AI Lab并入Seed团队，强化AI研发能力。 - 自2016年成立以来，AI Lab为产品创新提供了强大支持。 - 推出高薪招募计划，吸引顶尖AI人才。 2. **ChatGPT重磅上线图像库功能** - 新增图像库功能，用户可集中管理所有通过GPT-4生成的图片。 - 支持编辑和分享，适用于免费、Plus及Pro用户。 - 为用户提供了便利的管理平台，降低了非专业用户的创作门槛。 3. **Veo2登陆谷歌AI Studio** - Google DeepMind的Veo2视频生成模型正式推出，支持高达720p分辨率的视频生成。 - 具备卓越的视觉真实感和物理模拟能力，广泛应用于内容创作、营销、教育等领域。 - 嵌入数字水印和安全过滤器，确保生成内容符合隐私和道德规范。 4. **蚂蚁百宝箱推“MCP专区”** - 蚂蚁集团的智能体平台“百宝箱”推出“MCP专区”，支持30余款MCP服务。 - 首期上线的“支付MCP Server”解决了智能体间的支付问题。 - 将接入行业领先的安全解决方案，保障数据和隐私安全。 5. **3D视觉大模型SpatialLM开源** - 杭州群核科技开源的3D视觉大语言模型，具备强大的空间理解能力。 - 通过普通视频生成物理正确的3D场景，降低数据采集门槛。 - 广泛应用于机器人、建筑设计和AR/VR等领域。 - 详情链接: [https://huggingface.co/manycore-research/SpatialLM-Llama-1B](https://huggingface.co/manycore-research/SpatialLM-Llama-1B) 6. **国家超算平台发布新一代多模态大模型** - 国家超算互联网平台推出的“超长文本多模态大模型”提升自然语言处理和计算机视觉能力。 - 由上海稀宇科技有限公司研发的MiniMax-Text-01和MiniMax-VL-01两个版本，助力企业智能化转型。 7. **阿里云AIStack大模型一体机首次亮相** - 集成软硬件，为企业提供高性价比的智能服务。 - 已在政府、能源和医疗等领域应用，显著提升工作效率。 8. **Grok-3重大更新，Grok Studio上线** - Grok Studio提供文档生成、代码编写、报告分析等多种功能，满足开发者和创作者的多样化需求。 - 实时预览和Google Drive集成提升用户体验，适合远程协作和快速原型开发。 - 详情链接: [https://grok.com/](https://grok.com/) 9. **Ghiblio.art一键实现吉卜力风格转换** - 在线AI工具，将用户上传的照片转换为吉卜力风格的艺术作品。 - 支持多种类型的图像转换，包括人像、宠物和风景照片。 - 存在关于版权和隐私的讨论。 - 体验地址: [https://top.aibase.com/tool/ghiblio](https://top.aibase.com/tool/ghiblio) 10. **OpenAI或将推出类X社交媒体功能** - OpenAI正在开发新的社交媒体功能，可能与ChatGPT整合。 - 核心在于图像生成，用户能够创建并分享AI生成的图像。 - 关注用户隐私和内容审核。 11. **Anthropic或将推出语音AI助手Claude** - Anthropic即将推出语音AI助手Claude，提供三种声音模式：Airy、Mellow和Buttery。 - 推出月费200美元的服务套餐，扩展市场竞争力。 12. **Gamma发布全新升级的2.0平台** - Gamma2.0平台提升用户的内容生成体验，支持智能文档生成、演示文稿自动设计和无代码网页构建。 - SEO优化与移动适配功能，增强内容创作者的市场竞争力。 13. **Hugging Face进军机器人领域，收购Pollen Robotics** - Hugging Face收购法国人形机器人初创公司Pollen Robotics。 - 核心产品Reachy2具有7自由度机械臂，适合教育和研究。 - 计划开放Reachy2的代码库，推动社区驱动的开源机器人生态。

【AI日报】EP.134 4月16 智谱开源32B_9B系列GLM模型并启用Z.ai域名

### AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场 1. **智谱AI启用全新域名Z.ai并开源32B/9B系列GLM模型** - 智谱技术团队宣布开源32B和9B系列的GLM模型，并推出全新交互体验平台Z.ai。 - 这些模型遵循MIT许可协议，支持商业用途，提升了开发者的使用自由度。 - GLM-4-32B-0414模型在多个任务上表现优异，甚至超越了部分大型模型。 - 推理模型速度可达200 Tokens/秒，是国内商业模型中最快的。 - 详情链接: [Z.ai](https://www.z.ai) 2. **阿里云旗下AI开源社区魔搭上线MCP广场** - 阿里云的AI开源社区魔搭（ModelScope）推出了全新的MCP广场，成为最大的中文MCP社区。 - 该平台上架了超过千款MCP服务，并独家发布了支付宝和MiniMax等新服务。 - 支付宝MCP服务专注于智能体支付场景，简化了AI商业化的过程。 - 魔搭社区还推出MCPBench工具，帮助开发者评估MCP服务的有效性和资源消耗。 - 详情链接: [魔搭MCP广场](https://modelscope.cn/mcp) 3. **OpenAI发布GPT-4.1系列模型：能力全面超越前代** - OpenAI于4月15日正式发布了GPT-4.1系列模型，包括GPT-4.1、GPT-4.1mini和GPT-4.1nano。 - 这一系列模型在编程能力、指令理解和长文本处理等方面取得了重大突破。 - GPT-4.1在SWE-bench Verified测试中得分54.6%，较前代提升21.4个百分点。 - 接入GPT-4.1的法律助手CoCounsel，多文档审查准确率提升17%。 - 详情链接: [GPT-4.1提示工程指南](https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb) 4. **可灵AI迈入2.0时代** - 可灵AI的2.0版本发布，标志着其在多模态AI创作领域的重大进步。 - 可灵2.0（大师版）在视频生成方面实现了质的飞跃，能精确响应复杂的时序描述。 - 可图2.0在静态图像生成方面突破了复杂指令的遵循能力，支持多种艺术风格。 - 新增的多模态编辑功能使得用户能够更灵活地进行视频和图片编辑，提升了创作效率。 - 详情链接: [可灵2.0发布说明](https://app.klingai.com/cn/release-notes) 5. **月之暗面Kimi推出首个内容社区，开启用户互动新模式** - 月之暗面最近宣布其首个内容社区产品Kimi正在进行灰度测试，旨在提升用户体验和留存率。 - 该公司由清华背景的团队领导，已在去年推出了支持高达200万汉字的智能助手。 - 内容社区将面临用户内容合规性和真实性挑战，同时需保持用户活跃度。 6. **智谱AI正式启动IPO流程，大模型“六小龙”迎来新篇章** - 智谱AI正式启动首次公开募股（IPO）流程，成为国内大模型领域的焦点。 - 作为“大模型六小龙”之一，智谱AI自2019年成立以来已完成超12轮融资，估值突破200亿元。 - 投资方包括腾讯、阿里、美团等知名企业。 7. **腾讯云大模型知识引擎升级：支持MCP协议，赋能应用开发** - 腾讯云于4月14日宣布其大模型知识引擎的重要升级，现已支持MCP协议。 - 用户能够通过平台精选的MCP插件或根据需求插入自定义插件，极大增强了应用的功能和灵活性。 - 精选的MCP插件涵盖多种应用场景，包括网页部署、地理位置信息、房源信息等。 8. **小鹏汽车启动720亿参数“小鹏世界基座模型”研发** - 小鹏汽车在香港举行AI技术分享会，首次发布720亿参数的超大规模自动驾驶大模型。 - 该模型结合多模态架构，旨在提升自动驾驶技术至超越人类水平。 - 小鹏汽车已构建国内首个万卡智算集群，算力规模达到10EFLOPS，支持AI基础设施建设。 9. **Haisnap横空出世，小白用户也能轻松打造AI应用** - Haisnap是一款全新的AI应用开发工具，旨在让零基础用户轻松创建个性化的网页应用。 - 用户只需通过自然语言描述需求，Haisnap便能自动生成应用，并提供完整的源代码下载。 - 其多AI智能体协作机制提升了开发效率，适用于多种应用场景，推动了无代码开发的普及。 - 详情链接: [Haisnap官网](https://www.haisnap.com/) 10. **支付宝面向AI开发者推出“支付MCP Server”** - 支付宝与魔搭社区联合推出的“支付MCP Server”服务，为AI开发者提供了一种便捷的支付接入方式。 - 通过MCP协议，AI智能体能够快速实现支付功能，支持移动端和网页端的多种支付场景。 - 提供全流程支付管理，包括支付、查询和退款等功能。 11. **全球人工智能市场预测到2034年将达到3680亿美元** - 全球人工智能市场预计将在2034年达到3680.47亿美元，年均增长率为19.20%。 - 北美市场在2024年占据36.92%的份额，亚太地区是增长最快的市场。 - 深度学习在2024年占据AI市场最大份额，服务领域需求强劲。 12. **小鹏汽车自研图灵AI芯片将于2025年量产，用于支持L4自动驾驶** - 小鹏汽车董事长何小鹏透露，公司的自研图灵AI芯片预计将在2025年第二季度实现量产。 - 该芯片拥有40个核心，能够运行高达30B参数的AI大模型，性能超越英伟达的Orin X。 - 小鹏未来所有新车型将搭载自研图灵芯片，彻底摆脱对英伟达的依赖，进一步推动自动驾驶技术发展。 13. **阿里夸克AI月活跃用户达1.5亿，超越节跳动豆包** - 阿里巴巴的人工智能应用Quark在三月份的月活跃用户数达到了近1.5亿，成功超越了字节跳动的Doubao。 - Quark经过重组后，提供了学术研究、文档撰写和图像生成等多种功能，反映出阿里巴巴在AI市场的强劲竞争力。 14. **OpenAI发布GPT-4.1指令提示工程指南** - OpenAI于4月15日发布了针对其最新语言模型GPT-4.1的提示工程指南。 - 该指南详细介绍了GPT-4.1的特性，提供了从基础到高级的提示策略和最佳实践。 - 核心提示原则包括明确指令、提供结构和避免歧义，帮助开发者构建有效提示。 - 详情链接: [GPT-4.1提示工程指南](https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb)

【AI日报】EP.133 4月15 昆仑万维开源Skywork-OR1系列模型；讯飞星辰Agent开发平台全面支持MCP

【AI日报】 1. **Kimi开源视觉语言模型Kimi-VL与Kimi-VL-Thinking** - Moonshot AI最近开源了Kimi-VL和Kimi-VL-Thinking两款视觉语言模型，参数仅有30亿，但在多个基准测试中超越了GPT-4o。 - 支持高达128K tokens的上下文输入，适用于长文档和视频分析。 - 详情链接: https://github.com/MoonshotAI/Kimi-VL, https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct 2. **科大讯飞旗下讯飞星辰Agent开发平台全面支持MCP** - 讯飞星辰Agent开发平台全面支持MCP，帮助开发者高效构建Agent应用。 - 首批支持20+行业精品MCP Server，涵盖AI能力、生活服务等多个领域。 - 详情链接: https://mcp.xfyun.cn/ 3. **昆仑万维开源Skywork-OR1系列模型** - 昆仑万维天工团队推出Skywork-OR1系列模型，包括三款高性能模型，分别针对数学和代码领域。 - Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出。 - 详情链接: https://github.com/SkyworkAI/Skywork-OR1 4. **字节跳动推出Seed-Thinking-v1.5** - 字节跳动推出的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中表现出色，特别是在STEM领域。 - 采用混合专家架构，在多项基准测试中超越行业巨头。 5. **商汤大装置SenseCore2.0全新升级** - 商汤科技宣布其大装置SenseCore2.0全面升级，提升算力利用率和推理性能。 - 投入1亿元专项代金券，助力各行业加速AI落地。 6. **Google AI Studio开放Veo2视频模型有限免费试用** - Google AI Studio向部分用户开放了Veo2视频模型的有限免费试用，支持高达4K分辨率。 - 用户反馈冷却时间不明确，可能影响体验。 7. **上海AI实验室开源InternVL3系列多模态大型语言模型** - OpenGVLab发布InternVL3系列模型，支持从1B到78B的多种尺寸，具备处理文字、图片、视频等多种信息的能力。 - 模型可通过LMDeploy的api_server部署为OpenAI兼容API。 - 详情链接: https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e 8. **全新GAIA基准超越ARC-AGI** - 新推出的GAIA基准通过模拟真实世界的复杂问题，评估AI在实际应用中的能力。 - 初步结果显示，灵活性强的模型在复杂任务中表现优于其他知名模型。 - 详情链接: https://huggingface.co/gaia-benchmark 9. **百元成本炼成开源视频模型Pusa** - Pusa基于Mochi微调，训练成本仅为100美元，支持多种视频生成任务。 - 完全开源，提供完整的代码库和训练方法。 - 详情链接: https://top.aibase.com/tool/pusa 10. **字节跳动开源项目UNO** - UNO解决了AI图像生成中的角色一致性问题，确保生成图像的一致性。 - 采用高一致性数据合成流程和创新模型设计。 - 详情链接: https://huggingface.co/bytedance-research/UNO 11. **小鹏汽车推新物理大模型** - 小鹏汽车定位为AI汽车公司，引入强化学习与模型蒸馏技术，提升自动驾驶领域的竞争力。 - 2025年发布会将解答小鹏未来发展方向，推出新车型X9。 12. **字节跳动布局AI智能眼镜** - 字节跳动研发AI智能眼镜，集成“豆包”AI模型，支持语音指令、实时翻译等智能交互。 - 项目已进入实质性研发阶段，计划与供应链伙伴沟通，推动产品设计与上市。 - 详情链接: 无

98

【AI日报】EP.132 4月12 OpenAI下周或发布GPT-4.1系列；Pika全新AI视频功能Twists

1. **OpenAI下周或发布GPT-4.1系列** - OpenAI即将发布GPT-4.1系列及o3系列，提升文本、图像和音频处理能力，并推出Mini版和Nano版以适应不同应用场景。 - o3系列将通过独特的“私有推理链”技术增强逻辑处理能力。 - 升级后的模型将为开发者和用户提供更智能的AI助手，改善写作、编程和日常交互体验。 2. **Pika全新AI视频功能Pika Twists** - Pika推出Pika Twists，允许用户通过简单的文本提示动态修改视频内容，创造戏剧性和幽默效果。 - 该功能对所有用户开放，免费用户可体验Turbo模式，Pro用户享有完整权限。 - Pika Twists简化了视频特效制作流程，树立了AI视频生成行业的新标杆。 3. **华为诺亚方舟实验室携手港大发布Dream7B语言模型** - 华为诺亚方舟实验室与香港大学联合推出的Dream7B语言模型，超越现有扩散模型的性能。 - 采用离散扩散模型架构，双向语境建模实现更强的文本生成能力。 - 开源基础模型和微调模型，促进扩散模型在NLP领域的研究与应用。 - 详情链接: [https://top.aibase.com/tool/dream-7b](https://top.aibase.com/tool/dream-7b) 4. **商汤科技日日新V6震撼发布** - 商汤科技发布了最新一代人工智能大模型“日日新V6”，在多模态能力上取得显著突破。 - 该模型能够处理文本、图像和视频等多种数据类型，并将在API开放后为开发者提供强大的技术支持。 - API将于明日开放，赋能开发者生态，助力多样化应用的快速构建。 5. **宇树G1人形机器人拳击技能展示** - 宇树科技发布的G1人形机器人展示了精准的拳击、闪避和平衡调整等复杂动作。 - G1能在4秒内自主站立，体现了其灵活性与鲁棒性。 - 宇树科技即将推出机器人格斗直播活动，为机器人技术爱好者提供全新的观赏体验。 6. **ChatGPT正式推出长期记忆功能** - ChatGPT的长期记忆功能允许自动存储用户的聊天记录，提供个性化回应。 - 用户可以灵活控制记忆功能，确保隐私安全。 - Plus与Pro用户率先体验新功能，反馈显示系统在处理复杂任务时更具理解力。 7. **Krea发布全新工具Krea Stage** - Krea Stage通过AI技术实现从2D图片到3D场景的快速转换，降低了创作的技术门槛。 - 该工具支持跨场景视频生成，确保视觉一致性，适合高视觉连贯性的内容创作。 - Krea Stage的低门槛设计促进了创作的民主化，使更多非专业用户能够参与到高品质内容创作中。 8. **Canva发布全新AI功能** - Canva推出了AI助手、指令生成应用和动态电子表格等新功能，简化设计流程并提升用户创意表达的效率。 - 用户可以通过自然语言与AI互动，实现多样化的设计需求。 - Canva Sheets实现数据与设计的深度融合，支持实时数据导入与可视化。 9. **OpenAI开源BrowseComp** - OpenAI推出BrowseComp，一个包含1266道高难度问题的基准测试，评估AI代理在网络浏览中的能力。 - BrowseComp完全开源，降低研究门槛，鼓励全球开发者参与AI代理的优化。 - 该基准测试为AI代理的实际应用提供了新想象空间，尤其在市场调研和个性化推荐等领域。 - 详情链接: [https://openai.com/index/browsecomp/](https://openai.com/index/browsecomp/) 10. **LinkedIn数据：全球AI人才最集中的十个国家** - 根据LinkedIn最新发布的数据，以色列以1.98%的AI人才比例位居全球第一，新加坡和卢森堡紧随其后。 - 印度的AI人才集中度在2016年至2024年间增加了252%，显示出强劲的技能提升趋势。 - 新加坡的专业人士在学习AI技能上投入的时间比亚太地区其他国家多出40%。

【AI日报】EP.131 4月11 百度文心4.5 Turbo将于4月25日发布；谷歌推全新智能体开放协议A2A

### AI日报新闻提要 1. **百度文心4.5 Turbo将于4月25日发布** - 百度宣布将在4月25日的Create大会上发布文心大模型4.5 Turbo。 - 文心大模型4.5在多模态理解能力上表现出色，API调用价格极具竞争力。 - 李彦宏表示，文心大模型4.5将是百度历史上最好的一款模型。 2. **谷歌推全新智能体开放协议A2A** - 谷歌云推出开源协议Agent2Agent（A2A），促进不同AI智能体之间的协作与信息交换。 - A2A协议基于现有标准构建，支持企业级安全，简化集成过程。 - 超过50家技术合作伙伴支持A2A协议，推动AI在企业中的广泛应用。 3. **视频号整治不当使用AI工具直播行为** - 微信视频创作安全中心针对部分主播在直播中不当使用AI工具的行为展开专项治理。 - 这些行为误导观众并侵犯肖像权，平台将根据违规程度采取相应处罚措施。 - 用户可通过投诉功能举报违规行为，平台将及时处理。 4. **字节跳动开源Multi-SWE-bench** - 字节跳动豆包大模型团队开源了Multi-SWE-bench，这是首个多语言代码修复基准数据集。 - 数据集包含1632个真实任务，覆盖7种主流编程语言。 - 实验显示大语言模型在Python修复上表现尚可，但在其他语言的修复率低于10%。 5. **京东零售推出首个自研十亿级时序大模型TimeHF** - 京东零售技术团队推出了自研的十亿级销量预测时序大模型TimeHF。 - TimeHF通过人类反馈的强化学习技术实现了销量预测的显著提升，准确度提高了10%以上。 - TimeHF在多个公开数据集上取得了SOTA效果，已在京东供应链系统中应用。 6. **Google Firebase Studio横空出世** - 谷歌新推出的Firebase Studio是一款集成多种开发工具的云端开发平台。 - 该平台提供一站式开发体验，支持从创意到部署的全流程解决方案。 - 目前处于预览阶段，功能稳定性尚需提升，未来需平衡免费与付费服务的差异。 - 详情链接: [Firebase Studio](https://top.aibase.com/tool/firebase-studio) 7. **最强SVG生成大模型OmniSVG出现** - OmniSVG的发布标志着SVG生成技术的重大突破，结合了先进的视觉-语言模型和创新的SVG标记化器。 - 新发布的MMSVG-2M数据集包含200万个SVG资源，并提供标准化评估协议。 - OmniSVG生成的SVG不仅视觉效果出色，还具备可编辑性，适用于专业设计工作流程。 - 详情链接: [OmniSVG](https://omnisvg.github.io) 8. **谷歌开源智能体开发套件ADK** - 谷歌发布了Agent Development Kit（ADK），旨在简化多智能体系统的构建与管理。 - ADK支持多模态交互，具备双向音频和视频流功能，提升智能体的自然对话能力。 - 与谷歌云服务深度整合，支持快速原型设计和无缝部署，降低了技术门槛。 9. **Veo2重磅登陆Gemini API** - 谷歌旗下的Veo2视频生成模型通过Gemini API向开发者开放。 - Veo2支持文本到视频和图像到视频的生成，推动AI视频生成技术发展。 - 高真实性输出引发内容真实性与版权讨论，谷歌嵌入水印以减少误用风险。 - 详情链接: [Veo2](https://ai.google.dev/gemini-api/docs/video) 10. **Anthropic推出Claude Max高端订阅服务** - Anthropic公司推出了Claude Max订阅计划，月费最高达200美元。 - 提供两种定价选项，分别为每月100美元和200美元，使用限制显著提高。 - 公司正在探索“Claude for Education”项目，关注教育领域的AI需求。 11. **OminiControl Art发布** - OminiControl Art技术将GPT-4o的艺术风格与FLUX.1模型相结合，开辟了AI艺术生成的新可能性。 - OminiControl框架通过增加少量参数，实现对扩散变换器模型的灵活控制，提升了艺术创作的效率。 - 该技术的发布反映了AI艺术工具从功能性向艺术性与可控性转变的趋势。 - 详情链接: [OminiControl Art](https://top.aibase.com/tool/ominicontrol-art) 12. **谷歌Gemini加入MCP阵营** - 谷歌宣布其Gemini模型和SDK将支持模型上下文协议（MCP）。 - MCP允许AI模型从多种数据源提取信息，促进开发者与AI应用之间的双向连接。 - 自Anthropic开源MCP以来，多个公司如Block和Replit已在其平台中集成该协议。 13. **Gradio5.24重大更新** - Gradio5.24版本新增ImageEditor组件，使得图像编辑功能达到了专业级别。 - 新增的缩放、平移、透明度控制和自定义图层功能，极大提升了图像处理的灵活性与效率。 - 此次更新被视为对开发者需求的精准回应，助力他们更好地展示AI技术成果。 - 详情链接: [Gradio](https://top.aibase.com/tool/gradio) 14. **WordPress.com推出全新AI网站构建工具** - WordPress.com推出了一款全新的AI驱动网站构建器，用户可在几分钟内生成功能齐全且外观美观的WordPress网站。 - 注册WordPress.com账号后，可免费试用，需购买托管计划才能实际使用。 - 工具支持通过聊天机器人生成网站内容，适用于新创建的WordPress实例。 - 详情链接: [WordPress AI Website Builder](https://wordpress.com/blog/2025/04/09/ai-website-builder/)

【AI日报】EP.130 4月10 阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini

1. **阿里腾讯全面支持MCP协议** - 阿里巴巴和腾讯宣布全面支持Model Context Protocol（MCP），标志着中国科技巨头在全球AI标准竞争中的新一轮角力。MCP作为开源协议，简化了AI模型与外部工具的交互，提升了互操作性。 - 详情链接: [阿里巴巴支持MCP协议](https://www.cnbc.com/2024/08/18/former-google) 2. **阶跃星辰发布多模态推理模型Step-R1-V-Mini** - 阶跃星辰科技团队推出Step-R1-V-Mini，支持图文输入和文字输出，具备优秀的指令遵循能力和通用性。该模型在视觉推理、数学逻辑等方面表现优异，尤其在MathVision榜单中名列前茅。 - 详情链接: [Step-R1-V-Mini介绍](https://yuewen.cn/chats/new) 3. **美图WHEE推出图像生成模型Miracle F1** - 美图WHEE平台推出的Miracle F1，能够生成极具真实感的图像，并在语义理解和风格多样性方面表现出色。用户通过WHEE官方网站即可体验这一视觉魔法。 4. **Deep Research搭载Gemini2.5Pro** - 谷歌宣布其Deep Research功能升级至Gemini2.5Pro实验版，展现出卓越的推理能力和信息整合技术。这一技术突破显著提升了搜索效率和分析能力，改变了研究方法。 - 详情链接: [Gemini2.5Pro介绍](https://huggingface.co/agentica-org/DeepCoder-14B-Preview) 5. **开源新模型DeepCoder超越OpenAI o1模型** - DeepCoder-14B-Preview模型由Together AI和Agentica联合开源，凭借140亿参数在编程测试中表现优秀，得分超越OpenAI的o1模型。该模型的开源内容丰富，方便开发者深入研究。 - 详情链接: [DeepCoder-14B-Preview](https://huggingface.co/agentica-org/DeepCoder-14B-Preview) 6. **DeepSeek推创新技术SPCT提升大模型性能** - DeepSeek AI推出的自主演原则批判调优技术（SPCT），旨在构建更通用和可扩展的AI奖励模型，提升AI在复杂环境中的理解与应对能力。SPCT在多项基准测试中表现优于传统模型。 - 详情链接: [SPCT技术介绍](https://arxiv.org/abs/2504.02495) 7. **Anthropic发布大学生Claude AI使用报告** - 文章探讨了人工智能在大学生学习中的应用，特别是Claude.ai的使用情况。STEM专业学生是AI工具的早期采用者，但AI的使用也引发了关于认知能力外包的担忧。 8. **亚马逊推新一代AI语音模型Nova Sonic** - 亚马逊最新推出的AI语音模型Nova Sonic，通过本地处理语音，生成自然流畅的回复。Nova Sonic不仅具备在复杂环境下的语音识别能力，还能根据用户的语调和风格调整响应。 - 详情链接: [Nova Sonic介绍](https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model) 9. **谷歌NotebookLM即将推出移动应用程序版本** - 谷歌旗下的人工智能研究工具NotebookLM即将推出独立的移动客户端应用程序，提供更便捷的使用体验。未来可能深度整合谷歌搜索能力，实现从URL到摘要、思维导图的转化。 10. **AI视频生成技术TTT生成完整动画视频** - 通过引入测试时训练层，成功生成了一分钟的《猫和老鼠》动画视频，无需后期编辑。该技术在画面连贯性和故事完整性上表现出色，展现了AI在创意内容生产中的巨大潜力。 - 详情链接: [TTT技术介绍](https://test-time-training.github.io/video-dit/) 11. **网信办公布生成式AI服务备案情况** - 截至2025年3月31日，已有346款生成式人工智能服务完成备案。所有上线应用需公示所用的已备案服务信息，包括模型名称和备案号。 12. **英伟达发布Llama3.1Nemotron Ultra253B** - 英伟达推出Llama3.1Nemotron Ultra253B模型，性能超越Llama4系列，并在Hugging Face平台开源，具备商业友好特性。 - 项目入口: [Llama3.1Nemotron Ultra253B](https://top.aibase.com/tool/llama-3-1-nemotron-ultra-253b)

【AI日报】EP.129 4月9 阿里新模型Qwen3即将来袭；GitHub开源MCP服务器

### AI日报：阿里新模型Qwen3即将来袭；GitHub开源MCP服务器；Runway发布Gen-4 Turbo 1. **Qwen3即将来袭: 阿里云新模型相关支持已正式合并至vLLM代码库** - Qwen3模型即将发布，包含多个版本以满足不同需求。 - Qwen3-MoE-15B-A2B采用混合专家架构，提升性能与能效比。 - vLLM的支持将简化Qwen3的部署，推动阿里云的AI生态发展。 2. **Runway发布Gen-4 Turbo: AI视频生成速度再创新高** - Gen-4 Turbo模型在生成速度上实现重大突破，10秒视频生成时间缩短至30秒。 - 该模型延续了Gen-4系列的图像到视频生成优势，同时在速度和动态表现上进行了优化。 - 业内专家认为，Gen-4 Turbo的推出将推动AI视频生成技术的数字化转型，并带来更高效的创作工具。 3. **GitHub官方开源MCP服务器，支持无缝集成GitHub API** - 新的MCP服务器由GitHub和Anthropic联合开发，采用Go语言重写，功能更强大且易用。 - 该服务器支持自动化GitHub工作流，能够从GitHub仓库中提取问题和信息，提升工作效率。 - MCP生态日益完善，开发者对其潜力充满期待，未来应用场景有望进一步扩展。 - 详情链接: https://github.com/github/github-mcp-server 4. **国产AI崛起! 17亿参数开源图像模型HiDream-I1横空出世** - HiDream-I1是国产开源图像生成模型，拥有17亿参数，表现出色。 - 该模型基于扩散模型技术，能将文本描述转化为高质量图像，操作简便。 - HiDream-I1在国际舞台上有潜力与顶尖技术竞争，推动AI图像生成技术的发展。 - 详情链接: https://top.aibase.com/tool/hidream-i1 5. **阿里国际重磅招聘AI人才: 80%岗位聚焦人工智能领域** - 招聘中AI相关职位比例高达80%，覆盖多个关键领域。 - 推出全球首个外贸领域AI搜索引擎Accio，实现电商平台智能化升级。 - 创新“Bravo102”计划，允许候选人自主选择项目和团队，展现开放态度。 6. **亚马逊AI视频模型Nova Reel升级: 可生成长达两分钟的视频片段** - Nova Reel1.1版可以生成长达两分钟的视频，并支持多镜头制作。 - 用户可提供长达4000字符的提示，生成6秒镜头视频，最多20个镜头。 - 亚马逊对训练数据来源的保密引发了关于版权和知识产权的讨论。 - 详情链接: https://aws.amazon.com/cn/blogs/aws/amazon-nova-reel-1-1-featuring-up-to-2-minutes-multi-shot-videos/ 7. **夸克AI加持! 阿里智能AI眼镜或于2025年底发布** - 阿里巴巴正式启动AI智能眼镜项目，目标超越Ray-Ban Meta的产品。 - 眼镜将采用高通AR1芯片与恒玄BES2800双系统架构，优化功耗与续航表现。 - AI+AR版本优先，搭载表面浮雕光栅衍射光波导技术，提升显示效果。 8. **ElevenLabs推出MCP服务器: AI语音能力无缝整合到智能助手** - MCP服务器作为桥梁，连接了ElevenLabs的音频技术与用户日常AI工具。 - 提供统一的语音服务接口，简化了API调用流程，支持多种音频处理功能。 - 支持启动语音代理，执行外拨电话任务，提升AI助手的实用性。 9. **Cloudflare发布Node.js生态Agents开发包，助力AI代理开发** - 集成多项核心功能，包括工作流引擎、工具集成框架和状态持久化支持。 - 旨在简化AI代理的构建与部署流程，提升开发效率。 - 官网提供动画演示，直观展示生成式AI和Agentic模式的区别。 - 详情链接: https://agents.cloudflare.com/ 10. **PokemonGym: AI玩宝可梦Red，Claude仅用450步征服** - PokemonGym是一个专为评估AI在《宝可梦Red》中表现的平台，支持多种AI算法的训练和测试。 - 由Claude大语言模型驱动的演示代理在450步内成功捕捉宝可梦，展现了AI在游戏中的高效性。 - 该平台不仅为AI研究提供了评估工具，还可能推动游戏AI的未来发展，超越人类玩家的潜力。 - 详情链接: https://top.aibase.com/tool/pokemongym 11. **Sync Labs发布Lipsync-2: 全球首个零-shot的嘴型同步模型** - Lipsync-2是全球首个零-shot嘴型同步模型，无需额外训练即可保留演讲者风格。 - 新增的温度参数控制功能允许用户调节嘴型同步的表现程度，适应不同场景需求。 - 该技术在多语言教育和内容创作中展现出巨大潜力，推动视频翻译和角色重新动画化。 - 详情链接: https://top.aibase.com/tool/lipsync-2 12. **谷歌推全新AI安全模型Sec-Gemini v1，秒级洞悉网络攻击根源** - Sec-Gemini v1是一款新型AI模型，旨在改善网络安全防御，帮助防御者应对攻防不对称的挑战。 - 该模型结合了先进的推理能力和实时安全知识，提升了事件根本原因分析和威胁分析的效率。 - 谷歌鼓励网络安全社区合作，Sec-Gemini v1目前以免费形式提供给选定组织和专业人士，用于研究目的。 - 详情链接: https://security.googleblog.com/2025/04/google-launches-sec-gemini-v1-new.html 13. **英伟达完成收购Lepton AI，阿里前副总裁贾扬清携团队加盟** - Lepton AI由阿里前副总裁贾扬清创立，专注于云端AI基础设施。 - 英伟达收购Lepton AI被视为其在AI生态布局中的重要一步，增强了市场竞争力。 - 收购为Lepton AI提供了更广阔的发展平台，助力AI基础设施的创新。 14. **酷狗音乐与DeepSeek达成深度合作** - 酷狗音乐与人工智能公司DeepSeek合作推出四大AI功能模块，重塑音乐消费体验。 - 新版“AI听歌报告”提供个性化音乐分析与社交分享功能。 - 智能歌单管家通过AI提升用户创作效率和美学体验。

【AI日报】EP.129 4月8 kimi宣布降价；OpenRouter发布免费模型Quasar Alpha

【AI行业速递】 1. 中国AI投资将突破千亿美元大关 * IDC预测2028年中国AI总投资达1000亿美元 * 全球生成式AI市场规模预计2842亿美元 * 软件信息服务行业占比最高达49.8% 2. Midjourney V7震撼发布 * 渲染速度提升10倍，成本减半 * 新增草稿模式加速原型设计 * 细节处理能力显著提升视频展示：https://midjourney.com/v7 3. OpenRouter推出免费长文本模型 * Quasar Alpha支持100万token上下文 * 优化编码能力，多语言测试优异 * 开发者可免费体验体验地址：https://openrouter.ai/chat 4. 谷歌Gemini2.5Pro低价来袭 * 号称"最智能模型" * 定价仅1.24美元/百万tokens * 即将登陆Vertex AI平台 5. 腾讯ARC实验室推动漫模拟器 * AnimeGamer实现跨作品角色联动 * 支持自然语言交互 * 多模态大模型提升生成质量详情：https://github.com/TencentARC/AnimeGamer 6. OpenAI战略布局 * 考虑收购Jony Ive的AI设备公司 * GPT-4o图像生成新增水印系统 * 正在开发ImageGen API 7. 技术创新速览 * MagicColor线稿自动上色工具 * Luma Ray2新增20种电影级运镜 * 微软WHAMM实时生成可玩游戏 * 字节跳动登记"即梦AI"著作权 8. Kimi开放平台降价 * 模型推理服务价格下调 * 上下文缓存成本大幅降低 * 强化长文本处理优势

【AI日报】EP.128 4月4 即梦3.0内测直出2K商业海报；ChatGPT又更新图片生成功能

【AI前沿】🚀 今日AI领域重大进展速览 1. 即梦3.0内测震撼发布 * 可直出2K商业海报 * 算法全面升级，生成速度仅需数秒 * 细节处理超越传统设计师水平 2. ChatGPT图片生成能力再升级 * 新增中文草书生成功能 * 引入图像选区编辑工具 * 色彩协调性显著提升 3. 饿了么推出"AI入驻智能经理" * 新商家上线流程缩短至5分钟 * 24小时自然语言对话服务 * 计划投入10亿元加强AI应用 4. Hugging Face新增实用功能 * 一键检测电脑可运行模型 * 简化开发者模型选择流程 * 与生态系统工具深度整合 5. 字节跳动发布MegaTTS3 * 轻量化语音合成模型（0.45亿参数） * 支持中英混合朗读 * 开源代码已发布项目链接：https://huggingface.co/ByteDance/MegaTTS3 6. OpenAI o3模型成本修正 * 每任务价格或达30,000美元 * 计算需求激增172倍 * 企业版月费或达2万美元 7. Genspark推出Super Agent * 具备自主思考和工具调用能力 * 整合8个大型语言模型 * 配备80+种工具详情链接：https://top.aibase.com/tool/genspark 8. OpenAI发布PaperBench基准 * 评估AI复制研究论文能力 * 包含20篇ICML2024论文 * Claude3.5Sonnet表现最佳项目链接：https://github.com/openai/preparedness/tree/main/project/paperbench 9. 2024全球移动收入榜 * 腾讯继续领跑 * OpenAI首次进入TOP50 * 全球市场突破1500亿美元 10. DeepMind发布AGI预测 * 2030年或超越人类 * 公布多层次安全策略 * 神经网络是主要实现路径 11. NotebookLM新功能 * "Discover sources"自动搜集网络信息 * 一键添加来源到笔记本 * 支持随机话题生成

【AI日报】EP.127 4月3 阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型

【AI前沿】阿里通义千问登顶全球开源模型榜首 * Qwen2.5-Omni凭借卓越性能和多模态能力成为全球开源模型第一 * DeepSeek-V3-0324和SpatialLM-Llama-1B紧随其后 * 阿里已开源200款模型推动AI技术普及【语音技术】MiniMax推出Speech-02语音模型 * 支持30多种语言，语音相似度高达99% * 新增"Read Anything"功能可上传文件或URL收听内容 * "Long-Text Mode"支持一次性输入20万字符详情链接：https://www.minimax.io/audio 【商业动态】ChatGPT付费用户激增至2000万 * 三个月内付费用户突破2000万，年化营收增长30% * 每周活跃用户达5亿，OpenAI计划融资400亿美元 * 面临Gemini、Claude和Grok等竞争对手挑战【创新应用】ElevenLabs发布犬类AI语音模型 * "Text To Bark"可将文字转化为高度逼真的狗吠声 * 95%的狗无法分辨声音来源 * 计划扩展至其他动物，探索多模态交互系统详情链接：https://elevenlabs.io/text-to-bark 【产品更新】腾讯元宝支持多图上传 * 一次性可上传10张图片进行智能处理 * 结合混元多模态理解能力提供连贯分析 * 支持手机版、电脑版和网页版多平台操作【开源工具】EasyControl_Ghibli模型上线 * 免费生成吉卜力风格图像 * 基于100张真实亚洲面孔照片训练 * 开源特性降低艺术创作门槛详情链接：https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli?ref=top.aibase.com 【技术突破】飞桨3.0正式发布 * 引入五大核心技术创新降低大模型开发成本 * 支持60余款主流芯片，适配成本降80% * 单机部署吞吐量提升高达一倍【AI测试】GPT-4.5通过图灵测试 * 以73%通过率超越人类表现 * 展现惊人语言自然度和情感丰富性 * 复杂人格扮演机制推动AI应用潜力详情链接：https://arxiv.org/pdf/2503.23674 【教育平台】OpenAI学院上线 * 提供数十小时免费AI学习材料 * 涵盖基础知识到高级技能课程 * 面向自学者、教育工作者和开发人员详情链接：https://academy.openai.com/?continueFlag=bc9fbeae4c35e24ba47bde4cf390e735