【AI日报】EP.136 4月18 微信首个AI助手 “元宝” 上线OpenAI发布o4-mini、满血版o3

Aishaobing的个人播客

### AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手“元宝”上线;OpenAI发布o4-mini、满血版o3 #### 1. OpenAI发布两款多模态推理模型o4-mini、满血版o3 - **亮点**: - o4-mini和o3具备多模态处理能力,能同时处理文本、图像和音频,并自动调用外部工具。 - o4-mini在AIME2024和2025测试中准确率分别达到93.4%和92.7%,超越满血版o3。 - 在编程竞赛中,o4-mini获得2700分,跻身全球前200名程序员。 #### 2. 微信首个AI助手“元宝”正式上线 - **亮点**: - 用户可以直接在微信中搜索并添加“元宝”为好友。 - “元宝”支持解析公众号文章、图片和文档,提供智能互动。 - 具备隐私保护功能,支持证件照自动打码。 #### 3. 字节发布豆包1.5深度思考模型 - **亮点**: - 豆包1.5模型在数学、编程等领域表现出色,采用MoE架构,参数配置优越。 - 结合视觉理解技术,能够分析照片,辅助旅行和项目管理。 - 视频搜索能力显著增强,用户可快速获取视频中的相关信息。 #### 4. 月之暗面Kimi开源数学定理证明模型Kimina-Prover - **亮点**: - Kimina-Prover在miniF2F基准测试中达到了80.7%的通过率,超越了之前的最佳结果。 - 该模型结合了大规模强化学习与形式化推理,提升了推理能力和样本效率。 - 可解释性强,用户可以查看推导过程,便于理解模型行为。 - **详情链接**: https://arxiv.org/abs/2504.11354 #### 5. OpenAI开源超Agent:Codex CLI,五小时内破5000颗星 - **亮点**: - Codex CLI在发布后仅5小时便获得5000颗星评价,预计当天将突破1万颗星。 - 该工具可以自动生成代码、运行代码、重构和测试代码,功能强大且实用。 - OpenAI计划持续推出更多智能体产品,并在探索收购AI编程平台以增强竞争力。 - **详情链接**: https://github.com/openai/codex?tab=readme-ov-file #### 6. 谷歌Gemini Live功能全面开放 - **亮点**: - Gemini Live功能现已免费向所有安卓用户开放,原本仅限于Pixel9和Galaxy S25用户。 - 该功能可以实时识别摄像头和屏幕内容,提供即时信息和反馈,提升用户互动体验。 - 微软同日推出类似的AI工具Copilot Vision,显示出实时信息识别技术的快速进步。 #### 7. OpenAI拟以30亿美元收购AI编程工具Windsurf - **亮点**: - OpenAI正在与Windsurf进行30亿美元的收购谈判,若达成将成为其最大规模的并购交易。 - Windsurf是一款广受欢迎的AI编程助手,支持代码生成和解释,已获得超过2亿美元的融资。 - 此次收购将增强OpenAI的编程能力,帮助其在竞争激烈的AI工具市场中占据领先地位。 #### 8. JetBrains推出编码智能体Junie AI - **亮点**: - Junie AI已达生产就绪状态,专注于复杂任务的处理与调试。 - 更新的AI助手支持多种最新AI模型,并新增多文件编辑功能。 - JetBrains将推出免费套餐,提供无限代码补全,以满足不同开发者的需求。 - **详情链接**: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/ #### 9. Reachy2开源人形机器人正式开售 - **亮点**: - 高度仿人设计,具备7自由度手臂,适合多种应用场景。 - 模块化与开源架构,支持Python SDK编程,开发者可根据需求扩展功能。 - 已在全球20多个国家部署,客户包括知名机构,展现出在医疗、零售及教育等领域的广泛应用潜力。 #### 10. 上海人工智能实验室推出升级版多模态大模型“书生・万象3.0” - **亮点**: - 升级版“书生・万象3.0”在多模态处理能力上有显著提升,适用于多种应用场景。 - 该模型在性能和用户体验上都有明显进步,响应速度和理解能力均增强。 - 开源举措为开发者提供了新的平台,鼓励创新和应用,推动行业发展。 #### 11. 豆包深度思考和文生图3.0模型正式开放API - **亮点**: - 豆包1.5·深度思考模型在专业领域推理任务中表现优异,接近全球第一梯队水平。 - 豆包文生图模型3.0实现高分辨率图像生成,提升了创作效率,具备商业级设计能力。 - 两款模型的开放API为企业客户提供更高效、通用的推理与图像生成能力,推动AI技术发展。 - **详情链接**: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

5分钟
99+
8个月前

【AI日报】EP.135 4月17 ChatGPT重磅上线图像库功能;白嫖!Veo2登陆谷歌AI Studio

Aishaobing的个人播客

### AI日报 1. **字节跳动整合AI研发团队** - 字节跳动将AI Lab并入Seed团队,强化AI研发能力。 - 自2016年成立以来,AI Lab为产品创新提供了强大支持。 - 推出高薪招募计划,吸引顶尖AI人才。 2. **ChatGPT重磅上线图像库功能** - 新增图像库功能,用户可集中管理所有通过GPT-4生成的图片。 - 支持编辑和分享,适用于免费、Plus及Pro用户。 - 为用户提供了便利的管理平台,降低了非专业用户的创作门槛。 3. **Veo2登陆谷歌AI Studio** - Google DeepMind的Veo2视频生成模型正式推出,支持高达720p分辨率的视频生成。 - 具备卓越的视觉真实感和物理模拟能力,广泛应用于内容创作、营销、教育等领域。 - 嵌入数字水印和安全过滤器,确保生成内容符合隐私和道德规范。 4. **蚂蚁百宝箱推“MCP专区”** - 蚂蚁集团的智能体平台“百宝箱”推出“MCP专区”,支持30余款MCP服务。 - 首期上线的“支付MCP Server”解决了智能体间的支付问题。 - 将接入行业领先的安全解决方案,保障数据和隐私安全。 5. **3D视觉大模型SpatialLM开源** - 杭州群核科技开源的3D视觉大语言模型,具备强大的空间理解能力。 - 通过普通视频生成物理正确的3D场景,降低数据采集门槛。 - 广泛应用于机器人、建筑设计和AR/VR等领域。 - 详情链接: [https://huggingface.co/manycore-research/SpatialLM-Llama-1B](https://huggingface.co/manycore-research/SpatialLM-Llama-1B) 6. **国家超算平台发布新一代多模态大模型** - 国家超算互联网平台推出的“超长文本多模态大模型”提升自然语言处理和计算机视觉能力。 - 由上海稀宇科技有限公司研发的MiniMax-Text-01和MiniMax-VL-01两个版本,助力企业智能化转型。 7. **阿里云AIStack大模型一体机首次亮相** - 集成软硬件,为企业提供高性价比的智能服务。 - 已在政府、能源和医疗等领域应用,显著提升工作效率。 8. **Grok-3重大更新,Grok Studio上线** - Grok Studio提供文档生成、代码编写、报告分析等多种功能,满足开发者和创作者的多样化需求。 - 实时预览和Google Drive集成提升用户体验,适合远程协作和快速原型开发。 - 详情链接: [https://grok.com/](https://grok.com/) 9. **Ghiblio.art一键实现吉卜力风格转换** - 在线AI工具,将用户上传的照片转换为吉卜力风格的艺术作品。 - 支持多种类型的图像转换,包括人像、宠物和风景照片。 - 存在关于版权和隐私的讨论。 - 体验地址: [https://top.aibase.com/tool/ghiblio](https://top.aibase.com/tool/ghiblio) 10. **OpenAI或将推出类X社交媒体功能** - OpenAI正在开发新的社交媒体功能,可能与ChatGPT整合。 - 核心在于图像生成,用户能够创建并分享AI生成的图像。 - 关注用户隐私和内容审核。 11. **Anthropic或将推出语音AI助手Claude** - Anthropic即将推出语音AI助手Claude,提供三种声音模式:Airy、Mellow和Buttery。 - 推出月费200美元的服务套餐,扩展市场竞争力。 12. **Gamma发布全新升级的2.0平台** - Gamma2.0平台提升用户的内容生成体验,支持智能文档生成、演示文稿自动设计和无代码网页构建。 - SEO优化与移动适配功能,增强内容创作者的市场竞争力。 13. **Hugging Face进军机器人领域,收购Pollen Robotics** - Hugging Face收购法国人形机器人初创公司Pollen Robotics。 - 核心产品Reachy2具有7自由度机械臂,适合教育和研究。 - 计划开放Reachy2的代码库,推动社区驱动的开源机器人生态。

6分钟
99+
8个月前

【AI日报】EP.134 4月16 智谱开源32B_9B系列GLM模型并启用Z.ai域名

Aishaobing的个人播客

### AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场 1. **智谱AI启用全新域名Z.ai并开源32B/9B系列GLM模型** - 智谱技术团队宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。 - 这些模型遵循MIT许可协议,支持商业用途,提升了开发者的使用自由度。 - GLM-4-32B-0414模型在多个任务上表现优异,甚至超越了部分大型模型。 - 推理模型速度可达200 Tokens/秒,是国内商业模型中最快的。 - 详情链接: [Z.ai](https://www.z.ai) 2. **阿里云旗下AI开源社区魔搭上线MCP广场** - 阿里云的AI开源社区魔搭(ModelScope)推出了全新的MCP广场,成为最大的中文MCP社区。 - 该平台上架了超过千款MCP服务,并独家发布了支付宝和MiniMax等新服务。 - 支付宝MCP服务专注于智能体支付场景,简化了AI商业化的过程。 - 魔搭社区还推出MCPBench工具,帮助开发者评估MCP服务的有效性和资源消耗。 - 详情链接: [魔搭MCP广场](https://modelscope.cn/mcp) 3. **OpenAI发布GPT-4.1系列模型:能力全面超越前代** - OpenAI于4月15日正式发布了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1mini和GPT-4.1nano。 - 这一系列模型在编程能力、指令理解和长文本处理等方面取得了重大突破。 - GPT-4.1在SWE-bench Verified测试中得分54.6%,较前代提升21.4个百分点。 - 接入GPT-4.1的法律助手CoCounsel,多文档审查准确率提升17%。 - 详情链接: [GPT-4.1提示工程指南](https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb) 4. **可灵AI迈入2.0时代** - 可灵AI的2.0版本发布,标志着其在多模态AI创作领域的重大进步。 - 可灵2.0(大师版)在视频生成方面实现了质的飞跃,能精确响应复杂的时序描述。 - 可图2.0在静态图像生成方面突破了复杂指令的遵循能力,支持多种艺术风格。 - 新增的多模态编辑功能使得用户能够更灵活地进行视频和图片编辑,提升了创作效率。 - 详情链接: [可灵2.0发布说明](https://app.klingai.com/cn/release-notes) 5. **月之暗面Kimi推出首个内容社区,开启用户互动新模式** - 月之暗面最近宣布其首个内容社区产品Kimi正在进行灰度测试,旨在提升用户体验和留存率。 - 该公司由清华背景的团队领导,已在去年推出了支持高达200万汉字的智能助手。 - 内容社区将面临用户内容合规性和真实性挑战,同时需保持用户活跃度。 6. **智谱AI正式启动IPO流程,大模型“六小龙”迎来新篇章** - 智谱AI正式启动首次公开募股(IPO)流程,成为国内大模型领域的焦点。 - 作为“大模型六小龙”之一,智谱AI自2019年成立以来已完成超12轮融资,估值突破200亿元。 - 投资方包括腾讯、阿里、美团等知名企业。 7. **腾讯云大模型知识引擎升级:支持MCP协议,赋能应用开发** - 腾讯云于4月14日宣布其大模型知识引擎的重要升级,现已支持MCP协议。 - 用户能够通过平台精选的MCP插件或根据需求插入自定义插件,极大增强了应用的功能和灵活性。 - 精选的MCP插件涵盖多种应用场景,包括网页部署、地理位置信息、房源信息等。 8. **小鹏汽车启动720亿参数“小鹏世界基座模型”研发** - 小鹏汽车在香港举行AI技术分享会,首次发布720亿参数的超大规模自动驾驶大模型。 - 该模型结合多模态架构,旨在提升自动驾驶技术至超越人类水平。 - 小鹏汽车已构建国内首个万卡智算集群,算力规模达到10EFLOPS,支持AI基础设施建设。 9. **Haisnap横空出世,小白用户也能轻松打造AI应用** - Haisnap是一款全新的AI应用开发工具,旨在让零基础用户轻松创建个性化的网页应用。 - 用户只需通过自然语言描述需求,Haisnap便能自动生成应用,并提供完整的源代码下载。 - 其多AI智能体协作机制提升了开发效率,适用于多种应用场景,推动了无代码开发的普及。 - 详情链接: [Haisnap官网](https://www.haisnap.com/) 10. **支付宝面向AI开发者推出“支付MCP Server”** - 支付宝与魔搭社区联合推出的“支付MCP Server”服务,为AI开发者提供了一种便捷的支付接入方式。 - 通过MCP协议,AI智能体能够快速实现支付功能,支持移动端和网页端的多种支付场景。 - 提供全流程支付管理,包括支付、查询和退款等功能。 11. **全球人工智能市场预测到2034年将达到3680亿美元** - 全球人工智能市场预计将在2034年达到3680.47亿美元,年均增长率为19.20%。 - 北美市场在2024年占据36.92%的份额,亚太地区是增长最快的市场。 - 深度学习在2024年占据AI市场最大份额,服务领域需求强劲。 12. **小鹏汽车自研图灵AI芯片将于2025年量产,用于支持L4自动驾驶** - 小鹏汽车董事长何小鹏透露,公司的自研图灵AI芯片预计将在2025年第二季度实现量产。 - 该芯片拥有40个核心,能够运行高达30B参数的AI大模型,性能超越英伟达的Orin X。 - 小鹏未来所有新车型将搭载自研图灵芯片,彻底摆脱对英伟达的依赖,进一步推动自动驾驶技术发展。 13. **阿里夸克AI月活跃用户达1.5亿,超越节跳动豆包** - 阿里巴巴的人工智能应用Quark在三月份的月活跃用户数达到了近1.5亿,成功超越了字节跳动的Doubao。 - Quark经过重组后,提供了学术研究、文档撰写和图像生成等多种功能,反映出阿里巴巴在AI市场的强劲竞争力。 14. **OpenAI发布GPT-4.1指令提示工程指南** - OpenAI于4月15日发布了针对其最新语言模型GPT-4.1的提示工程指南。 - 该指南详细介绍了GPT-4.1的特性,提供了从基础到高级的提示策略和最佳实践。 - 核心提示原则包括明确指令、提供结构和避免歧义,帮助开发者构建有效提示。 - 详情链接: [GPT-4.1提示工程指南](https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb)

6分钟
99+
8个月前

【AI日报】EP.133 4月15 昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP

Aishaobing的个人播客

【AI日报】 1. **Kimi开源视觉语言模型Kimi-VL与Kimi-VL-Thinking** - Moonshot AI最近开源了Kimi-VL和Kimi-VL-Thinking两款视觉语言模型,参数仅有30亿,但在多个基准测试中超越了GPT-4o。 - 支持高达128K tokens的上下文输入,适用于长文档和视频分析。 - 详情链接: https://github.com/MoonshotAI/Kimi-VL, https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct 2. **科大讯飞旗下讯飞星辰Agent开发平台全面支持MCP** - 讯飞星辰Agent开发平台全面支持MCP,帮助开发者高效构建Agent应用。 - 首批支持20+行业精品MCP Server,涵盖AI能力、生活服务等多个领域。 - 详情链接: https://mcp.xfyun.cn/ 3. **昆仑万维开源Skywork-OR1系列模型** - 昆仑万维天工团队推出Skywork-OR1系列模型,包括三款高性能模型,分别针对数学和代码领域。 - Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出。 - 详情链接: https://github.com/SkyworkAI/Skywork-OR1 4. **字节跳动推出Seed-Thinking-v1.5** - 字节跳动推出的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中表现出色,特别是在STEM领域。 - 采用混合专家架构,在多项基准测试中超越行业巨头。 5. **商汤大装置SenseCore2.0全新升级** - 商汤科技宣布其大装置SenseCore2.0全面升级,提升算力利用率和推理性能。 - 投入1亿元专项代金券,助力各行业加速AI落地。 6. **Google AI Studio开放Veo2视频模型有限免费试用** - Google AI Studio向部分用户开放了Veo2视频模型的有限免费试用,支持高达4K分辨率。 - 用户反馈冷却时间不明确,可能影响体验。 7. **上海AI实验室开源InternVL3系列多模态大型语言模型** - OpenGVLab发布InternVL3系列模型,支持从1B到78B的多种尺寸,具备处理文字、图片、视频等多种信息的能力。 - 模型可通过LMDeploy的api_server部署为OpenAI兼容API。 - 详情链接: https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e 8. **全新GAIA基准超越ARC-AGI** - 新推出的GAIA基准通过模拟真实世界的复杂问题,评估AI在实际应用中的能力。 - 初步结果显示,灵活性强的模型在复杂任务中表现优于其他知名模型。 - 详情链接: https://huggingface.co/gaia-benchmark 9. **百元成本炼成开源视频模型Pusa** - Pusa基于Mochi微调,训练成本仅为100美元,支持多种视频生成任务。 - 完全开源,提供完整的代码库和训练方法。 - 详情链接: https://top.aibase.com/tool/pusa 10. **字节跳动开源项目UNO** - UNO解决了AI图像生成中的角色一致性问题,确保生成图像的一致性。 - 采用高一致性数据合成流程和创新模型设计。 - 详情链接: https://huggingface.co/bytedance-research/UNO 11. **小鹏汽车推新物理大模型** - 小鹏汽车定位为AI汽车公司,引入强化学习与模型蒸馏技术,提升自动驾驶领域的竞争力。 - 2025年发布会将解答小鹏未来发展方向,推出新车型X9。 12. **字节跳动布局AI智能眼镜** - 字节跳动研发AI智能眼镜,集成“豆包”AI模型,支持语音指令、实时翻译等智能交互。 - 项目已进入实质性研发阶段,计划与供应链伙伴沟通,推动产品设计与上市。 - 详情链接: 无

6分钟
98
8个月前

【AI日报】EP.132 4月12 OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists

Aishaobing的个人播客

1. **OpenAI下周或发布GPT-4.1系列** - OpenAI即将发布GPT-4.1系列及o3系列,提升文本、图像和音频处理能力,并推出Mini版和Nano版以适应不同应用场景。 - o3系列将通过独特的“私有推理链”技术增强逻辑处理能力。 - 升级后的模型将为开发者和用户提供更智能的AI助手,改善写作、编程和日常交互体验。 2. **Pika全新AI视频功能Pika Twists** - Pika推出Pika Twists,允许用户通过简单的文本提示动态修改视频内容,创造戏剧性和幽默效果。 - 该功能对所有用户开放,免费用户可体验Turbo模式,Pro用户享有完整权限。 - Pika Twists简化了视频特效制作流程,树立了AI视频生成行业的新标杆。 3. **华为诺亚方舟实验室携手港大发布Dream7B语言模型** - 华为诺亚方舟实验室与香港大学联合推出的Dream7B语言模型,超越现有扩散模型的性能。 - 采用离散扩散模型架构,双向语境建模实现更强的文本生成能力。 - 开源基础模型和微调模型,促进扩散模型在NLP领域的研究与应用。 - 详情链接: [https://top.aibase.com/tool/dream-7b](https://top.aibase.com/tool/dream-7b) 4. **商汤科技日日新V6震撼发布** - 商汤科技发布了最新一代人工智能大模型“日日新V6”,在多模态能力上取得显著突破。 - 该模型能够处理文本、图像和视频等多种数据类型,并将在API开放后为开发者提供强大的技术支持。 - API将于明日开放,赋能开发者生态,助力多样化应用的快速构建。 5. **宇树G1人形机器人拳击技能展示** - 宇树科技发布的G1人形机器人展示了精准的拳击、闪避和平衡调整等复杂动作。 - G1能在4秒内自主站立,体现了其灵活性与鲁棒性。 - 宇树科技即将推出机器人格斗直播活动,为机器人技术爱好者提供全新的观赏体验。 6. **ChatGPT正式推出长期记忆功能** - ChatGPT的长期记忆功能允许自动存储用户的聊天记录,提供个性化回应。 - 用户可以灵活控制记忆功能,确保隐私安全。 - Plus与Pro用户率先体验新功能,反馈显示系统在处理复杂任务时更具理解力。 7. **Krea发布全新工具Krea Stage** - Krea Stage通过AI技术实现从2D图片到3D场景的快速转换,降低了创作的技术门槛。 - 该工具支持跨场景视频生成,确保视觉一致性,适合高视觉连贯性的内容创作。 - Krea Stage的低门槛设计促进了创作的民主化,使更多非专业用户能够参与到高品质内容创作中。 8. **Canva发布全新AI功能** - Canva推出了AI助手、指令生成应用和动态电子表格等新功能,简化设计流程并提升用户创意表达的效率。 - 用户可以通过自然语言与AI互动,实现多样化的设计需求。 - Canva Sheets实现数据与设计的深度融合,支持实时数据导入与可视化。 9. **OpenAI开源BrowseComp** - OpenAI推出BrowseComp,一个包含1266道高难度问题的基准测试,评估AI代理在网络浏览中的能力。 - BrowseComp完全开源,降低研究门槛,鼓励全球开发者参与AI代理的优化。 - 该基准测试为AI代理的实际应用提供了新想象空间,尤其在市场调研和个性化推荐等领域。 - 详情链接: [https://openai.com/index/browsecomp/](https://openai.com/index/browsecomp/) 10. **LinkedIn数据:全球AI人才最集中的十个国家** - 根据LinkedIn最新发布的数据,以色列以1.98%的AI人才比例位居全球第一,新加坡和卢森堡紧随其后。 - 印度的AI人才集中度在2016年至2024年间增加了252%,显示出强劲的技能提升趋势。 - 新加坡的专业人士在学习AI技能上投入的时间比亚太地区其他国家多出40%。

5分钟
99+
8个月前

【AI日报】EP.131 4月11 百度文心4.5 Turbo将于4月25日发布;谷歌推全新智能体开放协议A2A

Aishaobing的个人播客

### AI日报新闻提要 1. **百度文心4.5 Turbo将于4月25日发布** - 百度宣布将在4月25日的Create大会上发布文心大模型4.5 Turbo。 - 文心大模型4.5在多模态理解能力上表现出色,API调用价格极具竞争力。 - 李彦宏表示,文心大模型4.5将是百度历史上最好的一款模型。 2. **谷歌推全新智能体开放协议A2A** - 谷歌云推出开源协议Agent2Agent(A2A),促进不同AI智能体之间的协作与信息交换。 - A2A协议基于现有标准构建,支持企业级安全,简化集成过程。 - 超过50家技术合作伙伴支持A2A协议,推动AI在企业中的广泛应用。 3. **视频号整治不当使用AI工具直播行为** - 微信视频创作安全中心针对部分主播在直播中不当使用AI工具的行为展开专项治理。 - 这些行为误导观众并侵犯肖像权,平台将根据违规程度采取相应处罚措施。 - 用户可通过投诉功能举报违规行为,平台将及时处理。 4. **字节跳动开源Multi-SWE-bench** - 字节跳动豆包大模型团队开源了Multi-SWE-bench,这是首个多语言代码修复基准数据集。 - 数据集包含1632个真实任务,覆盖7种主流编程语言。 - 实验显示大语言模型在Python修复上表现尚可,但在其他语言的修复率低于10%。 5. **京东零售推出首个自研十亿级时序大模型TimeHF** - 京东零售技术团队推出了自研的十亿级销量预测时序大模型TimeHF。 - TimeHF通过人类反馈的强化学习技术实现了销量预测的显著提升,准确度提高了10%以上。 - TimeHF在多个公开数据集上取得了SOTA效果,已在京东供应链系统中应用。 6. **Google Firebase Studio横空出世** - 谷歌新推出的Firebase Studio是一款集成多种开发工具的云端开发平台。 - 该平台提供一站式开发体验,支持从创意到部署的全流程解决方案。 - 目前处于预览阶段,功能稳定性尚需提升,未来需平衡免费与付费服务的差异。 - 详情链接: [Firebase Studio](https://top.aibase.com/tool/firebase-studio) 7. **最强SVG生成大模型OmniSVG出现** - OmniSVG的发布标志着SVG生成技术的重大突破,结合了先进的视觉-语言模型和创新的SVG标记化器。 - 新发布的MMSVG-2M数据集包含200万个SVG资源,并提供标准化评估协议。 - OmniSVG生成的SVG不仅视觉效果出色,还具备可编辑性,适用于专业设计工作流程。 - 详情链接: [OmniSVG](https://omnisvg.github.io) 8. **谷歌开源智能体开发套件ADK** - 谷歌发布了Agent Development Kit(ADK),旨在简化多智能体系统的构建与管理。 - ADK支持多模态交互,具备双向音频和视频流功能,提升智能体的自然对话能力。 - 与谷歌云服务深度整合,支持快速原型设计和无缝部署,降低了技术门槛。 9. **Veo2重磅登陆Gemini API** - 谷歌旗下的Veo2视频生成模型通过Gemini API向开发者开放。 - Veo2支持文本到视频和图像到视频的生成,推动AI视频生成技术发展。 - 高真实性输出引发内容真实性与版权讨论,谷歌嵌入水印以减少误用风险。 - 详情链接: [Veo2](https://ai.google.dev/gemini-api/docs/video) 10. **Anthropic推出Claude Max高端订阅服务** - Anthropic公司推出了Claude Max订阅计划,月费最高达200美元。 - 提供两种定价选项,分别为每月100美元和200美元,使用限制显著提高。 - 公司正在探索“Claude for Education”项目,关注教育领域的AI需求。 11. **OminiControl Art发布** - OminiControl Art技术将GPT-4o的艺术风格与FLUX.1模型相结合,开辟了AI艺术生成的新可能性。 - OminiControl框架通过增加少量参数,实现对扩散变换器模型的灵活控制,提升了艺术创作的效率。 - 该技术的发布反映了AI艺术工具从功能性向艺术性与可控性转变的趋势。 - 详情链接: [OminiControl Art](https://top.aibase.com/tool/ominicontrol-art) 12. **谷歌Gemini加入MCP阵营** - 谷歌宣布其Gemini模型和SDK将支持模型上下文协议(MCP)。 - MCP允许AI模型从多种数据源提取信息,促进开发者与AI应用之间的双向连接。 - 自Anthropic开源MCP以来,多个公司如Block和Replit已在其平台中集成该协议。 13. **Gradio5.24重大更新** - Gradio5.24版本新增ImageEditor组件,使得图像编辑功能达到了专业级别。 - 新增的缩放、平移、透明度控制和自定义图层功能,极大提升了图像处理的灵活性与效率。 - 此次更新被视为对开发者需求的精准回应,助力他们更好地展示AI技术成果。 - 详情链接: [Gradio](https://top.aibase.com/tool/gradio) 14. **WordPress.com推出全新AI网站构建工具** - WordPress.com推出了一款全新的AI驱动网站构建器,用户可在几分钟内生成功能齐全且外观美观的WordPress网站。 - 注册WordPress.com账号后,可免费试用,需购买托管计划才能实际使用。 - 工具支持通过聊天机器人生成网站内容,适用于新创建的WordPress实例。 - 详情链接: [WordPress AI Website Builder](https://wordpress.com/blog/2025/04/09/ai-website-builder/)

6分钟
99+
8个月前

【AI日报】EP.130 4月10 阿里腾讯全面支持MCP协议;阶跃星辰多模态推理模型Step-R1-V-Mini

Aishaobing的个人播客

1. **阿里腾讯全面支持MCP协议** - 阿里巴巴和腾讯宣布全面支持Model Context Protocol(MCP),标志着中国科技巨头在全球AI标准竞争中的新一轮角力。MCP作为开源协议,简化了AI模型与外部工具的交互,提升了互操作性。 - 详情链接: [阿里巴巴支持MCP协议](https://www.cnbc.com/2024/08/18/former-google) 2. **阶跃星辰发布多模态推理模型Step-R1-V-Mini** - 阶跃星辰科技团队推出Step-R1-V-Mini,支持图文输入和文字输出,具备优秀的指令遵循能力和通用性。该模型在视觉推理、数学逻辑等方面表现优异,尤其在MathVision榜单中名列前茅。 - 详情链接: [Step-R1-V-Mini介绍](https://yuewen.cn/chats/new) 3. **美图WHEE推出图像生成模型Miracle F1** - 美图WHEE平台推出的Miracle F1,能够生成极具真实感的图像,并在语义理解和风格多样性方面表现出色。用户通过WHEE官方网站即可体验这一视觉魔法。 4. **Deep Research搭载Gemini2.5Pro** - 谷歌宣布其Deep Research功能升级至Gemini2.5Pro实验版,展现出卓越的推理能力和信息整合技术。这一技术突破显著提升了搜索效率和分析能力,改变了研究方法。 - 详情链接: [Gemini2.5Pro介绍](https://huggingface.co/agentica-org/DeepCoder-14B-Preview) 5. **开源新模型DeepCoder超越OpenAI o1模型** - DeepCoder-14B-Preview模型由Together AI和Agentica联合开源,凭借140亿参数在编程测试中表现优秀,得分超越OpenAI的o1模型。该模型的开源内容丰富,方便开发者深入研究。 - 详情链接: [DeepCoder-14B-Preview](https://huggingface.co/agentica-org/DeepCoder-14B-Preview) 6. **DeepSeek推创新技术SPCT提升大模型性能** - DeepSeek AI推出的自主演原则批判调优技术(SPCT),旨在构建更通用和可扩展的AI奖励模型,提升AI在复杂环境中的理解与应对能力。SPCT在多项基准测试中表现优于传统模型。 - 详情链接: [SPCT技术介绍](https://arxiv.org/abs/2504.02495) 7. **Anthropic发布大学生Claude AI使用报告** - 文章探讨了人工智能在大学生学习中的应用,特别是Claude.ai的使用情况。STEM专业学生是AI工具的早期采用者,但AI的使用也引发了关于认知能力外包的担忧。 8. **亚马逊推新一代AI语音模型Nova Sonic** - 亚马逊最新推出的AI语音模型Nova Sonic,通过本地处理语音,生成自然流畅的回复。Nova Sonic不仅具备在复杂环境下的语音识别能力,还能根据用户的语调和风格调整响应。 - 详情链接: [Nova Sonic介绍](https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model) 9. **谷歌NotebookLM即将推出移动应用程序版本** - 谷歌旗下的人工智能研究工具NotebookLM即将推出独立的移动客户端应用程序,提供更便捷的使用体验。未来可能深度整合谷歌搜索能力,实现从URL到摘要、思维导图的转化。 10. **AI视频生成技术TTT生成完整动画视频** - 通过引入测试时训练层,成功生成了一分钟的《猫和老鼠》动画视频,无需后期编辑。该技术在画面连贯性和故事完整性上表现出色,展现了AI在创意内容生产中的巨大潜力。 - 详情链接: [TTT技术介绍](https://test-time-training.github.io/video-dit/) 11. **网信办公布生成式AI服务备案情况** - 截至2025年3月31日,已有346款生成式人工智能服务完成备案。所有上线应用需公示所用的已备案服务信息,包括模型名称和备案号。 12. **英伟达发布Llama3.1Nemotron Ultra253B** - 英伟达推出Llama3.1Nemotron Ultra253B模型,性能超越Llama4系列,并在Hugging Face平台开源,具备商业友好特性。 - 项目入口: [Llama3.1Nemotron Ultra253B](https://top.aibase.com/tool/llama-3-1-nemotron-ultra-253b)

6分钟
99+
8个月前

【AI日报】EP.129 4月9 阿里新模型Qwen3即将来袭;GitHub开源MCP服务器

Aishaobing的个人播客

### AI日报:阿里新模型Qwen3即将来袭;GitHub开源MCP服务器;Runway发布Gen-4 Turbo 1. **Qwen3即将来袭: 阿里云新模型相关支持已正式合并至vLLM代码库** - Qwen3模型即将发布,包含多个版本以满足不同需求。 - Qwen3-MoE-15B-A2B采用混合专家架构,提升性能与能效比。 - vLLM的支持将简化Qwen3的部署,推动阿里云的AI生态发展。 2. **Runway发布Gen-4 Turbo: AI视频生成速度再创新高** - Gen-4 Turbo模型在生成速度上实现重大突破,10秒视频生成时间缩短至30秒。 - 该模型延续了Gen-4系列的图像到视频生成优势,同时在速度和动态表现上进行了优化。 - 业内专家认为,Gen-4 Turbo的推出将推动AI视频生成技术的数字化转型,并带来更高效的创作工具。 3. **GitHub官方开源MCP服务器,支持无缝集成GitHub API** - 新的MCP服务器由GitHub和Anthropic联合开发,采用Go语言重写,功能更强大且易用。 - 该服务器支持自动化GitHub工作流,能够从GitHub仓库中提取问题和信息,提升工作效率。 - MCP生态日益完善,开发者对其潜力充满期待,未来应用场景有望进一步扩展。 - 详情链接: https://github.com/github/github-mcp-server 4. **国产AI崛起! 17亿参数开源图像模型HiDream-I1横空出世** - HiDream-I1是国产开源图像生成模型,拥有17亿参数,表现出色。 - 该模型基于扩散模型技术,能将文本描述转化为高质量图像,操作简便。 - HiDream-I1在国际舞台上有潜力与顶尖技术竞争,推动AI图像生成技术的发展。 - 详情链接: https://top.aibase.com/tool/hidream-i1 5. **阿里国际重磅招聘AI人才: 80%岗位聚焦人工智能领域** - 招聘中AI相关职位比例高达80%,覆盖多个关键领域。 - 推出全球首个外贸领域AI搜索引擎Accio,实现电商平台智能化升级。 - 创新“Bravo102”计划,允许候选人自主选择项目和团队,展现开放态度。 6. **亚马逊AI视频模型Nova Reel升级: 可生成长达两分钟的视频片段** - Nova Reel1.1版可以生成长达两分钟的视频,并支持多镜头制作。 - 用户可提供长达4000字符的提示,生成6秒镜头视频,最多20个镜头。 - 亚马逊对训练数据来源的保密引发了关于版权和知识产权的讨论。 - 详情链接: https://aws.amazon.com/cn/blogs/aws/amazon-nova-reel-1-1-featuring-up-to-2-minutes-multi-shot-videos/ 7. **夸克AI加持! 阿里智能AI眼镜或于2025年底发布** - 阿里巴巴正式启动AI智能眼镜项目,目标超越Ray-Ban Meta的产品。 - 眼镜将采用高通AR1芯片与恒玄BES2800双系统架构,优化功耗与续航表现。 - AI+AR版本优先,搭载表面浮雕光栅衍射光波导技术,提升显示效果。 8. **ElevenLabs推出MCP服务器: AI语音能力无缝整合到智能助手** - MCP服务器作为桥梁,连接了ElevenLabs的音频技术与用户日常AI工具。 - 提供统一的语音服务接口,简化了API调用流程,支持多种音频处理功能。 - 支持启动语音代理,执行外拨电话任务,提升AI助手的实用性。 9. **Cloudflare发布Node.js生态Agents开发包,助力AI代理开发** - 集成多项核心功能,包括工作流引擎、工具集成框架和状态持久化支持。 - 旨在简化AI代理的构建与部署流程,提升开发效率。 - 官网提供动画演示,直观展示生成式AI和Agentic模式的区别。 - 详情链接: https://agents.cloudflare.com/ 10. **PokemonGym: AI玩宝可梦Red,Claude仅用450步征服** - PokemonGym是一个专为评估AI在《宝可梦Red》中表现的平台,支持多种AI算法的训练和测试。 - 由Claude大语言模型驱动的演示代理在450步内成功捕捉宝可梦,展现了AI在游戏中的高效性。 - 该平台不仅为AI研究提供了评估工具,还可能推动游戏AI的未来发展,超越人类玩家的潜力。 - 详情链接: https://top.aibase.com/tool/pokemongym 11. **Sync Labs发布Lipsync-2: 全球首个零-shot的嘴型同步模型** - Lipsync-2是全球首个零-shot嘴型同步模型,无需额外训练即可保留演讲者风格。 - 新增的温度参数控制功能允许用户调节嘴型同步的表现程度,适应不同场景需求。 - 该技术在多语言教育和内容创作中展现出巨大潜力,推动视频翻译和角色重新动画化。 - 详情链接: https://top.aibase.com/tool/lipsync-2 12. **谷歌推全新AI安全模型Sec-Gemini v1,秒级洞悉网络攻击根源** - Sec-Gemini v1是一款新型AI模型,旨在改善网络安全防御,帮助防御者应对攻防不对称的挑战。 - 该模型结合了先进的推理能力和实时安全知识,提升了事件根本原因分析和威胁分析的效率。 - 谷歌鼓励网络安全社区合作,Sec-Gemini v1目前以免费形式提供给选定组织和专业人士,用于研究目的。 - 详情链接: https://security.googleblog.com/2025/04/google-launches-sec-gemini-v1-new.html 13. **英伟达完成收购Lepton AI,阿里前副总裁贾扬清携团队加盟** - Lepton AI由阿里前副总裁贾扬清创立,专注于云端AI基础设施。 - 英伟达收购Lepton AI被视为其在AI生态布局中的重要一步,增强了市场竞争力。 - 收购为Lepton AI提供了更广阔的发展平台,助力AI基础设施的创新。 14. **酷狗音乐与DeepSeek达成深度合作** - 酷狗音乐与人工智能公司DeepSeek合作推出四大AI功能模块,重塑音乐消费体验。 - 新版“AI听歌报告”提供个性化音乐分析与社交分享功能。 - 智能歌单管家通过AI提升用户创作效率和美学体验。

6分钟
99+
8个月前

【AI日报】EP.128 4月4 即梦3.0内测直出2K商业海报;ChatGPT又更新图片生成功能

Aishaobing的个人播客

【AI前沿】🚀 今日AI领域重大进展速览 1. 即梦3.0内测震撼发布 * 可直出2K商业海报 * 算法全面升级,生成速度仅需数秒 * 细节处理超越传统设计师水平 2. ChatGPT图片生成能力再升级 * 新增中文草书生成功能 * 引入图像选区编辑工具 * 色彩协调性显著提升 3. 饿了么推出"AI入驻智能经理" * 新商家上线流程缩短至5分钟 * 24小时自然语言对话服务 * 计划投入10亿元加强AI应用 4. Hugging Face新增实用功能 * 一键检测电脑可运行模型 * 简化开发者模型选择流程 * 与生态系统工具深度整合 5. 字节跳动发布MegaTTS3 * 轻量化语音合成模型(0.45亿参数) * 支持中英混合朗读 * 开源代码已发布 项目链接:https://huggingface.co/ByteDance/MegaTTS3 6. OpenAI o3模型成本修正 * 每任务价格或达30,000美元 * 计算需求激增172倍 * 企业版月费或达2万美元 7. Genspark推出Super Agent * 具备自主思考和工具调用能力 * 整合8个大型语言模型 * 配备80+种工具 详情链接:https://top.aibase.com/tool/genspark 8. OpenAI发布PaperBench基准 * 评估AI复制研究论文能力 * 包含20篇ICML2024论文 * Claude3.5Sonnet表现最佳 项目链接:https://github.com/openai/preparedness/tree/main/project/paperbench 9. 2024全球移动收入榜 * 腾讯继续领跑 * OpenAI首次进入TOP50 * 全球市场突破1500亿美元 10. DeepMind发布AGI预测 * 2030年或超越人类 * 公布多层次安全策略 * 神经网络是主要实现路径 11. NotebookLM新功能 * "Discover sources"自动搜集网络信息 * 一键添加来源到笔记本 * 支持随机话题生成

6分钟
99+
8个月前

【AI日报】EP.127 4月3 阿里通义千问登顶全球开源模型榜首;MiniMax推Speech-02语音模型

Aishaobing的个人播客

【AI前沿】阿里通义千问登顶全球开源模型榜首 * Qwen2.5-Omni凭借卓越性能和多模态能力成为全球开源模型第一 * DeepSeek-V3-0324和SpatialLM-Llama-1B紧随其后 * 阿里已开源200款模型推动AI技术普及 【语音技术】MiniMax推出Speech-02语音模型 * 支持30多种语言,语音相似度高达99% * 新增"Read Anything"功能可上传文件或URL收听内容 * "Long-Text Mode"支持一次性输入20万字符 详情链接:https://www.minimax.io/audio 【商业动态】ChatGPT付费用户激增至2000万 * 三个月内付费用户突破2000万,年化营收增长30% * 每周活跃用户达5亿,OpenAI计划融资400亿美元 * 面临Gemini、Claude和Grok等竞争对手挑战 【创新应用】ElevenLabs发布犬类AI语音模型 * "Text To Bark"可将文字转化为高度逼真的狗吠声 * 95%的狗无法分辨声音来源 * 计划扩展至其他动物,探索多模态交互系统 详情链接:https://elevenlabs.io/text-to-bark 【产品更新】腾讯元宝支持多图上传 * 一次性可上传10张图片进行智能处理 * 结合混元多模态理解能力提供连贯分析 * 支持手机版、电脑版和网页版多平台操作 【开源工具】EasyControl_Ghibli模型上线 * 免费生成吉卜力风格图像 * 基于100张真实亚洲面孔照片训练 * 开源特性降低艺术创作门槛 详情链接:https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli?ref=top.aibase.com 【技术突破】飞桨3.0正式发布 * 引入五大核心技术创新降低大模型开发成本 * 支持60余款主流芯片,适配成本降80% * 单机部署吞吐量提升高达一倍 【AI测试】GPT-4.5通过图灵测试 * 以73%通过率超越人类表现 * 展现惊人语言自然度和情感丰富性 * 复杂人格扮演机制推动AI应用潜力 详情链接:https://arxiv.org/pdf/2503.23674 【教育平台】OpenAI学院上线 * 提供数十小时免费AI学习材料 * 涵盖基础知识到高级技能课程 * 面向自学者、教育工作者和开发人员 详情链接:https://academy.openai.com/?continueFlag=bc9fbeae4c35e24ba47bde4cf390e735

5分钟
99+
8个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧