【AI日报】 1. **阿里开源长文本深度思考模型QwenLong-L1** - 阿里巴巴发布QwenLong-L1-32B,首个通过强化学习训练的长文本推理模型。 - 该模型在七个长文本情境文档问答基准测试中表现出色。 - 提供高性能模型、优化数据集、强化学习方法及评估体系,推动长文本AI应用产业化。 - 详情链接: [GitHub](https://github.com/Tongyi-Zhiwen/QwenLong-L1) 2. **GPT-4o语音模式新增唱歌功能** - GPT-4o的高级语音模式升级,新增唱歌功能,支持自然语音交互。 - 新增笑声、哭声等情感表达功能,拓展了AI在娱乐和教育领域的应用场景。 - 响应延迟仅320毫秒,支持更自然的情感交流。 3. **秘塔AI搜索推出全新“极速”模型** - 秘塔AI搜索的新模型实现最高400tokens/秒的响应速度。 - 在单张H800GPU上大幅提升搜索效率,大部分问题可在2秒内得到解答。 - 提供测速站点(kuai.metaso.cn)让用户体验快速响应。 4. **谷歌推出LMEval开源框架** - LMEval是用于简化和标准化大型语言及多模态模型评估的工具。 - 支持跨平台模型对比,提供增量评估和可视化分析功能。 - 详情链接: [GitHub](https://github.com/google/lmeval) 5. **谷歌Chrome浏览器新增Gemini AI助手** - Gemini AI助手通过实时感知屏幕内容并提供个性化帮助,提升用户体验。 - 仅向AI Pro和AI Ultra订阅用户开放,目前处于测试版。 - 未来计划扩展至更多场景与设备,提升整体用户体验。 6. **阿联酋全民免费使用ChatGPT Plus** - 阿联酋将成为全球首个向全体居民免费提供ChatGPT Plus服务的国家。 - 计划构建1千兆瓦的人工智能计算集群,提升地区AI地位。 - OpenAI与阿联酋合作,开发符合本土需求的AI解决方案。 7. **苏州成立60亿元人工智能母基金** - 苏州成立了一支60亿元的人工智能产业专项母基金,聚焦算力基础设施、数据、人才等领域。 - 推动‘人工智能+制造业’等行业融合应用,加速产业转型升级。 - 预计2024年园区将聚集超1800家AI企业,助力苏州成为国家级AI发展试验区。 8. **Kyutai Unmute发布** - Kyutai实验室推出的Unmute系统为文本大语言模型赋予强大的语音交互能力。 - 个性化定制功能只需10秒语音样本即可生成专属AI声音。 - 详情链接: [Unmute](https://unmute.sh/) 9. **Claude即将大升级** - 上下文窗口扩展至百万字符,大幅提升超长文本处理能力。 - 新增记忆功能,实现多轮对话更连贯、个性化的响应。 - 扩展输出Token限制及多文件格式支持,增强企业级应用场景。 10. **百度心响iOS版正式上线** - 百度心响iOS版的上线标志着智能体应用普及的新阶段。 - 提供旅游攻略生成、深度研究支持以及健康咨询服务。 - 用户可在APP Store免费下载心响iOS版。 11. **夸克发布行业首个“高考深度搜索”** - 夸克推出的“高考深度搜索”功能,帮助考生和家长高效获取权威信息。 - 数据来源于自建高考知识库,包括历年志愿数据及就业考研信息。 - 使用检索增强生成技术,确保内容准确性。 12. **Chrome v137开发者工具重磅升级** - Chrome v137引入Gemini AI智能助手,通过智能标注、CSS修改、性能洞察等功能提升开发效率。 - 智能标注功能简化性能分析流程,快速理解复杂性能数据。 - AI驱动CSS调试,一键修改与保存,显著提升前端开发效率。 13. **美团AI业务进展** - 美团的基础大模型能力接近GPT-4o水平,将推出业务决策助手。 - 内部工程师的52%代码由AI生成,提升工作效率。 - 推出NoCode编程工具,面向非技术用户,简化编程过程。 14. **Direct3D-S2横空出世** - Direct3D-S2通过创新的空间稀疏注意力机制,大幅提升高分辨率3D图像生成的质量与效率。 - 前向传播速度提升3.9倍,反向传播速度提升9.6倍。 - 开源计划预计5月底前公布,推动3D生成技术在全球范围内的普及与应用。 - 详情链接: [GitHub](https://github.com/DreamTechAI/Direct3D-S2) 15. **OpenAI计划2026年推出首款AI硬件** - OpenAI正在研发一款由ChatGPT驱动的全新AI硬件,预计2026年发布。 - 这款产品将整合到日常生活的方方面面,提供无缝的智能体验。
### AI日报新闻提要 1. **昆仑万维天工超级智能体APP上线** - 昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用——天工超级智能体APP。 - 该应用通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建。 - 计划扩展至教育、医疗、法律等垂直领域,并优化多语言支持。 2. **最新研究:ChatGPT助力中小学生学习成效提升近87%** - 研究表明,利用ChatGPT等大型语言模型可显著提升K12阶段学生的学习成绩,整体提升达86.7%。 - 这些模型还能增强学生的高阶思维能力,减轻精神负担,提升学习积极性。 3. **谷歌通过Gemini应用扩展了其热门新视频机型Veo3的访问权限** - 谷歌的AI视频生成工具Veo3现支持71国用户,但欧盟暂未开放。 - Gemini Ultra用户每月享有125次生成机会,Pro用户仅10次。 - Veo3虽受关注但也引发对虚假信息传播的担忧。 4. **谷歌重磅发布三大Gemini模型变体** - 谷歌推出了MedGemini、SignGemini和DolphinGemini三款基于Gemini架构的人工智能模型。 - 分别针对医疗、手语翻译和海豚语言研究领域,展示了AI技术在跨领域应用的巨大潜力。 5. **AI教育革命:VideoTutor一句话即可生成K12定制教学视频** - VideoTutor是一款创新的AI教育工具,支持一键生成个性化教学视频。 - 支持多语言生成,灵活适配不同年级和语言需求,打破语言障碍。 - 教学内容逻辑清晰,视觉效果直观,有效提升学习效率,减轻教师备课负担。 6. **字节跳动推出开源多模态模型BAGEL** - 字节跳动发布了最新开源多模态基础模型BAGEL,该模型在图像理解和生成方面表现出色。 - 基于70亿参数规模,超越主流VLM如Qwen2.5-VL和InternVL-2.5,在图像理解、生成和编辑任务中表现卓越。 - 提供开源模型、评估脚本、使用文档及Gradio WebUI,鼓励社区参与优化并推动模型进步。 - 详情链接: https://github.com/ByteDance-Seed/Bagel 7. **AI开发神器Rork:一句话打造iOS+Android应用,零编程也能当开发者** - Rork是一款AI驱动的无代码开发工具,通过自然语言描述即可生成完整应用。 - 支持iOS和Android双平台,极大降低开发门槛。 - 智能集成后端,自动整合Supabase、Firebase等数据库,简化开发流程。 - 详情链接: https://rork.com/ 8. **AI新手福音:AingDesk一键打造智能助手,多模型对话即将引爆** - AingDesk是一款对新手友好的AI助手构建工具,支持本地知识库、联网搜索、智能体构建及多模型对话等功能。 - 无需编程经验即可快速构建个性化智能助手,支持本地与云端灵活部署。 - 详情链接: https://github.com/aingdesk/AingDesk 9. **Claude4登陆Amazon Bedrock,企业AI的‘最后一公里’打通了** - Anthropic推出最新Claude4系列大模型,包含Claude Opus4和Claude Sonnet4,分别面向高复杂性和高并发场景。 - 两款模型均支持强大的上下文理解和多步推理能力,在多个行业测试中表现优异。 - 开发者可通过Amazon Bedrock统一API访问Claude4系列,实现与多种主流模型的无缝切换。 10. **Youware重磅更新:MCP加持一键生成复杂网页,AI建站进入新时代** - Youware通过深度集成Model Context Protocol(MCP),显著提升了网页生成的能力与效率。 - 推出积分系统和社区功能,为用户提供收益激励和互动平台。 - 简化建站流程,降低门槛,支持多种MCP服务,提升用户体验。
【AI日报】Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent 1. **Anthropic推出最强AI模型Claude4** - Claude4系列包括Claude Opus4和Claude Sonnet4,在多项基准测试中领先,尤其在编程任务中表现出色。 - Opus4面向付费用户,Sonnet4面向免费用户,API定价灵活且具有竞争力。 - Anthropic加强了Opus4的安全措施,符合ASL-3安全规范。 2. **苹果计划推出AI智能眼镜** - 苹果预计在2026年底推出集成了摄像头、麦克风和先进AI技术的智能眼镜。 - Siri将成为核心体验,提升用户互动性和日常使用便利性。 - 研发进度加快,年底前将制造大量原型机以确保产品质量。 3. **字节跳动与清华大学合作推出时序多模态大模型ChatTS** - ChatTS填补了当前市场在时序数据处理领域的空白,具备强大的多变量时序问答与推理能力。 - 采用“纯合成驱动”方式构建端到端数据生成与模型训练框架,提高时序数据的自然语言理解能力。 - 模型能够识别未见过的波动模式并提取异常,展现灵活性与智能化特征。 4. **AI‘神笔马良’3DTown:单张照片变3D城市** - 普林斯顿大学、哥伦比亚大学和Cyberever AI联合推出的3DTown框架,仅凭一张俯视图即可生成逼真的3D城镇场景。 - 采用区域生成策略,提升细节和对齐精度,并通过空间感知3D修复技术实现无缝拼接。 - 免训练框架利用预训练3D生成器,结合独特策略生成高质量3D场景,效果优于现有模型。 - 详情链接: https://arxiv.org/pdf/2505.15765 5. **OpenAI秘密开发无屏幕AI设备** - OpenAI计划开发一款具有革命性的无屏幕紧凑型AI设备,定位为下一代核心设备。 - 由苹果前首席设计官Jony Ive主导设计,尽管保密工作出现漏洞,但其潜力可能为公司带来万亿级市值。 6. **商汤科技推出元萝卜AI下棋机器人五合一版** - 面向3至12岁儿童,支持象棋、围棋、国际象棋、国际跳棋和五子棋五种棋类学习。 - 内置对话智能体,解答学科问题并提供百科知识讲解,激发孩子对AI的兴趣。 - 配备英语语伴功能,帮助孩子在家练习口语,提升语言能力。 7. **微软记事本Notepad推出AI写作功能** - 记事本新增AI写作功能,能快速生成和扩展文本,提升用户创作效率。 - Paint工具新增贴纸生成器和智能对象选择工具,大幅优化图像编辑体验。 - 截图工具加入“完美截图”按钮和实时颜色选择器,让截图与编辑更加精准高效。 8. **深圳设立70亿人民币基金助力AI硬件初创企业** - 深圳市政府设立70亿人民币投资基金支持AI硬件初创企业发展。 - 华为展示首款可折叠平板电脑,搭载HarmonyOS操作系统,标志着技术独立性提升。 - UBTech Robotics推出智能机器人‘萌UU’,EngineAI展示四足机器人,展现行业创新能力。 9. **谷歌Beam发布:2D视频秒变3D沉浸式体验** - Google Beam基于AI技术,将传统2D视频通话升级为3D沉浸式体验,无需佩戴AR/VR设备即可享受真实感。 - 平台集成了实时语音翻译功能,支持多语言交流,为企业协作和个人沟通打开全新可能。 - 初期定位高端企业市场,已与HP、Zoom等巨头合作,计划逐步扩展至消费级市场。 - 详情链接: https://beam.google/ 10. **阿联酋推出“星际之门”计划** - 阿联酋宣布建设‘星际之门阿联酋’超级人工智能数据中心,覆盖2000英里范围内的地区。 - 为国民免费提供ChatGPT服务,成为全球首个为全民支付ChatGPT Plus订阅费用的国家。 11. **Mistral推出开源模型Devstral** - 法国初创公司Mistral推出的开源语言模型Devstral,具有240亿参数且计算资源需求低,适合本地部署及设备端使用。 - 在编程任务中表现出色,尤其擅长处理复杂代码库的上下文关联问题。 - 在SWE-Bench测试中得分46.8%,远超其他开源模型,甚至领先GPT-4.1-mini。 12. **Anthropic API增加四大功能** - 新增代码执行工具、MCP连接器、文件API及扩展提示缓存,提升了Claude AI的功能性与灵活性。 - 代码执行工具使Claude能运行Python代码,从代码助手转变为数据分析师。 - MCP连接器简化了AI与外部系统的集成,支持无缝连接主流平台。 - 文件API增强了上下文处理能力,便于处理复杂文档和多格式数据。 13. **美国众议院通过新法案禁止未来10年监管AI** - 美国众议院通过《HR1》法案,禁止未来10年内各州监管AI。 - 微软、OpenAI等因放宽监管获益,推动技术创新。 - 法案拨款5亿美元,用于提升政府AI应用及智能政务建设。 14. **QQ浏览器上线行业内首个高考Agent“AI高考通”** - QQ浏览器推出“AI高考通”,为高考生提供考前解题答疑和作文辅导服务。 - 整合2800所院校及1600个专业信息,便于查询。 - 提供个性化志愿填报推荐,助考生选择合适院校。
### AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源 1. **百度飞桨PaddleOCR 3.0开源发布** - PaddleOCR 3.0版本提升了文字识别精度、多语种支持、手写体识别及文档解析能力,新增对国产硬件的支持。 - 全场景文字识别模型PP-OCRv5支持五种文字类型识别,整体精度提升13%。 - 文档解析方案PP-StructureV3强化版面检测和表格识别能力,在多场景高精度解析中表现卓越。 - 智能文档理解方案PP-ChatOCRv4结合文心大模型,关键信息抽取精度提升15%,支持复杂文档处理。 - 详情链接: [https://github.com/PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) 2. **昆仑万维天工超级智能体发布** - 天工超级智能体基于自研Deep Research技术,是一款AI Office智能代理,成本仅为OpenAI的40%。 - 采用多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。 - Deep Research模型在GAIA基准测试中以82.42分超越OpenAI。 - 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。 - 详情链接: [https://mcp.so/server/skywork-super-agents/Skywork-ai](https://mcp.so/server/skywork-super-agents/Skywork-ai) https://skywork.ai/ 3. **OpenAI核心API支持MCP** - OpenAI的Responses API新增MCP支持,降低AI模型与外部工具集成难度。 - 新增功能包括图像生成、代码解释器和优化的文件搜索能力,提升开发效率。 - MCP成为AI智能体开发的事实标准,推动跨平台协作与灵活性。 4. **xAI推出网页搜索API: Live Search** - xAI正式推出了Live Search API,让开发者可以利用Grok模型实时搜索来自多种数据源的信息。 - 支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预。 - 提供多样化数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新。 - 高度灵活且高效集成,支持多种SDK,开发者可轻松调整基础URL和API密钥实现快速接入。 - 详情链接: [https://docs.x.ai/docs/guides/live-search](https://docs.x.ai/docs/guides/live-search) 5. **谷歌Sparkify实验产品上线** - 谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频。 - 支持多语言扩展,未来将覆盖更多地区和人群。 - 详情链接: [https://sparkify.withgoogle.com/explore](https://sparkify.withgoogle.com/explore) 6. **Mistral重返开源阵营: 发布超高效代码AI模型Devstral** - Mistral AI发布了全新开源语言模型Devstral,专为代理AI软件开发设计,性能优越且支持本地运行。 - Devstral拥有2400万参数,基于Apache2.0许可证发布,允许自由部署和商业化。 - 在SWE-Bench验证中超越多数闭源模型,适用于本地和私有化应用场景。 - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA) 7. **Video Ocean发布2K/4K HDR视频生成工具** - 潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费。 - 详情链接: [无] 8. **谷歌推出新工具SynthID Detector** - SynthID Detector旨在帮助用户检测内容是否由其AI工具生成,支持图像、文本、音频和视频。 - 该工具可自动扫描上传内容,查找并突出显示SynthID水印。 - 当前仅向早期测试者开放,未来将逐步推广至更多用户。 - 详情链接: [https://blog.google/technology/ai/google-synthid-ai-content-detector/](https://blog.google/technology/ai/google-synthid-ai-content-detector/) 9. **谷歌AI笔记工具NotebookLM的迅猛崛起** - NotebookLM月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。 - 详情链接: [无] 10. **硅基流动升级DeepSeek-R1等推理模型API** - 硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量。 - 引入独立控制思维链与回复内容长度的功能,使开发者能更灵活地调整模型性能。 - 详情链接: [https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning](https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning) 11. **谷歌DeepMind发布新AI音乐生成模型Lyria2** - Lyria2具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。 - 详情链接: [https://deepmind.google/models/lyria/](https://deepmind.google/models/lyria/) 12. **多模态大模型MMaDA** - MMaDA实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。 - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA) 13. **微软发布Web智能体Magentic-UI** - Magentic-UI是一款以人为本的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务。 - 详情链接: [https://github.com/microsoft/Magentic-UI](https://github.com/microsoft/Magentic-UI) 14. **Framer发布全新AI功能** - Framer在I/O 2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0。 - 详情链接: [无]
### AI日报 1. **谷歌推出AI Ultra订阅计划** - 谷歌发布了全新的AI Ultra订阅计划,提供最高级别的AI模型访问和高级功能。计划包括最新的Gemini应用、Flow工具、30TB存储空间等,每月费用为249.99美元。 - 详情链接: [Google AI Ultra](https://blog.google/products/google-one/google-ai-ultra/) 2. **腾讯混元模型矩阵全面升级** - 腾讯混元宣布其模型矩阵全面升级,推出了T1-Vision和混元Voice等新模型。TurboS模型在全球评测中表现优异,多模态技术取得新进展,并推动开源技术发展。 3. **美图与阿里巴巴达成战略合作** - 美图公司与阿里巴巴达成战略合作,阿里巴巴通过可转债形式投资2.5亿美元。双方将在电商、AI技术、云计算等领域展开深度合作。 4. **豆包·语音播客模型发布** - 火山引擎推出的豆包·语音播客模型通过流式模型构建,实现了文本到播客的快速转化,带来高效、互动性强的创作体验。该模型将在豆包APP及PC端、扣子等上线。 5. **百度文心X1Turbo大放异彩** - 百度文心大模型X1Turbo在信通院评估中获国内首个“4+级”最高评级,展示出卓越的技术实力,在逻辑推理和代码推理方面表现突出。 6. **谷歌发布Flow AI剪辑工具** - 在2025年的Google I/O开发者大会上,谷歌推出了面向影视创作者的全新AI剪辑工具Flow,集成了Veo3、Imagen4和Gemini三大AI模型,简化视频创作过程。 - 详情链接: [Google Flow](https://labs.google/flow/about) 7. **谷歌Veo3震撼发布** - 谷歌发布的Veo3视频生成模型支持音视频一体化生成,具备超高分辨率和多样化风格支持,适用于专业及教育领域。 8. **谷歌Imagen4图像模型发布** - 谷歌推出了最新一代图像生成模型Imagen4,具有超高分辨率、精准文本渲染和多种风格支持,为创作者提供强大工具。 9. **谷歌Gemini2.5Pro Deep Think发布** - 谷歌DeepMind在2025年Google I/O开发者大会上推出Gemini2.5Pro Deep Think模式,采用并行推理技术,大幅提升数学、编码和多模态推理能力。 - 详情链接: [Google Gemini2.5Pro Deep Think](https://jules.google/) 10. **谷歌虚拟试衣间上线** - 谷歌在I/O2025大会上推出了全新的AI虚拟试衣工具,用户上传照片即可快速生成逼真的穿搭效果图,支持多条件搜索、比价分析和自动下单。 11. **谷歌公测AI编码助手Jules** - 谷歌推出的AI编码助手Jules进入全球公测阶段,基于Gemini2.5Pro模型,通过异步任务处理和GitHub集成提升开发者效率。 - 详情链接: [Google Jules](https://jules.google/) 12. **苹果计划在iOS19中开放AI模型** - 苹果计划在iOS19中向第三方开发者开放其AI模型,促进应用创新并增强硬件吸引力,初期将开放能在本地设备上运行的小型AI模型。 13. **京东云五大AI营销产品限时免费** - 京东推出五大AI营销产品,包括数字人直播、商家客服智能体、商品图生成服务、视频混剪平台等,免费提供给商家,以提升销售效率和运营能力。 14. **字节跳动开源多模态模型BAGEL** - 字节跳动发布了一款名为BAGEL的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。该模型在多模态理解、文本到图像生成、图像编辑等方面表现出色。 - 详情链接: [ByteDance BAGEL-7B-MoT](https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT) 15. **英伟达推出新型模型Cosmos-Reason1** - 英伟达发布的Cosmos-Reason1系列模型,通过物理AI监督微调和强化学习提升AI在物理常识和具身推理上的能力,为机器人和自动驾驶领域带来新可能。 - 详情链接: [NVIDIA Cosmos-Reason1](https://github.com/nvidia-cosmos/cosmos-reason1)
AI日报 1. **美团AI编程工具“NoCode”即将上线** - 美团即将推出一款名为“NoCode”的AI编程工具,通过对话式交互实现应用构建,面向非程序员用户。 - 该工具采用Code Agent技术架构,支持复杂逻辑推理和多种任务调度,适用于数据分析、原型设计等场景。 - “NoCode”由美团研发质量与效率团队打造,现已实现与美团技术体系的打通。 - 详情链接: [https://nocode.cn/](https://nocode.cn/) 2. **火山引擎发布大模型生态广场MCP Servers** - 火山引擎推出了MCP Servers,这是一个集成了多种工具和服务的大模型生态平台,简化了AI应用开发流程。 - MCP Servers提供丰富的MCP协议适配工具,覆盖高频应用场景,无需复杂代码即可快速调用。 - 火山方舟提升模型智能交互能力,从被动执行到主动调用资源解决问题,优化用户体验。 - 详情链接: [https://www.volcengine.com/mcp-marketplace](https://www.volcengine.com/mcp-marketplace) 3. **B站开源SOTA动画视频生成模型Index-AniSora** - B站于2025年5月19日开源了最新的动画视频生成模型Index-AniSora,基于AniSora模型并引入强化学习技术框架。 - Index-AniSora支持多种二次元风格视频一键生成,涵盖番剧、国创、漫改动画等,大幅提高生产效率与质量。 - 构建高质量奖励数据集,提出AnimeReward和GAPO优化技术,显著改善生成内容的人类偏好对齐。 - 详情链接: [https://github.com/bilibili/Index-anisora/tree/main](https://github.com/bilibili/Index-anisora/tree/main) 4. **字节跳动豆包AI耳机Ola Friend升级** - 字节跳动豆包旗下的AI智能体耳机Ola Friend迎来升级,新增英语学习智能体Owen,支持实时对话,强化口语练习功能。 - Owen专为英语学习设计,问答逻辑与交互模式围绕学习需求,提供高度拟人化交互体验。 5. **GitHub推出全新AI编程智能体** - GitHub在Build大会上推出了AI编程智能体,集成于GitHub Copilot中,能自动修复漏洞、优化代码并提升开发效率。 - AI实时保存更改、记录决策过程,增强透明度与协作效率,支持企业版和Plus用户,Visual Studio Code开源,二次开发更便捷。 6. **腾讯混元上线游戏视觉生成平台** - 腾讯混元游戏视觉生成平台通过AI技术整合了传统繁琐的设计流程,极大提升了创作效率。 - 平台支持多种主流游戏风格和题材的高一致性生成,简化语言描述难度。 - 详情链接: [https://hunyuan.tencent.com/game/](https://hunyuan.tencent.com/game/) 7. **微软宣布VS Code转型开源AI编辑器** - 微软在Build2025大会上宣布,将旗下的Visual Studio Code转型为全球首款开源AI编辑器,GitHub Copilot Chat扩展完全开源。 - VS Code将升级为AI驱动的开发平台,核心在于将AI功能深度嵌入编辑器内核。 - 通过开源VS Code和Co-pilot Chat,巩固GitHub地位,对抗竞争对手的闭源模式。 8. **微软宣布Windows11原生支持MCP** - 微软通过引入模型上下文协议(MCP)使AI应用与Windows系统深度整合,开启以AI为核心的操作系统新时代。 - MCP作为AI应用与Windows互动的新标准,简化了开发者的工作流程。 - 推出Windows AI Foundry,助力开发者轻松集成AI模型至应用中。 - 详情链接: [https://blogs.windows.com/windowsexperience/2025/05/19/securing-the-model-context-protocol-building-a-safer-agentic-future-on-windows/](https://blogs.windows.com/windowsexperience/2025/05/19/securing-the-model-context-protocol-building-a-safer-agentic-future-on-windows/) 9. **Anthropic发布AI代理开发“圣经”** - Anthropic发布的AI代理开发指南强调了构建实用可靠代理的关键策略,包括结构化工作流、内存管理、工具集成等。 - 代理设计需具备推理、行动、反思等结构化工作流,而非简单无状态函数。 - 内存管理优于直接放入完整文件,采用摘要和结构化文件检索提升效率。 10. **谷歌Jules测试版全球上线** - 谷歌推出了基于Gemini2.5的AI编码代理Jules,定位为OpenAI Codex的直接竞争对手。 - Jules能自主分析代码库、制定计划并生成GitHub PR,简化开发流程,提高效率。 - 支持Python和JavaScript项目,与GitHub无缝集成,提供每日5次免费任务和2个并发任务,适合个人开发者和小型团队。 - 详情链接: [https://jules.google.com/home](https://jules.google.com/home) 11. **Google NotebookLM正式推出iOS版本** - Google NotebookLM推出iOS版本,与Android版本同步上线,新增移动端功能如便捷分享与上传、音频概述支持及平板优化。 - 整合Gemini2.5Flash模型,提升文本交互综合性和准确性。 - 详情链接: [https://notebooklm.google.com/](https://notebooklm.google.com/) 12. **Genspark创最快增长神话** - Genspark以惊人的增长速度震惊业界,仅用45天就实现了3600万美元的ARR。 - 推出AI Sheet、Agentic Download Agent和AI Drive,大幅提升生产力。 - 采用零付费分销模式,依靠口碑传播,实现高效市场渗透。 13. **Bright Data MCP服务器发布** - Bright Data推出开源MCP服务器,集成30+工具解决AI代理网络数据交互难题,提升数据采集效率。 - 动态工具选择与平台适配,支持多种平台工具,自动适配目标网站特性,简化开发者配置。 - 100%开源,提供GitHub代码支持,支持多客户端,降低使用门槛。 - 详情链接: [https://github.com/luminati-io/brightdata-mcp](https://github.com/luminati-io/brightdata-mcp) 14. **马斯克与微软携手,Grok人工智能模型将登陆Azure平台** - 在微软Build开发者大会上,马斯克宣布xAI公司的Grok3和Grok3迷你模型将被引入Azure AI Foundry平台。 - Grok模型以追求基本真理为核心,强调透明度、安全性及物理现实基础,未来将在多个领域应用。 - 马斯克展望Grok扩展至更多企业,开发者可参与并提出需求。
【AI日报】 1. **B站团队推出AniSora开源动漫视频生成模型** B站团队通过AniSora开源动漫视频生成模型,填补了动漫视频生成领域的技术空白。支持多种动漫风格的视频创作,引入时空掩码模块,提升生成质量。经过严格测试,人物与运动一致性达到当前最高标准(SOTA)。 - 详情链接:https://www.chinaz.com/feed/0519/16... 2. **OpenAI发布全新编程智能体Codex** Codex智能助手由OpenAI推出,能在30分钟内完成复杂的开发任务,并与GitHub无缝集成,极大提升了开发者效率。通过强化学习训练,确保生成的代码符合人类开发者偏好。 - 详情链接:https://top.aibase.com/ 3. **Google搜索推出AI Mode实验** Google推出了名为"AI Mode"的实验性功能,提供文本、语音和图像提问的智能问答体验,并鼓励用户反馈以持续优化服务。注重用户隐私,采取措施保护数据安全。 - 详情链接:https://support.google.com/websearch/answer/16011537?visit_id=638832352895396136-3267382421&p=aimodeavailability&rd=1#aimodeavailability 4. **ChatGPT将整合MCP协议** ChatGPT即将支持MCP协议,该协议允许其与第三方AI服务无缝对接,提供更个性化的用户体验。企业可通过此协议优化工作流程,提升效率和决策质量。 - 详情链接:无 5. **阿里通义实验室推出ZeroSearch** ZeroSearch是一种新框架,通过强化学习和少量标注数据,使大语言模型能够模拟搜索引擎,提升检索和推理能力,同时减少对真实搜索引擎的依赖,降低训练成本。 - 详情链接:无 6. **Stability AI与Arm推出手机级音频生成AI** Stability AI和Arm联合发布了稳定音频开放小型模型,该模型能在7秒内生成11秒高质量立体声音频,优化后可在移动设备上流畅运行,基于对抗相对对比技术,大幅减少参数量,适合消费级硬件。 - 详情链接:无 7. **Qwen发布全新偏好建模模型系列WorldPM** Qwen团队推出了WorldPM系列模型,包括WorldPM-72B及其衍生版本,通过大规模训练实现偏好建模的突破,为开发者提供高效优化路径。 - 详情链接:https://huggingface.co/Qwen/WorldPM-72B 8. **OpenAI揭秘GPT-5** GPT-5将整合Codex、Operator、Deep Research和Memory,简化用户操作流程。Codex的编程效率提升了三倍,并且OpenAI计划通过这一工具帮助新手开发者更快入门。 - 详情链接:无 9. **ListenHub正式上线** ListenHub是一款基于AI技术的播客生成工具,支持中文和英文,提供个性化播客体验。它以其高效的生成速度和友好的用户界面受到欢迎,适合普通用户及内容创作者。 - 详情链接:https://listenhub.ai/zh 10. **QQ浏览器升级为AI浏览器** QQ浏览器升级为AI浏览器并推出QBot,带来更智能的浏览体验,包括搜索、阅读、翻译、写作及办公辅助等功能。 - 详情链接:无 11. **数学建模的AI助手MathModelAgent** MathModelAgent是一款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程。 - 详情链接:无 12. **GenSpark推出全球首个Agentic AI下载代理** GenSpark推出的这款Agentic Download Agent工具真正实现了文件管理和信息处理的自动化与智能化,极大地简化了工作流程。 - 详情链接:无 13. **谷歌NotebookLM即将推出Sparks视频概览** 谷歌旗下的NotebookLM计划推出“Sparks”功能,将文档、笔记等转化为1-3分钟的短视频,结合Gemini2.5和Deep Research功能,实现从研究到呈现的端到端解决方案。 - 详情链接:无
【AI日报】 1. **腾讯混元图像2.0发布:毫秒级生图与超写实画质** - 腾讯发布了混元图像2.0模型,实现毫秒级生成速度和超写实画质。 - 新增实时绘画板功能,支持多图融合,优化设计流程。 - 详情链接: https://hunyuan.tencent.com/ 2. **Windsurf重磅发布SWE-1系列:全流程软件工程AI模型** - Windsurf推出SWE-1系列AI模型,涵盖从编码到终端操作的全流程,提高开发效率高达99%。 - 包含SWE-1、SWE-1-lite和SWE-1-mini三种模型,满足不同用户需求。 - 强化了对多工具协作的支持,降低部署成本。 3. **DeepSeek-V3发布新论文:低成本大模型训练的奥秘** - DeepSeek团队发布关于DeepSeek-V3的技术论文,探讨低成本大模型训练方法。 - 采用DeepSeekMoE架构和MLA架构提升内存效率,每个token仅需70KB内存。 - 通过混合专家架构显著降低激活参数数量,训练成本减少一个数量级。 - 详情链接: https://arxiv.org/pdf/2505.09343 4. **Manus推出图像生成Agent:从文字到视觉的任务执行革命** - Manus推出的图像生成Agent不仅能生成高质量图像,还能理解用户意图并协同多种工具完成复杂任务。 - 支持多语言输入与上下文理解,适用于全球市场。 - 应用于创意设计、游戏开发和营销等领域,简化工作流程并增强自动化能力。 5. **ElevenLabs发布可定制音效控制面板SB-1 Infinite Soundboard** - ElevenLabs发布基于AI的可定制音效控制面板SB-1 Infinite Soundboard,支持文本驱动的音效生成。 - 适用于直播、影视、表演等场景,提升沉浸感与创作效率。 - 免费账户解锁全部功能,广受创作者欢迎。 6. **MiniMax Speech-02登顶全球TTS榜首** - MiniMax Audio推出的Speech-02系列语音模型凭借超高语音逼真度和多语言支持,在两大权威榜单上击败众多竞争对手。 - 包括Speech-02-HD和Speech-02-Turbo两款模型,分别针对高保真和实时应用场景优化。 - 核心技术突破包括零样本克隆和多语言支持,支持30+种语言。 7. **DeepL翻译服务升级:推出自研AI模型与写作助手** - DeepL推出了新的API,用户可以通过它访问自主研发的语言模型和写作助手DeepL Write。 - DeepL Write提供写作辅助,专注提升文本质量,支持33种语言。 - 承诺保护用户数据安全,不会利用用户内容训练模型。 8. **OpenAI领跑AI工具流量市场,谷歌暂居第二** - OpenAI的AI工具流量大幅增长,占据近80%市场份额。 - 谷歌的Gemini流量稳定在2500万,未成为首选AI产品。 - DeepSeek和Grok增长迅速,正挑战谷歌市场地位。 9. **Llamafile0.9.3震撼支持Qwen3:单文件运行大模型** - Llamafile0.9.3发布,支持Qwen3系列大语言模型,通过单文件集成实现跨平台便携性。 - Qwen3加持,性能卓越,支持119种语言,适合本地化AI应用。 - 跨平台兼容性强,支持多种CPU架构,提供Web GUI和API接口。 - 详情链接: https://localhost:8080 10. **SmolVLM登场:WebGPU驱动实时网络摄像头AI** - Hugging Face推出的SmolVLM多模态模型通过WebGPU技术实现实时网络摄像头图像识别。 - 无需服务器支持,所有计算在用户设备上完成,提升隐私保护。 - 开源生态里程碑,支持多种任务,包括图像描述、物体识别和视觉问答。 - 详情链接: https://hugging-face.co/spaces/webml-community/smolvlm-realtime-webgpu 11. **Hugging Face上线MCP免费教程:一天速成AI上下文协议** - Hugging Face推出了MCP免费在线课程,帮助开发者快速掌握AI上下文交互系统。 - 详解客户端-服务器架构与JSON-RPC2.0标准,轻松开发并集成外部资源。 - 社区支持与实践导向,开源项目、Discord交流、真实案例作业助力高效学习。 - 详情链接: https://huggingface.co/learn/mcp-course/unit0/introduction 12. **复旦携手腾讯推出说话人视频生成工具DICE-Talk** - DICE-Talk是一项由复旦大学与腾讯联合研发的视频生成工具,通过身份-情感分离处理机制解决了表情跳变的问题。 - 能够解构身份信息并协同情感生成,支持多种情感状态的自然过渡。 - 用户只需上传图像和音频即可生成对应情感的动态视频。 - 详情链接: https://github.com/toto222/DICE-Talk
【AI日报】 1. **阿里通义万相Wan2.1-VACE开源** - 阿里通义万相宣布Wan2.1-VACE开源,支持多种分辨率和任务,提供一站式视频创作体验。 - 支持文生视频、图像参考生成、局部编辑与视频扩展等多种任务,提高创作效率。 - 强大的可控重绘能力,基于人体姿态、运动光流等控制生成,支持主体和背景参考。 - 提出视频条件单元VCU,统一多模态输入,实现多任务自由组合与灵活编辑。 - 详情链接: [https://github.com/Wan-Video/Wan2.1](https://github.com/Wan-Video/Wan2.1) 2. **OpenAI升级ChatGPT:正式引入GPT-4.1** - OpenAI发布了GPT-4.1及其轻量级版本GPT-4.1mini,显著增强了编码能力和指令执行体验。 - GPT-4.1具备强大的编码能力,处理复杂编程需求更高效,运行速度更快。 - GPT-4.1mini轻量级且高效,在资源受限设备上仍能流畅运行,为用户提供广泛访问渠道。 - ChatGPT新增多项功能如长按复制、表格复制和流式传输,界面优化显著提升用户体验。 3. **Stability AI开源341M超轻量文字转语音模型** - Stability AI发布了一款名为‘Adversarial Post-Training加速的快速文字转音频生成’的超轻量文字转语音模型,参数仅为341M。 - 该模型能在H100GPU上75毫秒生成12秒音频,在手机CPU上7秒完成同样任务,性能炸裂且多样性强。 - ARC后训练方法不基于蒸馏,提升模型生成速度与质量。 - 模型轻量化设计,支持手机本地运行,大幅提升移动端创意应用体验。 - 详情链接: [https://arxiv.org/pdf/2505.08175](https://arxiv.org/pdf/2505.08175) 4. **Poe报告:可灵大模型视频生成量约占30%份额** - 可灵大模型在文生视频领域市场份额达30%,领先Runway等竞争者。 - 可灵2.0模型自4月发布后三周内即占据21%视频生成市场。 - 可灵AI全球用户超2200万,月活跃用户增长25倍,生成视频与图片数量显著增加。 5. **微软WizardLM团队“集体跳槽”腾讯** - 微软的人工智能研究团队WizardLM整体加入腾讯AI实验室的“混元”团队,强化了腾讯在大模型领域的竞争力。 - Hunyuan-TurboS0416模型首次使用“混元”命名,象征着团队与腾讯的深度融合。 - 腾讯计划大幅增加AI投资,目标是在全球AI竞争中占据更为主导的地位。 6. **腾讯宣布混元图像2.0将于5月16日全新发布** - 混元图像2.0将于5月16日发布,标志着腾讯在AI视觉领域的又一重要进展。 - 新工具强调‘更智能、更开放、更中国’,助力创作者和企业迈向AI驱动的视觉生产新时代。 - 继去年混元大模型升级后,腾讯再次展示其在人工智能领域的持续创新力。 7. **上海启动人工智能标识生态联盟** - 上海市成立的人工智能标识生态联盟,旨在推动人工智能领域的标识技术发展,提高生成内容的透明度和安全性。 - 国家互联网应急中心和中国电子技术标准化研究院解读相关政策,强调国际规则与中国特色的结合。 - 小红书、MiniMax等企业参与标识工作实践,探索多种内容的标识方案并积累治理经验。 8. **Lightricks发布LTX-Video-13B精炼模型** - Lightricks发布的开源AI视频生成模型LTX-Video-13B精炼模型,以130亿参数为基础,结合多尺度渲染技术和高效量化优化。 - 10秒内生成高清视频,速度提升5倍以上。 - 开源模型,支持低显存设备运行,降低AI视频制作成本。 - 生成速度提升30倍,媲美专业影视作品,重塑内容创作生态。 - 详情链接: [https://github.com/Lightricks/LTX-Video](https://github.com/Lightricks/LTX-Video) 9. **谷歌AlphaEvolve发布!Gemini自进化AI破解数学难题** - 谷歌DeepMind发布的AlphaEvolve是一款结合Gemini大语言模型与进化算法的AI编码代理。 - 在多个领域展现了强大的自优化能力,包括数据中心调度、芯片设计、AI训练以及数学研究。 - AlphaEvolve优化数据中心调度,回收0.7%全球算力,节省运营成本。 - 提升AI训练效率,Gemini模型训练速度提升32.5%,展现强大自我优化能力。 10. **腾讯元宝浏览器插件尝鲜版上线Chrome** - 腾讯元宝浏览器插件尝鲜版上线Chrome平台,提供悬浮球、常驻侧边栏和划词工具栏等功能,提升网页浏览与信息处理效率。 - 悬浮球功能支持一键翻译和总结网页内容,轻松跨越语言障碍并节省阅读时间。 - 常驻侧边栏可高效答疑,支持截图提问,大幅提升信息获取效率。 - 划词工具栏实现选中文本后的即时搜索或翻译,让信息处理更流畅。 - 详情链接: [https://yuanbao.tencent.com/download](https://yuanbao.tencent.com/download)
### AI日报 1. **腾讯推出AI编程助手CodeBuddy** - 腾讯发布CodeBuddy 3.0插件,与微信小程序开发工具深度整合。 - 支持代码补全、智能提示等功能,提升开发效率。 - 产品链接: [https://copilot.tencent.com/](https://copilot.tencent.com/) 2. **字节跳动推出Seed1.5-VL多模态模型** - 字节跳动发布Seed1.5-VL多模态模型,仅20B参数,性能达行业领先水平。 - 支持视频理解等任务,推理成本低。 - 产品链接: [https://github.com/ByteDance-Seed/Seed1.5-VL](https://github.com/ByteDance-Seed/Seed1.5-VL) 3. **通义千问Qwen上线“深入研究”功能** - Qwen团队推出“Deep Research”智能助理系统,可梳理复杂问题并生成研究报告。 - 免费开放体验,适用于科研人员和普通用户。 4. **Manus母公司否认15亿美元融资传闻** - 蝴蝶效应公司否认关于其以15亿美元估值融资1亿美元的传闻。 - 称消息“严重失实”,并将通过官方渠道发布融资信息。 5. **Devv2.0正式开启Private Beta** - Devv2.0从AI搜索引擎转型为开发者生产力工具,覆盖更多开发周期环节。 - 利用生成式AI模型生成代码,支持无缝部署体验。 6. **苹果推出革命性AI模型Matrix3D** - 苹果发布Matrix3D模型,从少量2D照片生成3D场景,简化建模流程。 - 产品链接: [https://machinelearning.apple.com/research/large-photogrammetry-model](https://machinelearning.apple.com/research/large-photogrammetry-model) 7. **Anthropic全新AI模型Claude Neptune即将亮相** - Anthropic新模型Claude Neptune进入内部安全测试阶段,将与GPT-5等竞争。 - 注重用户安全和隐私,预计在5月底或6月初发布。 8. **清华大学与面壁智能发布端侧GUI Agent** - 清华大学与面壁智能推出AgentCPM-GUI,基于MiniCPM-V模型,支持中英文操作。 - 覆盖30多个主流中文APP,轻量级高性能模型。 9. **Flow-GRPO提升图像生成模型性能** - Flow-GRPO通过“ODE到SDE转换”和“降噪减少策略”提升图像生成模型性能。 - 在多项任务中表现优异,未来有望拓展至视频生成领域。 - 产品链接: [https://github.com/yifan123/flow_grpo](https://github.com/yifan123/flow_grpo) 10. **谷歌搜索测试“AI Mode”按钮** - 谷歌正在测试新的“AI Mode”按钮,计划取代“手气不错”按钮。 - 目前该功能仍处于实验阶段,仅对部分用户开放。 11. **阶跃星辰开源3D大模型Step1X-3D** - Step1X-3D是一个参数量达4.8B的3D大模型,能生成高保真、可控的3D内容。 - 采用两阶段架构,确保生成的几何结构可靠、真实。 - GitHub: [https://github.com/stepfun-ai/Step1X-3D](https://github.com/stepfun-ai/Step1X-3D)
### AI日报 #### 1. Manus面向所有人开放注册 - **无需邀请码**:国产AI智能体Manus宣布向所有人开放注册。 - **每日任务奖励**:用户可每日免费执行任务并获得积分奖励。 - **创新架构**:Manus通过工程化创新,将思考与行动结合,支持复杂任务的执行。 - **合作提升**:与阿里通义千问团队合作,探索国产模型与算力平台的应用,提升用户体验。 #### 2. 全球首款设计Agent Lovart内测 - **全链路自动化设计**:用户通过自然语言指令可实现全链路自动化设计,一句话搞定Logo、视频、品牌全套。 - **多模态集成**:支持图像、视频和音乐内容生成,提升创作灵活性。 - **市场潜力**:在Beta测试阶段表现出色,预计将进一步推动AI设计工具市场的发展。 - **详情链接**:[https://lovart.ai](https://lovart.ai) #### 3. 教育部划清AI使用边界 - **禁止复制AI答案**:明确禁止学生直接复制AI生成的内容作为作业或考试答案。 - **分阶段引导**:根据不同学段的特点,提出分阶段的使用策略。 - **教师引导职责**:强化教师的引导职责,确保学生在安全的环境中合理使用AI工具。 #### 4. 昆仑万维开源Matrix-Game大模型 - **首个开源10B+空间智能大模型**:专注于交互式世界生成,刷新技术上限。 - **全面量化性能**:通过GameWorld Score评测体系,从视觉质量、时序质量等四个维度全面量化性能。 - **多场景泛化能力**:支持不同地形和环境,提升用户交互体验。 - **详情链接**:[https://matrix-game-homepage.github.io](https://matrix-game-homepage.github.io) #### 5. Google Gemma AI模型下载量突破1.5亿次 - **显著进展**:Google的Gemma AI模型集合下载量突破1.5亿次,显示其在AI领域的显著进展。 - **多模态功能**:支持文本和图像处理,支持超过100种语言。 - **许可条款争议**:因复杂的许可条款受到开发者的批评。 #### 6. OpenAI推出深度研究报告一键导出PDF功能 - **一键导出**:允许用户将其深度研究报告一键导出为PDF格式。 - **实用性增强**:支持新生成和历史报告,提升了报告的实用性和分享效率。 - **企业应用**:将尖端AI技术与企业现有工作流程无缝衔接,推动了AI工具的实用化进程。 #### 7. 字节跳动发布统一图像定制框架DreamO - **多功能集成**:集成换装、换脸、风格迁移等多种功能,支持多样化的图像编辑需求。 - **低门槛**:通过灵活的参数设置,用户可以轻松实现精准的图像编辑。 - **开源特性**:促进了全球开发者的参与,推动了AI图像编辑领域的创新和应用。 - **详情链接**:[https://github.com/bytedance/DreamO](https://github.com/bytedance/DreamO) #### 8. 月之暗面Kimi界面升级 - **气泡样式优化**:改为无边界内容展示,引入多模态容器。 - **实时K线图**:提供直观的市场走势分析。 - **语音播报**:新增语音播报功能,帮助用户跟踪信息。 - **系统透明度**:用户可实时查看Kimi服务状态,增强系统透明度。 #### 9. 阿里MNN神更新! - **支持Qwen-2.5-Omni**:新版MnnLlmApp集成Qwen-2.5-Omni-3B和7B模型,支持文本、图像、音频等多模态任务。 - **本地运行**:完全本地运行,无需联网,确保数据隐私,在CPU推理上表现卓越。 - **开源属性**:成为移动端多模态AI开发的理想平台,推动了行业的快速发展。 - **详情链接**:[https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md](https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md) #### 10. ChatGPT推出SharePoint连接器 - **数据分析**:通过SharePoint连接器访问公司数据,支持数据分析与总结。 - **跨部门整合**:适用于ChatGPT Plus、Pro和Team用户,帮助跨部门信息整合。 - **数据隐私保障**:仅访问用户有权限的数据。 #### 11. 新一代开源视觉编码器OpenVision发布 - **多种模型选择**:提供26种不同模型,参数规模从590万到6.32亿。 - **灵活部署**:支持服务器级负载与边缘计算,模型可自适应补丁大小以优化性能。 - **优异表现**:在多模态基准测试中表现优异,采用渐进式训练策略提高训练效率。 - **详情链接**:[https://ucsc-vlaa.github.io/OpenVision/](https://ucsc-vlaa.github.io/OpenVision/) #### 12. 福布斯发布中国人工智能企业TOP50榜单 - **企业数量**:中国人工智能企业数量超过4500家,涵盖多个领域。 - **中西部崛起**:中西部地区企业入选数量显著增加,显示出科技创新的突破。 - **大模型主导**:11家企业在大模型领域占据22%市场份额,推动生成式AI技术商业化。 #### 13. 腾讯混元T1-Vision上线元宝 - **深度理解图片**:利用Hunyuan T1-Vision模型,能深度理解图片内容。 - **识别植物**:用户拍照即可获得植物的详细信息。 - **游戏辅助**:翻译游戏界面,帮助理解角色技能。 - **决策建议**:支持图文切换,快速提供决策建议。
【AI产品】 快手推出AI作图工具 Poify * 专注于电商领域的图像处理 * 核心功能包括文生图、图生图、AI模特试衣、背景更换 * 旨在提高商家效率,降低成本 【AI模型】 字节跳动发布开源代码模型 Seed-Coder * 8B参数,支持32K上下文 * 专注于代码生成和软件工程任务 * 在多个基准测试中表现出色 项目链接: https://github.com/ByteDance-Seed/Seed-Coder 【行业动态】 DeepSeek App 等入选2025年度十大IP * 2025世界IP经济发展大会公布评选结果 * 展示中国文化创意的多样性 【AI产品】 Claude AI API 引入网页搜索功能 * 使其能够实时访问网络信息 * 提升回答准确性 * 应用于金融、法律、开发者工具等领域 【AI模型】 苹果发布 FastVLM 视觉语言模型 * 专为高分辨率图像处理优化,适合移动设备 * 采用FastViTHD编码器,编码速度提升85倍 * 模型已开源 项目链接: https://github.com/apple/ml-fastvlm/ 【AI框架】 腾讯与清华大学合作推出 AI 框架 PrimitiveAnything * 用于3D形状的抽象与生成 * 支持从文本或图像输入生成3D内容 * 通过解码器生成可变长度的原始组件序列 项目链接: https://huggingface.co/spaces/hyz317/PrimitiveAnything 【行业动态】 首个智能文档处理基准 IDP Leaderboard 发布 * 评估视觉-语言模型在文档处理任务上的表现 * Gemini 2.5 Flash 综合实力领先,但在OCR和分类任务上表现有待改进 详情链接: https://github.com/nanonets/idp-leaderboard 【AI模型】 谷歌 Gemini 2.5 Pro 实现6小时视频理解 * 支持长达6小时视频分析,200万Token上下文窗口 * 可通过API解析YouTube链接 * 在VideoMME基准测试中准确率达84.7% 【AI研究】 研究表明用户提问方式影响AI模型准确性 * 简洁请求可能导致语言模型准确性下降,抗幻想能力降低 * 用户语气和措辞(如自信)会影响模型纠正能力 * 小模型更易受影响 【AI产品】 全球首款 AI 智能浏览器 Fellou 发布 * 具备AI智能自动化功能 * 支持深度研究模式和深度工作流模式 * 承诺本地处理数据,保障用户隐私 详情链接: https://fellou.ai 【AI技术】 NVIDIA 推出 Audio-SDS 技术 * 将 Score Distillation Sampling 扩展至音频领域 * 提升音效生成和音源分离能力 * 支持通过文本提示生成定制化音效 * 技术已开源 详情链接: https://research.nvidia.com/labs/toronto-ai/Audio-SDS/ 【行业动态】 Kimi 智能助手入驻小红书 * 标志着AI大模型在内容平台的新尝试 * 用户可在小红书与Kimi对话并一键生成笔记 * 显示Kimi策略从买量驱动转向内容与社区
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧