Album
时长:
7分钟
播放:
117
发布:
6个月前
主播...
简介...
https://xiaoyuzhoufm.com

### AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源



1. **百度飞桨PaddleOCR 3.0开源发布**


   - PaddleOCR 3.0版本提升了文字识别精度、多语种支持、手写体识别及文档解析能力,新增对国产硬件的支持。


   - 全场景文字识别模型PP-OCRv5支持五种文字类型识别,整体精度提升13%。


   - 文档解析方案PP-StructureV3强化版面检测和表格识别能力,在多场景高精度解析中表现卓越。


   - 智能文档理解方案PP-ChatOCRv4结合文心大模型,关键信息抽取精度提升15%,支持复杂文档处理。


   - 详情链接: [https://github.com/PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR)



2. **昆仑万维天工超级智能体发布**


   - 天工超级智能体基于自研Deep Research技术,是一款AI Office智能代理,成本仅为OpenAI的40%。


   - 采用多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。


   - Deep Research模型在GAIA基准测试中以82.42分超越OpenAI。


   - 开源框架和低成本部署策略使天工成为中小企业和个人开发者的理想选择。


   - 详情链接: [https://mcp.so/server/skywork-super-agents/Skywork-ai](https://mcp.so/server/skywork-super-agents/Skywork-ai)

https://skywork.ai/



3. **OpenAI核心API支持MCP**


   - OpenAI的Responses API新增MCP支持,降低AI模型与外部工具集成难度。


   - 新增功能包括图像生成、代码解释器和优化的文件搜索能力,提升开发效率。


   - MCP成为AI智能体开发的事实标准,推动跨平台协作与灵活性。



4. **xAI推出网页搜索API: Live Search**


   - xAI正式推出了Live Search API,让开发者可以利用Grok模型实时搜索来自多种数据源的信息。


   - 支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预。


   - 提供多样化数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新。


   - 高度灵活且高效集成,支持多种SDK,开发者可轻松调整基础URL和API密钥实现快速接入。


   - 详情链接: [https://docs.x.ai/docs/guides/live-search](https://docs.x.ai/docs/guides/live-search)



5. **谷歌Sparkify实验产品上线**


   - 谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频。


   - 支持多语言扩展,未来将覆盖更多地区和人群。


   - 详情链接: [https://sparkify.withgoogle.com/explore](https://sparkify.withgoogle.com/explore)



6. **Mistral重返开源阵营: 发布超高效代码AI模型Devstral**


   - Mistral AI发布了全新开源语言模型Devstral,专为代理AI软件开发设计,性能优越且支持本地运行。


   - Devstral拥有2400万参数,基于Apache2.0许可证发布,允许自由部署和商业化。


   - 在SWE-Bench验证中超越多数闭源模型,适用于本地和私有化应用场景。


   - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA)



7. **Video Ocean发布2K/4K HDR视频生成工具**


   - 潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费。


   - 详情链接: [无]



8. **谷歌推出新工具SynthID Detector**


   - SynthID Detector旨在帮助用户检测内容是否由其AI工具生成,支持图像、文本、音频和视频。


   - 该工具可自动扫描上传内容,查找并突出显示SynthID水印。


   - 当前仅向早期测试者开放,未来将逐步推广至更多用户。


   - 详情链接: [https://blog.google/technology/ai/google-synthid-ai-content-detector/](https://blog.google/technology/ai/google-synthid-ai-content-detector/)



9. **谷歌AI笔记工具NotebookLM的迅猛崛起**


   - NotebookLM月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。


   - 详情链接: [无]



10. **硅基流动升级DeepSeek-R1等推理模型API**


    - 硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量。


    - 引入独立控制思维链与回复内容长度的功能,使开发者能更灵活地调整模型性能。


    - 详情链接: [https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning](https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning)



11. **谷歌DeepMind发布新AI音乐生成模型Lyria2**


    - Lyria2具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。


    - 详情链接: [https://deepmind.google/models/lyria/](https://deepmind.google/models/lyria/)



12. **多模态大模型MMaDA**


    - MMaDA实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。


    - 详情链接: [https://github.com/Gen-Verse/MMaDA](https://github.com/Gen-Verse/MMaDA)



13. **微软发布Web智能体Magentic-UI**


    - Magentic-UI是一款以人为本的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务。


    - 详情链接: [https://github.com/microsoft/Magentic-UI](https://github.com/microsoft/Magentic-UI)



14. **Framer发布全新AI功能**


    - Framer在I/O 2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0。


    - 详情链接: [无]

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧