Aishaobing的个人播客 - 【AI日报】EP.65 12月26 AI 阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人； - EarsOnMe

主播

节目简介

来源：小宇宙

【行业突破】

🤖 阿里发布多模态推理模型QVQ-72B! 视觉、语言能力双提升

*   QVQ-72B模型融合强大语言和视觉能力，处理复杂推理任务。

*   多步推理提升物理和数学推理准确率，减少错误。

*   高效信息提取能力，支持技术报告和图表分析。

*   详情链接: huggingface.co

🤖 投资三家机器人公司后，OpenAI欲自研人形机器人

*   OpenAI投资三家机器人公司，积极布局机器人领域。

*   旗舰模型O3在AGI测试中超越人类，技术优势明显。

*   面临市场竞争和硬件研发挑战，需快速补齐短板。

【产品更新】

🎧 QQ音乐14.0版本上线，发布首个AI大模型音效、智能匹配听歌音效

*   AI大模型音效提供个性化听觉体验，提升空间感和层次感。

*   伴唱功能升级，自由调节伴唱模式、播放速度和音调。

*   多款个性化设置，享受个性化听歌体验。

🌐 讯飞星火浏览器插件新升级，新增翻译总结、继续提问等AI功能

*   新增“继续提问”功能，深入讨论，获取更高质量答案。

*   网页全局对照翻译，支持12种语言，打破语言障碍。

*   一键朗读功能，提高外语口语水平。

🛠️ 字节开源 Midscene.js: AI驱动的E2E测试框架迎来突破

*   Midscene.js通过自然语言与网页交互，简化E2E测试流程。

*   Shortest工具利用AI自动生成测试用例，减少重复性工作时间。

*   AI技术提升基础E2E测试场景自动化水平。

*   详情链接: github.com

【技术前沿】

👁️‍🗨️ DeepMind项目MegaSaM : 输入普通视频即可预估相机视角和景深

*   MegaSaM系统从普通动态视频快速准确估计相机参数和深度图。

*   克服传统方法在动态场景不足，适应复杂环境实时处理。

*   实验显示MegaSaM准确性和运行效率优于以往技术。

*   详情链接: mega-sam.github.io

📄 Fireworks AI推出文档解析神器! AI轻松读懂复杂文件

*   Document Inlining提供高质量文本输出，优于传统文本型LLM。

*   支持PDF、图片等多种格式，准确提取复杂文档关键信息。

*   解析含表格和图表复杂文档，转换为LLM可理解文本。

*   详情链接: fireworks.ai

【业界动态】

👨‍💻 字节TikTok算法负责人陈志杰或将离职，投身AI Coding方向创业

*   陈志杰即将离职字节跳动，专注于AI Coding创业。

*   AI Coding市场前景广阔，预计到2032年将超295亿美元。

*   国内市场投资人关注AI Coding，多个项目涌现。

🤯 果然最强 !OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

*   o3在ARC-AGI基准测试中获75.7%高分，超越以往模型。

*   o3解决每个谜题成本高达17到20美元，计算量巨大。

*   专家强调o3尚未达到AGI标准。

🔓 打错字也能 “越狱”GPT-4o、Claude: 揭秘AI聊天机器人的脆弱性!

*   研究发现，拼写错误等技巧可轻易 “越狱”AI聊天机器人。

*   BoN越狱技术在多种AI模型中成功率达52%，有些高达89%。

*   此技术在音频和图像输入中同样有效，显示AI脆弱性。

🤨 尴尬! 谷歌被曝用Claude模型进行对比测试来改进Gemini AI

*   Gemini正与Claude进行对比测试，提升自身AI模型性能。

*   承包商负责评分，比较涉及真实性和安全性等标准。

*   Anthropic禁止未授权使用Claude进行竞争性模型训练。

🩺 研究发现，OpenAI 的 o1-preview 在诊断复杂医疗病例方面优于医生

*   o1-preview诊断率超医生，达88.6%准确率。

*   医疗推理方面，o1-preview在80个病例中获78个满分。

*   实际应用中高成本和不切实际测试建议仍需解决。

*   详情链接: arxiv.org

【AI日报】EP.65 12月26 AI 阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；

加入我们的 Discord

扫描微信二维码

播放列表