【行业突破】
🤖 阿里发布多模态推理模型QVQ-72B! 视觉、语言能力双提升
* QVQ-72B模型融合强大语言和视觉能力,处理复杂推理任务。
* 多步推理提升物理和数学推理准确率,减少错误。
* 高效信息提取能力,支持技术报告和图表分析。
* 详情链接: huggingface.co
🤖 投资三家机器人公司后,OpenAI欲自研人形机器人
* OpenAI投资三家机器人公司,积极布局机器人领域。
* 旗舰模型O3在AGI测试中超越人类,技术优势明显。
* 面临市场竞争和硬件研发挑战,需快速补齐短板。
【产品更新】
🎧 QQ音乐14.0版本上线,发布首个AI大模型音效、智能匹配听歌音效
* AI大模型音效提供个性化听觉体验,提升空间感和层次感。
* 伴唱功能升级,自由调节伴唱模式、播放速度和音调。
* 多款个性化设置,享受个性化听歌体验。
🌐 讯飞星火浏览器插件新升级,新增翻译总结、继续提问等AI功能
* 新增“继续提问”功能,深入讨论,获取更高质量答案。
* 网页全局对照翻译,支持12种语言,打破语言障碍。
* 一键朗读功能,提高外语口语水平。
🛠️ 字节开源 Midscene.js: AI驱动的E2E测试框架迎来突破
* Midscene.js通过自然语言与网页交互,简化E2E测试流程。
* Shortest工具利用AI自动生成测试用例,减少重复性工作时间。
* AI技术提升基础E2E测试场景自动化水平。
* 详情链接: github.com
【技术前沿】
👁️🗨️ DeepMind项目MegaSaM : 输入普通视频即可预估相机视角和景深
* MegaSaM系统从普通动态视频快速准确估计相机参数和深度图。
* 克服传统方法在动态场景不足,适应复杂环境实时处理。
* 实验显示MegaSaM准确性和运行效率优于以往技术。
* 详情链接: mega-sam.github.io
📄 Fireworks AI推出文档解析神器! AI轻松读懂复杂文件
* Document Inlining提供高质量文本输出,优于传统文本型LLM。
* 支持PDF、图片等多种格式,准确提取复杂文档关键信息。
* 解析含表格和图表复杂文档,转换为LLM可理解文本。
* 详情链接: fireworks.ai
【业界动态】
👨💻 字节TikTok算法负责人陈志杰或将离职,投身AI Coding方向创业
* 陈志杰即将离职字节跳动,专注于AI Coding创业。
* AI Coding市场前景广阔,预计到2032年将超295亿美元。
* 国内市场投资人关注AI Coding,多个项目涌现。
🤯 果然 最强 !OpenAI 新模型o3在ARC-AGI基准测试得分破纪录
* o3在ARC-AGI基准测试中获75.7%高分,超越以往模型。
* o3解决每个谜题成本高达17到20美元,计算量巨大。
* 专家强调o3尚未达到AGI标准。
🔓 打错字也能 “越狱”GPT-4o、Claude: 揭秘AI聊天机器人的脆弱性!
* 研究发现,拼写错误等技巧可轻易 “越狱”AI聊天机器人。
* BoN越狱技术在多种AI模型中成功率达52%,有些高达89%。
* 此技术在音频和图像输入中同样有效,显示AI脆弱性。
🤨 尴尬! 谷歌被曝用Claude模型进行对比测试来改进Gemini AI
* Gemini正与Claude进行对比测试,提升自身AI模型性能。
* 承包商负责评分,比较涉及真实性和安全性等标准。
* Anthropic禁止未授权使用Claude进行竞争性模型训练。
🩺 研究发现,OpenAI 的 o1-preview 在诊断复杂医疗病例方面优于医生
* o1-preview诊断率超医生,达88.6%准确率。
* 医疗推理方面,o1-preview在80个病例中获78个满分。
* 实际应用中高成本和不切实际测试建议仍需解决。
* 详情链接: arxiv.org
空空如也
暂无小宇宙热门评论