【模型更新】 🧠 阿里新发布Qwen3-4B模型:小巧强劲,手机也能跑 AI!
* 阿里通义千问团队发布的小型语言模型,为移动端AI应用提供新路径。
* Qwen3-4B-Instruct-2507性能超越闭源模型GPT-4.1-nano,接近大规模模型Qwen3-30B-A3B。
* Qwen3-4B-Thinking-2507在数学推理评测中表现出强大的逻辑推理能力。
【模型开源】 📖 小红书发布开源多模态大模型 dots.vlm1
* 由小红书Hi Lab发布,基于NaViT视觉编码器和DeepSeek V3大语言模型。
* 在图表推理、STEM数学推理等方面表现突出,性能接近Gemini2.5Pro和Seed-VL1.5。
* 采用原生自研的NaViT视觉编码器,支持动态分辨率,提升了图文对齐质量。
【模型上线】 🗣️ MiniMax Speech 2.5语音生成模型上线
* 新一代语音生成模型,在中文方面保持全球最强水平。
* 支持40种语言切换,音色复刻达到行业天花板级精度。
* 多语种覆盖范围扩展至40个语种,助力全球化内容创作。
【产品更新】 🎬 Midjourney 推出 HD 视频模式
* 为专业用户提供更高清、更高质量的视频生成工具。
* 分辨率和清晰度显著提升,成本约为SD模式的3.2倍。
* 通过不断优化技术,与OpenAI的Sora和Runway的Gen-4等展开竞争。
【工具更新】 CURSOR 1.4正式发布:聚焦异步长程任务
* 增强异步和长程任务处理能力,支持后台Agent运行。
* 优化大型代码库的索引与搜索功能,提升代码补全和查询效率。
* 推动AI编码工具向全自动化转型,增强Agent自主性及协作功能。
详情链接:https://cursor.com/en/changelog
【行业动态】 📈 谷歌否认AI搜索功能影响网站流量
* 谷歌声称AI搜索未显著影响网站流量,但数据显示零点击搜索比例显著增加。
* 谷歌强调点击质量提高,但未提供具体数据支持其结论。
* 用户趋势转向Reddit和TikTok等其他平台,导致谷歌流量变化。
【模型开源】 📱 MiniCPM-V4.0开源发布,堪称“手机上的GPT-4V”
* 轻量级多模态大模型,参数量仅4.1B,展现强大的图像、视频理解能力。
* 在iPhone16Pro Max上实测,首次响应延迟不到2秒,解码速度超17token/秒。
* 提供丰富的生态支持,兼容主流框架,并提供iOS应用及教程。
详情链接:https://github.com/OpenBMB/MiniCPM-o
【硬件支持】 💻 AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型
* AMD与高通联合宣布支持OpenAI的gpt-oss系列模型,推动边缘计算与AI结合。
* 锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器。
* 高通骁龙平台展示了gpt-oss-20b的出色推理能力。
【框架开源】 📦 腾讯重磅开源WeKnora!
* 基于大语言模型的文档理解与检索工具,能从PDF、Word等格式中提取结构化内容。
* 支持多模态文档解析、多轮对话和自然语言查询。
* 采用模块化架构设计,便于灵活配置和扩展。
详情链接:https://github.com/Tencent/WeKnora
【行业传闻】 📢 OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露
* 一份疑似GPT-5的详细说明信息在GitHub Models平台上意外曝光。
* GPT-5被描述为OpenAI最先进的模型,在推理、代码质量和用户体验方面有重大改进。
* 信息显示GPT-5将推出gpt-5、gpt-5-mini、gpt-5-nano和gpt-5-chat等多个版本。
【新品发布】 🎤 FlowSpeech: 全球首个书面语转口语的TTS
* 创新的AI文本转语音工具,能将书面文字转化为自然流畅的口语表达。
* 通过上下文感知和多模态技术,解决传统TTS语调和情感表达不足的问题。
* 计划推出个性化声音定制服务,拓展应用边界。
详情链接:https://listenhub.ai/zh?tab=flowspeech
空空如也
暂无小宇宙热门评论