Aishaobing的个人播客 - 【AI日报】EP.194 8月8 阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1 - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【模型更新】 🧠 阿里新发布Qwen3-4B模型：小巧强劲，手机也能跑 AI!

* 阿里通义千问团队发布的小型语言模型，为移动端AI应用提供新路径。

* Qwen3-4B-Instruct-2507性能超越闭源模型GPT-4.1-nano，接近大规模模型Qwen3-30B-A3B。

* Qwen3-4B-Thinking-2507在数学推理评测中表现出强大的逻辑推理能力。

【模型开源】 📖 小红书发布开源多模态大模型 dots.vlm1

* 由小红书Hi Lab发布，基于NaViT视觉编码器和DeepSeek V3大语言模型。

* 在图表推理、STEM数学推理等方面表现突出，性能接近Gemini2.5Pro和Seed-VL1.5。

* 采用原生自研的NaViT视觉编码器，支持动态分辨率，提升了图文对齐质量。

【模型上线】 🗣️ MiniMax Speech 2.5语音生成模型上线

* 新一代语音生成模型，在中文方面保持全球最强水平。

* 支持40种语言切换，音色复刻达到行业天花板级精度。

* 多语种覆盖范围扩展至40个语种，助力全球化内容创作。

【产品更新】 🎬 Midjourney 推出 HD 视频模式

* 为专业用户提供更高清、更高质量的视频生成工具。

* 分辨率和清晰度显著提升，成本约为SD模式的3.2倍。

* 通过不断优化技术，与OpenAI的Sora和Runway的Gen-4等展开竞争。

【工具更新】 CURSOR 1.4正式发布：聚焦异步长程任务

* 增强异步和长程任务处理能力，支持后台Agent运行。

* 优化大型代码库的索引与搜索功能，提升代码补全和查询效率。

* 推动AI编码工具向全自动化转型，增强Agent自主性及协作功能。

详情链接:https://cursor.com/en/changelog

【行业动态】 📈 谷歌否认AI搜索功能影响网站流量

* 谷歌声称AI搜索未显著影响网站流量，但数据显示零点击搜索比例显著增加。

* 谷歌强调点击质量提高，但未提供具体数据支持其结论。

* 用户趋势转向Reddit和TikTok等其他平台，导致谷歌流量变化。

【模型开源】 📱 MiniCPM-V4.0开源发布，堪称“手机上的GPT-4V”

* 轻量级多模态大模型，参数量仅4.1B，展现强大的图像、视频理解能力。

* 在iPhone16Pro Max上实测，首次响应延迟不到2秒，解码速度超17token/秒。

* 提供丰富的生态支持，兼容主流框架，并提供iOS应用及教程。

详情链接:https://github.com/OpenBMB/MiniCPM-o

【硬件支持】 💻 AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型

* AMD与高通联合宣布支持OpenAI的gpt-oss系列模型，推动边缘计算与AI结合。

* 锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器。

* 高通骁龙平台展示了gpt-oss-20b的出色推理能力。

【框架开源】 📦 腾讯重磅开源WeKnora!

* 基于大语言模型的文档理解与检索工具，能从PDF、Word等格式中提取结构化内容。

* 支持多模态文档解析、多轮对话和自然语言查询。

* 采用模块化架构设计，便于灵活配置和扩展。

详情链接:https://github.com/Tencent/WeKnora

【行业传闻】 📢 OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露

* 一份疑似GPT-5的详细说明信息在GitHub Models平台上意外曝光。

* GPT-5被描述为OpenAI最先进的模型，在推理、代码质量和用户体验方面有重大改进。

* 信息显示GPT-5将推出gpt-5、gpt-5-mini、gpt-5-nano和gpt-5-chat等多个版本。

【新品发布】 🎤 FlowSpeech: 全球首个书面语转口语的TTS

* 创新的AI文本转语音工具，能将书面文字转化为自然流畅的口语表达。

* 通过上下文感知和多模态技术，解决传统TTS语调和情感表达不足的问题。

* 计划推出个性化声音定制服务，拓展应用边界。

详情链接:https://listenhub.ai/zh?tab=flowspeech

【AI日报】EP.194 8月8 阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1

加入我们的 Discord

扫描微信二维码

播放列表