Aishaobing的个人播客 - 【AI日报】EP.161 6月7 通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0 - EarsOnMe

主播

Aishaobing 1 档播客

节目简介

来源：小宇宙

【AI日报】通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

1、**通义千问正式发布Qwen3-Embedding系列模型**

- Qwen3-Embedding系列基于Qwen3基础模型，提供从0.6B到8B参数规模的三种配置。

- 支持超过100种语言，具备强大的多语言、跨语言及代码检索能力。

- 在MTEB多语言榜单中得分70.58，性能超越众多商业API服务。

详情链接: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

2、**字节跳动发布图像编辑模型SeedEdit 3.0细节保持能力进一步提升**

- SeedEdit 3.0通过多样化数据融合和专用奖励模型，大幅提升图像编辑保持效果。

- 支持4K分辨率编辑，处理复杂场景如人像、光影变换时展现强大细节处理能力。

- 推理加速至10秒级，23类编辑任务评测领先，可用率提升至56.1%。

详情链接: https://seed.bytedance.com/seededit

3、**地表最强AI语音来了! Eleven v3 Alpha版震撼发布**

- Eleven v3 Alpha版引入音频标签，可精确控制情感、语速并添加音效，使语音更真实且富有表现力。

- 支持70多种语言，具备多角色对话能力，适用于影视配音、教育及客户服务等多场景。

- 技术升级后，文本理解与对话生成能力显著提升，自动标签功能简化创作流程。

4、**Anthropic发布专为国家安全定制的AI模型Claude Gov**

- Claude Gov模型套件专为国家安全机构设计，提升涉密材料处理能力。

- 产品获亚马逊和谷歌支持，仅限最高安全许可机构使用。

- Anthropic面临Reddit提起的法律诉讼，指控其未经授权使用用户数据训练模型。

5、**可灵AI月度付费金额连续两个月超1亿元，用户规模破2200万**

- 可灵AI年化收入运行率突破1亿美元，仅10个月达成。

- P端付费订阅会员贡献近70%营业收入。

- 全球用户规模突破2200万，为企业客户提供API服务。

6、**Meta发布Aria Gen2技术细节:四摄像头加持，续航8小时挑战苹果Vision Pro**

- Aria Gen2研究眼镜在硬件设计、传感器技术和AI处理能力等方面全面升级。

- 四摄像头加持，全局快门传感器解决运动失真问题，深度测量精度显著提高。

- 新增接触式麦克风，鼻托内置结构声传导技术，嘈杂环境下仍能清晰拾音。

- AI处理能力大幅增强，支持六自由度位置追踪、眼动追踪及3D手部追踪。

7、**爱诗科技PixVerse国内版“拍我AI”正式上线**

- 拍我AI通过AI特效和WoW发射器助力用户轻松创作个性化视频内容。

- 国内版支持V4.5版本，提供便捷的视频生成解决方案，满足多种需求。

- 拍我AI开放平台与多家头部企业合作，为企业用户提供高效视频生成工具。

详情链接: https://pai.video

8、**富国银行大胆预测:2030年ChatGPT广告收入将达千亿美元**

- 到2030年，ChatGPT预计占据全球搜索广告市场30%份额，年收入接近1000亿美元。

- 目前，谷歌在搜索广告领域占据超90%市场份额，但预计到2030年将降至约60%。

- ChatGPT的商业化进程可能受到与手机制造商合作及反垄断裁决的推动。

9、**王自如感谢董明珠雷军将以AI测评UP主身份二次创业**

- 6月6日，王自如的B站账号复更并更名为‘王自如AI’，开启AI测评UP主的二次创业。

- 他曾在格力重塑销售体系，得益于董明珠和雷军的鼓励，怀揣理想继续前行。

- 选择AI领域创业是因为看到其巨大潜力，认为能快速获得回报。

10、**智源发布RoboOS2.0与RoboBrain2.0:首个支持MCP机制的机器人**

- RoboOS2.0是首个支持MCP机制的机器人操作系统，降低开发门槛并提升多机器人协作能力。

- RoboBrain2.0任务规划准确率提升74%，在空间推理与智能调度方面表现卓越。

- 已与多家企业合作，共同构建开放、协同的智能机器人生态体系。

11、**谷歌重磅新作! Portraits让你与虚拟专家对话**

- Portraits是一款基于AI技术的创新产品，用户能与虚拟专家实时互动学习沟通与领导力等技能。

- 沉浸式对话学习体验，AI驱动个性化学习，动态调整内容确保针对性。

- 应用场景广泛，从职场到教育，助力个人与职业发展。

12、**OpenAudio发布开源TTS模型S1-Mini: 0.5B参数打造超自然AI语音**

- S1-Mini基于S1模型的轻量化版本，参数仅0.5B，却具备高表现力和多语言支持。

- 开源后大幅降低开发门槛，为教育、娱乐等领域带来创新可能。

- 支持14种语言与50+情感表达，性能媲美行业巨头。

详情链接: https://huggingface.co/fishaudio/openaudio-s1-mini

13、**AI驱动本地视频编辑工具Diffusion Studio Pro**

- Diffusion Studio Pro结合了CapCut和Cursor的优势，提供多模态AI赋能的非线性编辑体验。

- 内置智能代理侧边栏实现自动化工作流，显著提升创作效率。

- 本地优先设计保护隐私，免费无限层级模式吸引独立创作者和小型团队。

14、**智源研究院推出Emu3等‘悟界’系列大模型**

- ‘悟界’系列大模型包括Emu3、见微Brainμ、RoboOS2.0、RoboBrain2.0和OpenComplex2。

- Emu3作为原生多模态世界模型，整合视觉、听觉和触觉数据，提升机器对世界的理解能力。

- 见微Brainμ结合神经科学成果，为机器智能发展提供生物学支持。

- RoboOS2.0和RoboBrain2.0推动具身智能协作框架，加速机器人技术进步。

15、**Luma Labs发布Modify Video: AI视频后期一键改风格、换场景**

- Modify Video工具利用AI技术简化视频后期制作，实现风格重塑、场景替换等功能。

- 通过文本改变视频艺术风格，将背景换为新的场景，增强视觉效果。

- 调整人物外观和表演，无需重新拍摄。

【AI日报】EP.161 6月7 通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0

加入我们的 Discord

扫描微信二维码

播放列表