节目列表: Aishaobing的个人播客 - EarsOnMe

【AI日报】EP.187 7月125 字节发布同声传译模型Seed LiveInterpret；秘塔搜索API上线

【AI模型】 🗣️ 字节跳动发布同声传译模型 Seed LiveInterpret 2.0 * 中英同传翻译质量达业界顶尖水平 * 具备低延迟（仅需3秒）和实时声音复刻功能 * 显著提升跨语言交流的自然度和流畅性详情链接: https://arxiv.org/pdf/2507.17527 【AI应用】 🔎 秘塔搜索 API 上线 * 定价0.03元/查询，为开发者提供Bing Search API的替代方案 * 支持多模态搜索能力 * 无使用门槛，开发者可即测即用，提升接入效率【设计工具】 🎨 Lovart AI 正式版全球发布 * 首个人工智能设计 Agent，通过自然语言交互和全链路设计能力重塑创作体验 * 新功能 ChatCanvas 支持多轮对话和实时调整布局、配色 * 针对中国市场优化“星流 Agent”，支持中文语义和国风审美【AI模型】 🎤 李沐团队发布 Higgs Audio v2，开创语音合成新纪元 * 基于1000万小时语音数据训练，成为行业新标杆 * 支持多语言对话生成、声音克隆及韵律自动调整 * 适用于虚拟主播、语音助手等实时语音聊天和音频内容创作场景【行业动态】 🎬 Sora2浮出水面：OpenAI 欲在生成式AI视频领域重夺C位 * OpenAI 正在积极开发 Sora2，以应对谷歌Veo3的竞争 * Sora2 尚未公开发布，但未来几周内可能有更多消息 * 竞争对手谷歌Veo3已向大学生免费开放【行业动态】 🏗️ OpenAI与Oracle携手扩展Stargate项目 * 项目容量将扩大至超过5吉瓦，目标是到2029年实现10吉瓦 * 预计将创造超10万个工作岗位，推动美国AI发展 * 项目已获得超过190亿美元的资金支持【AI功能】 🖼️ Google Photos新增AI功能：照片秒变动漫、一键生成视频 * 利用Veo2模型，可将静态照片轻松转为6秒动态视频 * Remix功能由Imagen AI驱动，支持将照片转换为动漫、漫画等多种艺术风格 * 新增“创建”标签页，整合多种创意工具，提供一站式创作体验【AI功能】 ✨ YouTube Shorts将推全新AI 特效照片秒变视频 * 图片转视频功能可让静态照片在6秒内生成视频，提升短视频创作效率 * AI 特效可将涂鸦、自拍等简单素材转化为精美艺术作品 * 新一代Veo3视频生成器将同步生成音频，提供更完整的创作方案【AI模型】 📜 谷歌推出 Aeneas 模型：为古代文本解读开辟新路径 * 由谷歌DeepMind推出，旨在帮助历史学家解读古代铭文 * 能够分析古代文本的相似性，填补文本空白，减轻历史研究者的负担 * 将文本转化为“历史指纹”，帮助历史学家在更广泛的背景下解读铭文详情链接: https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past/ 【开发工具】 💻 GitHub Spark横空出世：一句话打造Web应用 * 允许用户通过自然语言描述需求，快速生成完整的Web应用 * 提供全托管运行环境，支持一键部署和PWA适配，简化开发流程 * 与GitHub生态深度整合，支持多模型选择，提升开发效率详情链接: https://github.blog/changelog/2025-07-23-github-spark-in-public-preview-for-copilot-pro-subscribers/ 【硬件产品】 ✒️ 华为M-Pencil Pro发布 * 定价699元，具备16384级压感和侧旋功能，提升创作真实感 * 笔尾智慧键可一键唤起小艺智能助手，提升操作便捷性 * 支持星闪精确查找功能，精确定位50米范围内的手写笔

6分钟

99+

10个月前

【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔

Aishaobing的个人播客

【AI大模型】谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版 * 速度与成本达到良好平衡，支持高达100万 token 的上下文 * 定价具竞争力：每百万输入token为0.10美元，输出为0.40美元 * 开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本【语音技术】腾讯混元自主研发ASR大模型接入ima平台 * 为ima平台提供高效的语音输入体验，实现手机App端语音输入 * 采用基于双编码器的流式ASR架构，在中英文混杂场景中表现突出 * 支持多语言及方言识别，未来将持续优化【AI编程】通义千问开源最新AI编程大模型Qwen3-Coder * 模型在代码生成和Agent能力上达到顶尖水平 * 拥有强大的MoE架构和256K长上下文处理能力 * 参数量高达480B，适用于大规模代码库和动态数据处理详情链接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code 【AI硬件】 360将推智能眼镜和AI录音笔 * AI录音笔能智能分析不同场景并总结要点 * 智能眼镜将配备显示功能，以创造新应用场景 * 智能眼镜可充当提词器和翻译工具，提升沟通效率【医疗AI】国内首个通过主任医师评测的大模型已在夸克AI搜索上线 * 夸克健康大模型成功通过主任医师笔试评测，展现强大医学推理能力 * 通过构建“慢思考能力”，提升复杂医疗问题的处理能力 * 拥有千人规模专业医师标注团队，确保模型输出的专业性【AI视频】 Hedra Live Avatars震撼发布，开启人机交互新纪元 * 超低成本：每分钟仅0.05美元，降低高质量视频AI代理的准入门槛 * 超低延迟：低于100毫秒的响应时间，确保实时交互的流畅性 * 高度灵活：兼容主流大语言模型和文本转语音技术详情链接:https://www.hedra.com 【图像处理】谷歌 Gemini2.5革新图像处理功能 * 推出“对话式图像分割”，通过自然语言提示分析和突出显示图像内容 * 不止识别物体，更能理解抽象概念、关系查询和逻辑指令 * 开发者可通过 Gemini API 访问该功能，返回 JSON 格式结果【AI大模型】 Meta 推出创新模型 AU-Nets，革新文本处理方式 * 通过自回归的 U-Net 结构，实现对文本的灵活处理 * 能够从原始字节开始学习并动态组合成多层次的序列表示 * 采用收缩和扩张路径，确保宏观语义信息和局部细节的有效融合详情链接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet 【业界动向】苹果 AI 团队内部风波：自主研发与开源梦碎 * 苹果AI团队开源计划被高层否决，担忧模型在设备端性能不足 * 苹果坚持设备优先策略，限制了AI技术发展潜力 * 苹果或将转向与OpenAI、谷歌等第三方大模型合作以提升Siri功能【AI动画】 Fogsight AI革新教育演示，一键生成教学动画 * 基于大型语言模型的AI动画引擎，将抽象概念转化为直观易懂的动画 * 输入关键词或短语，即可生成包含双语旁白和电影级视觉效果的动画短片 * 支持多轮对话调整动画内容，满足个性化需求详情链接:https://github.com/fogsightai/fogsight

6分钟

99+

10个月前

【AI日报】EP.185 7月122 Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人

Aishaobing的个人播客

【3D模型】 🖼️ Stability AI发布实时重建模型SPAR3D * 0.7秒内从单张图像完成3D重建 * 结合回归和生成式建模，提升速度与精度 * 采用点扩散模型和三平面Transformer架构项目链接：https://github.com/Stability-Al/stable-point-aware-3d 【开源框架】 🚀 开源AI协作智能体CrewAI获3.4万星 * 基于Python的AI智能体框架，注重自主性与协作 * 核心由Crews和Flows两部分组成 * 在GitHub上已吸引超过10万名开发者项目链接：https://github.com/crewAllnc/crewAl?tab=readme-ov-file 【AI应用】 👶 马斯克宣布推出儿童版AI“Baby Grok” * 专注于为儿童提供友好型内容 * 因其安全性和内容审核问题引发公众担忧【AI工具】 🛠️ ComfyUI-Copilot让AI工作流一键生成 * 通过自然语言描述快速生成工作流，降低使用门槛 * 支持自动优化参数和灵活选择模型，提高创作效率 * 开源社区驱动，持续更新优化【行业报告】 📈 CNNIC：我国346款生成式AI完成备案 * 生成式AI渗透率达80.9%，产业规模持续增长 * 技术突破并加速应用普及，在多领域实现深度融合【AI工具】 📝 AI提示词管理工具AI Gist上线 * 注重用户隐私，数据默认存储在本地 * 集成多种AI模型，提供自动生成和调优功能 * 支持Windows、macOS和Linux多平台项目链接：https://github.com/yarin-zhang/Al-Gist 【语言学习】 🦜 开源版多邻国WordPecker发布 * 通过AI语音对话和个性化词汇，提升语言学习速度 * 集成OpenAI语音Agent，提供实时语音对话与发音反馈 * 项目托管于GitHub，允许开发者自由修改和优化项目链接：https://github.com/baturyilmaz/wordpecker-app 【AI Agent】 🐙 斯坦福推出多工具协作AI Agent OctoTools * 结合11种工具，有效处理复杂的推理任务 * 在数学、科学和医学等领域测试准确率高 * 采用规划器和执行器分离设计，提升系统可靠性项目链接：https://github.com/octotools/octotools 【行业动态】 🚀 OpenAI计划到2025年底启用100万GPU * 旨在推动AI技术发展，展现技术扩容雄心 * Stargate项目将投资5000亿美元建设AI基础设施【数字人】 👤 火山引擎“奇美拉”数字人平台启动封测 * 提供数字人生成、图片换装、视频翻译等服务 * 依托火山引擎AI大模型技术 * 预计本月底启动公测，按使用次数或时长计费【开源Agent】 🤖 京东重磅开源JoyAgent-JDGenie * 在GAIA基准测试中准确率达75.15% * 支持多模态输入输出，具备跨任务记忆优化机制 * 完全开源且模块化，便于二次开发与部署项目链接：https://github.com/jd-opensource/joyagent-jdgenie

6分钟

99+

10个月前

【AI日报】EP.184 7月17字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral

Aishaobing的个人播客

【AI编程】字节跳动 AI 编程工具 TRAE 2.0 即将发布 * 新增语音交互功能，提升编程效率 * 基于 VS Code 内核，提供类 Co pilot 的辅助体验 * 带来更强大的编码功能【大模型】 Mistral 推出开源音频模型 Voxtral * Mistral 首个开源音频模型，旨在打破大型企业封闭系统垄断 * 具备强大的语音理解能力，支持英语、西班牙语、法语等多语言 * 提供 Voxtral Small 和 Voxtral Mini 等不同参数版本，适应不同部署需求【行业动态】月之暗面回应 Kimi K2 API 速度慢问题 * 主要原因系访问量激增和模型体积庞大 * 官方正积极优化系统并加大硬件投入 * Kimi K2 完全开源，用户可选择其他模型供应商接入【AI框架】昆仑万维发布分层多智能体协作框架 AgentOrchestra * 模仿交响乐团协作模式，让不同专长的智能体协同工作 * 通过分层架构和异步协程技术，提升复杂任务处理能力和系统响应速度 * 多项指标在权威基准测试中超越商业和开源系统详情链接：https://arxiv.org/pdf/2506.12508 【AI融资】 OpenAI 前 CTO 新公司 Thinking Machines Lab 获 20 亿美元融资 * 由 OpenAI 前 CTO 米拉・穆拉蒂创办，估值达 120 亿美元 * 成为硅谷历史上最大的种子轮融资之一 * 公司首款产品将在未来数月内发布，包含重要的开源项目【大模型】 Kimi-2 上线 LiveBench AI，性能超越 GPT-4.1 * 由开源团队开发的混合专家模型(MoE)，性能表现亮眼 * API 定价低至每百万 tokens 0.15 美元，具备成本优势和开源特性 * 代码生成能力超越 Claude Opus 4 和 GPT-4.1，位列全球第三【AI应用】 TRAE.ai 推出 Kimi-K2 模型服务，国际版新增 Grok-4 * 正式上线 Kimi-K2 模型，该模型基于混合专家架构 * 国际版新增超级模型 Grok-4 (Beta)，为开发者提供更多选择 * 用户可通过简单步骤在 TRAE.ai 平台接入 Kimi-K2 详情链接：https://www.trae.ai 【AI研究】字节跳动开源 POLARIS 强化学习方法，提升小模型数学能力 * Seed 团队联合港大、复旦推出创新强化学习训练方法 POLARIS * 采用该方法训练的 4B 开源模型 Qwen3-4B，数学能力超越部分更大规模闭源模型 * 通过多阶段 RL 训练和动态数据调整，提升模型训练的稳定性和有效性详情链接：https://github.com/ChenxinAn-fdu/POLARIS 【AI应用】腾讯 AI 工作台 ima 网页版上线 * 免下载，通过浏览器即可访问，解决系统不兼容问题 * 支持随时随地查阅知识库和提问 * 提供划线记笔记、小窗问答等轻便功能，提升工作效率源链接：ima.qq.com

5分钟

99+

11个月前

【AI日报】EP.183 7月15 美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线

Aishaobing的个人播客

【AI影像】美图发布影像AI Agent RoboNeo，一句话搞定修图建站 * 通过自然语言交互方式整合图片精修、品牌设计、网页制作等功能 * 能够理解并执行复杂的影像处理需求 * 适用于电商运营、品牌推广及中小商家，提升效率详情链接:https://www.roboneo.com/ 【模型动态】 Unsloth AI发布1.8bit量化Kimi K2模型，显著降低部署成本 * 成功将Kimi K2模型从1.1TB缩减至245GB，压缩率达80% * 在大幅降低体积的同时保持了全部代码测试性能 * 支持内存卸载功能，可在有限硬件资源下运行模型【模型排行】谷歌Gemini嵌入模型登顶MTEB排行榜，超越OpenAI * 在MTEB多语言排行榜中以68.37分登顶，超越OpenAI * 支持多语言，适用于全球非英语用户，具有广泛的应用潜力 * 采用双向Transformer编码器架构和均值池化策略，提升模型适应性详情链接:https://aistudio.google.com/prompts/new_chat 【开发工具】亚马逊推出AI代码编辑器Kiro，可免费使用Claude4/3.7Sonnet * 强调规范驱动开发，解决传统AI编码工具的问题 * 基于Code OSS平台构建，兼容VS Code插件，支持多AI模型 * 提供自动化机制与多模态输入，提升开发效率与灵活性详情链接:https://kiro.dev/ 【产品更新】 Claude重磅升级，一键链接MCP工具目录，AI工作流效率飙升 * 新增“应用和工具目录”功能，简化AI与外部工具的集成流程 * MCP协议实现AI与外部工具的无缝连接，降低接入门槛 * 支持Web端远程MCP和桌面端本地MCP，满足多样场景需求【AI融资】 MiniMax新一轮近3亿美元融资敲定，跻身三百亿大模型俱乐部 * 完成新一轮近3亿美元融资，投后估值超过40亿美元 * 引入上海国资作为新股东，首次获得国资背景投资 * 成为国内仅有的两家估值达300亿元人民币的大模型公司之一【技术标准】全新工具调用协议UTCP发布，让AI代理直接对接工具，降低延迟 * AI代理可直接调用工具，减少了传统调用中的延迟和复杂性 * 支持HTTP、gRPC、WebSocket和CLI等多种接口类型 * 提供TypeScript和Python SDK方便开发者快速上手详情链接:https://github.com/universal-tool-calling-protocol 【产品更新】 xAI Grok迎来重大更新：推出动漫AI伴侣并开启网页版语音模式 * Grok推出动漫风格AI伴侣功能，用户可与3D虚拟角色互动 * 网页版语音模式提供五种独特语音选项，并支持屏幕共享功能 * 语音模式扩展至网页端，降低对移动设备的依赖，适合桌面办公详情链接:https://x.ai/grok 【市场动态】 Kimi K2在OpenRouter的平台市场份额超过了xAI * 作为开源大语言模型，在OpenRouter平台的token消耗量迅速增长 * 凭借开源策略和低成本定价迅速提升市场份额 * 在编码、推理和代理智能任务方面表现出色

7分钟

99+

11个月前

【AI日报】EP.182 7月14 月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

Aishaobing的个人播客

【AI大模型】 🤖 月之暗面开源万亿参数大模型Kimi K2 * 采用混合专家架构，参数量达万亿 * 具备强大的自主工具调用和代码执行能力 * 开源策略推动多场景应用发展【具身智能】 🦾 智源全面开源RoboBrain2.0与RoboOS2.0 * RoboBrain2.0具备强大时空认知能力，刷新多项基准 * RoboOS2.0为全球首个具身智能SaaS开源框架 * 支持多智能体协作，推动群体智能发展详情链接:https://github.com/FlagOpen/RoboBrain2.0 【AI应用】 💬 通义千问发布Qwen Chat桌面客户端 * 新增深入研究、图像生成等多种强大功能 * 支持一键唤起调用MCP * 实现桌面端与网页端无缝衔接【AI工具】 🎙️ 影视级TTS神器IndexTTS2发布 * 支持完全本地化部署 * 实现零样本语音克隆，精准还原音色节奏 * 首创情绪克隆与文本情绪控制功能详情链接:https://index-tts.github.io/index-tts2.github.io/ 【具身智能】 🤖 HuggingFace推出开源桌面机器人Reachy Mini * 5小时销售额突破13万欧元 * 有线版和无线版定价分别为299美元和499美元 * 模块化设计，具备教学与测试潜力【AI视频】 🎬 Meta发布StreamDiT，单GPU实时生成高质量视频 * 能以16fps的速度实时创建512p视频 * 采用定制架构和加速技术实现高效逐帧生成 * 在动态视频生成方面展现显著优势【AI视频】 ✨ PixVerse“拍我AI”上线多关键帧生成功能 * 用户可上传最多7张图片作为关键帧 * AI智能解析帧间关系，构建流畅动作和场景转换 * 适用于短剧分镜、产品演示等场景【行业动态】 🚗 特斯拉推出Grok AI助手 * 旨在提升驾驶体验 * 目前仅支持搭载AMD锐龙处理器的车型 * 未来将通过软件更新扩展功能【行业动态】 ⏳ OpenAI因安全测试推迟开源大模型发布 * Sam Altman强调需要更多时间进行安全测试 * 称模型权重一旦发布便无法撤回，安全是首要任务 * 用户普遍理解并认可安全测试的重要性【AI大模型】 ⚡ Liquid AI开源边缘AI模型LFM2 * 专为边缘设备优化，提升训练和推理效率 * 推理速度比Qwen3快2倍，训练速度提升3倍 * 支持长上下文处理，适合隐私敏感的本地化AI应用详情链接:https://huggingface.co/collections/LiquidAl/lfm2-686d721927015b2ad73eaa38 【AI趣闻】 🧑‍🦳 AI“时间穿越”挑战在社交媒体走红 * 用户使用ChatGPT、抖音特效等工具将照片“变老” * 娱乐性质的技术体验吸引大量用户参与 * 效果虽不完美但引发广泛兴趣

7分钟

99+

11个月前

【AI日报】EP.181 7月12 智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

Aishaobing的个人播客

**AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型** 1. **智谱上线PPT生成功能AI Slides** - 智谱推出了全新的AI Slides功能，基于GLM-Experimental模型。 - 可根据用户提供的主题或文档快速生成高质量的PPT。 - 生成的PPT结构清晰，数据图表直观。 - 完全免费，用户可通过chat.z.ai体验。 - 详情链接: https://chat.z.ai 2. **可灵 AI 发布可图2.1模型** - 可灵 AI 发布了新一代图像生成模型“可图2.1”。 - 在指令遵循、人像美感和电影质感等方面有显著提升。 - 支持超过180种风格响应，为用户提供更丰富的创作选择。 - 用户可免费体验7天。 3. **NVIDIA 推出 DiffusionRenderer** - NVIDIA 和其合作伙伴推出的 DiffusionRenderer 是一项突破性的技术。 - 能够将视频生成与编辑结合，实现对3D场景的理解和操作。 - 通过神经逆渲染器和神经前向渲染器协同工作，提升了视频的真实感和适应性。 - 实际应用包括动态光照、材料编辑和对象插入，助力创作者轻松进行视频创作。 - 详情链接: https://youtu.be/jvEdWKaPqkc 4. **墨刀AI重磅上线** - 墨刀AI推出全新原型生成功能。 - 用户只需30秒即可从想法生成高保真、可编辑的原型。 - 支持多轮对话优化和局部修改，提升产品设计与验证效率。 5. **Higgsfield Soul ID火爆全球** - Higgsfield AI 推出的 Soul ID 工具，能够通过上传10张以上个人照片生成高度个性化的虚拟形象。 - 核心功能包括真实感与多样性的完美融合、多样化风格预设以及自动提示词优化。 - 详情链接: https://higgsfield.ai/ 6. **谷歌DeepMind开源GenAI Processors** - 谷歌DeepMind开源了 GenAI Processors 库，支持开发者构建异步、可组合的生成式AI工作流。 - 该库支持多模态数据处理，显著提升了基于 Gemini API 的应用程序开发效率。 - 详情链接: https://github.com/google-gemini/genai-processors 7. **谷歌Veo3新增图像转视频功能** - 谷歌在AI视频生成领域持续发力，推出图像转视频功能并强化内容识别机制。 - 用户可上传照片生成视频片段，并添加描述音频，支持下载或分享作品。 - 所有使用 Veo3 模型生成的视频将带有可见和不可见的数字水印，确保内容可追溯性。 8. **Mistral AI 发布 Devstral2507** - Mistral AI 与 All Hands AI 合作推出 Devstral2507 系列模型，包含开源的 Devstral Small1.1 和企业版的 Devstral Medium2507。 - 这些模型专注于代码推理、程序合成和结构化任务执行。 - Devstral Small1.1 在 SWE-Bench 基准测试中得分53.6%，而 Devstral Medium2507 得分为61.6%。 - 两款模型支持与代码代理框架集成，适用于多种应用场景。 - 详情链接: https://huggingface.co/mistralai/Devstral-Small-2507

6分钟

99+

11个月前

【AI日报】EP.180 7月11 xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本

Aishaobing的个人播客

**AI日报：xAI震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案** 1. **xAI震撼发布Grok4，超强推理+代码神器Grok4Code** - xAI推出了全新旗舰AI模型Grok4，性能全面升级。 - Grok4在数学、逻辑推理和代码生成等核心基准测试中表现卓越。 - 推出Grok4Code专为开发者设计，支持实时数据整合。 - 存在信息准确性争议。 2. **微软全新Phi-4-mini版发布：推理效率提升10倍，轻松适配笔记本** - 微软开源了Phi-4-mini-flash-reasoning模型，推理效率提升10倍。 - 适合边缘设备运行，采用SambaY架构，高效记忆共享提升解码性能。 - 在Phonebook任务准确率达78.13%，显示强大的长上下文理解能力。 - 详情链接: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning 3. **上海累计82款大模型已经通过备案** - 上海在垂类模型落地方面取得显著成效，累计82款大模型通过备案。 - 徐汇的“模速空间”和浦东的“模力社区”成为人工智能发展的示范区。 - 提供全周期融资支持，形成从“种子期”到“成熟期”的融资体系。 4. **Hugging Face推出Reachy Mini机器人，赋能开源AI开发者** - Hugging Face推出了两款开源桌面机器人Reachy Mini，适合不同预算和需求的开发者。 - 机器人预装演示程序，与Hugging Face Hub深度集成，拓展开发潜力。 - Hugging Face坚持开源理念，希望实现人人可控制机器人的未来。 5. **Perplexity AI推出Comet浏览器，挑战谷歌Chrome市场地位** - Perplexity AI推出的Comet浏览器旨在挑战谷歌Chrome的市场地位。 - 核心功能是预装的Perplexity AI搜索，能够根据搜索结果生成AI摘要。 - Comet的AI助手可以自动识别用户浏览内容并回答相关问题，简化上网体验。 - 详情链接: https://comet.perplexity.ai/ 6. **OpenAI计划发布开放权重模型，打破“闭源”惯例** - OpenAI即将推出首个开放权重模型，允许公司和政府在Azure、Hugging Face等云平台上运行。 - 打破了与微软的独家云协议，可能对人工智能领域产生深远影响。 - 新模型类似o3mini，具备强大的推理能力，引发AI界广泛关注。 7. **谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行** - 谷歌推出的HAI-DEF项目及其扩展的MedGemma和MedSigLIP模型，为医疗AI开发提供强大支持。 - MedGemma适合生成自由文本任务，而MedSigLIP专注于图像分类与检索。 - 开放模型的灵活性使开发者能够在本地环境中安全地优化和微调模型。 - 详情链接: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/ 8. **OpenAI收购艾维创办的AI硬件公司，交易金额近65亿美元** - OpenAI以近65亿美元收购了乔纳森·艾维创办的AI硬件公司io Products。 - 收购后，io团队将与OpenAI合并，艾维的设计公司LoveFrom将继续独立运作。 - 该交易在监管机构批准后完成，之前因商标纠纷而暂时下架相关资料。

7分钟

99+

11个月前

【AI日报】EP.179 7月10 阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频

Aishaobing的个人播客

### AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支持静态图片生成视频；昆仑万维发布 Skywork-R1V 3.0 **1. 阿里通义开源支持链式推理的音频生成模型ThinkSound** - 阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound。 - 该模型通过引入思维链技术，突破传统视频转音频技术的局限，实现高保真、强同步的空间音频生成。 - ThinkSound首次将多模态大语言模型与统一音频生成架构结合，实现精准音频合成。 - 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集，提升模型处理复杂指令的能力。 - ThinkSound在多个测试集中表现优于主流方法，代码和预训练权重已开源，开发者可免费获取。详情链接: - [GitHub](https://github.com/FunAudioLLM/ThinkSound) - [Hugging Face](https://huggingface.co/spaces/FunAudioLLM/ThinkSound) - [ModelScope](https://www.modelscope.cn/studios/iic/ThinkSound) **2. 谷歌Veo3重磅升级，支持静态图片生成生动视频** - 谷歌宣布对AI视频生成工具Veo3进行重磅升级，用户只需上传一张静态照片即可生成高质量的音频和视频内容。 - Veo3的核心功能包括保持角色在多个镜头下的一致性，并提供丰富的运镜功能，如推镜头。 - 用户可以选择不同质量的生成模型，但需要消耗相应的credits资源。 **3. Hugging Face发布新一代小参数模型SmolLM3: 128K上下文，双模式推理** - Hugging Face发布了SmolLM3，一款具有30亿参数的小型开源模型，性能优于Llama-3.2-3B和Qwen2.5-3B。 - 该模型支持多种语言处理，并具备双模式推理功能，同时公开了架构细节以促进研究与优化。 - SmolLM3采用先进的transformer解码器架构，通过三阶段混合训练提升能力。详情链接: - [Hugging Face](https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base) **4. 阿里开源WebSailor，具备强大的推理和检索能力** - 阿里通义开源了网络智能体WebSailor，在中英文任务的BrowseComp评测集中表现出色，超越了DeepSeek R1和Grok-3等闭源模型。 - 银河证券指出AI Agent经济全面开启，并建议关注布局领先的SAAS企业。 - 相关上市公司如焦点科技和中科金财已在AI Agent技术应用上有所布局，推动了智能体技术的发展。详情链接: - [GitHub](https://github.com/Alibaba-NLP/WebAgent) **5. Moonvalley发布Marey Realism v1.5: 原生1080P AI视频模型，零版权风险引领行业新风向** - Moonvalley推出的Marey Realism v1.5 AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。 - 该模型具有原生1080P视频生成能力，基于授权内容的训练数据以及精准解读复杂提示的能力，为影视制作和广告创意提供了更安全、高效的工具。 **6. Vidu Q1震撼升级: 参考转视频支持最多七张图像，AI视频生成再创新高** - Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像，生成视觉一致性极高的1080p视频。 - 该技术通过语义融合确保多图像元素在视频中保持一致，解决了传统AI视频生成中的场景断裂或角色失真问题。 **7. 苹果研发类似ChatGPT AI客服助手，提升用户体验** - 苹果公司正在开发一款基于人工智能的‘支持助手’，旨在为用户提供更智能和高效的客户服务体验。 - 该功能已在Apple Support应用代码中被发现，未来将允许用户在联系客服前获得AI生成的解决方案，提高服务效率。 **8. 飞书重磅发布多款AI新品，打造企业级“豆包”** - 飞书发布了多款AI产品，包括知识问答、AI会议、Aily、飞书妙搭等，旨在加速AI在企业级应用中的落地。 - 同时，飞书还推出了业界首个AI应用成熟度模型，帮助企业评估AI产品的实际效果。 **9. 微软、OpenAI与Anthropic联合推出教育工作者AI培训中心** - 美国教师联合会（AFT）联合微软、OpenAI和Anthropic成立全国人工智能教育学院，旨在为教师提供免费的AI工具培训。 - 该项目获得2300万美元资金支持，推动教育领域的技术变革。 **10. 昆仑万维重磅发布Skywork-R1V3.0: 跨模态推理能力直逼人类专家** - 昆仑万维发布Skywork-R1V3.0，展现出卓越的多模态推理能力，训练样本少但表现出色，达到了人类专家水平。 - Skywork-R1V3.0在跨模态推理中取得76.0分，超越多款闭源模型。 - 该模型使用1.2万条微调样本和1.3万条强化学习样本进行训练，在物理、逻辑和数学推理测试中表现优异。

7分钟

99+

11个月前

【AI日报】EP.178 7月8 B站或将推“代号H” AI创作工具；智元发布哪吒机器人灵犀X2-N

Aishaobing的个人播客

### AI日报 1. **B站或将推出“代号H”AI创作工具** - B站计划推出一款名为“代号H”的AI创作工具，以帮助视频播客创作者提高效率。 - 该工具旨在节省寻找视频素材和剪辑的时间，助力视频播客业务的增长。 - B站还提供流量支持和免费录制场地等扶持政策，吸引更多播客创作者入驻。 2. **智元发布哪吒机器人灵犀X2-N** - 智元公司发布了哪吒机器人灵犀X2-N，具备轮足双形态切换功能。 - 足式状态下，机器人具有卓越的越障能力，可盲走上台阶并携带重物稳健前行。 - 轮式形态下，机器人能够高效移动，适应复杂地形如单边桥、斜坡等。 3. **宇树科技冲刺科创板IPO** - 宇树科技正加速冲刺科创板IPO，并已完成约7亿元人民币的C轮融资，投后估值达120亿元。 - 融资阵容包括中国移动、腾讯、阿里等知名机构，表明其上市进程已进入关键阶段。 4. **开源多模态大模型EarthMind** - EarthMind是一个开源多模态大模型，专为处理复杂的地球观测数据而设计。 - 引入空间注意力提示（SAP）模块，提升像素级理解的精准度。 - 通过跨模态融合和多粒度理解，实现不同传感器数据的有效整合与分析。 5. **Gemini CLI重磅更新** - Gemini CLI最新版本带来了多项功能改进，包括音视频处理、Markdown增强、隐私保护升级等。 - 新增音视频处理能力，扩展工具应用场景。 - 隐私保护功能强化，用户数据控制更透明。 - 兼容性优化，支持更多编辑器和跨平台使用。 - 详情链接: [https://github.com/google-gemini/gemini-cli](https://github.com/google-gemini/gemini-cli) 6. **隐形AI桌面助手Glass** - Glass是一款由Pickle团队开发的开源AI桌面助手，专为macOS设计。 - 运行于后台，实时捕捉屏幕活动和音频，智能分析并将信息转化为结构化知识。 - 采用‘隐形设计’，不干扰用户隐私和操作流畅性。 - 详情链接: [https://github.com/pickle-com/glass](https://github.com/pickle-com/glass) 7. **Claude即将发布Claude Neptune v3模型** - Anthropic正在测试代号为‘Claude Neptune v3’的新AI模型，处于内部红队测试阶段。 - 该模型在数学推理能力上表现突出，可能媲美OpenAI的o3Pro和Google的Kingfall模型。 - 计划通过Neptune v3优化模型的上下文窗口和工具使用能力，以应对复杂任务需求。 8. **OpenAI宣布GPT-5将整合多种模型** - OpenAI宣布GPT-5将整合O系列的推理能力和GPT系列的多模态功能，提升整体性能。 - GPT-5预计在夏季发布，旨在减少用户在不同模型间切换的需求。

6分钟

99+

11个月前

【AI日报】EP.177 7月5 腾讯元宝升级一句话搜索图片视频；微信支付MCP上线

Aishaobing的个人播客

### AI日报 #### 1. 腾讯元宝升级：一句话搜索图片视频腾讯元宝迎来重大更新，用户只需一句话提问即可获得图文并茂的回答。无论是学习新技能还是解决生活难题都变得更加简单。 - **一句话搜索**：智能匹配图片和视频号内容 - **直观学习**：提供手把手教学体验 - **生活助手**：轻松解决生活小问题 #### 2. 微信支付MCP上线：AI与支付的完美结合微信支付推出MCP功能，为AI应用提供了新的盈利渠道，并通过数据闭环提升了商业效率。 - **新盈利渠道**：用户可通过支付直接完成服务获取 - **数据闭环**：商家能实时调整服务内容和价格以优化ROI - **提升价值**：交易数据成为AI优化服务的来源，创造更多盈利机会详情链接: [https://yuanqi.tencent.com/mcp-shop](https://yuanqi.tencent.com/mcp-shop) #### 3. 谷歌Veo3视频生成模型向Pro/Ultra会员开放谷歌最新一代AI文生视频模型Veo3已向Google AI Pro和Ultra会员开放，支持高清画质、音画同步能力和多模态创作功能。 - **高清视频**：支持1080p高清视频，内部测试可达4K分辨率 - **音画同步**：自动生成环境音效、角色对白和背景音乐 - **多输入支持**：支持文字或图像输入生成视频，适用于复杂提示词指令和多镜头叙事计划新增“照片生成视频”功能。 #### 4. 开源DeepSeek R1增强版：推理效率提升200% DeepSeek-TNG-R1T2-Chimera采用创新AoE架构，提升了推理性能并节省了token输出。 - **性能提升**：AoE架构优化MoE模型，提升推理性能 - **测试表现**：在MTBench和AIME-2024测试中表现优于普通R1版本 - **成本降低**：权重合并与优化技术显著降低模型复杂性和计算成本详情链接: [https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera](https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera) #### 5. 美图WHEE推出“一句话修图”功能美图WHEE推出的“一句话修图”功能，让用户通过简单的语音指令即可完成复杂的修图操作。 - **简单修图**：通过一句话实现修图效果 - **多种风格**：支持未来感、怀旧文艺范等多种风格切换 - **文字处理**：可以添加或去除文字，精准处理照片中的文字内容 #### 6. Ambiq Micro申请美国IPO Ambiq Micro在2024年实现了16.1%的净销售额增长，尽管仍处于亏损状态，但其在超低功耗半导体领域的技术优势使其在边缘AI市场占据有利地位。 - **销售增长**：2024年净销售额增长16.1%，达到7610万美元 - **亏损情况**：2024年亏损3970万美元，面临客户集中风险 - **市场定位**：专注于超低功耗半导体，目标是“边缘AI”市场 #### 7. 昆仑万维再次开源奖励模型Skywork-Reward-V2 昆仑万维开源了第二代奖励模型Skywork-Reward-V2系列，涵盖8个不同参数规模的模型，在多个主流评测榜单中取得最优成绩。 - **模型系列**：包含8个模型，参数从6亿到80亿不等 - **数据集**：构建了4000万对偏好对比的数据集，采用人机协同两阶段流程提升数据质量 - **评估表现**：在多个评估基准上表现优异，尤其在通用偏好、正确性及高级能力测试中领先详情链接: [https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84](https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84) #### 8. Kyutai TTS发布：超低延迟语音合成 Kyutai TTS的发布标志着开源AI语音技术迈入新阶段，其超低延迟、高精度语音输出及多语言支持为开发者提供了强大的工具。 - **低延迟**：支持文本流式传输，延迟低至350毫秒 - **高精度**：英语和法语的词错误率分别低至2.82和3.29 - **开源模式**：允许自由使用、修改和分发，推动全球AI社区创新与技术进步详情链接: [https://kyutai.org/next/tts](https://kyutai.org/next/tts) #### 9. Figma拟以约200亿美元估值登陆纽交所 Figma拟以200亿美元估值登陆纽交所，凭借其财务稳健性、技术创新和市场扩展战略，展现了强大的增长潜力。 - **上市计划**：计划以约200亿美元估值在纽交所上市 - **财务表现**：2024年收入达7.49亿美元，拥有15.4亿美元现金储备 - **AI布局**：积极布局AI技术，推出Figma Make等工具，未来将整合生成式AI优化设计流程 #### 10. 字节跳动开源Trae-Agent 字节跳动开源Trae-Agent，提升编程效率，支持多语言模型，提供强大开发工具。 - **多模型支持**：兼容OpenAI等多种语言模型 - **功能集成**：内置文件编辑和脚本执行，支持复杂编程场景 - **日志记录**：自动保存操作日志，提升开发透明度与调试便利性产品链接: [https://github.com/trae-agent](https://github.com/trae-agent)

7分钟

99+

11个月前

【AI日报】EP.176 7月4 B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D

Aishaobing的个人播客

【A日报】科技创新动态概览 1. **字节跳动EX-4D震撼开源** - **技术亮点**: 通过深度密闭网格（DW-Mesh）和轻量级适配架构，从单目视频生成高质量、多视角的4D视频序列。 - **性能表现**: 在FID、FVD和VBench等指标上全面领先现有方法。 - **详情链接**: https://github.com/tau-yihouxiang/EX-4D 2. **Bilibili AniSora V3版重大更新** - **功能提升**: 显著提升了生成质量、动作流畅度和风格多样性。 - **技术支持**: 基于CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架。 - **详情链接**: https://t.co/I3HPKPvsBV 3. **DeepSWE开源AI Agent系统强势登顶** - **技术基础**: 基于Qwen3-32B模型，采用rLLM框架和改进的GRPO++算法。 - **性能表现**: 在SWE-Bench-Verified测试中表现出色，Pass@1准确率达到了59%。 - **详情链接**: https://huggingface.co/agentica-org/DeepSWE-Preview 4. **字节跳动VINCIE-3B模型开源** - **技术亮点**: 支持上下文连续图像编辑，基于MM-DiT架构开发。 - **训练方法**: 视频驱动训练、块因果扩散变换器以及三重代理任务训练。 - **详情链接**: https://huggingface.co/ByteDance-Seed/VINCIE-3B 5. **Stability AI Stable Audio Open Small开源** - **技术特点**: 专为移动设备优化，支持离线处理，具备高效、低延迟和高质量输出。 - **参数压缩**: 参数量压缩至341M，适合移动端运行。 - **详情链接**: https://huggingface.co/stabilityai/stable-audio-open-small 6. **谷歌Gemini for Education发布** - **覆盖范围**: 支持40多种语言，覆盖230多个国家和地区。 - **免费开放**: 对所有Google Workspace for Education用户完全免费。 - **安全保障**: 严格遵循隐私条款，确保用户数据安全。 7. **Topview Avatar2发布** - **技术创新**: 实现产品与数字人的自然交互，提升视频制作效率和内容质量。 - **功能特点**: 全球首创AI数字人“穿戴”产品，一键生成定制化视频，支持多语言口型同步。 - **详情链接**: https://www.topview.ai/ai-product-avatar 8. **Perplexity推出Max订阅计划** - **定价**: 每月200美元或每年2000美元。 - **特权**: 无限量访问Labs、优先体验新功能及最新前沿模型支持。 - **目标用户**: 高频用户和专业人士。 9. **Cursor挖走Anthropic核心人物** - **事件影响**: 标志着AI编程市场竞争加剧。 - **加入Anysphere**: Boris Cherny和Cat Wu推动产品创新。 - **业务增涨**: Anthropic收入和估值显著增长。 10. **OpenAI声明Robinhood代币与其无关** - **声明内容**: OpenAI明确表示这些代币并非其股权，且与Robinhood没有合作关系。 - **市场反响**: Robinhood股价因该消息上涨，创下历史新高。

7分钟

99+

11个月前

【AI日报】EP.187 7月125 字节发布同声传译模型Seed LiveInterpret；秘塔搜索API上线

【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔

【AI日报】EP.185 7月122 Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人

【AI日报】EP.184 7月17字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral

【AI日报】EP.183 7月15 美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线

【AI日报】EP.182 7月14 月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

【AI日报】EP.181 7月12 智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

【AI日报】EP.180 7月11 xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本

【AI日报】EP.179 7月10 阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频

【AI日报】EP.178 7月8 B站或将推“代号H” AI创作工具；智元发布哪吒机器人灵犀X2-N

【AI日报】EP.177 7月5 腾讯元宝升级一句话搜索图片视频；微信支付MCP上线

【AI日报】EP.176 7月4 B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D

加入我们的 Discord

扫描微信二维码

播放列表

Aishaobing的个人播客 - 节目列表

【AI日报】EP.187 7月125 字节发布同声传译模型Seed LiveInterpret；秘塔搜索API上线

【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder；​360将推智能眼镜和AI录音笔

【AI日报】EP.185 7月122 Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人

【AI日报】EP.184 7月17字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral

【AI日报】EP.183 7月15 美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线

【AI日报】EP.182 7月14 月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

【AI日报】EP.181 7月12 智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

【AI日报】EP.180 7月11 xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本

【AI日报】EP.179 7月10 阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频

【AI日报】EP.178 7月8 B站或将推“代号H” AI创作工具；智元发布哪吒机器人灵犀X2-N

【AI日报】EP.177 7月5 腾讯元宝升级一句话搜索图片视频；微信支付MCP上线

【AI日报】EP.176 7月4 B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D

加入我们的 Discord

扫描微信二维码

播放列表

【AI日报】EP.186 7月124 通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔