节目列表: Aishaobing的个人播客 - EarsOnMe

【AI日报】EP.127 4月2 Runway发布新视频模型Gen-4；宇树G1直播5分钟带货破百万

【视频生成】 Runway 发布 AI 视频生成模型 Gen-4 * 具备卓越的角色和场景一致性功能。 * 用户只需提供单个参考图像即可在不同环境生成一致角色。 * 无需额外微调，易于使用。详情链接: https://runwayml.com/research/introducing-runway-gen-4?ref=top.aibase.com 【机器人】 AI机器人主播首秀告捷，宇树G1淘宝直播5分钟带货破百万 * Unitree G1人形机器人在淘宝直播间完成首次带货直播。 * 5分钟内销售额突破128万元。 * 展示了AI智能、运动能力和高情商交互。【OpenAI】 OpenAI 计划未来几个月内发布一款“开源” AI模型 * 旨在应对行业竞争压力。 * 模型将允许用户在本地硬件运行，降低成本，支持定制。 * 承诺进行严格测试，并鼓励开发者申请提前使用。详情链接: https://openai.com/open-model-feedback/ 【Apple】 iOS18.4正式版发布苹果智能支持中文（需等待） * 新增5G-A网络支持，理论速度达1400Mbps。 * 上线苹果智能功能，新增多语言支持（国行中文需等待监管批准）。 * 相册和控制中心更新，增加便捷功能。【AI创作】 Krea 上线3D功能并重构网站：从文本到立体 * 允许用户通过文本或2D图像快速生成可交互的3D对象。 * 网站界面重构，更简洁直观。 * 推出限时活动，订阅用户可免费训练自定义风格。【视频生成】 Higgsfield AI 发布全新视频模型：电影级相机控制 * 发布生成式视频模型“DoP I2V-01-preview”。 * 特点是专业级相机控制和电影化表现力。 * 支持预设相机模式实现多种动态效果。【AI硬件】网易有道发布AI硬件产品Youdao OpenEar开放式耳机 * 采用开放式耳挂设计，提供舒适佩戴体验。 * 配备DNS3.0 AI降噪技术和复合振膜喇叭。 * 支持单手操控、多设备切换和AI助手唤醒。【OpenAI】 OpenAI官宣成功融资400亿美元估值达到3000亿美元 * 完成新一轮融资，由软银集团主导，微软等参与。 * 资金将用于推动AI研究、扩大计算基础设施、支持Stargate项目。【行业预测】 2025年全球生成式 AI 支出将达6440亿美元 * Gartner预测，2025年全球生成式AI支出将达6440亿美元，增长76.4%。 * 硬件支出将占80%。 * 企业将从内部项目转向成熟商业解决方案。【OpenAI】 OpenAI因用户激增暂停Sora新用户视频生成功能 * 因用户量激增和流量压力，暂时禁用新用户的Sora视频生成功能。 * 现有用户不受影响。 * 团队正在加班提升系统承载能力。【行业并购】马斯克的xAI宣布以450亿美元收购社交平台 X * 旨在结合xAI的AI能力与X的用户基础。 * xAI通过Grok AI聊天机器人与X已建立联系。 * X平台估值近期回升至440亿美元。

4分钟

99+

1年前

【AI日报】EP.126 4月1 智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用

Aishaobing的个人播客

【AI Agent】智谱发布Agent产品AutoGLM沉思：首个实现边想边干的智能体 * AutoGLM沉思是首个实现边想边干的智能体，能够同时进行复杂思考与执行操作。 * 该产品可以像人类一样浏览网页，完成数据检索、分析和报告生成的全流程任务。 * 智谱GLM全栈自研大模型为AutoGLM沉思提供了强大的技术支持，性能和速度上均有显著提升。【AI大模型】谷歌发布全新AI模型Gemini 2.5 Pro 免费开放使用 * Gemini 2.5 Pro现已免费向所有用户开放，打破了之前的付费限制。 * 新模型在推理能力上显著提升，支持多种功能并允许文件上传。 * Gemini 2.5 Pro具备100万token的上下文窗口，未来计划扩展至200万token。【AI应用】ChatGPT 原生图像生成功能悄然向免费用户推出 * ChatGPT 的图像生成功能已向所有免费用户开放，用户可以体验新颖的创作方式。 * 功能的推出引发了关于版权和抄袭的争议，尤其是与吉卜力工作室的作品有关。 * OpenAI表示由于高使用率将暂时施加速率限制，并计划给予免费用户每天三次生成机会。【AI工具】告别节点噩梦! ComfyUI-Copilot发布，具备GPT-4o同款图像生成与编辑能力 * ComfyUI-Copilot通过自然语言交互简化了复杂的AI图像生成流程，用户无需技术基础即可轻松上手。 * 该工具集成了多项实用功能，能够实时推荐模型、解释节点作用，并在出现问题时提供修复建议。 * ComfyUI-Copilot的推出被视为AI图像生成工具的革命，能够显著提升创作效率。【AI产业】飞猪首度公布AI成果:在线客服效率激增54%，商家发品人效翻倍 * AI辅助编码渗透率达到70%，酒店商务人员 100% 配备智能体。 * 在线客服效率提升54%，AI客服处理约十分之一的用户问询。 * 飞猪未来三年将以AI为驱动，实现供应链质量与规模双重突破。【AI工具】AI版论文搜索Ai2PaperFinder:输入主题AI自动搜索全部相关论文 * Ai2PaperFinder汇聚超过800万篇全文论文和1.08亿篇摘要，提供强大的文献检索功能。 * 用户可通过简单的关键词搜索，快速找到相关研究，无论是热门还是冷门主题。 * 平台正在开发新工具，以进一步提升用户体验。详情链接:https://paperfinder.allen.ai/chat 【AI研究】告别AI“一本正经”!Midjourney联手NYU解锁创意文本新维度,多样性飙升23%! * 新方法通过引入偏差指标，提升语言模型创意文本的多样性。 * 初步测试显示，文本多样性提高23%，质量损失仅5%。 * 未来将公开代码。【AI教育】阿里云与南京大学联合启动人工智能人才培养合作计划 * 南京大学与阿里云启动人工智能人才培养合作计划，旨在培养跨学科的AI 创新人才。 * 阿里云为南京大学在校生提供免费云计算和 AI 资源，支持教学和科研。 * 双方将联合开展学术交流，推动科技成果转化。【AI教育】腾讯混元大模型应用实战课程正式上线国家智慧教育平台 * 课程提供全面的AI大模型技术知识，帮助师生高效应用于教育和科研。 * 促进高校师生之间的互动与合作，激发创造力与科研热情。 * 为教育数字化转型提供动力。【AI融资】具身智能企业千寻智能完成5.28亿元Pre-A轮融资 * 本轮融资由阿美风险投资旗下的Prosperity7Ventures领投，招商局创投等多家知名资本参与。 * 千寻智能致力于打造世界级通用人形机器人，已成功研发出高精度全身力控的商用级人形机器人Moz1。 * 公司在AI领域取得关键技术突破，成功实现柔性物体长程操作。

4分钟

99+

1年前

【AI日报】EP.125 3月29 阿里最新视觉推理模型QVQ-Max；可灵AI上新AI音效功能

Aishaobing的个人播客

【视觉模型】阿里巴巴发布最新视觉推理模型 QVQ-Max * 由阿里巴巴Qwen团队推出，具备强大的多模态信息处理能力。 * 能够理解图片和视频，进行深入分析与推理。 * 应用场景涵盖教育、编程和艺术创作等。 * 用户可通过Qwen Chat平台体验。【视频生成】快手可灵AI全面焕新升级 * 上新“AI音效”功能，丰富音频表达。 * 新增“资产管理”功能，提升文件管理效率。 * 优化视觉设计和交互体验，采用极简主义风格。【语言模型】 ChatGPT迎来重大升级：GPT-4o性能飙升 * 推出新版GPT-4o模型，在理解、执行指令、多任务处理和创造性输出方面显著提升。 * 推出全新记忆功能“Moonshine Nux V2”，可跨越对话保持记忆。【开发工具】 Cline现已支持Gemini 2.5 Pro * 为开发者提供免费的编码和调试工具。 * Gemini 2.5 Pro具备长上下文窗口和多模态能力。源链接：https://openrouter.ai/ 【AI助手】豆包推出新版深度思考功能 * 支持“边想边搜”，结合推理与搜索，提升信息处理能力。 * 可用于方案制定、写作辅助等场景。【语言模型】 OpenAI升级 GPT-4o * 付费用户可即刻体验新版GPT-4o。 * 免费用户需等待数周才能体验。 * 新版提升了处理复杂指令、技术与编程能力、直觉与创造力。【图像生成】 Midjourney V7将于3月31日发布 * 新版本距离V6发布已有22个月。 * 旨在提升图像生成的细节、美学质量、视觉连贯性和自然语言理解。 * 降低艺术创作门槛。【企业服务】 OpenAI推新功能：ChatGPT可直接连接企业内部知识库 * 允许ChatGPT Team用户将内部知识库（如Google Drive）与平台连接。 * 支持语义搜索，学习组织特定语言和术语。 * 旨在提升信息响应效率和决策质量。参考链接：https://lnkd.in/g3gmZjXR 【AI视频】 PIKA新功能发布：AI视频技术“让您遇见更年轻的自己” * 允许用户通过童年照片和自拍视频生成与“年轻版自己”互动的视频。 * 支持自定义动作和表情。详情链接：https://pika.art/login 【AI助手】 Nvidia 推出 G-Assist：本地运行的 AI 助手 * 专为GeForce RTX显卡设计，在本地运行。 * 具备系统诊断、游戏优化、GPU超频等功能。 * Nvidia提供开发者平台，鼓励用户反馈。【音乐生成】开源版Suno来了！AI音乐生成模型YuE发布 * 由香港科技大学与DeepSeek合作开发。 * 可生成多种风格音乐并模拟人声，质量媲美闭源工具。 * 采用双LLaMA语言模型架构和音乐上下文学习技术。详情链接：https://github.com/multimodal-art-projection/YuE 【行业融资】中国初创公司蝴蝶效应谋求5亿美元融资 * 旗下AI智能体Manus能执行多种任务。 * 目标估值5亿美元，主要目标市场为美国，也开始在中国提供服务。 * 计划在东京开设办公室，拓展日本市场。

7分钟

99+

1年前

【AI日报】EP.124 3月28 OpenAI官宣支持MCP协议；阿里开源全模态模型Qwen2.5-Omni

Aishaobing的个人播客

【阿里】 🤖 阿里通义千问开源新一代多模态模型 Qwen2.5-Omni * 阿里云通义千问团队发布，支持文本、图像、音频、视频无缝处理。 * 采用 Thinker-Talker 架构，可进行实时音视频交互。 * 在多模态基准测试中表现优异，超越现有模型。详情链接: https://chat.qwenlm.ai 【OpenAI】 🤝 OpenAI 宣布支持 Anthropic 的 MCP 标准 * 旨在提升 AI 助手在特定查询中的响应准确性和相关性。 * MCP 允许 AI 模型从多种数据源获取信息，将应用于 ChatGPT 桌面版等产品。 * 多家公司已加入 MCP 支持行列，推动开放标准发展。详情链接: https://openai.github.io/openai-agents-python/mcp/ 【图像生成】 ✨ Ideogram 正式发布 3.0 版本 * 在真实感、创意表现和风格一致性方面取得重要进步。 * 提升文本渲染能力，支持复杂排版设计。 * 新增“Style Reference”和“Random Style”功能。 * 优化算法架构，大幅提升生成速度。【视频生成】 🚀 可灵 AI 重大更新 * 优化多图参考功能，提升生成速度和语义理解准确度。 * 上线视频延长功能，适合短视频创作者和专业用户。 * 界面更新，更加简洁直观。【OpenAI】 💰 OpenAI 即将完成由软银领投的 400 亿美元融资 * 据彭博社报道，该轮融资将使 OpenAI 估值达到 3000 亿美元。 * 融资将使其成为 AI 领域史上最大规模的融资之一。 * 显示市场对 AI 技术的认可和投资者对 OpenAI 的信心。【电商】 🛡️ 淘宝全平台启动 AI 假图治理 * 严厉打击利用 AI 技术生成欺骗性图片的行为。 * 要求商家使用真实商品图片，禁止呈现显著失真的合成图。 * 呼吁全行业共同维护电商环境公平与透明。【AI搜索】 📈 AI 搜索引擎 Perplexity 年收入突破 1 亿美元 * 过去一年实现 6.3 倍增长。 * 公司正计划融资 5 亿至 10 亿美元，估值或达 180 亿美元。 * Sonar AI 模型已向 Pro 用户开放。【美图】 📝 美图 WHEE 接入 DeepSeek R1 实现提示词优化 * 利用 DeepSeek 的提示词设计能力，帮助用户生成高质量图像。 * 提示词优化功能可自动补全关键词，降低使用门槛。【OpenAI】 💾 OpenAI 计划建设数据中心，或成全球最大存储客户之一 * 考虑建立首个数据中心，预计投资数十亿美元采购硬件和软件。 * 目标存储容量高达 5EB。 * 旨在减少对云服务商的依赖，可能降低运营成本。

7分钟

99+

1年前

【AI日报】EP.123 3月27 OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿

Aishaobing的个人播客

【AI大模型】OpenAI 推出全新图像生成模型GPT-4o，挑战Google一句话P图 * 新模型支持高质量图像生成，能够精确渲染文本内容，提供多种输入输出方式。 * GPT-4o采用自回归模型，能处理10至20个复杂指令，展现出更强的图像生成能力。 * 所有生成图像带有C2PA元数据标识，确保内容来源可追溯，增强安全性。【AI应用】可灵AI营收超1亿，收入主要来自C端订阅服务 * 可灵AI自推出以来营业收入超1亿，成为国内视频生成AI的商业化标杆。 * 快手通过AI技术升级现有业务，推动研发与收益的良性循环，已进行20多次版本迭代。 * 可灵AI在国际市场上竞争力强，用户群体迅速增长，成为全球内容创作者的热门选择。【AI大模型】谷歌发布全新推理AI模型 Gemini 2.5和Gemini 2.5 Pro实验版 * Gemini 2.5及Pro版具备“思考”能力，在多个基准测试中超越竞争对手，特别是在代码编辑和软件开发能力方面表现突出。 * Gemini2.5Pro在多个基准测试中表现优于多家竞争对手。 * 谷歌计划推出更强大的200万个token上下文窗口。详情链接:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#advanced-coding 【AI大模型】腾讯混元T1正式版和DeepSeek V3-0324上线 * 混元 T1正式版与 DeepSeek V3 最新版同步上线，用户可体验最新深度思考技术。 * 新版本相比 T1Preview全面升级，提升了速度和性能，能够实现秒级响应。 * 腾讯云支持混元 T1，致力于为用户提供高效的智能服务和技术支持。【AI工具】零成本拍爆款! AI电商视频生成神器Product Anyshoot来了 * 只需上传商品图片，Product Anyshoot即可智能生成高质量展示视频，极大简化制作流程。 * 该工具内置超过5000个预制模板，支持用户自定义，满足个性化展示需求。 * 生成视频的流畅性和真实感达到商业标准，帮助中小型商家提升竞争力。详情链接:https://www.topview.ai/ai-product-anyshoot 【AI应用】美图WHEE全新上线「证件照」功能 * 证件照功能支持多种尺寸适配，用户无需担心尺寸问题，适合各种场合。 * 具备无痛换头换装功能，用户可轻松切换背景和服装，展现不同风格。 * 百变形象照功能让用户快速完成形象转换，满足个性化需求。【AI大模型】腾讯云宣布上线DeepSeek 最新版V3模型API接口 * 新版DeepSeek-V3模型通过强化学习技术提升了推理任务的表现，特别是在数学和代码评测中超越了GPT-4.5。 * 编程能力显著增强，生成的HTML代码可用性和视觉效果更佳。 * 中文写作方面，优化了中长篇文本的创作质量，并在联网搜索场景下输出更详实准确的结果。详情链接:https://cloud.tencent.com/document/product/1772/115963 【AI开源】清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片 * TTS策略通过增加推理计算资源，显著提升视频生成质量和一致性。 * Video-T1采用随机线性搜索和帧树搜索策略，优化了候选视频的生成和评估过程。 * 实验结果显示，TTS在多个视频生成模型上稳定提升性能，尤其在图像质量和场景描述的贴合度上。详情链接:https://liuff19.github.io/Video-T1/ 【AI产业】苹果将利用苹果地图“Look Around”照片训练AI模型 * 苹果将于2025年3月起利用“Look Around”图像训练人工智能模型。 * 收集图像的过程中，苹果承诺保护用户隐私，模糊处理人脸和车牌。 * 苹果的多项功能已由人工智能图像生成模型驱动，包括照片应用的清理工具等。【AI产业】宝马官宣与阿里达成AI合作通义大模型将上车 * 宝马与阿里巴巴达成战略合作，共同开发符合中国用户需求的AI解决方案。 * 阿里巴巴的通义大模型将为宝马新车型提供智能化升级的技术支持。 * 宝马计划在2026年量产新世代车型，首次引入AI大语言模型，提升用户交互体验。

7分钟

99+

1年前

【AI日报】EP.122 3月26 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

Aishaobing的个人播客

AI日报： **1. DeepSeek-V3-0324 震撼发布：** * 💥 DeepSeek-V3-0324 发布，641GB 大模型，免费商用，打破行业壁垒。 * 📈 测试结果显示其在各项指标上超越了 Claude Sonnet3.5。 * 🔗 详情链接：https://huggingface.co/deepseek-ai **2. OpenAI 语音助手更新：** * 🗣️ OpenAI 更新高级语音模式，对话更自然流畅，减少打断。 * 🆓 免费和付费用户均可体验新功能。 **3. 阿里虚拟人项目 TaoAvatar:** * 🧍 TaoAvatar：可在 AR 场景说话的全身虚拟人，有表情和动作。 * 🔊 通过 Audio2BS 模型实现虚拟人面部表情和肢体语言同步。 * 🔗 详情链接：https://pixelai-team.github.io/TaoAvatar/ **4. 百度秒哒上线：** * 💬 百度秒哒：国内首个对话式应用开发平台，通过自然语言描述需求生成应用。 * 🔗 详情链接：https://cloud.baidu.com/product-s/miaoda_home **5. 阿里云启动 AI 人才校招：** * 👨‍🎓 阿里云启动大规模 AI 人才校园招聘，设“A Star 项目”和“AI Clouder 项目”。 **6. PiT 框架发布：** * 🖼️ PiT 框架：上传图片片段自动“脑补”生成完整图像。 * 🔗 详情链接：https://eladrich.github.io/PiT/ **7. 微信小店调整政策：** * 🚫 微信小店严禁 AI 商业课程，倡导技术分享。 **8. 国产 AI 芯片崛起：** * 🐜 蚂蚁集团使用国产 AI 芯片，训练成本骤降 20%，媲美英伟达。 **9. 阿里推出 Qwen2.5-VL-32B:** * ✨ 阿里推出多模态模型 Qwen2.5-VL-32B，兼顾视觉语言与数学推理。 **10. 苹果 iOS 18.4 即将更新：** * 🔔 iOS 18.4 将更新 AI 优先通知功能。 **11. LiblibAI 接入阿里通义大模型：** * 🎨 LiblibAI 接入阿里通义大模型，赋能 AI 图像生成与视频创作。 **12. 1688 买家体验全面升级：** * 🛒 1688 宣布全面升级买家体验，所有面向买家的人工智能产品免费开放。

4分钟

99+

1年前

【AI日报】EP.121 3月25 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

Aishaobing的个人播客

## AI 日报新闻提要： **1. 🚀 阿里通义实验室 LHM 技术：单图像快速 3D 人体重建与动画生成** - 利用多模态变换器架构和头部特征金字塔编码，提高重建精度和效率。 - 无需复杂后处理，适应不同场景和光照。 - 详情链接: https://lingtengqiu.github.io/LHM/ **2. 腾讯发布混元-T1 正式版：推理能力大幅提升** - 基于 TurboS 底座，解决长文本推理中的上下文丢失问题。 - 深度思考和复杂问题解决能力优异。 - 详情链接: https://llm.hunyuan.tencent.com/?ref=producthunt#/chat/hy-t1 **3. 📱 vivo 成立机器人 LAB：进军家庭机器人领域** - 专注家庭机器人研发，利用智能算法和混合现实技术优势。 - 旨在解决医疗和养老等领域的人力资源短缺问题。 **4. 💰 美团内部大模型 LongCat：王兴投资数十亿元 GPU 资源** - 2024 年营收达 3376 亿元，同比增长 22%。 - AI 技术广泛应用于员工工作流程和产品升级。 **5. 🍎 苹果重组 AI 高管团队：Siri 升级推迟至 2026 年** - 迈克·洛克威尔接替，反映 AI 领域重大调整。 -Siri多项升级计划被推迟 **6. 🗣️ 谷歌 Gemini 实时 AI 视频功能：手机摄像头实时解读画面内容** - 通过手机摄像头实时回答用户问题。 - 已在小米手机上体验。 **7. ✨ 新一代 AI 图像生成模型 Reve Image：引领创作新潮流** - 提升美学表现和提示遵循能力，生成作品简洁大气。 - 平台设计友好，操作流畅。 - 详情链接: https://reveai.org/ **8. ⚖️ 全球首个体重管理 AI 大模型“减单”发布：助力解决肥胖问题** - 由安徽医科大学、中国科学技术大学附属第一医院与浙江诺特健康科技股份有限公司共同研发。 - 当前中国成人超重率达 34.3%。 **9. 🤖 开源实时识别模型 RF-DETR：速度与精度超越 YOLO 系列** - Roboflow 团队开发，适用于自动驾驶、工业质检等场景。 - 在 COCO 数据集上实现超 60% 平均精度。 - 详情链接: https://github.com/roboflow/rf-detr **10. 🕸️ Cloudflare 推出“AI 迷宫”：引导恶意爬虫进入虚假数据陷阱** - 通过生成虚假页面，浪费爬虫资源。 - 帮助识别恶意爬虫和新爬虫模式。 - 详情链接: https://blog.cloudflare.com/ai-labyrinth/ **11. 🎵 AbletonMCP：让 Claude 能够创作音乐** - 通过模型上下文协议连接 Ableton Live 与 Claude AI。 - 用户可通过 Claude 与 Ableton 互动。 - 详情链接: https://github.com/ahujasid/ableton-mcp

4分钟

99+

1年前

【AI日报】EP.120 3月22 OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1

Aishaobing的个人播客

## AI日报新闻提要 **1. OpenAI 推出全新语音转录模型 gpt-4o-transcribe，语音转文字准确率飙升** * OpenAI 发布三款新语音模型：gpt-4o-transcribe, gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。 * gpt-4o-transcribe 在英语转录中错误率低至 2.46%。 * 支持多种复杂环境下的转录，具备噪声消除和语义语音活动检测等技术。 * 详情链接:https://www.openai.fm/ **2. 快手搜索 AI 升级：DeepSeek R1 全面接入，搜索体验迎来质变!** * 快手搜索功能全面接入 DeepSeek R1 大模型。 * 提升搜索效果和用户体验，推动用户活跃度增长。 * 快手 AI 内容创作平台“可灵 AI”整合 DeepSeek，提升创作效率。 **3. Claude 推出网络搜索功能，提供实时信息与来源引用** * Anthropic 公司为其 AI 助手 Claude 添加网络搜索功能。 * 搜索结果转化为对话式回答，并精确标注信息来源。 * 目前仅向美国付费用户开放，未来计划推广至其他国家。 **4. 字节推文生图框架 InfiniteYou：可保持人脸特征，场景随便换** * 字节跳动推出 InfiniteYou (InfU) 图像生成工具。 * 根据文字描述生成高质量的个性化图像，可保留人脸特征。 * 核心技术 InfuseNet。 * 项目链接: https://bytedance.github.io/InfiniteYou * 详情链接:https://top.aibase.com/tool/infiniteyou **5. 腾讯元宝功能上新支持分析复杂 Excel 表格** * 腾讯元宝新功能支持自然语言处理 Excel 表格。 * 快速读取数据并进行计算，突出显示重要信息。 * 简化 Excel 操作流程。 **6. Krea AI 发布“Video Training”功能可以训练自己的专属视频风格** * Krea AI 推出“Video Training”功能。 * 用户可上传图像和视频素材，训练专属的 AI 视频风格模型。 * 基于 Wan2.1 模型。 * 详情链接:https://www.krea.ai/train **7. DomoAI 推出语音图像生成数字人功能：数字内容创作迎来新突破** * DomoAI 新功能支持上传语音和图像生成会说话的数字人。 * 支持口型同步，可生成不同长度的短视频，中文支持出色。 * 详情链接:https://www.domoai.app/en/create/talking-avatar **8. Sider AI 推出 Deep Research 功能：能自动模拟人类研究行为，还能生成可视化交互式报告** * Sider AI 推出 Deep Research 功能。 * 模拟人类研究行为并自动生成可视化报告。 * 实时笔记和透明的信息来源。 * 详情链接:https://sider.ai/wisebase/deep-research **9. 高中生利用《我的世界》搭建 AI 模型评测网站，全民参与评判模型优劣** * MC-Bench 网站通过《我的世界》游戏提供 AI 模型评测。 * 用户可在不知情的情况下对 AI 生成的建筑进行投票。 * 详情链接:https://mcbench.ai/ **10. 谷歌前科学家出品! Reka 开源 Reka Flash3，能力超 Gemma327B** * Reka AI 推出首个开源模型 Reka Flash3。 * 210 亿参数的通用推理模型。 * 从零开始训练，性能出色。 * 详情链接:https://top.aibase.com/tool/reka-flash-3 **11. 生数科技 Vidu 获得 7 部千万级网文 IP 概念短片改编授权** * 北京生数科技公司的 AI 视频生成平台 Vidu 获得 7 部千万级网文 IP 的短片改编授权。 * 涵盖奇幻、科幻、江湖和都市情感等多种题材。 **12. 全球首款儿科大模型问世，助力儿童医疗服务升级** * 百川智能与北京儿童医院及小儿方健康联合推出全球首个儿科大模型——“福棠・百川”。 * 涵盖儿童常见病及疑难病症的知识体系，具备强大的临床推理能力。 * 推出“AI 儿科医生”应用。

3分钟

99+

1年前

【AI日报】EP.119 3月21 OpenAI推出史上最贵o1-pro API；腾讯混元全新推理模型T1将发布

Aishaobing的个人播客

AI 日报精选： 1. **OpenAI 最贵模型**：OpenAI 推出升级版 AI 模型 o1-pro，定价高昂，输入费用是 GPT-4.5 的两倍，生成费用是 o1 的十倍。旨在提供更优质的推理能力。（新鲜AI产品了解：[https://top.aibase.com/](https://top.aibase.com/)） 2. **阶跃星辰视频模型开源**：阶跃星辰 Step-Video-T12V 图生视频模型开源，基于 30B 参数，可控性强，适合动画和短视频创作。 (详情链接: [https://yuewen.cn/videos](https://yuewen.cn/videos)) 3. **腾讯混元新模型**：腾讯混元全新推理模型 T1 将于 3 月 21 日晚发布，腾讯混元大模型首次跻身 Chatbot Arena 全球 Top15。 4. **Open-Sora 2.0**：HPC-AI Tech 推出 Open-Sora 2.0，训练成本仅为传统系统的十分之一，输出质量媲美商业级。 5. **波士顿动力 Atlas**：波士顿动力展示 Atlas 机器人最新动作能力，结合强化学习与动作捕捉，动作逼近人类水平。 6. **宇树机器人侧空翻**：宇树科技 G1 人形机器人成功完成侧空翻，发起“机器人侧空翻真人挑战赛”。 7. **Adobe Project Slide Wow**: Adobe 推出“Project Slide Wow”，数据一键变身吸睛 PPT。 8. **Orpheus TTS**: 开源文本转语音模型，超低延迟和高情感表达。 (详情链接: [https://github.com/canopyai/Orpheus-TTS](https://github.com/canopyai/Orpheus-TTS)) 9. **LG 开源 EXAONE Deep 模型**：320 亿参数，逻辑推理和数学领域表现出色。(详情链接:[https://top.aibase.com/tool/exaone-deep](https://top.aibase.com/tool/exaone-deep)) 10. **谷歌 Chrome 整合 Gemini**: 谷歌 Chrome 浏览器即将整合 Gemini AI 助手。

4分钟

99+

1年前

【AI日报】EP.118 3月20 昆仑万维开源R1V多模态推理模型；豆包AI编程能力上线三大功能

Aishaobing的个人播客

**AI新闻速递** 🤖 1. **昆仑万维开源王炸！** 💥 Skywork-R1V多模态推理模型发布，38亿参数性能直逼闭源模型，视觉问答和推理能力超强！ * 相关链接：[https://huggingface.co/Skywork/Skywork-R1V-38B](https://huggingface.co/Skywork/Skywork-R1V-38B) 2. **豆包AI编程能力升级！** 💻 HTML实时预览、Python代码直接运行、生成完整项目代码，三大功能助你编程效率翻倍！ 3. **谷歌Gemini新花样！** ✨ “画布”功能让协作更轻松，音频概览让你快速get文档重点！ 4. **Cursor放大招！** 🚀 Claude Max模型发布，20万字上下文处理能力，AI编程新标杆！ 5. **Adobe一口气推10个AI智能体！** 🤖 为客户创建个人网站，提供个性化体验，Brand Concierge功能让客户更忠诚！ 6. **字节跳动豆包团队全员会**：探索AI新高度，增加Seed Edge项目投入，广纳贤才！ 7. **Stability AI黑科技！** 📸 Stable Virtual Camera模型发布，2D照片秒变3D视频，沉浸式体验触手可及！ * 相关链接：[https://top.aibase.com/tool/stable-virtual-camera](https://top.aibase.com/tool/stable-virtual-camera) 8. **英伟达发布个人AI超算！** ⚡ DGX Spark与DGX Station，每秒1000万亿次计算，开启边缘计算新时代！ 9. **英伟达Dynamo软件加持！** ⚙️ DeepSeek AI速度提升30倍，多GPU并行处理，查询吞吐量飙升！ 10. **Grok新功能上线！** 🔍 DeeperSearch实时检索AI资讯，Twitter热点话题一网打尽！  原文链接： https://www.chinaz.com/feed/0319/16...

4分钟

99+

1年前

【AI日报】EP.117 3月19腾讯混元推出5个开源3D模型；Anthropic发布MCP传输机制重大升级

Aishaobing的个人播客

**AI日报（2025年3月18日）** 1. **【3D模型】** 腾讯混元推出5个开源3D模型，30秒快速生成，兼容多平台。 * Turbo系列利用FlashVDM框架加速。 * Hunyuan3D-2-MV模型捕捉更多细节。 * 支持多视图输入，上传2-4张图片即可生成高质量3D模型。 2. **【协议升级】** Anthropic发布MCP传输机制重大升级，采用Streamable HTTP。 * 告别长连接，实现更灵活的双向通信。 * 兼容各种网络基础设施，支持无状态模式。 * [详情链接](https://github.com/modelcontextprotocol/specification/pull/206) 3. **【AI动漫】** 生数科技Vidu将与Aura Productions合作，打造首部海外AI原创科幻动漫剧集。 * 计划推出50集短篇科幻动漫。 * Vidu多主体一致性功能确保角色与场景融合。 * Vidu 2.0版本10秒内生成高质量视频。 4. **【语音模型】** 谷歌云推出高清语音模型Chirp3，支持248种声音。 * 支持31种语言，助力开发者构建智能应用。 * 限制语音克隆功能访问，确保伦理AI。 * [详情链接](https://cloud.google.com/text-to-speech/docs/chirp3-hd) 5. **【AI收购】** 马斯克xAI收购视频生成初创公司Hotshot。 * Hotshot利用600万视频片段训练。 * 将利用xAI的Colossus超级计算机算力。 6. **【3D生成】** Roblox开源Cube3D，首个基础AI模型实现3D对象生成。 * 创新训练方法，快速构建完整3D形状。 * 未来将支持文本、图像和视频输入。 7. **【AI助手】** Zoom AI助手AI Companion功能升级。 * Zoom Tasks自动识别和完成待办事项。 * 新语音录音器转录线下对话。 * 4月推出定制AI助手功能。 8. **【开源模型】** Mistral最新开源模型Mistral Small 3.1发布，参数优于GPT-4o Mini。 * 240亿参数，支持128k tokens上下文窗口。 * 处理速度达每秒150个tokens。 * [详情链接](https://top.aibase.com/tool/mistral-small-3-1) 9. **【视频生成】** 字节创新技术LCT，实现AI多镜头电影拍摄。 * LCT技术提升AI视频叙事能力。 * 全注意力机制和3D位置嵌入确保视觉一致性。 * [视频链接](https://top.aibase.com/tool/zhangshangxiawentiaoyoulct) 10. **【大语言模型】** OLMo2 32B发布，32B参数挑战GPT-3.5 Turbo。 * 完全开源，公开数据、代码和训练过程。 * 多项基准测试超越GPT-3.5 Turbo。 * [详情链接](https://github.com/allenai/OLMo-core)

5分钟

99+

1年前

【AI日报】EP.116 3月17 快手可灵AI全面接入DeepSeek-R1；百度发布文心4.5与X1大模型

Aishaobing的个人播客

【AI技术动态】 🤖 快手可灵AI全面接入DeepSeek-R1 * 助力用户将灵感转化为专业提示词 * 降低创作门槛，提升视频细节掌控能力 * 与DeepSeek灵感版联动，提升创作效率【大模型发布】 🚀 百度推出文心4.5与X1大模型 * 文心4.5性能超越GPT-4.5，API调用价格仅为1% * X1专注于中文知识问答与文学创作，具备多模态能力 * 价格优势显著，吸引开发者关注【音频推理突破】 🎧 小米大模型团队登顶MMAU榜 * 强化学习算法提升模型准确率至64.5% * 开源技术推动学术界与产业界研究 * 详情链接: https://github.com/xiaomi-research/r1-aqa 【AI客服升级】 📞 钉钉推出AI客服助理 * 自动接入企业官网与公众号，支持多轮对话 * 7×24小时在线服务，响应速度快 * 已有700多家企业接入，提升客户服务效率【图像处理工具】 🖼️ LBM：一键移除路人甲，调整光照 * 高效去除照片中不必要元素 * 支持光照调整，提升照片视觉效果 * 详情链接: https://top.aibase.com/tool/lbm 【AI文件管理】 📁 Anthropic开发Harmony功能 * 无缝接入本地文件，提升AI交互能力 * 支持文件分析、修改与关键词搜索 * 展现强大AI编码助手潜力【图像超分模型】 📸 Thera：提升图片清晰度 * 支持任意倍数放大，减少图像失真 * 开源项目，促进技术共享与发展 * 详情链接: https://top.aibase.com/tool/thera 【版权争议】 ⚖️ 谷歌Gemini2.0Flash引发版权担忧 * 去除图片水印功能引发争议 * 美国版权法下，未经同意去除水印可能违法 * 其他AI模型拒绝类似功能，认为不道德【低成本AI模型】 💰 Cohere发布Command A模型 * 仅需两块GPU，企业部署成本降低50% * 支持23种语言，助力全球市场拓展 * 详情链接: https://huggingface.co/CohereForAI/c4ai-command-a-03-2025 【智能体开发框架】 🛠️ 仓颉社区发布Cangjie Magic * 原生支持鸿蒙等全平台，提升开发效率 * 支持MCP通信协议，确保智能体高效协作 * 详情链接: https://gitcode.com/Cangjie-TPC/CangjieMagic 【AI编程预测】 ⌨️ OpenAI高管预测AI将超越人类程序员 * 预计2025年底AI在编码基准测试中超越人类 * 未来几乎所有代码可能由AI生成 * 先进模型推动编码自动化，持续进步

5分钟

99+

1年前

【AI日报】EP.127 4月2 Runway发布新视频模型Gen-4；宇树G1直播5分钟带货破百万

【AI日报】EP.126 4月1 智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用

【AI日报】EP.125 3月29 阿里最新视觉推理模型QVQ-Max；可灵AI上新AI音效功能

【AI日报】EP.124 3月28 OpenAI官宣支持MCP协议；阿里开源全模态模型Qwen2.5-Omni

【AI日报】EP.123 3月27 OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿

【AI日报】EP.122 3月26 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

【AI日报】EP.121 3月25 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

【AI日报】EP.120 3月22 OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1

【AI日报】EP.119 3月21 OpenAI推出史上最贵o1-pro API；腾讯混元全新推理模型T1将发布

【AI日报】EP.118 3月20 昆仑万维开源R1V多模态推理模型；豆包AI编程能力上线三大功能

【AI日报】EP.117 3月19腾讯混元推出5个开源3D模型；Anthropic发布MCP传输机制重大升级

【AI日报】EP.116 3月17 快手可灵AI全面接入DeepSeek-R1；百度发布文心4.5与X1大模型

加入我们的 Discord

扫描微信二维码

播放列表

Aishaobing的个人播客 - 节目列表

【AI日报】EP.127 4月2 Runway发布新视频模型Gen-4；宇树G1直播5分钟带货破百万

【AI日报】EP.126 4月1 智谱发布Agent产品AutoGLM沉思；谷歌Gemini 2.5 Pro免费开放使用

【AI日报】EP.125 3月29 阿里最新视觉推理模型QVQ-Max；可灵AI上新AI音效功能

【AI日报】EP.124 3月28 OpenAI官宣支持MCP协议；阿里开源全模态模型Qwen2.5-Omni

【AI日报】EP.123 3月27 OpenAI新图像生成模型可一句话P图；可灵AI营收超1亿

【AI日报】EP.122 3月26 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

【AI日报】EP.121 3月25 美团已开发内部大模型LongCat；vivo成立机器人LAB独立中心

【AI日报】EP.120 3月22 OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1

【AI日报】EP.119 3月21 OpenAI推出史上最贵o1-pro API；腾讯混元全新推理模型T1将发布

【AI日报】EP.118 3月20 昆仑万维开源R1V多模态推理模型；豆包AI编程能力上线三大功能

【AI日报】EP.117 3月19腾讯混元推出5个开源3D模型；Anthropic发布MCP传输机制重大升级

【AI日报】EP.116 3月17 快手可灵AI全面接入DeepSeek-R1；百度发布文心4.5与X1大模型

加入我们的 Discord

扫描微信二维码

播放列表