节目列表: Aishaobing的个人播客 - EarsOnMe

【AI日报】EP.175 7月3 百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型

### AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar 1. **开源端到端语音大模型Step-Audio-AQAA** - Step-Audio-AQAA是一个开源的端到端语音大模型，能够直接从原始音频输入生成自然流畅的语音输出，提升人机交互体验。 - 模型架构由双码本音频标记器、骨干LLM和神经声码器三个模块组成，能够高效处理语音中的复杂信息。 - 该模型的推出标志着语音交互技术的重要进展，为未来的智能语音应用提供了新思路。 - 详情链接: [https://huggingface.co/stepfun-ai/Step-Audio-AQAA](https://huggingface.co/stepfun-ai/Step-Audio-AQAA) 2. **百度发布“绘想”平台与MuseSteamer** - 百度发布了“绘想”平台与MuseSteamer，通过生成式AI和多模态技术提供全面的视频生成解决方案，满足搜索、广告等场景需求。 - MuseSteamer具备强大的可控性和高性价比，用户只需上传图片即可生成专业级视频内容，极大简化了视频制作流程。 - 支持音视频一体化生成，实现电影级制作效果，并支持连续10秒动态视频生成，提升创作效率。 - 详情链接: [https://huixiang.baidu.com/](https://huixiang.baidu.com/) 3. **浙大与阿里联合发布OmniAvatar** - 浙大与阿里联合发布的OmniAvatar模型在音频驱动数字人技术上取得重大突破，能够生成自然流畅的全身数字人视频，尤其在歌唱场景中表现出色。 - 该模型支持通过文本提示精细控制生成细节，并具备多场景应用潜力，为营销、教育及娱乐等领域带来创新可能。 - 视频链接: [点击观看视频](#) 4. **百度搜索迎来十年来最大改版** - 百度搜索进行了十年来最大规模的改版，引入了智能框、百看和AI助手等创新功能，显著提升了用户的搜索体验和创作能力。 - 智能框支持千字输入，增强多模态交互能力；百看功能升级，支持混合内容输出和智能体服务；AI助手新增视频通话功能，提升创作与搜索能力。 5. **xAI控制台新增Grok4及Grok4Code引用** - xAI在开发者控制台中新增了对Grok4及Grok4Code的引用，预示着下一代人工智能模型的发布即将来临。 - Grok4作为xAI的旗舰模型，专注于自然语言处理、数学推理和综合推理能力的提升；Grok4Code专为编程优化，计划与代码编辑器无缝整合，提高开发效率。 - xAI通过API提供Grok4访问权限，未来将扩展至多模态能力，降低开发者整合门槛。 6. **Gemini Live重磅升级** - Gemini Live的升级通过与Google生态系统的深度整合，提升了用户的智能交互体验，同时兼顾了隐私保护，展现了其在智能助手领域的潜力。 - Gemini Live将与Google Maps、Calendar等应用深度整合，提升跨应用操作效率；支持多模态交互，如扫描信息自动生成任务或日程，增强实用性。 - Google注重隐私保护，用户可自主管理权限以确保数据安全。 - 视频链接: [点击观看视频](#) 7. **武汉首发全国首辆AI外卖配送车** - 武汉推出了全国首辆搭载AI技术的外卖配送车——智音车，配送效率提升显著，标志外卖行业的技术革新。 - 智音车配备北斗双频芯片，提升外卖配送效率；外卖小哥配送效率提升30%，日均多赚80元；定位精度高达1米，智音车技术前景广阔。 8. **Anthropic年化收入已达40亿美元** - 文章指出，AI独角兽Anthropic年化收入已达40亿美元，较年初增长近四倍，同时其竞争对手Cursor也在积极扩展业务，双方竞争加剧。 - Cursor依赖Anthropic的技术，并通过引入高管和创新提升竞争力。 - 人工智能技术的快速发展推动了编程工具的需求增长，各公司都在争夺市场份额。

7分钟

99+

11个月前

【AI日报】EP.174 7月2 阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端

Aishaobing的个人播客

**AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse** 1. **Qwen-TTS重磅发布：方言语音合成新突破，真实感媲美真人** - 阿里巴巴通义团队推出Qwen-TTS模型，该模型在语音合成领域实现重大突破，具备超高真实感和多方言支持。 - 支持多种中文方言和双语音色，适用于教育、娱乐、智能客服等多种场景。 - 模型具备流式输出与情感调节功能，生成语音更自然真实。 - 通过API开放使用，降低技术门槛，推动语音合成技术普及。 2. **Cursor发布Web版，AI编码工具扩展至浏览器与移动端** - Cursor发布Web版，将AI编码代理扩展至浏览器和移动设备，提升编程灵活性。 - 新增与Slack集成及高风险后台代理功能，优化协作效率和项目管理。 - 降低使用门槛，助力中小团队和独立开发者提升生产力。 3. **字节发布创新图像合成技术XVerse：对多个个体进行独立且精确的控制** - XVerse技术通过DiT调制方法，实现对每个主体身份和语义属性的精准调控。 - 用户可通过上传图像和输入描述，实时生成高质量图像，并提供“检测与分割”功能，进一步提升生成准确性和个性化水平。 - 详情链接: [XVerse GitHub](https://github.com/bytedance/XVerse) 4. **NoteGen横空出世：AI驱动跨平台笔记神器，知识管理进入新时代** - NoteGen是一款跨平台AI笔记软件，提供高效的笔记体验和强大的AI功能。 - 全平台支持，免费同步无缝衔接。 - AI赋能：第三方大模型与RAG引擎。 - 创新设计：记录与写作的双轨模式。 - 详情链接: [NoteGen GitHub](https://github.com/codexu/note-gen) 5. **AI动画神器ManimML：解锁Transformer架构的直观可视化** - ManimML通过直观的动画展示复杂的神经网络架构，如Transformer和CNN，帮助理解和分享机器学习知识。 - 无需掌握复杂动画软件即可生成专业级内容，在学术界和开发者社区中广受认可。 - 详情链接: [ManimML GitHub](https://github.com/helblazer811/ManimML) 6. **TEN Agent开源TEN VAD与Turn Detection，助力语音AI超低延迟** - TEN Agent团队开源了TEN Voice Activity Detection（VAD）和TEN Turn Detection，为构建实时、多模态的语音AI代理提供技术支持。 - TEN VAD：低延迟高性能的语音活动检测。 - TEN Turn Detection：智能对话轮次管理。 - 详情链接: [TEN VAD Hugging Face](https://huggingface.co/TEN-framework/ten-vad) 7. **Chai-2震撼发布：AI驱动零样本抗体设计，药物研发提速百倍** - Chai-2在分子设计领域实现突破性技术，零样本抗体设计成功率高达16%-20%。 - 药物研发周期从数月甚至数年缩短至两周。 - 支持多种形式的分子设计，如单链抗体、纳米抗体等，验证命中率高。 8. **PerMAXity：AI驱动投资分析，自动生成综合财务报告** - PerMAXity允许用户通过预设计划任务自动生成针对投资组合中每项资产的详细财务报告。 - 结合AI引擎实时抓取网络数据并整合权威来源，提供全面、精准的市场洞察。 - 适用于个人投资者和专业机构，提供图表、CSV文件和交互式仪表板等多模态数据可视化解决方案。 9. **淘宝全新推荐大模型RecGPT上线，购物体验再升级** - 淘宝推出的RecGPT推荐模型通过生成式推荐技术提升个性化购物体验。 - 用户点击量和加购行为增长超5%。 - 通过智能分析用户消费习惯提供精准推荐。

7分钟

99+

11个月前

【AI日报】EP.174 7月1 百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

Aishaobing的个人播客

【6月30日AI日报】 - 百度开源文心大模型4.5系列，包含十款新模型，使用飞桨框架训练推理，FLOPs利用率47%，在文本多模态基准测试中表现优异。体验地址: https://yiyan.baidu.com Hugging Face: https://huggingface.co/baidu GitHub: https://github.com/PaddlePaddle/ERNIE - 通义千问发布多模态生成模型Qwen VLo，基于Qwen-VL系列升级，支持开放指令编辑修改生成，具备多语言指令能力。体验地址: chat.qwen.ai - 阿里巴巴国际AI团队发布Ovis-U1多模态大模型，集成多模态理解、文生图像和图像编辑功能。项目: https://huggingface.co/AIDC-AI/Ovis-U1-3B - 华为开源盘古7B稠密模型和72B混合专家模型及升腾推理技术，推动大模型技术研究与行业应用。 - 美图MOKI推出“AI创意广告”功能，用户上传图片选择模板即可生成专业级视频。体验地址: www.moki.cn - 谷歌Gemini2.5Pro API重新纳入Google AI Studio免费层级，提供多模态和推理能力，免费计算资源翻倍。 - 豆包APP等平台开启「深入研究」功能测试，可整合海量深度信息生成研究报告或可视化网页结果。 - 小米“AI百宝箱”内测结束，计划7月5日暂停服务，进行数据整理等战略规划。 - 北京人工智能研究院推出OmniGen2开源系统，专注文本图像生成编辑，性能出色。项目: https://huggingface.co/OmniGen2/OmniGen2 - 知乎“直答”升级知识库功能，深度融合社区内容，提供沉浸式多场景AI问答体验。

6分钟

99+

11个月前

【AI日报】EP.173 6月27 可灵AI推全球首部AIGC单元剧；谷歌开源AI智能体Gemini CLI

Aishaobing的个人播客

【6月27日AI日报】 1. **豆包AI编程重磅升级** 豆包AI编程升级到“应用创作1.0”，提供可视化编辑、实时预览和多版本管理功能，降低网页和应用开发门槛。零基础用户可以像编辑PPT一样设计网页，专业开发者也能在对话窗口调用AI编程功能，提升创作效率。 2. **谷歌开源AI智能体Gemini CLI** 谷歌发布开源的Gemini CLI，配备Gemini 2.5 Pro模型，每分钟60次、每日1000次免费请求。集成多种能力如编程开发、内容创作和任务自动化，并支持个性化定制。 GitHub地址: [https://github.com/google-gemini/gemini-cli](https://github.com/google-gemini/gemini-cli) 3. **Anthropic推出新功能Artifacts** Anthropic的新功能“Artifacts”允许用户无需编程知识就能创建个性化应用。用户可在Claude的独立仪表盘中管理、分享创作，并浏览他人作品，促进用户共享与团队协作。 4. **出门问问发布Agentic AI产品TicNote** 出门问问推出新一代Agentic AI产品TicNote，内置Shadow AI技术。适用于多种场景，提供强大记录、总结、分析和创作功能。硬件设计精巧，具备长续航和多种语言转写能力。 5. **OpenAI全面转向Rust重构Codex CLI** OpenAI将Codex CLI从TypeScript重构为Rust，以提升性能和安全性。Rust提供更好的安装体验，降低内存消耗，并计划开发通信协议支持多语言扩展，使其从终端工具转变为可编程智能代理。 6. **谷歌发布Imagen4文生图模型** 谷歌推出Imagen4文生图模型，支持高达2K分辨率图像生成，提升文本渲染质量，适用于多种场景，并提供免费试用和付费预览，推动文生图领域发展。 7. **香港大学等机构发布GoT-R1多模态大模型** 香港大学等机构发布GoT-R1多模态大模型，通过强化学习提升AI语义和空间推理能力。该模型在处理复杂指令和图像生成方面表现出色。论文链接: [https://arxiv.org/pdf/2503.10639](https://arxiv.org/pdf/2503.10639) 8. **谷歌DeepMind发布AlphaGenome** 谷歌DeepMind推出AlphaGenome AI模型，专为DNA序列分析设计，可处理长达100万个碱基对，预测精度达单个碱基对级别，助力发现新治疗靶点。 9. **ChatGPT iOS应用下载量突破3000万** ChatGPT的iOS应用在过去28天内下载量达2960万次，超越TikTok、Facebook等社交应用总和。自推出以来增加高级语音模式等功能，成为热门应用。 10. **可灵AI推出全球首部AIGC单元剧《新世界加载中》** 可灵AI与星芒短剧联合推出全球首部AI单元剧《新世界加载中》，在创新内容上表现出色，但存在人物一致性不足等问题。视频生成技术仍需发展，创作者需反复调试提示词以达到理想效果。

7分钟

99+

11个月前

【AI日报】EP.172 6月26 支付宝推 “AI 打赏” 服务；QQ浏览器上线高考志愿报告功能

Aishaobing的个人播客

【6月26日AI日报】 1. **Claudia发布！优雅界面赋能Claude Code，跨平台AI编程新体验** - Claudia是一款为Claude Code设计的开源图形用户界面工具，基于Tauri框架，结合React和Rust，支持多平台，提供一站式项目管理、自定义AI代理、Token用量追踪等功能。 - 产品地址: https://github.com/getAsterisk/claudia 2. **各地高考分数线公布！QQ浏览器“AI高考通”上线高考志愿报告功能** - QQ浏览器新增“高考志愿报告”功能，考生输入省份、选科、分数等信息后，3至5分钟内可获得个性化的志愿报告。 3. **你的答案能听了！秘塔AI搜索宣布上线“听讲解”功能** - 秘塔AI搜索推出“听讲解”功能，用户可通过点击按钮让AI将搜索结果生动讲述，支持语音输出和多种互动形式。 - 体验地址: https://www.mitat.ai/ 4. **苹果iOS26升级：图乐园功能焕然一新，AI生成图像更真实** - 苹果即将推出的iOS26系统带来了图乐园的重大升级，用户可通过简短描述生成更加真实的图像，并新增ChatGPT集成功能和智绘表情（Genmoji）。 5. **支付宝宣布为AI开发者提供国内首个“AI打赏”服务** - 支付宝推出国内首个“AI打赏”服务，开发者可通过蚂蚁百宝箱平台或阿里云百炼启用该功能，用户的打赏将直接转入开发者账户。 6. **小米AI眼镜官宣亮相：明晚发布定位下一代个人智能设备** - 小米首款AI眼镜将在明晚发布，采用双芯架构和自带镜头，具备物品识别和语音交互等功能，强调其作为智能穿戴设备的独特价值。 7. **未来已来！奥比中光发布天工Pro机器人，搭载尖端深度相机** - 奥比中光与北京人形机器人创新中心合作，推出升级版天工Pro机器人，配备Gemini330系列深度相机，提升智能识别和环境适应能力。 8. **Deepmind推出新一代机器人AI模型：Gemini Robotics On-Device** - Google DeepMind发布了新一代机器人AI模型Gemini Robotics On-Device，可在无互联网连接的情况下本地运行，只需50至100次演示即可快速学习新任务。 - 产品链接: https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/ 9. **字节跳动推出ProtoReasoning框架：提升大语言模型的逻辑推理能力** - 字节跳动与上海交通大学团队联合推出ProtoReasoning框架，通过Prolog和PDDL的结构化原型表示，显著提升大语言模型在逻辑推理和规划任务上的能力。 - 论文链接: https://arxiv.org/abs/2506.15211 10. **Clikka AI颠覆产品摄影！一张图秒变专业级大片，省钱又吸睛** - Clikka AI是一款创新的产品摄影AI工具，通过上传一张产品图片，用户可以生成高质量的专业效果图，适用于电商和营销领域。 - 体验地址: https://clikka.ai/

7分钟

99+

11个月前

【AI日报】EP.171 6月25 即梦灰测图片3.1模型；ElevenLabs推出AI语音助理11ai

Aishaobing的个人播客

### AI日报新闻提要 1. **即梦灰测图片3.1模型** - 3.1模型在艺术风格化上表现更精准，视觉特征更明确。 - 生成的图片细节更真实，如皮肤、毛发和材质纹理。 - 增强了电影感和故事感，场景更丰富。 2. **ElevenLabs推出AI语音助理11ai** - 以语音交互为核心，支持超过5000种声音和自定义专属语音。 - 支持MCP多通道协议，可集成多种工具实现高度个性化工作流。 - 支持70多种语言，具备自动检测功能，适合全球市场应用。 3. **百度发布多智能体协同AI IDE“Comate AI IDE”** - AI辅助编码全流程，提升开发效率。 - 多智能体协同，支持自定义任务。 - 设计稿一键转代码，增强前端开发体验。 - 详情链接: [https://comate.baidu.com/zh/download](https://comate.baidu.com/zh/download) 4. **苹果利用“归一化流”技术推出创新AI生图模型** - TarFlow模型通过拆分图像块生成，避免了压缩造成的质量损失。 - STARFlow在潜空间工作，并支持调用现有语言模型优化文本提示处理。 - 苹果采用“归一化流”技术开发新的AI生图模型，区别于传统的扩散模型。 5. **Grok Web即将推出“文件”选项卡** - 整合多种文件类型，提升工作效率。 - 提供统一界面，便于浏览、创建和编辑文件。 - 增强功能性，满足多样化工作需求。 6. **OmniGen2重塑开源多模态模型应用场景** - 双组件架构结合视觉语言模型和扩散模型，实现高效可控生成式AI。 - 文本生成图像功能支持高保真、符合美学标准的图像生成。 - 指令引导图像编辑性能达到开源模型前沿水平，可完成复杂修改任务。 - 详情链接: [https://huggingface.co/OmniGen2/OmniGen2](https://huggingface.co/OmniGen2/OmniGen2) 7. **ScholAI重磅来袭!基于MCP的智能学术神器** - 多源论文搜索:支持从arXiv、专业会议及期刊等多个权威学术平台检索论文。 - 自动获取CCF排名:内置CCF排名查询功能，用户可快速了解目标期刊或会议的学术影响力。 - 语义查询分析:通过自然语言处理技术，理解用户研究兴趣，精准匹配相关论文。 - 详情链接: [https://github.com/oDaiSuno/ScholAI](https://github.com/oDaiSuno/ScholAI) 8. **豆包推出可视化AI编程** - 豆包推出可视化AI编程功能，用户可直接在预览界面编辑网页应用。 - 该功能降低了编程门槛，使非技术背景用户也能快速搭建网页应用。 - 已支持多文件上传、GitHub仓库引入等专业功能。 9. **饿了么推出智能AI助手“小饿”** - 通过语音唤醒“小饿”，骑手可轻松完成接单、确认到店等操作。 - 实时分析骑手位置和订单状态，主动推送天气预警和路线封路提示。 - 根据历史数据和订单热力图，提供收入预估和优化接单策略的建议。 10. **张雪峰直言:AI能取代我最好!** - 张雪峰表示:“能被取代最好!”反映出他对AI的乐观态度。 - AI在高考志愿填报中取得了显著进展，但仍面临挑战。 - 教育工作者需与考生和家长加强沟通，帮助他们更好地运用AI工具。 11. **微软重磅发布设备端小模型Mu** - Mu模型拥有3.3亿参数，专为简化Windows设置设计。 - 高效本地处理，响应速度快，降低隐私风险。 - 未来将支持更多硬件平台，扩展用户群体。

6分钟

99+

11个月前

【AI日报】EP.170 6月24 月之暗面首款自主智能体Kimi-Researcher；MiniMax推音色设计功能

Aishaobing的个人播客

【AI日报】 1. 月之暗面发布首款自主智能体Kimi-Researcher，多轮搜索与推理能力强，在HLE测试中超越谷歌和OpenAI同类产品。Kimi-Researcher基于k-系列模型，通过端到端强化学习训练，在HLE测试中Pass@1得分率26.9%，Pass@4准确率40.17%。未来将开源基础预训练模型，助力AI社区发展。 2. MiniMax推出Voice Design音色设计功能，用户可通过自然语言描述生成个性化语音，支持多种语言、口音和音色组合。该功能与Speech-02模型结合，降低了语音合成领域的音色匹配难度。 - 国内版: minimaxi.com/audio - 海外版: minimax.io/audio 3. 火山引擎上线AI智能推荐域名功能，依托方舟大模型平台，帮助企业快速找到符合品牌需求的热门域名。用户输入关键词，AI生成关联性强、富有创意的域名，并提供多样化选择。 - 体验地址: https://www.volcengine.com/product/domain-service 4. Anthropic推出Claude Code for VSCode插件，优化开发者编码体验，强化在AI编码领域的战略布局。插件支持代码编辑、测试和Git工作流管理，活跃用户群增长160%。 5. Google推出Gemini2.5 Flash-Lite模型，具备实时生成交互界面的能力，支持多模态输入，内置可控思考预算功能，在多个领域展现潜力，适合高吞吐量场景。 6. 苹果考虑以300亿美元收购AI初创公司Perplexity，旨在提升Siri和Safari服务，增强搜索市场竞争力。这是苹果历史上最大规模并购计划之一。 7. 月之暗面开源Kimi-2506多模态模型，视觉理解能力显著增强，支持更高分辨率图像处理。Kimi-2506在多模态推理和视觉理解方面表现出色，单张图像总像素达320万。 8. Firecrawl即将推出开源AI问答引擎Fireplexity，依托其强大的网页抓取功能，为开发者提供低成本替代方案。Fireplexity核心功能与Perplexity类似，支持定制。 9. 智能机器人公司银河通用获宁德时代领投超10亿元融资。首款具身大模型机器人Galbot G1已推出并实现应用，侧重上肢操作能力，未来有望与宁德时代形成战略协同。 10. 字节跳动发布DreamActor-H1视频生成系统，采用扩散变换器技术，解决视频生成中真实性和自然性问题。输入商品和角色照片，自动生成带货视频，在保持人和产品身份完整性方面优于现有技术。 11. Google Gemma团队发布Magenta RealTime，一个开源AI音乐生成模型，专注于实时创作，助力音乐创作者和开发者。Magenta RealTime基于Transformer架构，参数规模为8亿，支持文本提示，实时调整音乐风格与情感。 - 产品链接: https://huggingface.co/google/magenta-realtime 12. 开源AI设计工具Jaaz发布Lovart AI的本地化替代品，支持本地运行，为设计师提供灵活高效的创作体验。Jaaz兼容多种图像生成模型，具高兼容性。 - Jaaz项目地址: https://github.com/11cafe/jaaz

9分钟

96

11个月前

【AI日报】EP.169 6月21 MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork

Aishaobing的个人播客

### AI日报新闻提要 1. **MiniMax发布视频智能体Hailuo Agent** - 支持文本到视频生成及人脸图片驱动的视频生成。 - 适用于多种场景，展示多模态AI技术实力。 - 提供视频生成API接口，助力开发者和企业创新。 2. **昆仑万维开源Skywork-SWE-32B** - 在SWE-bench Verified基准上取得38.0%的pass@1准确率。 - 引入测试时扩展技术后，准确率提升至47.0%。 - 建立自动化流程，构建超1万条高质量、可验证的SWE任务数据集。 - 详情链接: [https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd](https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd) 3. **B站接入通义千问Qwen3等模型** - 推出数据洞察智能体InsightAgent。 - ‘花火’平台的AI选人功能使商单成交效率提高5倍以上。 - ‘必达’平台利用InsightAgent生成智能报告，缩短品牌投放决策时间。 4. **ChatGPT深度整合谷歌Gmail与日历功能** - 支持自动邮件回复和日程创建。 - 预计2-3个月内全球上线，强化工作与时间管理效率。 5. **新网站“The OpenAI Files”启动** - 汇集OpenAI内部文件及批评，引发公众对其是否偏离非营利目标的讨论。 - 聚焦AI开发的透明度、安全性和监管问题。 - 详情链接: [https://www.openaifiles.org/](https://www.openaifiles.org/) 6. **腾讯云推出全链路AI驱动应用开发平台“AI Builder”** - 通过自然语言处理技术降低应用开发门槛。 - 平台自动配置后端资源，支持用户局部修改与部署。 - 提供低代码编辑器和代码包导出功能。 - 详情链接: [https://tcb.cloud.tencent.com/](https://tcb.cloud.tencent.com/) 7. **HeyGen推出UGC广告数字人** - 利用AI技术生成高质量广告视频。 - 实现高度逼真的面部表情、肢体动作和语音同步。 - 解决传统UGC创作痛点，提高互动性和转化率。 - 详情链接: 视频链接未提供 8. **Manus AI推出Windows桌面应用程序** - 提供从数据分析到代码生成的全面支持。 - 利用本地计算资源，提供更快响应速度和更低延迟。 - 与Windows生态深度融合，适配多种场景。 - 详情链接: 视频链接未提供 9. **研究揭示过度依赖AI或导致损坏批判性思维与记忆力** - 麻省理工学院研究表明，LLM组参与者的大脑连接性减弱。 - 教育环境中结合AI工具与无工具学习阶段有助于平衡即时技能转移与长期神经发展。 10. **Perplexity重磅升级** - 推出定时任务功能，自动整理金融资讯。 - 结合SEC数据，支持多维度查询。 - 适合个人投资者及专业分析师，助力精准投资决策。 11. **Mozilla宣布停运AI内容检测工具“Deep Fake Detector”** - 将于6月26日停运，标志着对AI生成内容态度的转变。 - 活跃用户不足3300人，暴露了用户需求与实际使用之间的差距。 - 关闭检测工具可能暗示Mozilla对AI内容的默认接受。 12. **腾讯AI Lab推出开源音乐生成大模型SongGeneration** - 提升音乐生成的音质与速度，解决行业难题。 - 用户可通过关键词或参考音频生成个性化音乐。 - 基于3B参数的大型架构，经过海量歌曲预训练。 - 详情链接: [https://huggingface.co/spaces/tencent/SongGeneration](https://huggingface.co/spaces/tencent/SongGeneration) 13. **快手推出OneRec推荐系统** - 计算效率提升10倍，降低运营成本。 - 已上线快手App及极速版，显著提升用户体验。 - 推动行业进入‘端到端生成式觉醒’新阶段。 14. **ChatGPT新笔记工具发布** - 主打隐形记录与智能整理，面向会议记录、头脑风暴及个人笔记管理。 - 利用记忆功能与提示词，提供个性化笔记生成。 - 逐步开放至Pro、Enterprise等用户，与API集成后可拓展至更多工作流平台。 15. **宇树科技完成C轮融资交割** - 多家知名投资机构参与，投前估值超100亿元人民币。 - 公司更名为股份有限公司，可能为上市做准备。 - 创始人王兴兴对在香港上市持开放态度。

9分钟

99+

11个月前

【AI日报】EP.168 6月20 Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5

Aishaobing的个人播客

【AI日报】 1. **Midjourney推出视频生成模型V1** - 主打图像到视频转换功能，支持多种动态模式和文本提示定制。 - 定价亲民，每月10美元即可体验视频生成功能。 - 面临版权争议和技术优化空间，如高动态场景的轻微闪烁问题。 2. **OpenAI宣布GPT-5将在今年夏季发布** - OpenAI CEO确认GPT-5将在今年夏季发布，行业热切期待。 - OpenAI计划重新谈判与微软的合作协议，增强自身市场独立性。 - OpenAI与美国国防部签署2亿美元合同，标志其在国防领域的崛起。 3. **谷歌推出Search Live语音搜索功能** - 通过语音提问并获得AI生成的语音回答，支持连续追问。 - 每次回答附带相关链接，确保信息透明可信。 - 结合Gemini模型与Astra技术，处理复杂语音输入并生成自然连贯的回答。 4. **OpenAI推出开源客户服务代理框架** - 使用OpenAI代理SDK构建智能、工作流意识强的AI代理，支持多种业务场景。 - 设定安全和相关性防护措施，确保系统安全稳定运行。 - 提供Python后端和Next.js前端，展示多代理协作及防护机制的实际应用。 5. **MiniMax Agent重磅发布** - 多场景赋能，包括编程、多模态理解和无缝MCP集成，满足个人及企业级团队需求。 - 从繁琐代码中解放，通过需求理解实现高效任务规划与执行。 - 智能代理引领未来，重塑生产力工具格局，推动智能化、自动化发展。 6. **恶意工具WormGPT新变种重现江湖** - 新版本WormGPT基于Grok和Mixtral模型，专用于网络犯罪活动。 - 这些工具能绕过AI平台的伦理防护，生成恶意脚本和窃取凭证。 - 网络安全专家呼吁加强防御策略，如提升威胁检测与响应能力。 7. **OpenAI推出ChatGPT企业版折扣** - 提供企业版ChatGPT折扣，幅度10%-20%，助力企业降本增效。 - ChatGPT作为对话生成工具，被广泛采用，推动AI技术普及。 - 到2030年，企业客户年收入有望达到150亿美元，显示AI市场巨大潜力。 8. **DeepSite V2升级** - 支持自然语言生成复杂代码，如3D动画，仅需输入描述即可秒级生成可运行代码。 - 实时预览与调整功能让用户即时查看效果并优化结果，确保输出符合预期。 - 完全开源免费，支持多模态任务，涵盖网页、游戏、特效及3D交互内容，降低开发门槛。 - 详情链接: [https://deepsite.hf.co/projects/new](https://deepsite.hf.co/projects/new) 9. **Office-PowerPoint-MCP-Server上线** - 支持从零创建全新PPT或编辑现有文件，覆盖幻灯片管理、内容填充和数据可视化等多功能。 - 无缝集成AI助手，通过自然语言指令或代码批量生成PPT，大幅提升企业报告生成效率。 - 开源特性允许开发者定制功能，如集成图像生成模型或与外部数据源连接，拓展应用场景。 - 详情链接: [https://github.com/GongRzhe/Office-PowerPoint-MCP-Server](https://github.com/GongRzhe/Office-PowerPoint-MCP-Server) 10. **比亚迪与字节跳动携手用AI开发动力电池关键技术** - 比亚迪与字节跳动共建联合实验室，研发动力电池核心技术。 - 共享算法、算力和实验数据，攻克快充、寿命和安全等关键问题。 - 加速电池迭代周期，促进新材料和新配方的发现，推动行业技术进步。 11. **马斯克驳斥xAI巨额亏损传闻** - xAI每月烧钱10亿美元的传闻被马斯克否认，认为是无稽之谈。 - xAI正寻求93亿美元融资以弥补资金缺口，预计全年亏损达130亿美元。 - 尽管面临巨额亏损，马斯克对xAI的未来发展充满信心，目标是在2027年实现盈利。

6分钟

94

11个月前

【AI日报】EP.167 6月19 MiniMax推视频生成模型Hailuo Cursor Pro取消500次请求限制

Aishaobing的个人播客

### AI日报新闻提要 1. **Cursor Pro取消500次请求限制，开启无限使用新篇章** - Cursor Pro计划取消每月500次快速请求限制，推出“无限使用”模式。 - 推出全新Ultra计划，月费200美元，提供相当于Pro计划20倍的模型使用量。 - Anysphere估值达99亿美元，年化收入超5亿美元，巩固市场领先地位。 2. **稀宇科技MiniMax推出视频生成模型Hailuo 02** - Hailuo 02基于Noise-aware Compute Redistribution架构，在复杂场景处理和创作质量提升方面表现优异。 - 模型训练和推理效率提升2.5倍，参数量扩大3倍，支持更大规模数据拟合。 - 支持1080p视频生成，已在多个平台更新并提供多种分辨率选项。 - 详情链接: <https://hailuoai.com/create> 3. **谷歌发布超强AI模型Gemini 2.5 Flash-Lite** - Gemini 2.5 Flash-Lite推理速度快，延迟低，适合实时翻译和高吞吐量分类任务。 - 支持超长上下文处理，达到100万token，灵活性强，适合复杂系统开发。 - 集成于Google AI Studio、Vertex AI平台及谷歌搜索，助力开发者高效工作。 4. **科大讯飞再发力!全新星火X1升级版将于7月重磅上线** - 星火X1升级版将于7月发布，性能全面提升，提供更流畅和智能的使用体验。 - 科大讯飞与多家企业合作，加速市场拓展，彰显其在数字经济中的领先地位。 - 用户界面和交互体验显著改善，带来更高效便捷的应用体验。 5. **腾讯元宝推出AI编程模式，实现实时代码生成与预览** - 用户可通过双栏界面实时生成和预览代码，提升开发效率。 - 支持多种编程语言在线运行，无需配置环境，简化操作流程。 - 功能适合教育和亲子场景，激发创造力与编程兴趣。 6. **OpenAI宣布GPT-4.5将在API中下线，开发者感到困惑与失落** - OpenAI将于2025年7月14日从API中下线GPT-4.5预览版。 - GPT-4.5仍可供ChatGPT个人用户使用。 - OpenAI鼓励开发者迁移到GPT-4.1或其他替代模型，以确保业务连续性并降低运营成本。 7. **苹果新Speech API转录速度惊人，胜过OpenAI Whisper 55%** - 苹果新Speech API转录34分钟4K视频仅需45秒，速度超越竞争对手。 - 与OpenAI Whisper相比，苹果技术提升了约55%的效率。 - 本地化运算优势使Yap在多段视频处理上效率更高，为用户节省大量时间。 8. **百度首推双数字人互动直播间，文心大模型4.5T驱动多模态技术新突破** - 文心大模型4.5T实现多模态联合建模，大幅提升数字人交互体验。 - 双数字人直播间助力电商、教育等领域内容创作，降低成本并提升多样性。 - 开源计划推动多模态AI技术普及，助力中小企业和开发者创新应用。 9. **OpenAI CEO揭露Meta曾试图以1亿美元挖OpenAI人才最终失败** - Meta向OpenAI提出高额挖角报价，但未能成功招揽优秀员工。 - Sam Altman认为OpenAI员工更看重公司的创新文化和AGI发展前景。 - OpenAI正在研发基于AI的社交媒体应用，与Meta展开竞争。 10. **告别“AI感”! Krea1公测开放，超现实纹理与细节、多样化艺术风格** - Krea1图像生成模型公测版已开放，解决传统AI图像生成的“AI感”问题。 - 支持1.5K原生分辨率，最高可达4K超高清，展现细腻纹理与逼真材质。 - 精准理解复杂艺术风格需求，避免千篇一律的“AI图像”输出。 - 允许上传参考图像或数据集，实时调整生成结果，增强创作者控制力。 11. **特斯拉Grok车载AI助手即将上线，个性化定制让驾驶更有趣** - Grok车载AI助手将打破人与车的传统界限，提供丰富交流方式，如问答及个性化定制。 - 支持多种个性化选项，例如不同性格版本及儿童模式，适合家庭用户。 - 仅限AMD芯片车型，新车型将享受更强智能科技，推动车载AI技术成熟。 12. **谷歌Gemini重磅升级! 视频上传与分析功能正式上线** - Gemini新增视频上传与分析功能，可在安卓和网页端轻松上传视频进行内容分析。 - 能全面分析视频内容，包括概述、查找片段或物品，并展示相关片段，提升视频处理效率。 - 在视频分析领域超越ChatGPT，提供更便捷的使用体验，巩固市场竞争力。

7分钟

99+

11个月前

【AI日报】EP.166 6月18 MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构

Aishaobing的个人播客

【AI日报】 1. **月之暗面发布全新开源模型Kimi-Dev-72B** - 专注于软件工程任务的Kimi-Dev-72B在SWE-bench Verified测试中创下最高成绩，以72亿参数量超越了DeepSeek-R1。 - 模型结合BugFixer和TestWriter双重角色，确保代码质量和正确性。 - 未来计划与流行开发工具深度集成，持续优化并推出更强大的版本。 2. **MiniMax-M1开源** - 上下文窗口达1M输入和80k输出，远超GPT-4o，适合复杂文档分析和多轮对话。 - 训练成本仅53万美元，通过MoE架构和CISPO算法实现高效推理与低成本。 - 开源于Hugging Face平台，支持40k和80k思维预算，性能媲美顶级商业模型。 3. **腾讯LeVo来袭** - 支持零样本音色克隆，仅需3秒音频即可精准复制音色，大幅降低音乐创作门槛。 - 提供分轨生成模式，支持人声与伴奏分离，为专业音乐制作提供更高灵活性。 - 以开源形式发布，促进全球音乐创作社区的发展，提升中国AI技术国际影响力。 - 详情链接: https://levo-demo.github.io/ 4. **阿里巴巴发布Qwen3升级版，适配苹果MLX架构** - 新版Qwen3支持119种语言，具备更强性能和混合推理能力。 - 苹果智能尚未在中国上线，可能会在iOS18.6正式公测版中提供预览。 5. **豆包电脑版与网页版上线“AI播客”功能** - 上传PDF或链接即可快速生成自然流畅的双人对话播客。 - 适用于工作、学习等多种场景，利用碎片时间高效获取信息。 - 语音效果逼真，去机器感，提供沉浸式听觉体验。 6. **夸克App推出“夸克老师”** - 集多种学习功能于一体，如讲题、批作业、出题、找试卷等，支持数学和物理难题的深度解析。 - 能够根据学生特点提供个性化辅导，模拟真人教师教学思路，帮助学生理解并提升学习效果。 - 拥有海量题库资源，包括专业题库和名校真题，满足多样化学习需求。 7. **松下全新OmniFlow多模态大模型** - 支持文本、图像和音频的高效转换，带来全新的多模态体验。 - 采用模块化设计，各组件独立预训练，提高资源利用效率并优化训练效果。 - 引入多模态引导机制，用户可精准控制生成过程，满足多样化需求。 8. **TikTok全新Symphony AI工具上线** - 图像转视频功能让静态图片轻松变为动态视频，只需上传图片和添加文字提示即可生成多个AI视频选项。 - 文字转视频功能无需图片或模板，仅凭文字即可制作视频，助力广告商快速测试和完善创意。 - Showcase Products工具融合产品图片与数字化身，打造沉浸式广告体验，提升用户原创内容风格。 9. **极氪与火山引擎携手，豆包大模型赋能智能座舱新体验** - 豆包大模型接入极氪智能座舱，实现精准推荐与个性化服务。 - 升级后的极氪智能语音助手Eva，支持从传统语音交互到大语言模型服务的无缝切换。 - 极氪第50万台车型009光辉下线，刷新豪华纯电车型最快纪录。 10. **Meta Llama3.1能回忆《哈利波特》42%的内容** - Llama3.170B模型在《哈利波特》中能记住42%的内容，远超Llama165B的4.4%。 - 研究采用Books3数据库，通过标记段落测试模型的记忆能力。 - 热门书籍记忆效果更佳，显示AI在理解和处理文本上的进步。 11. **Grok任务功能重磅上线** - 支持多种任务频率，从即时到长期跟踪，满足多样化需求。 - 提供外部通知功能，如邮件推送，结果主动找用户，提升使用便利性。 - SuperGrok用户享有更高配额和优先体验尖端功能，如DeepSearch和Big Brain Mode。 12. **Gemini2.5Pro即将更新Deep Think的功能** - Deep Think功能通过多线程推理显著提升复杂任务中的性能，特别是在数学、编程和多模态任务中表现出色。 - 用户可通过网页UI直观切换至Deep Think模式，功能将逐步向更多用户开放。 - 在正式发布前，Google通过API收集反馈并进行安全评估，确保功能的稳定性和数据安全性。 13. **谷歌地图迎来超大规模升级** - 使用生成式AI搜索功能，通过自然语言实现精准地点查询。 - 智能评论分析功能，自动总结用户评论并解答关于地点的具体问题。 - 推出节油路线优化功能，结合多因素分析推荐更环保的行驶路线。

6分钟

95

11个月前

【AI日报】EP.165 6月14 腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任

Aishaobing的个人播客

【AI日报】腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级 1. **腾讯宣布混元3D 2.1大模型对外开源** - 首个全链路开源工业级3D生成大模型，几何生成与PBR材质生成效果显著提升。 - 支持游戏、电影、电商等领域生成高质量3D角色、道具与产品模型，告别传统‘塑料感’。 - 全链路开源且部署友好，适配消费级显卡，适合个人与团队快速上手开发。 - 详情链接: https://3d-models.hunyuan.tencent.com/ 2. **OpenAI Codex 全新升级: 让程序员轻松获取理想代码** - 新增生成多种代码版本功能，满足不同需求，提升开发效率。 - 优化细节包括加载进度查看、取消操作及安装问题修复，操作更灵活。 - 基于codex-1模型优化，提高代码生成准确性，支持GitHub代码库提取。 3. **字节跳动AI Lab负责人李航卸任，Seed团队步入调整期** - 李航卸任AI Lab负责人，转为劳务/顾问身份，标志着字节跳动AI Lab的重大人事调整。 - 自2020年起，AI Lab逐步转型为技术中台，并在2023-2024年将部分大模型团队并入Seed团队。 - 字节跳动AI Lab自2016年成立以来，历经多位负责人领导，逐步成为支撑字节跳动多项业务的技术核心。 4. **微软发布700个真实AI案例，探索智能化工作新模式** - 微软展示了700个AI应用案例，涵盖金融、医疗、教育等多个行业。 - AI智能体通过自动化任务，显著减少工作时间，提升企业效率。 - 众多企业借助AI提升客户体验，推动业务增长与运营优化。 5. **微软AI重磅发布Code Researcher: 58%崩溃解决率震撼业界!** - Code Researcher基于大型语言模型（LLM），能深度分析代码库和提交历史，追踪崩溃根本原因并生成修复补丁。 - 在Linux内核崩溃修复测试中，Code Researcher的崩溃解决率高达58%，远超SWE-agent的37.5%。 - 适用于多种大型代码库，为企业级软件维护提供高效解决方案，推动系统级软件开发自动化进程。 - 详情链接: https://www.microsoft.com/en-us/research/publication/code-researcher-deep-research-agent-for-large-systems-code-and-commit-history/ 6. **AI监工上线! Observer AI让屏幕自动化更高效，解放你的双手** - Observer AI通过高精度捕捉技术完整记录界面变化，确保数据无遗漏。 - 内置先进算法快速解析屏幕内容，识别任务完成情况或潜在问题。 - 支持调用MCP或自定义方案，自动执行下一步操作，实现闭环自动化。 - 详情链接: https://github.com/Roy3838/Observer 7. **Genspark AI 发布革新性AI Browser，开启智能网络浏览新时代** - Genspark AI Browser内置AI代理，提供智能导航与内容分析，例如自动搜索全网最低价。 - 支持MCP Store模块化扩展，用户可通过定制化AI工具满足多样化需求。 - 适用于多种场景，包括学术研究、商业决策及内容创作，提升信息处理与任务自动化效率。 8. **麻省理工利用AI技术迅速修复15世纪名画，仅需三个半小时** - 麻省理工开发新技术，通过AI修复名画，仅需三个半小时。 - 该技术将修复时间从数月缩短到几个小时，大幅提高效率。 - 采用可拆卸掩膜和数字地图，修复过程安全可逆，保护原画。 9. **蚂蚁集团和Inclusion AI联合推出Ming-Omni: 首个开源版多模态GPT-4o** - 支持多模态输入融合处理，无需额外模型或特定任务微调，高效完成多样化任务。 - 提供语音与图像生成功能，支持方言理解、语音克隆及上下文感知对话，提升人机交互体验。 - 首个开源多模态模型，与GPT-4o匹敌，激励社区研究与开发，推动技术进步。 - 详情链接: https://lucaria-academy.github.io/Ming-Omni/ 10. **视频版AI换衣框架MagicTryOn，基于Wan2.1视频模型** - MagicTryOn采用扩散变换器，显著提升视频虚拟试穿的时空一致性。 - 引入粗到细的服装保留策略，增强服装细节表现力。 - 在大幅度运动场景下表现优异，展现服装与人体动作的自然互动。 - 详情链接: https://vivocameraresearch.github.io/magictryon/ 11. **字节跳动Seaweed APT2震撼发布! 实时互动AI视频生成，解锁3D虚拟世界新纪元** - Seaweed APT2采用自回归对抗后训练技术，大幅降低计算复杂性，实现高效实时视频生成。 - 支持实时3D世界探索和互动虚拟人类生成，适用于虚拟主播、游戏角色等多种场景。 - 相比传统模型，Seaweed APT2在动作连贯性和场景多样性方面有显著提升，开启AI视频生成新篇章。 12. **OpenAI升级ChatGPT Search功能，提供更精准、更智能的响应** - 新增图片搜索功能，支持多样化交互方式。 - Projects功能升级，助力高效管理对话和文件。 - 挑战谷歌霸主地位，提供更高效、人性化搜索体验。 13. **字节火山引擎澄清与老凤祥AI智能眼镜合作传闻** - 火山引擎否认与老凤祥合作开发AI智能眼镜，但老凤祥展示的眼镜确实使用了豆包大模型。 - 老凤祥AI眼镜专为老年用户设计，具备多种实用功能如语音导航、实时翻译等。 - 豆包大模型作为公开产品，任何合规客户均可购买并应用到自己的设备中。

6分钟

99+

1年前

【AI日报】EP.175 7月3 百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型

【AI日报】EP.174 7月2 阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端

【AI日报】EP.174 7月1 百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

【AI日报】EP.173 6月27 可灵AI推全球首部AIGC单元剧；谷歌开源AI智能体Gemini CLI

【AI日报】EP.172 6月26 支付宝推 “AI 打赏” 服务；QQ浏览器上线高考志愿报告功能

【AI日报】EP.171 6月25 即梦灰测图片3.1模型；ElevenLabs推出AI语音助理11ai

【AI日报】EP.170 6月24 月之暗面首款自主智能体Kimi-Researcher；MiniMax推音色设计功能

【AI日报】EP.169 6月21 MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork

【AI日报】EP.168 6月20 Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5

【AI日报】EP.167 6月19 MiniMax推视频生成模型Hailuo Cursor Pro取消500次请求限制

【AI日报】EP.166 6月18 MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构

【AI日报】EP.165 6月14 腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任

加入我们的 Discord

扫描微信二维码

播放列表

Aishaobing的个人播客 - 节目列表

【AI日报】EP.175 7月3 百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型

【AI日报】EP.174 7月2 阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端

【AI日报】EP.174 7月1 百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

【AI日报】EP.173 6月27 可灵AI推全球首部AIGC单元剧；谷歌开源AI智能体Gemini CLI

【AI日报】EP.172 6月26 支付宝推 “AI 打赏” 服务；QQ浏览器上线高考志愿报告功能

【AI日报】EP.171 6月25 即梦灰测图片3.1模型；ElevenLabs推出AI语音助理11ai

【AI日报】EP.170 6月24 月之暗面首款自主智能体Kimi-Researcher；MiniMax推音色设计功能

【AI日报】EP.169 6月21 MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork

【AI日报】EP.168 6月20 Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5

【AI日报】EP.167 6月19 MiniMax推视频生成模型Hailuo Cursor Pro取消500次请求限制

【AI日报】EP.166 6月18 MiniMax-M1开源；阿里Qwen3升级版适配苹果MLX架构

【AI日报】EP.165 6月14 腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任

加入我们的 Discord

扫描微信二维码

播放列表