【AI日报】EP.212 9月6 拍我AI接入Nano Banana;腾讯智影暂停服务;京东自研京点点

Aishaobing的个人播客

【行业动态】 📰 拍我AI接入谷歌 Nano Banana,开启六天免费创作 接入 Gemini 2.5 Flash Image(Nano Banana),视频生成速度与质量双升级。限时六天免费,全球用户已突破1亿,创作门槛进一步下降。 - 参考链接:https://www.chinaz.com/tags/992068.shtml 【效率工具】 ⚡ 京东自研「京点点AI文案」上线,3秒出稿 面向商家的一站式AI文案工具,支持视频脚本、直播话术等多场景。完全免费,每日可生成多达50条,高效又省成本。 - 项目链接:https://ai.jd.com/ 【行业动态】 📰 腾讯数字人平台“智影”暂停服务,原因未披露 官网显示升级维护中,相关公众号与视频号已注销。官方尚未回应,引发业务走向与产品调整的猜测。 【AI模型】 🧠 微软发布 GPT-realtime:更逼真语音与多模态输入 新增 Marin、Cedar 两种语音,音质更清晰、情感更自然;支持图像输入与更强指令跟随。Real-time API 开放,价格较预览期下调约20%。 【开源项目】 🧩 钉钉与 OpenDataLab 联合推出文档解析工具 DLU 基于 MinerU 技术,支持多格式文档,精准提取复杂元素并转化高质量语料。预计开源并深度融入钉钉生态,助力企业内容理解与协同。 【效率工具】 ⚡ ChatGPT 新功能向免费用户开放,项目管理更高效 免费用户最多可上传5个文件(Plus 25个、Pro/企业版40个)。支持项目颜色与图标自定义,新增项目级记忆控制,切换场景更顺手。 【行业动态】 📰 华纳兄弟探索起诉 Midjourney 侵权,涉大量版权角色 指控其生成未授权的衍生图像,即便未直接提及角色也会输出相关内容。华纳兄弟请求法院禁止侵权并索赔,版权边界再受关注。 【开源项目】 🧩 电子书一键变思维导图:AI解析 EPUB/PDF 自动解析章节结构,生成思维导图与文字总结,支持多种模式与离线缓存。提升长文阅读效率,便于知识整理与复盘。 - 项目链接:https://github.com/SSShooter/ebook-to-mindmap

7分钟
99+
3个月前

【AI日报】EP.211 9月5 苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Pro

Aishaobing的个人播客

【行业动态】 📰 苹果与谷歌联手将Gemini引入Siri,或重塑搜索入口 苹果正在测试将谷歌Gemini集成进Siri,并可能扩展到Spotlight等核心功能。Siri的全面AI升级预计推迟到2026年,语音助手有望直接回答更多信息检索需求。 【效率工具】 ⚡️ ChatGPT Projects向免费用户开放,任务管理更省心 OpenAI将Projects功能开放给所有用户,支持对话分组、文件上传(每Project至多5个)、自定义颜色与图标。新增Project-only memory,兼顾隐私与专注。 【开源项目】 🧩 谷歌发布Gemini CLI GitHub Actions:免费把AI带进代码仓库 支持自动化问题分类、PR审核与按需协作命令,降低团队使用AI门槛。内置安全认证方案,便于在现有CI/CD中稳定落地。 - 源链接:https://blog.google/technology/developers/introducing-gemini-cli-github-actions/ 【行业动态】 📰 OpenAI估值飙至5000亿美元,二级出售达103亿美元 资本市场对AI的信心继续升温,OpenAI完成大额二级交易。伴随Anthropic等平台融资走强,行业热度与竞争加速升级。 【行业动态】 📰 苹果自研“世界知识问答”AI搜索,计划2026年春上线 新引擎将嵌入Siri、Safari与Spotlight,强化智能搜索体验。苹果同时与谷歌合作引入其AI模型,并加紧招募AI人才。 【AI模型】 🤖 Kimi K2-0905登陆Discord:更强编程与写作,无思考/视觉 Moonshot AI发布K2-0905版本,聚焦代码生成与创意写作能力提升。仍未开源,现阶段通过开放Beta邀请体验。 【效率工具】 ⚡️ Raycast上新Cursor Agent插件,AI编码一键直达 在Raycast内直接调用Cursor代理执行编辑与运行任务,减少工具切换。提供实时状态显示,进一步优化开发工作流。 【技术突破】 🔬 谷歌发布nano banana官方Prompt模板,附完整代码示例 六套模板覆盖写实与插画等风格,零门槛生成高质量图像。为创意设计与内容生产提供即用型范式。 - 源链接:https://x.com/GoogleAIStudio/status/19629576152622245111

6分钟
99+
3个月前

【AI日报】EP.210 9月4 抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Sta

Aishaobing的个人播客

【行业动态】 📰 抖音重拳打击AI滥用:违规内容与账号将下架清退 平台点名虚假商品展示、夸大宣传与AI仿冒名人等行为,严重扰乱秩序。 发布AI生成内容需主动标注,未声明将被重点治理。 【AI模型】 🧠 ElevenLabs音效模型升级至V2:长片段、无缝循环与高保真 最高支持30秒生成与48kHz采样率,音质与灵活性全面提升。 新增无缝循环,适合配乐与背景音效连续播放。 【行业动态】 📰 OpenAI收购Statsig:创始人赴任CTO,强化产品数据分析 Statsig每日处理1万亿事件,助力实验与迭代加速。 收购后平台将继续独立运营,支撑下一代产品规模化。 【效率工具】 ⚙️ 亚马逊上线Lens Live:实景扫描即购,AI助手Rufus加持 对准实物即可识别匹配商品,一键加入购物车。 AI自动总结要点、解答问题,提升购物决策效率。 【效率工具】 ⚙️ 谷歌推出Stax:按自定义标准评测大模型的开发者工具 支持并排对比、多提示批测与预构建评估器,结果更贴近真实需求。 项目与数据集管理助力大规模一致性评测。 - 项目链接:https://stax.withgoogle.com/landing/index.html 【效率工具】 ⚙️ WordPress发布AI工具Telex:用提示词构建网站内容 通过AI生成可复用内容块,一键打包为.zip下载。 仍处实验阶段,旨在降低建站门槛并引发生态讨论。 【AI模型】 🧠 Liquid AI推LFM2-VL:轻量多模态模型,端侧推理更快 450M与1.6B两款规模,兼顾资源受限与单GPU部署。 高分辨率输入、非重叠切片与工具链兼容,推理提速最高2倍。 - 项目链接:https://huggingface.co/LiquidAI/LFM2-VL-1.6B 【开源项目】 🧩 苹果开源FastVLM与MobileCLIP2:边缘设备多模态性能跃升 FastVLM首词响应提速达85倍,面向高分辨率与移动端。 MobileCLIP2聚焦高效图文对齐,支持实时交互与搜索生成。 - 项目链接:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 【开源项目】 🧩 MetaGPT发布RealDevWorld:端到端自动化测试,准确率92% 自然语言生成用例与自愈脚本,显著降低维护成本。 覆盖Web/移动端/API全栈流程,提升测试可靠性与效率。 - 项目链接:https://github.com/tanghaom/AppEvalPilot 【开源项目】 🧩 瑞士发布完全开源大模型Apertus:覆盖千余语言 EPFL、ETH与CSCS联合研发,透明公开训练数据与流程。 提供面向个人与复杂场景的两个版本,依托可再生能源算力。 - 项目链接:https://huggingface.co/swiss-ai/Apertus-8B-Instruct-2509

7分钟
99+
3个月前

【AI日报】EP.209 9月3 腾讯开源3D世界模型HunyuanWorld-Voyager;即梦A

Aishaobing的个人播客

【开源项目】 🧩 腾讯开源超长程世界模型 HunyuanWorld‑Voyager,原生3D重建登场 基于单张图像生成世界一致性的3D点云并支持沉浸式探索。 视频生成与场景重建效果领先,面向VR、游戏与空间智能。 - 参考链接:https://upload.chinaz.com/video/2025/0902/6389242348453431527577699.mp4 【开源项目】 🧩 通义实验室发布 AgentScope 1.0,多智能体开发一体化框架 三层架构(Core、Runtime、Studio)覆盖开发、部署、监控全生命周期。 支持实时介入控制、智能上下文管理与高效工具调用,强化安全与稳定。 - 项目链接:https://github.com/agentscope-ai/agentscope 【行业动态】 📰 即梦AI开放图像与视频生成API,一站式创作加速企业落地 与火山引擎开放API,覆盖文生图3.0/3.1、视频生成3.0pro与动作模仿等。 助力企业高效生产创意内容,加速商业应用创新。 【AI模型】 🧠 腾讯开源 Hunyuan‑MT‑7B,WMT2025 30项夺冠 支持31种语言,在多语种基准中强势夺魁。 开源推动多语言NLP应用普及与合作。 【技术突破】 🚀 苹果推出 STARFlow,图像生成架构对标 DALL‑E 与 Midjourney 将正则化流与自回归Transformer结合,提升高分辨率生成效率与质量。 深浅设计与潜在空间操作进一步优化模型表现,前景广阔。 - 参考链接:https://arxiv.org/pdf/2506.06276 【效率工具】 ⚙️ 苹果 FastVLM 上线,85倍速本地视觉AI可5分钟上手 在Apple Silicon设备近乎即时处理图像与字幕,视频字幕速度提升85倍、体积缩小3倍以上。 可浏览器直载轻量版,数据全程本地确保隐私。 【AI模型】 🧠 CoMPaSS‑FLUX.1 发布,显著强化文本到图像的空间理解 基于FLUX.1的LoRA适配器,显著提升物体间空间关系理解。 多项基准全面提升,同时保持高质量生成。 - 项目链接:https://huggingface.co/blurgy/CoMPaSS-FLUX.1 【行业动态】 📰 Cherry Studio × 硅基流动:免费提供 Qwen38B,丰富多模型体验 免费提供Qwen38B接入,强化多平台、多模型支持。 面向跨行业场景的智能助手,提升生产力与个性化体验。 【效率工具】 ⚙️ 谷歌上线 Gemini API URL Context,可详解网页多模态内容 面向开发者的一键解析:可理解网页、PDF、图片等内容,处理上限约34MB。 无法越过付费墙,且不处理YouTube与Google Docs等专用源。 - 参考链接:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/ 【开源项目】 🧩 腾讯优图开源 Youtu‑Agent,自主智能体框架面向社区 面向构建、运行、评估自主智能体,支持数据分析、文件处理等任务。 模块化设计与对开源模型的友好支持,推动社区协作与创新。 - 项目链接:https://github.com/TencentCloudADP/Youtu-agent

7分钟
99+
3个月前

【AI日报】EP.208 9月30 AI内容新规正式生效;美团推出开源大模型LongCat

Aishaobing的个人播客

【AI语音】 🎤 阶跃发布Step-Audio 2 mini * 真端到端语音大模型,SOTA表现 * 融合链式思维推理+强化学习 * 优化情绪、语调等副语言理解 详情链接:https://github.com/stepfun-ai/Step-Audio2 【AI内容新规】 ⚖ 9月1日正式生效 * 强制AI生成内容显式+隐式标识 * 违规将面临限流、整改、下架及法律风险 【开源大模型】 🐱 美团LongCat发布 * 560亿参数,MoE架构 * 推理性能超100 tokens/s * MMLU、数学推理等任务表现优异 详情链接:https://longcat.chat/ 【多模态AI】 🖼️ 上海AI实验室InternVL3.5 * 级联式强化学习+视觉分辨率路由 * 推理与通用性能超越GPT-5、Claude-3.7 详情链接:https://github.com/OpenGVLab/InternVL 【音频生成】 🎧 腾讯ARC AudioStory * 大语言模型驱动长篇叙事音频 * 结构化生成,音质与一致性俱佳 详情链接:https://github.com/TencentARC/AudioStory 【语音AI】 🔥 OpenAI GPT-realtime * 实现自然流畅人机语音对话 * 多模态处理+语音风格切换 【推理优化】 📊 Meta&UCSD DeepConf * 准确率99.9%,成本降低85% * “置信度”机制动态优化推理 详情链接:https://arxiv.org/abs/2508.15260 【科技事件】 🚨 Musk确认xAI代码被盗 * 前员工Xuechen Li转投OpenAI * 涉及商业机密与巨额利益 【GUI自动化】 📱 阿里巴巴Qwen团队 * Mobile-Agent-v3 & GUI-Owl发布 * 多代理协作+多模态推理,提升GUI任务执行力 详情链接:https://arxiv.org/abs/2508.15144 【微软AI】 💡 Copilot Labs上线 * 首个实验工具“Copilot音频表达” * 文本转语音,支持情感+故事模式 详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression 【内容创作】 📝 小红书自动化工具xiaohongshu-mcp * 支持自动化登录、图文发布、数据获取 * 基于Go语言,开发者友好,支持二次开发 详情链接:https://github.com/xpzouying/xiaohongshu-mcp

5分钟
99+
3个月前

【AI日报】EP.207 8月30 海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新

Aishaobing的个人播客

【技术突破】 🔬 MiniMax海螺AI首尾帧功能双端上线 网页版与APP同步支持,新增“仅尾帧”玩法。 更强指令理解、丝滑动态与大胆想象力,全面抬高首尾帧生成上限。 【AI模型】 🤖 元石科技发布问小白5,直指GPT-5水准 动态思维模式可在“快答”与“深思”间智能切换。 STEM、前沿知识与代码能力突出,综合评分领先同类。 【AI模型】 🤖 OpenAI发布GPT-Realtime,专为语音AI Agent 多模态语音模型,语音自然流畅,支持图像输入与多语言切换。 推理与指令遵循显著提升,安全防护到位,适配多行业场景。 【效率工具】 ⚡ Gemini AI加持Google Sheets,表格处理更轻松 “转换为表格”自动分析整理数据,提升效率。 自定义公式表达式随数据变化自动适配,减少手动调整。 【技术突破】 🔬 腾讯ARC推出AudioStory,一句话生成电影级音频 分而治之策略将故事拆解为有序音频事件。 解耦式连接机制匹配音质与语义,生成高质量叙事音频。 - 参考链接:https://arxiv.org/pdf/2508.20088 【行业动态】 📰 百度未来五年培养1000万AI人才,AI新业务表现亮眼 将通过校企合作、企业培训与在线教育多渠道培养人才。 2025年Q2 AI新业务收入突破100亿元,同比增长34%。 【行业动态】 📰 MathGPT.ai反作弊AI导师在美30校试点成功 苏格拉底式提问鼓励独立思考,杜绝“直接给答案”。 与Canvas、Blackboard、Brightspace集成,兼容读屏无障碍。 【效率工具】 ⚡ 苹果Xcode集成Claude Sonnet4,开发效率再升级 智能生成高质量代码、定位并自动修复错误。 新增inline playgrounds,可在代码行内即时运行与测试。 【AI模型】 🤖 微软发布自研MAI-Voice-1与MAI-1-preview MAI-Voice-1已用于Copilot Daily等,快速生成音频。 MAI-1-preview面向日常查询与文本处理,强化消费级AI布局。 - 源链接:https://microsoft.ai/news/two-new-in-house-models/ 【AI模型】 🤖 xAI推Grok Code Fast1,快速经济的编码模型 轻量化架构提升服务速度与缓存命中率。 支持GitHub Copilot、Cursor等平台,定价亲民适合开发者。 - 源链接:https://x.ai/news/grok-code-fast-1 【行业动态】 📰 SuperCLUE多模态8月榜:Gemini-2.5-Pro居首 以74.99分领先,GPT-5(high)居次;评测覆盖15个主流模型。 聚焦基础认知、视觉推理与应用,国内模型竞争力上升。 【行业动态】 📰 9月1日AIGC标识国标实施,不合规或涉法律风险 文本/图片/视频需显式标识AI属性,并进行元数据隐式标识。 违规或遭限流、整改、下架与法律追责,企业需尽快合规。

7分钟
99+
3个月前

【AI日报】EP.206 8月29 字节OmniHuman-1.5发布;PixVerse V5模型上线

Aishaobing的个人播客

【技术突破】 🚀 字节 OmniHuman-1.5 发布:一张图+音频生成超真实视频 单张图像联动音频,生成高拟真动态视频,动作协调与表现力显著提升。 支持双人音频驱动、情感感知与多风格覆盖,适配演讲、MV、虚拟主播等场景。 - 项目链接:https://omnihuman-lab.github.io/v1_5/ 【行业动态】 📈 PixVerse V5 全球同步上线,用户规模破亿 V5 在复杂运动、动漫同人、广告与艺术表达等场景表现出色。 图生视频项目全球 Top2、文生视频 Top3,进一步降低创作门槛。 【开源项目】 🧩 腾讯 Youtu-agent:几句 YAML 搭建会上网的智能体 在 WebWalkerQA 与 GAIA 基准分别达 71.47% 和 72.8%,全异步执行性能强。 支持 CSV 分析、文献综述、文件整理等,多工具集与自动化配置开箱即用。 - 项目链接:https://github.com/Tencent/Youtu-agent 【效率工具】 🧰 Plaud AI Pro 录音笔发布:50 小时续航 + 智能屏 0.95 英寸 AMOLED 实时显示录音与电量,四麦克风带来更广拾音与更优降噪。 更长续航与更智能交互,重塑会议与课堂笔记工作流。 【技术突破】 ⚙️ 百度百舸 AI 计算平台 5.0 发布 网络通信提速降延迟,上线昆仑芯超节点,提供更强算力。 训推一体引入强化学习框架,进一步压榨资源与提升效率。 【行业动态】 📰 OpenAI 将上线家长监控与危机干预能力 针对青少年安全引入家长监控、紧急联系人联动与危机场景主动干预。 GPT-5 方向更新以强化识别与干预能力,回应相关诉讼与社会关切。 【效率工具】 💻 Claude Code 网页版上线:无需 CLI,云端即用 基于 Claude 3.7 Sonnet,支持自然语言写码、调试与项目管理。 浏览器一键访问,强化数据安全与隐私保护,降低团队接入门槛。 【行业动态】 📊 IDC:未来五年全球 ICT 市场达 7.6 万亿美元 预计五年复合增速 7.0%,AI 与算力需求成核心驱动力。 中国企业级 ICT 2025 年达 3147 亿美元,软件与信息服务持续攀升。 【开源项目】 🧩 腾讯混元 HunyuanVideo-Foley:端到端视频音效生成开源 构建大规模 TV2A 数据集,双流多模态扩散变换器平衡文本与视频语义。 引入 REPA 损失,生成电影级匹配音效,显著提升质量与稳定性。 - 项目链接:https://hunyuan.tencent.com/video/zh?tabIndex=0 【行业动态】 🌍 a16z 移动端 AI 榜单:中国团队强势登顶多赛道 中国团队在图片与视频处理占据优势,美图 5 款产品上榜。 生态加速完善,新兴平台崛起,移动端 AI 产品全球竞争力走强。

7分钟
89
3个月前

【AI日报】EP.205 8月28 字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”

Aishaobing的个人播客

【AI模型】 🤖 谷歌发布 Gemini 2.5 Flash 图像编辑模型 支持文字指令精准编辑、角色一致性、局部文字编辑与风格迁移。 具备现实推理与多图融合,助力品牌素材与创意生产。 【AI模型】 🤖 字节跳动推出 Waver 1.0,多风格视频生成模型 支持文生视频与图生视频,最长约10秒,多镜头叙事。 在运动与视觉质量上优于现有模型,覆盖多种艺术风格。 - 项目链接:https://www.waver.video/ 【行业动态】 📰 百度发布“梯子AI”无广告智能搜索APP 由 Tizzy.ai 更名而来,支持 AI 双模搜索与个性化答案。 结合短剧生态,主打无广告、无会员的沉浸式观剧体验。 【效率工具】 🛠️ 文心快码上线 Zulu-CLI 等多项新功能 新增终端编码、企业版自定义模型、一键自动执行等能力。 支持本地代码库知识增强索引与对话图片导出,协作更高效。 【效率工具】 🛠️ 腾讯发布 VISVISE AI 工具集,动画制作提效最高 8 倍 MotionBlink 自动补帧,将 10 秒动画生成从数天缩至 4 秒。 GoSkinning 自动蒙皮,2 万顶点模型约 30 秒完成,重构流程更专注创作。 【行业动态】 📰 自动驾驶送货机器人 RM5 来袭:3 美元“包邮”搅动外卖格局 具备四级自动驾驶与模块化批量配送,最大载重 500 磅。 固定 3 美元配送费、无隐藏成本,单次配送成本可降至 70%。 【行业动态】 📰 DeepSeek V3.1 爆“极字Bug”,官方确认并将修复 API 输出随机夹杂“极”字,影响代码生成与准确性。 问题已定位为模型自身,覆盖多平台,近期版本将修复。 【效率工具】 🛠️ 谷歌翻译上新:实时同传 + AI 陪练,学习像聊天一样简单 基于 Gemini,支持 70+ 语言实时同传与个性化口语陪练。 增强语义理解与语音识别,显著提升跨语交流与学习效率。 【行业动态】 📰 全球首现 AI 勒索软件 PromptLock,跨平台攻击新威胁 采用 gpt-oss:20b,本地生成恶意代码窃取并加密文件。 可借外部服务器绕过本地显存限制,隐蔽性与适应性更强。 【效率工具】 🛠️ Anthropic 推出 Claude for Chrome,AI 上网助手进驻浏览器侧栏 强化安全防护,显著降低即时注入攻击成功率。 深度理解浏览上下文与行为,实现任务执行与无缝协作。

6分钟
99+
3个月前

【AI日报】EP.204 8月25 钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent

Aishaobing的个人播客

**AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源Mobile-Agent 3** 1. **钉钉十周年发布8.0版本,推出AI办公新形态钉钉ONE** 钉钉在十周年之际推出8.0版本,并发布了下一代AI办公应用形态——钉钉ONE。该产品通过自然语言对话实现人与AI的交互,简化工作流程,降低使用门槛,展示了钉钉在市场中的地位和用户认可度,包括企业组织数、付费组织数和AI应用数量等数据。 2. **阿里开源Mobile-Agent 3:强大的GUI代理家族** X-PLUG团队发布了Mobile-Agent-v3,这是一个跨平台多代理框架,具备强大的功能和优化性能,适用于GUI自动化任务。该版本基于GUI-Owl,增强了异常处理和反思能力,确保在干扰下仍能高效操作,且提供技术报告、演示视频和代码库供开发者参考。 3. **微信AI播客震撼登场!双人对话播报新闻,传统主播要失业了?** 微信正在测试AI播客功能,通过双人对话的方式播报新闻,改变了传统的新闻消费方式。该功能基于快讯内容,通过AI技术将文本转化为自然流畅的对话式播报,提升用户的沉浸式体验,未来可能扩展至长文朗读、聊天记录回顾等场景。 4. **钉钉推出首款AI硬件:AI录音产品DingTalk A1** 钉钉CEO陈航在十周年发布会上推出了DingTalk A1,这款厚度仅为3.8毫米的AI硬件,能帮助用户清晰录制语音内容,并提供高准确率的转写服务。此外,内置36个工作和生活Agent模板,提升会议记录和工作总结的效率。 5. **苹果Siri或将搭载谷歌Gemini大模型,强化AI能力** 苹果计划与谷歌合作,为2026年发布的Siri升级版引入定制版Gemini大模型,以提升Siri的语音助手能力。这项合作可能对AI助手市场格局产生深远影响,为用户提供更智能、高效的交互体验。 6. **苹果发布适配版SlowFast-LLaVA模型:长视频理解性能超越大规模模型** 苹果发布了适配版SlowFast-LLaVA模型,该模型在长视频分析任务中表现出色,甚至超越了参数规模更大的模型。其双流架构有效解决了传统逐帧处理中的信息冗余和上下文窗口溢出问题,为视频内容分析提供了高效的新方案。 7. **Meta豪掷重金拿下Midjourney授权!扎克伯格AI军备竞赛再下一城** Meta与Midjourney达成技术授权合作,进一步提升其在AI图像生成领域的竞争力。此次合作是Meta加大AI领域布局的关键一步,也显示出AI行业的激烈竞争。 8. **谷歌Drive视频编辑迎来重大升级!Vids AI工具一键直达,视频创作门槛再降低** 谷歌为Google Drive新增了Vids视频编辑快捷按钮,使视频编辑变得更加便捷。这一功能不仅简化了操作流程,还降低了视频制作门槛,提升了Workspace用户的体验。 9. **夸克发布健康大模型技术报告,公开AI“主任医师”技术细节** 夸克健康大模型通过了中国12门核心学科的主任医师笔试评测,成为国内首个完成这一挑战的大模型。该模型在医学推理任务中表现出色,并通过高质量医疗数据和强化学习技术提升性能。 10. **全球掀起画鱼狂潮!百万网友沉迷这款AI小游戏,简笔画秒变活鱼精** AI小游戏《Draw A Fish》凭借其极简设计和社交互动机制在全球范围内掀起热潮。游戏通过AI技术将涂鸦转化为动态虚拟小鱼,吸引了大量用户沉浸其中,成为社交创作的新空间。

5分钟
99+
3个月前

【AI日报】EP.203 8月23 即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

Aishaobing的个人播客

【AI日报】 📰 【智能助手】🤖 腾讯元宝接入DeepSeek V3.1 * 响应速度显著提升 * 智能助手能力增强,复杂任务处理更高效 * 持续优化产品体验 【视频创作】🎬 即梦AI上线智能多帧功能 * 仅需10张关键帧即可生成54秒连贯长镜头 * 简化视频制作流程,流畅运镜自然过渡 * 提升视觉效果与创作效率 【视频生成】🎥 可灵AI 2.1首尾帧升级 * 效果提升达235%,实现精准可控的起止画面 * 推动广告、影视、短剧与动画创作发展 * 标志AI视频生成迈向专业化 【语音识别】🎤 钉钉&通义实验室发布Fun-ASR * 高效转写复杂语音,精准识别行业术语 * 支持多语言、多口音识别 * 提供专属模型定制服务 【开发工具】💻 腾讯CodeBuddy IDE国内版公测 * 国内首个支持DeepSeek V3.1的IDE * 支持全流程自动化编程 * 集成腾讯云EdgeOne Pages 【AI基础设施】🌐 Vercel发布AI Gateway * 一键调用数百种AI模型,支持OpenAI、xAI、Anthropic等 * 性能优化,低延迟高可靠 * 支持BYOK,成本透明 详情链接: https://vercel.com/blog/ai-gateway-is-now-generally-available 【企业治理】📊 Anthropic整合Claude Code * 强化AI开发治理能力 * 推出合规API与监控功能 * 优化资源分配与用戶管理 【自动化突破】📱 阿里发布Mobile-Agent-v3 * 跨平台GUI自动化,支持移动与桌面 * GUI-Owl精准识别界面元素 * 开源助力行业创新 详情链接: https://github.com/X-PLUG/MobileAgent 【智能编程】👨‍💻 阿里Qoder新一代Agentic Coding平台 * 上下文工程能力强大 * Repo Wiki显性化知识,Quest Mode支持全栈编程 * 变革软件开发模式 详情链接: https://qoder.com 【3D建模】🕶 清华IDEA团队发布GUAVA * 单张照片0.1秒生成高质量3D化身 * 引入3D高斯模型,表现力更强 * 推动开源生态与二次开发 详情链接: https://eastbeanzhang.github.io/GUAVA/ 【搜索体验】🔍 谷歌搜索新增AI Agent * 一键预订餐厅,个性化推荐 * 可分享结果,提升互动体验 * 已覆盖180多个国家 【3D创作】🏆 VAST发布Tripo 3.0 * 服务超300万开发者,700+企业采用 * 拥有4000万个高质量3D数据集 * 标志AI 3D建模进入新阶段

4分钟
99+
3个月前

【AI日报】EP.202 8月22 智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频

Aishaobing的个人播客

【AI日报】 🤖 今日看点 1、【智谱AI】🚀 AutoGLM 2.0 发布 * 一句话语音操控,支持多平台任务执行 * 开放 API 接口,助力智能生活普及 详情链接:https://autoglm.zhipuai.cn/htdocs/download.html 2、【腾讯】📺 元宝接入腾讯视频 * 元宝内可直接搜索并跳转腾讯视频观看 * 支持片名、剧情、台词快速检索 3、【字节跳动】🌱 发布 Seed-OSS 开源大模型 * Seed-OSS-36B 拥有 360 亿参数,512K 上下文 * 灵活“思考预算”机制,优化推理任务 详情链接:https://github.com/ByteDance-Seed/seed-oss 4、【速卖通】⚡ 新品闪电推 AI Agent 上线 * 自动整合资源,7天破零率翻倍 * 最佳推广策略显著提升转化率 5、【微软】🪟 Windows 11 Copilot 新功能测试 * 自然语言文件/图片搜索 * 支持多媒体内容交互与家庭体验界面 6、【Liquid AI】🖼️ 发布 LFM2-VL 超高效视觉语言模型 * GPU 推理速度快两倍 * 开放权重,Hugging Face 可下载 详情链接:https://huggingface.co/collections/LiquidAI/lfm2-vl-68963bbc84a610f7638d5ffa 7、【OpenAI】💰 月收入突破 10 亿美元 * 算力需求紧张,依赖微软合作 * ChatGPT-5 推出,订阅量快速增长 8、【谷歌】📱 Pixel10 全面升级 AI 功能 * Gemini Live、Magic Cue、Camera Coach 等创新 * 支持多语言语音翻译 9、【谷歌】🎧 Pixel Buds 系列震撼升级 * Pixel Buds2a 首次支持主动降噪 * Pixel Buds Pro2 引入 AI 手势控制与自适应音频 10、【ElevenLabs】🔊 发布 v3 Alpha API * 支持 70+ 语言,提供多角色互动 * 高级音频标签功能,精确控制情感与节奏

6分钟
99+
3个月前

【AI日报】EP.201 8月21 DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力

Aishaobing的个人播客

【AI日报】📰 1、【模型更新】✨ DeepSeek V3.1 正式发布 * 上下文长度拓展至 128K,可处理超长文本 * 多步推理任务表现提升 43%,尤其在数学与科学分析中更准确 * 多语言支持优化,亚洲及小众语种处理能力增强 详情链接:https://chat.deepseek.com/ 2、【效率工具】💼 企业微信 5.0 重磅发布 * 推出智能搜索、智能总结、智能机器人三大 AI 功能 * 接入超过 1400 万真实企业与组织 * 打造一体化办公协同体验 3、【AI推理】📈 快手 Klear-Reasoner 模型登顶 * 数学推理准确率突破 90%,8B 模型领先者 * 基于 Qwen3-8B-Base,采用 GPPO 算法提升探索能力 * 强调数据质量与训练策略优化 详情链接:https://huggingface.co/Suu/Klear-Reasoner-8B 4、【文档工具】📑 Google Docs 上线 AI 语音朗读 * 用 AI 生成语音朗读文档 * 支持共享音频访问 * 个性化设置声音与播放速度 5、【融资动态】🔥 Firecrawl 获 1450 万美元 A 轮融资 * 发布 V2 版本 API,抓取速度提升 10 倍 * 功能全面升级,推动负责任的数据抓取 6、【跨语言创作】🌍 Meta 上线 AI 语音翻译 * 支持 Facebook、Instagram 多语言内容传播 * 保持原声音调和口型同步 * 提供多语言观看数据分析 7、【办公套件】📊 微软 Excel 集成 Copilot * 公式实现数据分析、分类、内容生成 * 数据隐私保障,不参与 AI 训练 * 可与其他公式结合,提高灵活性 8、【开发工具】💻 Claudia 桌面客户端发布 * 基于 Tauri2 + React + TypeScript 构建 * 自动识别 Claude Code,支持可视化项目浏览 * 提供搜索、过滤、会话管理功能 9、【苹果生态】🍎 Xcode 原生集成 Claude AI * 苹果与 Anthropic 合作,提升开发效率 * 架构开放灵活,支持多种 AI 模型与第三方服务 * Claude AI 或成苹果生态重要组成部分 10、【AI Agent 独角兽】🦄 Manus 收入破 9000 万美元 * 成立不到三年,年化收入运行率突破 9000 万美元 * 采用订阅模式,稳定现金流与用户粘性 * 总部迁至新加坡,加速全球市场布局

5分钟
99+
3个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧