Aishaobing的个人播客 - 节目列表

【AI日报】EP.91 2 月 8 日 DeepSeek紧急说明仿冒问题；Github重磅推出Agent模式

【AI安全】 🚨 DeepSeek紧急声明打击仿冒账号 * 官方仅在微信公众号、小红书及Twitter运营账号 * 用户需认准官方渠道信息展示所以相关链接参考链接：无源链接：无项目链接：无【市场预测】 📈 机构预测中国生成式AI市场规模 * 2029年将达98亿美元 * 2024年预计达18亿美元 * 生成式AI应用场景扩大，企业智能体开发成新增长点展示所以相关链接参考链接：无源链接：无项目链接：无【AI应用】 📌 钉钉AI助理接入DeepSeek模型 * 用户可选择R1、V3等多种模型 * 新模板简化创建流程 * AI助理具备深度思考和联网查询能力展示所以相关链接参考链接：无源链接：无项目链接：无【模型更新】 🚀 OpenAI升级o3-mini模型 * 展示答案“思维链” * “高推理”模式更清晰展示模型推理过程 * 具备实时获取网络数据能力展示所以相关链接参考链接：无源链接：无项目链接：无【算力告急】 ⚠️ DeepSeek暂停API充值 * 服务器资源紧张 * chat模型优惠期至2025年2月8日 * reasoner模型定价更高展示所以相关链接参考链接：无源链接：无项目链接：无【AI应用】 📱 Mistral AI推出聊天机器人“Le Chat” * 基础版免费 * 支持自然语言、网页搜索、文档分析、图像生成等功能 * 仅支持iPhone和iPad，未来或扩展展示所以相关链接参考链接：无源链接：无项目链接：无【行业动态】 🤝 OpenAI前CTO公司聘请OpenAI联合创始人 * John Schulman加入Mira Murati新公司 * Murati招募多位前OpenAI员工 * 正在进行超1亿美元融资展示所以相关链接参考链接：无源链接：无项目链接：无【巨头投入】 💰 亚马逊2025年投资超1000亿美元发展AI * 主要用于AWS的AI能力建设 * Meta、Alphabet、微软等也在增加AI投资 * 低成本AI技术刺激需求增长展示所以相关链接参考链接：无源链接：无项目链接：无【开发工具】 🛠️ GitHub Copilot发布Agent模式和Copilot Edits * Agent模式自主修复代码错误 * Copilot Edits支持多文件编辑 * Project Padawan目标是AI成为开发团队助手展示所以相关链接参考链接：无源链接：无项目链接：无

90

【AI日报】EP.90 2月7日谷歌重磅发布Gemini 2.0全系列模型；DeepSeek日活突破2000万

【AI新秀】 🚀 DeepSeek日活破两千万，香港设立新公司 * 上线仅20天，用户数迅速增长 * 母公司在香港注册，开启国际化进程 * 已注册多项商标，展现多元发展 * 原文链接: [https://www.chinaz.com/feed/0206/16...](https://www.chinaz.com/feed/0206/16...) 【巨头动态】 🔍 谷歌发布Gemini 2.0全系列模型 * Flash、Flash-Lite、Pro多版本，满足不同需求 * 性能与价格兼顾，人民币定价更直观 * Flash版本文本/图像/视频输入低至约0.72元/百万Token * 详情链接:[https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/](https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/) 【竞争升级】 🔥 OpenAI开放ChatGPT搜索，无需登录 * 用户可直接体验强大AI搜索 * 快速抓取和解析信息，分钟级更新 * 优化用户界面，更友好易用【低成本突破】🔬研究人员训练出低成本AI推理模型s1 * 训练成本不足50美元 * 从现有模型中提取推力 * 训练过程快速高效 * 详情链接: [https://arxiv.org/pdf/2501.19393](https://arxiv.org/pdf/2501.19393) 【国内首发】 🥇百度智能云成功点亮昆仑芯三代万卡集群 * 大幅降低单位算力成本 * 超大规模并行计算，提高训练效率 * 自研芯片解决算力问题，推动AI应用【效率工具】 📱 苹果推出全新应用Apple Invites * 轻松创建个性化邀请 * 支持照片分享,用户可共同创建相册 * 订阅用户可创建协作播放列表 * 详情链接: [https://apps.apple.com/ca/app/apple-invites/id6472498645](https://apps.apple.com/ca/app/apple-invites/id6472498645) 【浏览器革新】🌐 Firefox浏览器侧边栏新增AI聊天机器人 * 直接访问多种热门AI模型 * 支持免费及付费账户 * 首次使用需登录【行业布局】🤖 OpenAI申请人形机器人商标 * 进军人形机器人市场 * CEO：超智能将加速科学发现【搜索革新】🧪谷歌内部测试新“AI模式”搜索 * 基于Gemini 2.0 * 预计2025年前推出【媒体焦点】 🏢 DeepSeek复工首日，婉拒媒体采访 * 专注于自身研究与发展

6分钟

【AI日报】EP.89 2月5日 DeepSeek上线国家超算互联网平台；字节公开数字人视频生成框架OmniHuman

【AI 应用】 DeepSeek 登陆国家超算互联网平台，提供免费体验 * 用户可轻松体验其强大功能，无需复杂操作。 * DeepSeek 训练成本低，仅为 OpenAI 的 5% 到 10%。 * 详情链接：https://chat.scnet.cn/#/home 【技术前沿】字节跳动推出 OmniHuman，可从单张照片生成逼真全身动态视频 * 该技术经过 18700 小时人类视频数据训练。 * 应用潜力巨大，但也引发合成媒体滥用担忧。 * 详情链接：https://arxiv.org/pdf/2502.01061 【企业动态】 OpenAI 全新品牌形象，更新 Logo 与字体，展现更人性化设计 * 新 Logo 中心空间更大，线条更流畅。 * 设计团队利用 AI 工具辅助设计，体现人机结合理念。 Alphabet 计划将 AI 投资加码至 750 亿美元，应对 DeepSeek 挑战 * Alphabet CEO 赞赏 DeepSeek 模型，强调 Gemini 模型同样具备高效性。 DeepSeek 百万年薪招人，实习生月薪过万 * 招聘 52 个岗位，深度学习研究员年薪可达 154 万元。 * 采取 14 薪模式，吸引顶尖人才。【行业趋势】多个平台纷纷上线 DeepSeek 大模型，推动人工智能技术革新 * 中国多个云服务平台及国际科技巨头开始接入 DeepSeek。 * DeepSeek 推出后，市场格局变化显著。【机器人技术】英伟达推人形机器人设计框架 ASAP，动作灵敏，轻松扣篮 * ASAP 框架通过对齐模拟与现实物理特性，提升人形机器人运动灵活性。 * 实验结果显示，ASAP 显著降低运动跟踪误差。 * 详情链接：https://agile.human2humanoid.com/ 【AI 工具】 OpenAI 推 Deep Research，可自动化处理复杂在线多步骤研究任务 * 可在 30 分钟内完成原本需要数小时的人类研究任务。 * 支持多种专业领域的研究。【AI 伦理】谷歌悄然删除“不开发用于武器或监控的 AI”的承诺 * 引发公众关注，反映出谷歌在 AI 发展方向上的转变。

【AI日报】EP.88 1月2 字节启动AGI计划代号“Seed Edge”；

1. 【大模型】百川智能发布全场景深度思考模型 Baichuan-M1-preview 及开源医疗增强大模型 Baichuan-M1-14B * Baichuan-M1-preview 在多个权威评测中表现出色，展现强大深度思考能力。 * Baichuan-M1-14B 专注于医疗领域，在医学知识和临床能力评测中超越更大参数量的模型。 * 百川公司开源 Baichuan-M1-14B，推动医疗技术广泛应用。 2. 【智能体】 OpenAI 发布首个 AI 智能体 Operator，首批面向 ChatGPT Pro 用户 * Operator 旨在帮助用户在网络上执行多种任务，具备视觉能力和强化学习。 * Operator 具备自我纠正功能，并注重安全性，确保用户在处理敏感信息时能保持控制。 * OpenAI 计划将 Operator 扩展至更多用户。 * 参考链接：https://openai.com/index/introducing-operator/ 3. 【数字人】 HeyGen 推出数字人运动控制功能，可实现复杂肢体动作操控 * 数字人可流畅执行弹奏乐器和舞蹈表演等复杂动作。 * 引入运动学控制算法，动作响应延迟降低至 12 毫秒。 * 视频制作效率提升约 47%，动态场景制作成本显著降低。 * 参考链接：https://app.heygen.com/ 4. 【AI 助手】 Perplexity 推出 Android 移动助手，可写邮件、设提醒、预订餐厅 * 助手具备多模态功能，可识别屏幕内容和通过相机识别周围事物。 * 目前功能仍在扩展中。 5. 【数字人平台】元象推出智能数字人平台“元象日播”，助力品牌直播营销 * 平台提供一站式直播工具，支持快速搭建专业直播间。 * 通过音色克隆技术，可定制个性化的数字人形象和声音。 * 已在多个行业广泛应用，提高销售转化率。 6. 【轻量模型】 Hugging Face 推出 SmolVLM 模型，体积小巧，可在手机上运行 * SmolVLM 模型性能超越 300 倍大的 Idefics80B 模型。 * 处理速度达到每秒 16 个实例，显著降低计算成本。 * 参考链接：https://huggingface.co/blog/smolervlm 7. 【大模型】中国联通发布元景思维链大模型，性能超越 GPT-4 * 元景思维链大模型是中国联通首款央企开源的通用思维链大模型。 * 在主流榜单测评中，表现超越 OpenAI GPT-4 和其他顶尖语言模型。 * 已成功应用于多个领域。 * 参考链接：https://github.com/UnicomAl/Unichat-32B-c1.git 8. 【行业趣闻】国外工程师购买 OGOpenAI.com 域名并重定向至 DeepSeek * DeepSeek 的 AI 模型在某些基准测试中表现优于 OpenAI 的 o1 模型。 * OpenAI 因发布强大模型相对谨慎而受到行业批评。 9. 【产品更新】 OpenAI CEO 宣布 ChatGPT 免费版将引入 o3-mini，效率翻倍 * 免费用户将享受到新升级的 o3-mini 模型，提供更快的响应速度。 * 付费用户将获得更多的 o3-mini 使用机会，提升生产力。

【AI日报】EP.87 1月24 字节启动AGI计划代号“Seed Edge”；智谱GLM-PC电脑智能体大模型

字节跳动启动 AGI 计划代号“Seed Edge”**：字节跳动组建“Seed Edge”团队，专注 AGI 长期研究，确定五大研究方向，展现其在 AI 基础理论和技术研发方面的战略决心。 * **智谱 GLM-PC 电脑智能体大模型开放体验**：基于 CogAgent，具备强大逻辑推理与深度感知能力，通过“深度思考”模式提升代码生成和复杂任务处理能力。详情链接: [https://cogagent.aminer.cn](https://cogagent.aminer.cn) * **阶跃星辰视频生成模型 Step-Video V2 版发布**：通过优化 VAE 模型和 DiT 架构，提升生成效率和视频质量，新增基础文字生成功能，拓展应用场景。详情链接: [https://yuewen.cn/videos](https://yuewen.cn/videos) * **谷歌 Gemini AI 助手大升级：可分析图片、控制多款应用！** 新推出的“Gemini Live”功能允许用户在对话中插入图片、文件和视频，增强互动性。 * **马斯克怒斥特朗普 5000 亿美元 AI 投资计划是一场“财务闹剧”**：特朗普“星际之门”计划遭马斯克质疑，称其为财务“闹剧”，并质疑资金的真实性。 * **Claude 创始人预言：AI 在 2-3 年内将全面超越人类**：Anthropic CEO 预测 AI 将在多个领域超越人类，强调 AI 应与人类互补，鼓励年轻人学习使用 AI 工具。 * **18 岁少年靠 ChatGPT 套壳狂赚 5600 万**：年轻人利用 ChatGPT 开发的 Cal AI 应用，通过拍照识别食物热量功能，成功创造了 5600 万美元的收入。 * **三星 Galaxy S25 首款支持内容凭证标准，助力识别 AI 生成图像**：Galaxy S25 系列手机支持内容凭据标准，为数字内容提供“营养标签”，帮助用户识别 AI 生成的内

83

【AI日报】EP.86 1月23 字节豆包大模型1.5Pro发布；可灵AI推多图参考功能；微信秒剪新增多项AI功能；

【模型发布】** 🚀 **字节跳动推出豆包大模型 1.5 Pro：** 性能超越 GPT-4o 和 Claude3.5 Sonnet，引入实时语音模型，提升语音交互体验。详情链接：[https://team.doubao.com/doubao_1_5_pro](https://team.doubao.com/doubao_1_5_pro) 【视频生成】** 🎥 **可灵 AI 推出多图参考功能：** 支持上传最多 4 张参考图片，框选元素生成个性化视频，提升短片制作视觉一致性。 * 详情链接：[https://top.aibase.com/tool/keling-ai](https://top.aibase.com/tool/keling-ai) **【效率工具】** 📱 **微信“秒剪”新增多项 AI 功能：** 包括“公众号转视频”、“AI 漫画视频”和“带货视频”，提升视频创作效率。 **【模型升级】** 🧠 **谷歌升级 Gemini2.0Flash Thinking：** 支持 1M token 输入，提升长上下文处理能力，数学方面成绩提升 54%。 * 详情链接：[https://aistudio.google.com/prompts/new_chat](https://aistudio.google.com/prompts/new_chat) **【应用上线】** 🎉 **商汤“秒画趣拍”APP 上线：** 支持 AI 写真、视频、滤镜等功能，用户可上传照片生成个性化新年写真。 **【行业新闻】** 💰 **特朗普宣布成立 5000 亿美元“星际之门”AI 计划：** 建立数据中心和计算基础设施网络，推动 AI 发展，创造 10 万就业机会。 **【模型开源】** 📚 **网易有道发布子曰-o1 推理模型：** 国内首个输出分步式讲解的推理模型，专为消费级显卡设计，通过思维链技术提升学习效果。 * 详情链接：[https://confucius-o1-demo.youdao.com/](https://confucius-o1-demo.youdao.com/) **【合作关系】** 🤝 **微软与 OpenAI 调整合作关系：** OpenAI 可访问竞争对手计算资源，微软获得优先购买权。 **【投资动态】** 💲 **字节跳动计划 2025 年斥资 120 亿美元用于 AI 芯片：** 提升 AI 竞争力，并在 AI 基础设施上投入 400 亿人民币。 **【公司动态】** 🇫🇷 **法国 AI 初创公司 Mistral 计划上市：** 拒绝收购，将在新加坡设立亚太地区办事处。 **【投资动态】** 💰 **谷歌再度向 Anthropic 投资逾 10 亿美元：** Anthropic 正进行近 20 亿美元融资，估值将达 600 亿美元。

【AI日报】EP.85 1月22 赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;

【AI模型】DeepSeek R1开源，性能直逼OpenAI DeepSeek发布大型语言模型R1，性能媲美OpenAI的o1，特别在数学、代码和自然语言推理方面表现优异。开源了660B参数的DeepSeek-R1和DeepSeek-R1-Zero模型，以及6个小模型。 API定价具竞争力，缓存命中每百万输入tokens仅需1元。参考链接: [https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf](https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf) **【多模态】月之暗面发布k1.5多模态思考模型** * k1.5具备卓越的多模态处理能力，可同时处理文本、图像和声音信息。 * 强大的通用推理能力使其适用于编程、数学等多种任务。 * k1.5模型预览版已在Kimi.com和Kimi智能助手App上线。项目链接：[Kimi.com](https://kimi.com/) 和 Kimi智能助手App **【AI视频】智谱推出AI生视频产品清影2.0** * 清影2.0模型能力和视频生成质量显著提升，可生成自然流畅的动作和精美画面。 * 支持多种艺术风格的视频生成。 * 基础模型能力提升38%，用户通过简单提示词即可实现复杂场景。参考链接: [https://chatglm.cn/video?lang=zh](https://chatglm.cn/video?lang=zh) **【语音交互】豆包App推出新语音模式，抢先GPT-4o实现唱歌和角色扮演** * “端到端”语音大模型更新实时语音通话功能，整合语音识别、理解和生成能力。 * 新增“灵魂歌手”、“百变大咖”、“受气小包”和“夸夸大师”等人格模式，增强互动趣味性。 **【AI工具】OpenAI即将推出能控制电脑的AI工具“Operator”** * “Operator”可自主控制个人电脑，执行编写代码和预定旅行等多项任务。 * 预计2025年1月发布，专家对其潜在安全隐患表示担忧。 **【AI应用】美图WHEE「AI海报」功能即将上线** * 用户只需输入一句话，即可生成多种风格的海报，特别支持中文字体。 * 提供强大的自定义排版能力，涵盖多个核心场景。 **【AI应用】百度文库AI功能月活用户突破9000万，付费用户超4000万** * 月活用户同比增长230%，新增100多项AI功能，包括智能PPT和全网搜。 * “自由画布”功能开启公测，支持多任务并行处理。 **【AI历史】世界首个聊天机器人ELIZA复活，源自60年前的代码** * 美英研究团队成功复活ELIZA代码，代码由约瑟夫·韦岑鲍姆在1960年代编写。 * ELIZA在计算机历史上具有重要意义，被认为是聊天机器人的开创者。 **【长视频处理】中国科研团队发布VideoChat-Flash，长视频处理速度提升100倍** * VideoChat-Flash系统利用层次化视频标记压缩技术HiCo，显著提升长视频处理效率。 * 采用多阶段学习方法，结合短视频和长视频进行训练。 * 在多个基准测试中表现优异。参考链接: [https://arxiv.org/abs/2501.00574](https://arxiv.org/abs/2501.00574) **【数据抓取】Firecrawl Extract无需编写代码，轻松抓取任何网站的数据** * Firecrawl Extract通过自然语言处理技术，允许用户仅通过文字提示提取网站数据。 * 支持多语言和国际网站的数据抓取，能够处理JavaScript渲染的动态页面内容。 * 提供API接口，便于与其他应用集成。参考链接: [https://github.com/mendableai/firecrawl](https://github.com/mendableai/firecrawl) **【市场预测】2024年出货的笔记本电脑中，超25%具备生成式AI功能** * 2024年全球PC市场预计增长2.6%，出货量达到2.53亿台。 * 超过25%的新笔记本电脑将具备生成式AI功能。 * 2025年预计AI笔记本电脑将占据市场近60%的份额。

8分钟

【AI日报】EP.84 1月21 对标Cursor！字节推AI编程工具Trae；MiniMax海螺语音全球上线；

【语音合成】 🎤 MiniMax海螺语音全球上线 * 推出T2A-01系列语音模型 * 支持17种语言与300种音色 * 强大的多语种合成能力详情链接: https://hailuoai.com/audio 【开发工具】 💻 字节跳动发布Trae IDE * 专为中文开发者优化设计 * 集成Claude3.5和GPT-4o等AI模型 * 强大的Builder代码生成功能详情链接: https://top.aibase.com/tool/trae 【交互技术】 🤖 商汤SenseNova-5o开放商用 * 支持超长多模态交互记忆 * 交互延迟缩短至2秒 * 可定制AI角色对话风格【创意工具】 🎨 Krea升级FLUX实时图片生成 * 支持多图创意拼贴组合 * 自由调整3D元素角度 * 突破AI生成随机性限制详情链接: https://www.krea.ai/ 【AI模型】 🧬 OpenAI将发布o3-mini与GPT-4b micro * o3-mini提供高中低三个版本 * GPT-4b micro专注生物数据分析 * 细胞重编程效率提升50倍【开发工具】 ⚡ Windsurf Wave2重大更新 * 支持实时Web搜索功能 * 新增自动记忆学习能力 * 改进代码执行效率【系统工具】 🔍 Windows AI搜索功能测试 * 支持自然语言本地搜索 * 仅限Copilot Plus PC使用 * 未来将扩展云数据支持【AI平台】 🌟 芒果超媒推出"芒果西米露" * 已搭建70+个智能体 * 提升内容创作审核效率 * 优化内部工作流程【安全警告】 ⚠️ ChatGPT API存在安全漏洞 * 可被利用发起DDoS攻击 * 单次请求可触发大量访问 * OpenAI暂未回应修复计划【设计工具】 ✨ 美图WHEE突破文字排版 * 支持自由文字编辑调整 * 内置丰富场景模板 * 一键生成贴图素材

【AI日报】EP.83 1月18 字节豆包全新上线AI编程功能；腾讯大模型检测工具打假AI；

【AI编程助手】 💻 字节豆包全新上线AI编程功能 * 支持一键上传本地代码文件 * 实时引入GitHub仓库集成 * 提供沉浸式代码阅读体验【AI检测工具】 🔍 腾讯朱雀实验室推出AI鉴别工具 * 图片真伪识别准确率达95% * 支持文本内容AI生成检测 * 计划推出视频检测功能详情链接: https://matrix.tencent.com/ai-detect/ai_gen 【AI模型定制】 🎨 FLUX Pro微调API发布 * 仅需5张样本即可定制模型 * 支持多种图像格式处理 * 最多可使用20张训练图像详情链接: https://blackforestlabs.ai/announcing-the-flux-pro-finetuning-api/ 【语音技术】 🎤 海螺AI推出T2A-01-HD语音模型 * 音频质量显著提升 * 克隆精度大幅提高 * 提供免费体验机会详情链接: https://www.hailuo.ai/audio 【内容合作】 📰 Mistral与法新社达成合作 * 每日可访问2300篇新闻 * 覆盖六种语言内容 * 提升企业服务能力【AI发展目标】 🎯 谷歌Gemini设定新目标 * 声称已是市面最强AI技术 * 计划吸引5亿用户 * 持续保持技术领先地位【团队重组】 🔄 腾讯元宝团队调整 * 整体迁移至CSIG * 由腾讯会议负责人接手 * 混元团队继续技术支持【科技术语】 📚 2024年度科技名词揭晓 * "人工智能+"入选十大名词 * 体现AI与产业深度融合 * 反映未来技术发展方向【订阅服务】 💰 微软365整合AI功能 * 新用户每月增加3美元 * 现有用户可选择不升级 * 推出全新积分奖励系统

【AI日报】EP.82 1月17 智谱Realtime、4V、Air系列模型发布；Vidu2.0上线10秒生成短片；

【AI模型发布】 🤖 智谱AI发布GLM系列新模型 * GLM-4-Air和GLM-4V-Plus模型推出 * GLM-Realtime支持低延迟视频理解 * Flash全模态免费模型系统上线项目入口：bigmodel.cn 【视频生成】 🎬 Luma AI推出Ray2模型 * 支持文本到视频快速生成 * 提升视频创作效率和自然度 * 创作大赛奖金高达7000美元详情链接：https://lumalabs.ai/ray 【视频创作】 🎥 Vidu 2.0发布加速短视频生成 * 生成时间从30秒缩短至10秒 * 优化视频质量和一致性表现 * 推出超值套餐和本地支付功能项目链接：www.vidu.cn 【AI助手】 💬 xAI开放Grok网页版 * 无需X账号即可使用 * 支持实时信息收集和问答 * 具备图像生成能力访问地址：grok.com 【技术创新】 📊 阿里巴巴发布数学推理新模型 * Qwen2.5-Math-PRM系列上线 * 创新共识过滤机制 * 提升数学推理准确性详情链接：https://www.microsoft.com/en-us/research/blog/autogen-v0-4-reimagining-the-foundation-of-agentic-ai-for-scale-extensibility-and-robustness/ 【AI动画】 🎨 Kinetix推出角色动作控制技术 * 结合真人表演和文本指令 * 简化动画制作流程 * 大幅降低制作成本和时间详情链接：https://www.kinetix.tech/character-motion-control-for-video-generation-models 【AI绘画】 🖌️ MangaNinja推出智能上色技术 * 支持线稿精准上色 * 优化复杂场景处理 * 解决姿势变化和颜色混淆问题详情链接：https://johanan528.github.io/MangaNinjia/ 【开发工具】 ⚙️ 微软AutoGen v0.4更新 * 提升AI代理灵活性 * 加强跨语言能力 * 优化异步消息传递机制【企业协作】 📱 腾讯会议AI助手Pro上线 * 基于混元大模型开发 * 优化组织协同功能 * 新增身份认证系统【行业动态】 📈 智谱AI被列入美国实体清单 * 成首家被制裁中国大模型公司 * 强调技术源自清华大学 * 称不影响正常运营【争议话题】 ⚠️ Astral AI营销引发争议 * 在Reddit自动化发布广告 * 模仿用户讨论推销产品 * 引发网络内容质量担忧

53

【AI日报】EP.81 1月16 Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍

【今日要闻】 🔥 月之暗面Kimi视觉大模型发布 * 推出moonshot-v1-vision-preview模型 * 增强多模态能力，提升细节识别能力 * OCR和图像理解超越传统软件项目链接：https://github.com/MiniMax-AI 【开源模型】 💻 MiniMax-01系列开源 * 支持400万token上下文处理 * 性能追平GPT-4o和Claude-3.5 * 提供业内最低价API服务：输入1元/百万token 源链接：https://github.com/MiniMax-AI 【AI娱乐】 🎬 360周鸿祎参演AI短剧 * 春节档上线，60集穿越题材 * 采用AI特效，降低制作成本 * 主打正能量内容【AI技术】 🔮 阿里Valley2电商模型发布 * 基于Qwen2.5主干 * 专注电商场景应用 * 超越同规模模型表现项目链接：https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B 【AI助手】 📅 ChatGPT新增Tasks功能 * 支持定时任务和提醒 * 目前仅限付费用户使用 * 增强数字助理属性【语音技术】 🎙️ Kokoro-TTS登顶排行榜 * 8200万参数小型模型 * 100小时训练数据 * 性价比突出项目链接：https://huggingface.co/hexgrad/Kokoro-82M 【AI翻译】 🌐 科大讯飞星火同传模型 * 首个端到端语音同传大模型 * 响应时间低至5秒 * 达到人类专业水平【边缘计算】 📱 MiniCPM-o2.6发布 * 80亿参数多模态模型 * 支持手机端运行 * 视觉任务超越GPT-4V 项目链接：https://huggingface.co/openbmb/MiniCPM-o-2_6 【视觉处理】 👁️ Gemini AI突破 * 实现视频静态图像同步处理 * 支持教育艺术等领域应用 * 开放开发者平台源链接：https://huggingface.co/spaces/akhaliq/anychat

73