【AI日报】EP.115 3月15 男子用AI撰写色情小说被判刑十个月

Aishaobing的个人播客

AI日报: 1. **AI色情小说判刑:** 一男子因使用AI创作并贩卖色情小说被判刑十个月,罚款五千元,非法获利超过两万元。此案凸显了AI技术在文学创作中的法律风险。 2. **360智脑复现DeepSeek:** 360智脑团队成功复现DeepSeek强化学习效果,并开源发布了14B参数规模的推理模型Light-R1-14B-DS,在数学推理能力方面超越多个32B级别模型。 参考链接:https://github.com/Qihoo360/Light-R1 3. **字节AI音效生成模型SeedFoley上线:** 字节跳动推出AI音效生成模型SeedFoley,可一键为视频生成专业级音效,提升视频创作体验。 4. **巨人网络DeepSeek游戏玩法:** 巨人网络在社交推理游戏《太空杀》中接入DeepSeek大模型,推出“内鬼挑战”玩法,提升游戏互动性和挑战性。 5. **Sesame发布CSM语音合成模型:** Sesame公司发布CSM语音合成模型,支持实时情感定制,生成自然且富有情感的语音,目前主要支持英语。 6. **OpenAI Chat Playground升级:** OpenAI将Chat Playground升级为Prompts Playground,提供更强大的工具来测试和迭代提示,整合了Web搜索和文件搜索等功能。 参考链接:https://platform.openai.com/playground/p/T4U6rwVjng3kKl4UjaPr2CCZ?mode=chat 7. **阿里通义实验室语音团队负责人离职:** 阿里通义实验室语音团队负责人鄢志杰离职,或将投身AI创业。 8. **北京新增34款生成式AI服务:** 北京市新增34款生成式人工智能服务,累计登记46款,包括小米AI搜索和Monica等产品。 9. **软银收购夏普旧厂建AI数据中心:** 软银收购夏普旧厂,计划与OpenAI合作,将其改造为AI数据中心,预计2026年投入运营。

3分钟
99+
9个月前

【AI日报】EP.114 3月13 阿里通义开源R1-Omni模型;全国第二例AIGC版权案判决

Aishaobing的个人播客

**AI 新闻速递 📰** 1. **通义开源新模型**:R1-Omni 模型发布,增强多模态情感识别能力。 * 强化学习+可验证奖励,性能提升超 35%。 * [详情链接](https://arxiv.org/abs/2503.05379) 2. **OpenAI 智能体工具**:从“问答”到“执行”,AI 能力再升级。 * Responses API、Agents SDK 和计算机使用工具发布。 3. **百度表格识别模型**:PP-TableMagic 开源,复杂表格识别更轻松。 * 多模型组网,支持定制化微调。 * [详情链接](https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md) 4. **Manus 携手通义千问**:共推国产 AI 智能体产品。 * 基于通义千问开源模型,实现 Manus 全部功能。 5. **MIDI 技术突破**:单张图片生成 360 度 3D 场景。 * 智能分割+多实例同步扩散,效果逼真。 * [详情链接](https://huanngzh.github.io/MIDI-Page/) 6. **VideoPainter**:视频局部编辑,提示词自动修改,支持长视频。 * 基于 Diffusion Transformer 模型。 * [详情链接](https://yxbian23.github.io/project/video-painter/) 7. **Nanobrowser**:开源版 OpenAI Operator,免费 AI 自动化工具。 * 本地操作,保护隐私,支持多种 AI 模型。 * [详情链接](https://github.com/nanobrowser/nanobrowser) 8. **Luma AI 开源 IMM**:图像生成速度提升十倍。 * [详情链接](https://github.com/lumalabs/imm) 9. **人事变动**:前字节跳动 AI 高管骆怡航加入生数科技任 CEO。 10. **AIGC 版权案**:全国第二例判决,确认 AI 生成内容作者享有著作权。 * 江苏常熟法院判决

4分钟
99+
9个月前

【AI日报】EP.113 3月12 DeepSeek R2或于3月17日发布

Aishaobing的个人播客

**AI新闻速递 🚀** 1. **腾讯放大招💥**:Hunyuan-TurboS模型发布,融合Transformer和Mamba,专治长文本! * 性能超越GPT-4o-0806等一众高手🏅。 * 数学、推理、对齐性全面提升。 2. **DeepSeek R2来袭预警🚨**:3月17日见分晓,或将挑战Claude Sonnet地位。 * 编程、多语言推理能力有突破。 * 业内期待与担忧并存。 3. **Pika视频换装秀👗**:Pikaswaps功能上线,轻松替换视频服装。 * 支持1080p高清输出。 * 时尚、电商领域应用前景广阔。 * [视频链接 ](https://www.chinaz.com/feed/0311/16...) 4. **稚晖君人形机器人🤖**:灵犀X2亮相,集运动、交互、作业于一身。 * 多模态交互,理解人类情绪。 * 可装配灵巧手,应用场景广泛。 * [视频链接 ](https://www.chinaz.com/feed/0311/16...) 5. **网易有道翻译升级🆙**:14B小参数翻译大模型2.0,更精准、更高效。 * 降低计算资源消耗,易于部署。 * 已上线各大平台。 6. **百度AI社交App📱**:“月匣”上线,主打情感陪伴。 * 搭载文心一言等多个大模型。 * 300+聊天对象可选。 7. **DuckDuckGo AI助手🦆**:Duck.ai发布,注重隐私,免费使用。 * 多种AI模型可选。 * 匿名查询,保护隐私。 8. **OpenAI合作🤝**:与CoreWeave签119亿美元大单。 * CoreWeave提供AI基础设施。 * CoreWeave计划IPO。 9. **阿里巴巴AI战略🛒**:2025年底商家100%使用AI工具。 * 超50%商家已使用。 * 投资3800亿元升级AI和云计算。 10. **Manus AI泄露事件🔓**:官方回应,将开源更多内容。 * 基于Claude Sonnet构建。 * [详情链接](https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9) 11. **亚马逊云科技☁**:率先推出完全托管DeepSeek-R1。 * 简化企业AI部署。 * 企业级安全保障。 12. **AI市场洗牌🌪**:DALL-E市占率暴跌,黑森林实验室崛起。 * 文本、图像、视频生成领域竞争激烈。 * 新兴竞争者挑战传统巨头。 13. **iOS 18.4 Beta3📱**:苹果AI中文版来了。 * 支持多种国际语言。 * 与阿里巴巴合作。  原文链接: https://www.chinaz.com/feed/0311/16...

5分钟
99+
9个月前

【AI日报】EP.112 3月11 国家超算平台阿里千问大模型;抖音打击AI炒股诈骗行为

Aishaobing的个人播客

**AI新闻速递 📰** 1. **【网络安全】** 🚫 抖音重拳出击AI炒股诈骗,封禁违规账号,提醒用户警惕投资风险。 2. **【算力升级】** ♾️ 国家超算互联网平台接入阿里千问大模型,提供QwQ-32B API,开发者可免费获取100万tokens。 3. **【创意特效】** ✨ 可灵AI(Kling)发布1.6版本,新增FuzzyFuzzy、MochiMochi、BoomBoom三大AI特效,让静态图片秒变动态视频。 * 视频演示:[ 点击观看视频] (请注意,这里无法提供实际链接,因为原始文档中没有提供) 4. **【数字人】** 🧍 Hedra推出Character-3模型和Hedra Studio,实现对图像、文本和音频的联合推理,数字人视频生成更进一步。 * 视频演示:[ 点击观看视频] (请注意,这里无法提供实际链接,因为原始文档中没有提供) 5. **【搜索升级】** 🔍 QQ浏览器推出AI问答功能“元宝快答”,基于腾讯混元Turbo S模型,快速检索全网信息,提供精炼答案。 6. **【开源工具】** 💻 Heygem开源版发布,Windows离线视频合成工具,精准克隆外貌和声音,保护用户隐私。 * 项目链接:[https://github.com/GuijiAI/HeyGem.ai](https://github.com/GuijiAI/HeyGem.ai) 7. **【API发布】** 🌐 Firecrawl推出LLM.txt API (Alpha版),输入网址即可生成适用于LLM训练的文本文件。 * 项目链接:[https://docs.firecrawl.dev/features/alpha/llmstxt](https://docs.firecrawl.dev/features/alpha/llmstxt) 8. **【流量黑洞】** ⚫ ChatGPT跻身全球十大网站,月访问量达40亿,但出站流量极少,引发对信息验证的担忧。 9. **【图像识别】** 👁️‍🗨️ Finer-CAM技术提升AI图像识别能力,精准识别细微差别,分类更清晰,支持多模态零样本学习。 * 项目链接:[https://github.com/Imageomics/Finer-CAM](https://github.com/Imageomics/Finer-CAM) 10. **【AI创作】** ✍️ 百度AI创作应用橙篇接入DeepSeek-R1满血版,AI辅助功能显著提升,助力学习和创作。 11. **【图像修复】** 🖼️ LanPaint:推理版局部重绘方法,无需训练即可修复图片,集成简单,效果出色。 * 项目链接:[https://github.com/scraed/LanPaint](https://github.com/scraed/LanPaint) 12. **【语言模型】** 🗣️ 富士康仅用四周时间推出中文大语言模型FoxBrain,并将开源发布。

4分钟
99+
9个月前

【AI日报】EP.111 3月8 X官方账号被冻结!Manus平替开源版来袭;腾讯混元图生视频模型开源

Aishaobing的个人播客

🤖️ **Manus平替开源版火速出圈** * OpenManus项目神速复刻Manus智能体,GitHub星标已超3300! * 安装超简单,改个配置文件就能用。 * 集成多个顶级大模型,复杂任务也能轻松搞定。 * 项目链接:[https://github.com/mannaandpoem/OpenManus](https://github.com/mannaandpoem/OpenManus) 🦉 **CAMEL-AI不甘示弱,OWL强势登场** * OWL在GAIA测试中表现亮眼,开源框架中拔得头筹。 * 完全开源,开发者快来GitHub围观。 * 团队未来可期,技术博客、工具生态都在路上。 * 项目链接:[https://github.com/camel-ai/owl](https://github.com/camel-ai/owl) 🚀 **阿里通义千问Qwen2-32B推理模型开源社区夺冠** * 性能卓越,力压微软、DeepSeek等一众高手。 * 消费级显卡就能本地部署,成本更低。 🖼️ **腾讯混元图像转视频模型HunyuanVideo-I2V开源** * 静态图片秒变动态视频,上传图片描述一下就OK。 * 自动配音效,还能对口型,让图片“活”起来。 * 开发者快来GitHub和HuggingFace下载体验。 * 体验链接: [https://video.hunyuan.tencent.com/](https://video.hunyuan.tencent.com/) * 项目链接: [https://github.com/Tencent/HunyuanVideo-I2V](https://github.com/Tencent/HunyuanVideo-I2V) 📄 **Mistral AI发布超强OCR API** * 号称全球性能最强,文档信息提取、结构化整理不在话下。 * 支持多语言、多模态,还能保留文档格式。 * 提供自托管选项,数据安全有保障。 * 体验链接: [https://mistral.ai/news/mistral-ocr](https://mistral.ai/news/mistral-ocr) 💻 **Windsurf Wave4版本发布,程序员福音** * 新增预览功能,改代码效果即时可见。 * Tab to Import功能让添加依赖更方便。 * Cascade小助手智能建议下一步操作。 * 详情链接: [https://codeium.com/blog/windsurf-wave-4](https://codeium.com/blog/windsurf-wave-4) 🤝 **Anthropic Console新平台,团队协作更高效** * 支持团队协作编辑、管理prompts。 * Claude 3.7 Sonnet模型推理能力再升级。 * prompts可分享、思考过程可视化、自动生成高质量prompts。 * 详情链接: [https://www.anthropic.com/news/upgraded-anthropic-console](https://www.anthropic.com/news/upgraded-anthropic-console) ❗ **Manus官方X账号被冻结,官方回应来了** * 与加密货币诈骗无关,Manus从未参与任何加密货币项目。 * 公司正采取法律行动,维护品牌形象。 📈 **ChatGPT周活用户数破4亿,六个月翻倍** * 用户增长势头迅猛,功能、模型迭代是关键。 * 移动端表现强劲,用户粘性高。 🎨 **佳士得首场AI艺术拍卖引争议** * 成交额72.8万美元,年轻群体对数字艺术兴趣浓厚。 * 超5600名艺术家联名抗议,认为AI作品侵犯版权。 📱 **腾讯元宝功能上新,分享更灵活** * 分享长图时,可选择是否展示AI思考过程。 * 支持分享短图或长图,操作简单,随时中断。

5分钟
99+
9个月前

【AI日报】EP.110 3月7 爆火!国产AI产品Manus邀请码被炒至5万;阿里新开源推理大模型QwQ-32B

Aishaobing的个人播客

**AI日报精选** * **Manus热潮:** 全球首款通用智能体Manus火爆,邀请码被炒至5万元。 * 独立思考,执行复杂任务。 * 市场调研、旅行规划等多领域应用。 * GAIA基准测试创新纪录。 * 详情链接: [https://manus.im/](https://manus.im/) * **阿里开源:** Qwen团队发布QwQ-32B大型语言模型。 * 强化学习,解决复杂问题。 * 数学、编程测试媲美大模型,显存需求更低。 * 扩展上下文长度,具备代理能力。 * 详情链接: [https://qwenlm.github.io/blog/qwq-32b/](https://qwenlm.github.io/blog/qwq-32b/) * **OpenAI更新:** GPT-4.5逐步向ChatGPT Plus用户开放。 * 对话能力提升,复杂推理仍有不足。 * 使用成本高昂,每百万tokens 150美元。 * **豆包升级:** 深度推理模式上线,AI逻辑链条可视化。 * 提升用户信任度和透明性。 * 基于豆包1.5模型,增强智能化。 * 问答、搜索、写作等领域前景广阔。 * **视频生成:** LTX-Video 0.9.5发布,支持商用许可。 * 关键帧条件支持,提升灵活性。 * 分辨率和生成速度显著提升。 * **语音克隆:** Spark-TTS文本转语音系统,支持零样本克隆。 * 无需特定训练数据,生成个性化声音。 * 细粒度控制语速、音高。 * 跨语言生成,适用性广。 * 详情链接: [https://github.com/SparkAudio/Spark-TTS](https://github.com/SparkAudio/Spark-TTS) * **图像动画:** 谷歌发布Whisk Animate预览版,8秒动画短片。 * Veo2模型,静态图像转动态视频。 * 用户反馈积极,创意潜力大。 * **多模态模型:** Cohere发布Aya Vision,32B和8B两个版本。 * 执行多语言和视觉任务。 * 表现超越更大体量模型。 * 发布AyaVisionBench评估工具。 * 详情链接: [https://cohere.com/blog/aya-vision](https://cohere.com/blog/aya-vision) * **数据标注:** 抖音集团寻求AI数据标注供应商。 * 注册资本不低于100万元。 * 独立法人,良好信誉,不接受联合体。 * **“博士级”AI:** OpenAI推出高端AI代理,月费高达2万美元。 * **应用评论:** 苹果App Store将推AI生成评论摘要。 * iOS 18.4引入,快速获取反馈。 * 每周更新,初期美国App Store上线。 * **IBM新模型:** Granite 3.2发布,高效推理与实用性。 * 多模态,文档处理和数据提取出色。 * 思维链功能,Granite Guardian安全模型。 * 详情链接: [https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision](https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision)

4分钟
99+
9个月前

【AI日报】EP.109 3月6 抖音测试接入豆包AI;即梦接入DeepSeek支持智能提示词生成

Aishaobing的个人播客

**AI日报精选** 📰 1. **抖音接入豆包AI** 🤖:抖音测试接入豆包AI,字节跳动开启AI生态战略。 * 短视频和消息列表开放入口,打破AI产品与流量平台壁垒。 * 字节跳动推进多条AI产品线,构建全方位AI生态。 * 巨头重视AI在内容生态中的应用。 2. **即梦+DeepSeek** 🎨:即梦接入DeepSeek,支持智能提示词生成。 * 解决AI绘画创作灵感难题。 * 简单输入需求,即可获得精准提示词。 * 提升创作效率和图像质量。 3. **Grok语音模式** 🗣️:Grok语音模式全面开放。 * 11种独特语音交互模式。 * 自带字幕,成为英语学习利器。 * 用户好评,期待多语言支持。 4. **vivo重组AI部门** 🏢:vivo成立新AI部门,大模型训练转向端侧。 * 专注大模型端侧训练。 * 暂停商业化考核,重视AI技术长远发展。 * 推出DeepSeek-R1,提升AI助手智能化。 5. **Fast3R技术** 🖼️:Fast3R实现千张图片一键3D重建。 * 一次前向传播处理多达1500张图片。 * Transformer架构并行处理,省去复杂对齐。 * 速度和内存使用优势显著。 * 详情链接: [https://fast3r-3d.github.io/](https://fast3r-3d.github.io/) 6. **DiffRhythm音乐创作** 🎶:DiffRhythm 10秒AI生成歌曲。 * 扩散模型端到端自动生成音乐。 * 输入歌词和风格,10秒生成完整歌曲。 * 自动创作歌词,完美契合旋律。 * 详情链接: [https://huggingface.co/spaces/ASLP-lab/DiffRhythm](https://huggingface.co/spaces/ASLP-lab/DiffRhythm) 7. **微软ART模型** 🖱️:微软开源ART模型,生成多图层透明图片。 * 根据文本提示和匿名区域布局生成。 * 逐层区域裁剪,速度提升12倍。 * 高质量自编码器,精确控制。 * 详情链接: [https://art-msra.github.io/](https://art-msra.github.io/) 8. **MindMapper思维导图** 🧠:MindMapper扔个链接生成交互式思维导图。 * 网址、视频链接或文本生成思维导图。 * Mermaid.js技术,美观且动态交互。 * 可下载为PNG图片分享。 * 详情链接:[https://github.com/misbahsy/MindMapper](https://github.com/misbahsy/MindMapper) 9. **雷军谈AI** 🗣️:雷军亮相代表通道,小米将AI技术应用到各终端。 * 制造业是国家基石,小米加大研发投入。 * 2025年预计投入300亿元,AI相关业务占四分之一。 * AI技术应用于手机、汽车和智能家居。 10. **爱诗科技融资** 💰:爱诗科技完成A5轮融资,剑指AI视频生成。 * 融资超4亿元,靖亚资本独家投资。 * PixVerse用户超4000万,月活1500万。 * 加速研发和人才引进,拓展B端服务。

5分钟
99+
9个月前

【AI日报】EP.108 3月5 可生成汉字!智谱开源文生图模型CogView4

Aishaobing的个人播客

1、**智谱发布首个能生成汉字的开源文生图模型CogView4** - CogView4是首个支持生成汉字的开源文生图模型,具备强大的双语输入能力。 - 该模型在DPG-Bench基准测试中排名第一,成为开源文生图模型中的SOTA。 - 支持Apache2.0协议,后续将增加生态支持和微调工具包。 - 详情链接:https://github.com/THUDM/CogView4 2、**重磅!MiniMax推全新图像生成模型Image-01,使用成本仅为1/10** - Image-01是一款全新的文本到图像生成模型,旨在拓展用户的创意空间。 - 该模型具备精确的提示控制和卓越的视觉构图能力,能够产生逻辑一致且艺术感十足的图像。 - Image-01的服务费用仅为同类产品的十分之一,使专业级AI创作变得更加易于获取。 - 详情链接:https://www.minimax.io/platform/login 3、**腾讯元宝下载量超DeepSeek登顶苹果免费App下载榜第一** - 腾讯元宝成功超越DeepSeek,成为苹果免费App下载榜首。 - 腾讯加大对元宝的推广力度,尤其是在微信平台的曝光。 - 技术升级和功能优化元宝的快速发展提供了保障。 4、**秘塔AI搜索上线「视频」搜索功能** - 新增视频搜索模块,覆盖多模态数据,提升用户体验。 - 用户可快速定位到感兴趣的视频内容,如课程或广告分析。 - 接入DeepSeek R1推理模型,进一步增强搜索智能化水平。 5、**颠覆城市建模!AI生成3D城市模型GaussianCity,生成速度提升60倍!** - GaussianCity技术实现了60倍的生成速度提升,打破传统方法的规模限制。 - 采用BEV-Point表示方法,显著降低显存需求,实现无边界的3D城市生成。 - 该技术已开源,为虚拟现实、自动驾驶和城市规划等领域带来新的应用潜力。 - 详情链接:https://github.com/hzxie/GaussianCity 6、**警惕安全隐患!Ollama大模型工具被指存在严重漏洞** - Ollama的安全漏洞在默认配置下严重,特别是私有化部署用户风险显著。 - 攻击者可利用未授权访问进行模型信息窃取和服务中断,带来重大损失。 - 用户需加强安全意识,及时排查隐患,发现攻击迹象应立即报告相关部门。 7、**超强视频生成模型Wan2.1GP:低配GPU也能搞定大片!** - SOTA性能:Wan2.1GP在多个基准测试中表现优异,超过现有开源和商业解决方案。 - 兼容性强:仅需8.19GB显存,支持几乎所有消费级GPU,适合低端用户。 - 多任务支持:支持文本到视频、图像到视频等多种生成任务,并具备中英文文本生成能力。 - 详情链接:https://github.com/deepbeepmeep/Wan2GP 8、**火山引擎宣布大模型应用开源:上线“大模型应用实验室”,释放AI创新潜力** - 开源应用包括手机助手、Deep Research等,提供多种AI工具,促进开发者创新。 - “大模型应用实验室”上线,为开发者和研究人员提供开放实验环境,探索大模型应用潜力。 - 社区反响热烈,用户认为这一举措降低了AI开发门槛,推动行业协作与创新。 9、**QQ浏览器推出“AI作文辅导”功能** - AI作文辅导功能帮助学生在写作过程中提升能力,而不仅仅是提供答案。 - 该功能通过全流程指导,涵盖立意、提纲、素材和范文生成的每一步。 - QQ浏览器强调多阅读和思考的重要性,鼓励学生掌握写作技巧。 10、**Anthropic融资35亿美元,估值飙升至615亿美元** - Anthropic完成35亿美元E轮融资,估值达到615亿美元,显示出投资者对AI市场的持续热情。 - 公司年收入在2024年达到了10亿美元,同比增长十倍,并在2025年初再次增长30%。 - 亚马逊和谷歌分别向Anthropic投资80亿美元和30亿美元,支持其B2B战略。 11、**从编码到创意写作xAI Grok-3击败GPT4.5全能登顶大模型竞技场** - Grok-3在Chatbot Arena中以微弱优势超越了GPT4.5-Preview,获得超过3,000票,表现卓越。 - 模型在困难提示、编码、数学问题、创意写作等多个领域表现出色,显示出其强大的能力。 - Chatbot Arena使用Elo评级系统进行模型排名,标志着xAI在AI领域的显著进展。 12、**雷军两会建议:建议加强“AI换脸拟声”违法侵权重灾区治理** - 加快推进自动驾驶量产,提升技术应用效率。 - 发展智能网联新能源汽车产业生态,促进绿色出行。 - 加强对“AI换脸拟声”违法侵权的治理,保护用户权益。

4分钟
99+
9个月前

【AI日报】EP.107 3月4 字节AI编程工具Trae国内版发布;天价AI域名ai.com挂牌1亿美元

Aishaobing的个人播客

1. **字节跳动发布AI编程工具Trae国内版** 字节跳动推出国内版AI原生集成开发环境Trae,集成了Doubao-1.5-pro技术,支持多种模型切换,提升编程效率。Trae通过动态协作和自然语言描述,帮助开发者快速生成应用,缩短项目周期。 2. **天价域名ai.com挂牌1亿美元** 域名ai.com以1亿美元挂牌出售,若成交将打破历史最高域名交易记录。潜在买家包括OpenAI、微软、Google和Meta等科技巨头。 3. **科大讯飞升级星火深度推理大模型X1** 科大讯飞宣布星火X1模型全面升级,显著提升数学、医疗和教育领域的应用能力。该模型在竞赛级难题处理和医疗诊断方面表现尤为突出。 4. **中国AI发展现状:从追赶者到竞争者** 2025年第一季度,中国AI技术在多领域取得显著进展,部分模型接近美国顶尖水平。DeepSeek的R1模型智能指数达89,接近OpenAI的94。 5. **阿里万相大模型超越DeepSeek-R1** 阿里巴巴的万相大模型在开源社区超越DeepSeek-R1,登上全球开源榜首。万相2.1版本下载量突破百万,GitHub Star数超过6000。 6. **荣耀发布阿尔法计划,投入100亿美元建设AI生态** 荣耀宣布未来五年投入100亿美元,构建AI设备生态,转型为全球AI终端生态公司。阿尔法计划分为三个阶段,聚焦智慧手机、智慧生态系统和智慧世界的构建。 7. **开源OCR工具olmOCR发布** olmOCR是一款开源光学字符识别工具,支持PDF转文本、表格和手写识别。该工具经过大量文献训练,具备高准确率,用户可在线体验或本地部署。 8. **DeepSeek推出极致推理优化系统** DeepSeek-V3/R1推理系统通过跨节点专家并行技术,显著提升AGI发展效率。该系统采用双批次重叠策略和五级流水线,优化GPU计算效率。 9. **Flora推出AI驱动的“无限画布”工具** Flora推出专为创意专业人士设计的“无限画布”工具,支持生成和细化文本、图像和视频,提升创意工作效率。该工具整合现有AI模型,提供免费和专业版服务。 10. **Sesame发布超真实AI语音产品** Sesame团队开发“语音存在”概念,通过情感智能和上下文意识提升数字助手的对话能力。团队计划开源研究成果,并扩展语言支持。 11. **百度文库与百度网盘推出AI创作工具“自由画布”** 百度文库与百度网盘联合推出“自由画布”工具,支持多格式文件混合创作,降低创作门槛。该工具提供个性化标注和便捷分享功能。 12. **智谱AI完成超10亿元战略融资** 智谱AI完成超过10亿元战略融资,将用于推动国产GLM大模型的技术创新和生态发展。公司计划在2025年开源新大模型,进一步推动AI技术普及。 相关链接: - 中国AI现状分析报告:https://artificialanalysis.ai/downloads/china-report/2025/Artificial-Analysis-State-of-AI-China-Q1-2025.pdf - olmOCR项目地址:https://github.com/allenai/olmocr - DeepSeek-V3/R1推理系统详情:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md - Sesame语音产品演示:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo - 百度文库“自由画布”工具:https://wenku.baidu.com

3分钟
99+
9个月前

【AI日报】EP.106 2月29 OpenAI最大最贵模型GPT-4.5发布;Trae集成Claude 3.7

Aishaobing的个人播客

### AI日报新闻提要 1. **OpenAI发布GPT-4.5** - OpenAI正式发布了GPT-4.5,这是迄今为止最大、表现最佳的聊天模型。 - 新模型在情商、创造力和可靠性方面表现出色,适用于写作、学习和沟通等领域。 - GPT-4.5将首先向ChatGPT Pro用户开放体验。 2. **百度文心大模型4.5上线定档3月16日** - 百度宣布文心大模型4.5将于3月16日正式上线,具备原生多模态和深度思考能力。 - 百度决定开源该模型,以推动其在更广泛领域的应用。 - 李彦宏强调基础模型的价值在于解决现实问题并实现大规模应用。 3. **Krea推出Wan2.1模型** - Krea正式推出Wan2.1模型,以其卓越的动态效果和对复杂提示的理解而备受关注。 - 用户现在可以免费体验这一新功能,标志着AI视频技术的重大突破。 - 详情链接:[Krea官方网站](https://www.krea.com) 4. **Pika2.2正式发布** - Pika Labs发布了Pika2.2版本,支持最长10秒的视频生成,分辨率提升至1080p。 - 引入的“Pikaframes”技术实现更流畅的场景切换,拓展了用户的创作想象空间。 - 详情链接:[Pika Labs官方网站](https://www.pikalabs.com) 5. **DeepSeek开源高性能文件系统3FS** - DeepSeek发布了高性能并行文件系统3FS及数据处理框架Smallpond。 - 3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量,解决了AI训练与推理的数据处理痛点。 - 详情链接:[GitHub项目地址](https://github.com/deepseek-ai/3FS) 6. **字节AI编程软件Trae集成Claude3.7** - 字节跳动推出的AI编程软件Trae集成了最新的Claude3.7模型,并提供无限免费使用。 - Claude3.7在编程任务中表现出色,显示了字节在AI编程领域的强大布局。 - 详情链接:[Trae官方网站](https://www.trae.ai) 7. **Meta计划推出独立AI助手应用** - Meta公司正在开发独立AI助手应用Meta AI,预计将在2025年4月至6月间发布。 - Meta还计划推出付费订阅服务,并将在4月底举办首次AI开发者大会LlamaCon。 8. **华为AI助手小艺网页版上线** - 华为小艺网页版正式上线,提供问答、识图、阅读、翻译和写作等多样化功能。 - 用户可通过网页浏览器访问,享受全面的人工智能在线服务。 - 详情链接:[华为小艺官网](https://xiaoyi.huawei.com) 9. **Ideogram2a震撼发布** - Ideogram推出了新模型“Ideogram2a”,生成速度显著提升,成本降低至一半。 - 在英文排版设计上表现卓越,生成的图像质量接近专业设计师水平。 - 详情链接:[Ideogram官方网站](https://www.ideogram.ai) 10. **嘎子哥谢孟伟开卖DeepSeek课程** - 谢孟伟推出了名为DeepSeek的AI课程,收费仅10.9元,声称操作简单,能生成多种语言视频。 - 课程效果引发质疑,许多人在网络上讨论购买意愿。 11. **荣耀与阿里在AI领域展开合作** - 荣耀公司与阿里达成合作,接入多个先进的AI模型,提升用户体验。 - YOYO助理推出DeepSeek-R1满血版,支持深度思考模式,提供精准反馈。 - 详情链接:[荣耀官网](https://www.hihonor.com) 12. **雷军宣布小米研发投入** - 小米CEO雷军宣布,2024年研发投入将超过240亿元,2025年将达到300亿元。 - 未来五年,小米的研发投入将累计达到1050亿元,其中四分之一将用于AI及相关业务。

4分钟
99+
9个月前

【AI日报】EP.105 2月28 阿里春招3000岗位AI相关占50%;DeepSeek开源DualPipe

Aishaobing的个人播客

### AI日报新闻提要 1. **DeepSeek开源DualPipe与EPLB技术** - DeepSeek推出双向管道并行算法DualPipe和动态负载均衡器EPLB,提升大规模语言模型训练效率。 - DualPipe实现双向数据流管道,提升计算吞吐量。 - EPLB解决混合专家模型中的热点专家问题,整体利用率提升至92%以上。 - 计算-通信重叠优化工具减少约15%的端到端训练耗时。 - 详情链接: [GitHub](https://github.com/deepseek-ai/DualPipe) 2. **阿里春招3000岗位AI相关占50%** - 阿里巴巴启动2026届春季实习生招聘,开放超过3000个岗位,其中近50%与人工智能相关。 - 高德和阿里云等部门的AI岗位比例更高,分别达到65%和80%。 - 阿里AI To C业务已开始大规模招聘,90%岗位集中在AI技术和产品研发。 3. **ElevenLabs发布Scribe语音转文本模型** - Scribe v1支持99种语言,准确率在多语言中创下新高,英语达96.7%。 - 能够区分多达32位不同的说话者,适应复杂音频环境。 - 定价为每小时0.40美元,未来六周内享受50%折扣。 - 详情链接: [ElevenLabs Blog](https://elevenlabs.io/blog/meet-scribe) 4. **微软发布Phi-4多模态与迷你模型** - Phi-4多模态模型集成语音、视觉和文本处理,参数达到5600万。 - 在自动语音识别和翻译任务中表现突出。 - Phi-4迷你模型专注于文本处理,参数为3800万,在文本推理和编程等任务中表现卓越。 5. **Hugging Face推出FastRTC** - FastRTC是一个开源的Python库,简化实时音频和视频AI应用的开发过程。 - 几行代码内完成以往需要数周的工作,使得现有的Python开发者也能轻松构建语音和视频功能。 - 详情链接: [Hugging Face](https://huggingface.co/fastrtc) 6. **FLORA节点式AI画布** - FLORA推出的节点式AI画布通过整合多种AI功能,简化创意流程。 - 支持故事分析与角色设计工具,生成详细提示。 - 支持团队实时协作,界面友好,适合技术背景不深的用户。 7. **OpenAI GPT-4.5出现在Android应用测试版** - GPT-4.5即将推出,最初将面向Pro订阅用户。 - 该模型在ChatGPT的Android应用中作为实验性选项出现,具体功能尚不明确。 - Pro订阅费用为每月200美元,提供更多功能和更少限制。 8. **字节跳动豆包APP推出“照片动起来”功能** - 用户可以将静态老照片转化为动态视频,操作简单。 - 只需上传照片并描述动作,便可生成动态效果。 - 功能旨在帮助用户与过去的自己进行跨越时空的对话,留住美好瞬间。 9. **B站文本转语音模型IndexTTS** - IndexTTS基于XTTS和Tortoise的GPT风格TTS系统,具备拼音纠正汉字发音能力和精准停顿控制。 - 经过数万小时训练,超越多个现有流行TTS系统,展现出行业领先性能。 - 详情链接: [GitHub](https://github.com/index-tts/index-tts) 10. **快手可灵AI全球访问用户环比增长113%** - 快手可灵AI在1月份的全球月访问用户数环比增长了113%。 - 在线娱乐与教育是AI落地的关键场景。 - 新上线的多图参考功能支持用户上传多张参考图片,提升用户体验和创作自由度。 11. **大学老师说AI作文全判0分** - 部分高校教师指出,依赖AI生成内容的学生中存在学术不端行为。 - 学校出台政策,若学生提交AI生成的作文,将被判定为零分。 - 网友对此反应不一,强调学术诚信的重要性。 12. **19岁女棋手因AI作弊被禁赛8年** - 秦思玥在全国围棋锦标赛中使用手机和人工智能程序作弊,情节严重。 - 中国围棋协会撤销其职业段位,并禁止参加围棋赛事和活动长达八年。 13. **Anthropic开放Claude AI GitHub集成** - Claude AI现已开放GitHub集成功能,所有用户均可使用,提升开发效率。 - 开发者可以将代码库同步至Claude,享受更强的代码分析与调试支持。 - 详情链接: [Claude GitHub Integration](https://claude.ai/github-integration)

4分钟
99+
9个月前

【AI日报】EP.104 2月27 阿里开源文生视频模型万相2.1;幻方量化回应DeepSeek-R2模型提前发布

Aishaobing的个人播客

### AI日报新闻提要 1. **阿里开源文生视频模型万相2.1** - Wan2.1模型在Vbench评测中以86.22%的成绩领先其他视频生成模型。 - 采用3D因果VAE模块,实现256倍无损视频隐空间压缩。 - 支持多种主流框架,开发者可通过Gradio快速体验。 - 详情链接: [https://github.com/Wan-Video](https://github.com/Wan-Video) 2. **360智脑发布Tiny-R1-32B** - 该模型仅用5%的参数量接近Deepseek-R1的性能。 - 在数学、编程和科学领域表现优异,AIME2024评测中取得78.1分。 - 研发团队承诺公开完整模型仓库,并已上传至Hugging Face平台。 - 详情链接: [https://huggingface.co/qihoo360/TinyR1-32B-Preview](https://huggingface.co/qihoo360/TinyR1-32B-Preview) 3. **DeepSeek发布DeepGEMM库** - DeepGEMM支持FP8通用矩阵乘法,适用于密集型和混合专家模型。 - 在NVIDIA Hopper GPU上实现超过1350TFLOPS的FP8计算性能。 - 核心代码仅300行,展现极高效率与简洁性。 - 详情链接: [https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) 4. **百度“秒哒”开启用户邀测** - 用户可通过邀测邮件访问秒哒,体验H5页面开发和网站开发等功能。 - 申请测试的企业用户数量已突破2万。 - 秒哒具备无代码编程和多智能体协作等核心特性。 - 详情链接: [https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1](https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8?pushId=bBDCrkwdYZ6bP8TE44JbCM1) 5. **谷歌推出Gemini2.0Flash-Lite** - Gemini2.0Flash-Lite是成本效益最高的AI模型之一,输入tokens定价为每百万0.075美元,输出tokens为每百万0.30美元。 - 处理大规模文本输出任务表现出色,适合初创公司和小团队。 - 虽然不支持高级功能,但在文本生成领域高效实用。 6. **幻方量化回应DeepSeek-R2模型提前发布** - 幻方量化强调一切以官方消息为准。 - DeepSeek于2023年7月成立深度求索AI公司,并于1月发布了DeepSeek-R1模型。 - 新一代DeepSeek-R2模型有望在代码生成和多语言推理能力上实现提升。 7. **微软开源多模态AI Agent“Magma”** - Magma能够处理图像、视频和文本等多种数据类型,具备心理预测功能。 - 可帮助用户进行自动下单、查询天气等操作,并控制实体机器人。 - 增强了机器人的学习能力和实用性。 - 详情链接: [https://microsoft.github.io/Magma/](https://microsoft.github.io/Magma/) 8. **OpenAI扩展深度研究功能** - OpenAI将深度研究功能扩展至多个用户层级,增强AI助手的研究能力。 - 中国DeepSeek通过开源新模型挑战OpenAI的订阅商业模式。 - 深度研究在效率与局限性之间创造了新的商业机会。 9. **PhotoDoodle AI将照片变成艺术作品** - PhotoDoodle基于Flux.1模型,从少量样本中学习艺术风格并执行编辑指令。 - 位置编码克隆技术确保新元素自然融入背景。 - 研究团队已发布包含六种艺术风格的数据集。 - 详情链接: [https://github.com/showlab/PhotoDoodle](https://github.com/showlab/PhotoDoodle) 10. **OpenAI免费开放ChatGPT高级语音聊天模式** - 高级语音模式基于GPT-4o mini模型,性能接近完整版GPT-4o。 - 支持macOS及Windows 10、11系统的ChatGPT桌面应用程序。 - 提供5种语音选择,支持自定义提示与对话内容回顾功能。 11. **AI特效“快来惹毛我”火爆出圈** - 该特效可将现实建筑转化为可爱的毛绒玩偶风格。 - 在社交平台上迅速走红,吸引大量用户参与并分享生成的视频。 - 用户可通过筛选不同风格的生成图片,确保最终效果更符合个人喜好。 12. **OPPO ColorOS接入满血版DeepSeek-R1** - 小布助手功能显著提升,支持一键AI唤醒、语音对话、联网搜索及结果导出。 - OPPO进行了本地化网络部署,显著提升系统流畅度,用户体验更佳。 - 展现了OPPO在技术创新方面的实力与决心。

5分钟
99+
9个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧