【AI日报】EP.68 12月30 凯文凯利对即将到来的AI 时代趋势 12 条预测

Aishaobing的个人播客

第一个趋势:形成(Becoming)—— 万物皆变,终身学习 KK 认为未来所有的东西都在不断升级,不断变成另外的东西。就像下雨,每滴水的路径你没法预测,但方向肯定是向下的,这就是“重力”。科技发展也有类似的“重力”,总体趋势可以预知。 举个例子,以前咱们买东西都是买个实物,现在呢?很多都变成了服务。买车变成了打车,买软件变成了订阅,这就是从名词变成了动词,从有形变成了无形。未来的世界,就像一锅咕嘟咕嘟的热汤,所有东西都在里面翻滚变化,不断升级。 这对咱们有什么影响呢?俩字:学习!永远别停止学习,因为你永远都是个“新手”。就像维基百科,它不是一本写完就完事的百科全书,而是一个永远在更新、永远在创造的过程。 第二个趋势:智化(Cognifying)—— 跟 AI 合作才能赚大钱 未来啥技术最厉害?人工智能(AI)!它会让所有东西都变得更智能,就像当年印刷术一样,带来翻天覆地的变化。现在 AI 已经很厉害了,比如 AI 读医学影像比医生还准,读法律文件比律师助理还快。 Google 训练 AI 打游戏,教的不是怎么玩,而是怎么学习。未来会有无数公司,把 AI 用在各个领域,越用越聪明。所以,别再以为智商就是个数字了,每个人的智商都像不同的乐器,奏出不同的乐曲。 很多人担心 AI 抢饭碗,但 KK 说,未来是你和 AI 合作的表现决定你的薪酬。那些重复的、没意思的工作,就交给 AI 吧。人类的优势在于创造力,在于那些讲究效率但不用考虑正确性的工作。 第三个趋势:屏读(Screening)—— 屏幕无处不在 现在咱们周围都是屏幕,手机、电脑、电视……未来呢?任何一个平面都可能变成屏幕,甚至你的衣服!这些屏幕不仅咱们看它们,它们也“看”咱们,知道咱们的注意力在哪,还能根据咱们的情绪调整显示内容。 以前咱们读书,现在是读屏。过去书本给人权威,现在信息爆炸,真相需要咱们自己去拼凑。 第四个趋势:流动(Flowing)—— 生意就是数据 现在是数据流动的时代,咱们听流媒体音乐,看流媒体电影,所有东西都像水一样流动起来。这些流动的都是什么?数据!不管你是卖房子的、卖药的,还是搞教育的,归根结底,你处理的都是数据。 全世界的经济就像一个巨大的生物体,以同样的脉搏跳动。互联网就像一个永远在增长的城市,而不是一个有固定寿命的公司。 第五个趋势:重混(Remixing)—— 创新就是旧元素的新组合 大多数创新都不是凭空出现的,而是把已有的东西重新组合。就像乐高积木,拆开再拼,就能创造出新的东西。报纸、银行、汽车……所有东西都可以拆解、重组,创造出新的东西。 第六个趋势:过滤(Filtering)—— 注意力就是金钱 信息爆炸的时代,咱们的选择太多了,根本看不过来。这时候,就需要有人帮咱们过滤信息,找到咱们真正需要的东西。现在最稀缺的资源是什么?注意力!金钱会跟着注意力走,你能吸引到注意力,就能赚到钱。 甚至,以后咱们看广告都应该收钱,因为咱们付出了最宝贵的注意力! 第七个趋势:互动(Interacting)—— 像 AI 一样重要 未来咱们跟电脑的互动会越来越自然,可以用整个身体去操作,就像交响乐团的指挥家一样。除了虚拟现实(VR),还有混合现实(MR),戴上眼镜,所有东西都变成 3D 的,你可以用手去“抓取”、“操控”。 第八个趋势:使用(Accessing)—— 使用权比所有权更重要 优步没有一辆车,却是最大的租车公司;Facebook 不生产内容,却是最大的媒体公司;阿里巴巴没有库存,却是最大的零售商。未来,使用比拥有更重要。咱们需要的是服务,而不是拥有带来的负担。 以后咱们出门旅行,啥都不用带,酒店会提供你想要的衣服,任何一个屏幕都能认出你,变成你的专属屏幕。 第九个趋势:共享(Sharing)—— 规模化协作的力量 “共享经济”这个词大家都不陌生,但 KK 认为,现在的共享还很初级。未来,分享的本质是协作,是让成千上万甚至几十亿人一起合作,这将带来巨大的社会变革。 第十个趋势:开始(Beginning)—— 技术的用途,是“用”出来的 新技术刚出现的时候,没人知道它最适合用来干嘛。就像爱迪生的留声机,他自己都不知道这玩意儿能用来干啥。后来发现,可以录遗言,可以录教堂里的讲话,还可以录歌。 所以,要先用起来,再改进,再优化。先做后想,边做边想。 第十一个趋势:提问(Questionning)—— 好问题比答案更重要 现在找答案太容易了,百度、谷歌、各种 AI,都能给你答案。但是,好问题却越来越珍贵。一个好问题,能开辟一个新领域,像引擎一样推动人思考。 第十二个趋势:颠覆(Disruption)—— 创新都来自外部 颠覆你的,往往不是你的同行,而是来自其他领域。比如,航空业的颠覆者可能是无人机公司,银行的颠覆者可能是支付宝,电信业的颠覆者可能是无线网络,汽车业的颠覆者可能是特斯拉。 那些一蹴而就的技术,其实已经在背后默默发展了很多年。成功的公司不需要冒险,但创业公司没得选,只能从那些看起来不起眼的小市场做起。 最后,KK 说,咱们现在正处于“开始的开始”,是创业的最好时代。30 年后的人们可能会羡慕咱们,就像咱们现在羡慕 30 年前的人一样。

7分钟
86
11个月前

【AI日报】EP.67 12月28 可灵AI上线AI模特功能;字节今年AI投入近BAT总和

Aishaobing的个人播客

【电商革命】 👗 可灵AI深夜放大招!悄悄上线 AI模特 功能 * AI模特功能结合可图1.5,用户可快速生成高质量模特图,提升电商视觉展示。 * AI模特与AI换衣无缝整合,用户可直接生成穿着新衣的模特图,操作便捷。 * AI视频功能允许模特动态展示服装,降低成本,提高效率,助力小商家与大品牌竞争。 【AI投资】 💰 消息称字节跳动AI投资接近BAT总和,明年预算翻倍! * 巨额资本开支: 字节跳动2024年AI资本开支达800亿元,接近BAT总和。 * 预算翻倍计划: 预计2025年资本开支将增至1600亿元,重点投资AI算力。 * AI人才战略: 张一鸣亲自招募AI人才,追求“通用人工智能”目标。 【服务中断】 ⚠️ ChatGPT 本月第二次大规模宕机 * OpenAI的AI服务在12月27日凌晨遭遇中断,影响多个功能。 * 早上6点05分部分恢复,但聊天历史记录加载功能仍受限。 * 中断原因与微软Azure的数据中心电源问题有关。 【技术普惠】 🛠️ 百度文心快码上线无障碍版本 * 文心快码无障碍版通过自然语言处理技术,帮助视障人士更好地理解和编写代码。 * 该工具支持用户用自然语言描述需求,快速生成可运行代码,极大提高开发效率。 * 文心快码的发布体现了百度在促进社会包容性和技术温暖人心方面的努力。 【系统升级】 ✨ 小米澎湃OS2AI助手 超级 小爱将 首次 向正式版用户开放 * 超级 小爱功能 首次 向正式版用户开放,标志着澎湃OS2的重大升级。 * 所有数据实现端到端加密,确保用户信息安全和隐私保护。 * 超级 小爱具备记忆能力,能帮助用户记录日程和个人偏好。 【生活助手】 🍴 大众点评内测 AI 推荐工具 “点仔” 智能推荐餐厅与菜品 * 提供个性化餐饮推荐,简化用户决策过程。 * 结合用户评价,智能推荐餐厅和菜品,提升点餐体验。 * AI帮写功能辅助用户撰写点评,提高内容质量和效率。 【模型开源】 🖼️ 智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作 * CogAgent-9B通过屏幕截图和用户指令预测下一步GUI操作,适用于多种设备。 * 相比于 第一 版,CogAgent-9B在准确性、普适性和泛化性上有显著提升,支持中英文交互。 * 该模型的输出包括思考过程和下一步动作的描述,展现了在GUI定位和操作上的优势。 * 项目链接: github.com 【直播治理】 🔍 2024抖音直播治理报告:引入音频审核大模型 强化治理违规内容 * 抖音推出“健康分”制度,100万主播被扣分,76%的低分主播主动调整内容,违规率显著下降。 * 引入音频审核大模型,逐步实现违规内容的自动识别与处置,提升治理效率。 * 升级未成年人保护机制,快速退款机制有效保护未成年人,联动城市治理减少违规行为。 【服务备案】 📝 北京市新增11款已完成备案的生成式AI服务 * 新增11款生成式AI服务,累计备案达105款。 * 新增服务包括清影AI、小米端侧文本和小米澎湃图像。 * 上线应用需公示使用的备案服务情况,确保透明合规。 【智能应用】 🚀 理想汽车旗下AI应用理想同学App正式上线 * 理想同学App在iOS和安卓平台正式上线,提供丰富的智能交互功能。 * 许多用户的孩子通过与理想同学的互动解决了学习问题,显示出其教育价值。 * 理想同学App的发布为人工智能技术的普及和发展开辟了新道路。 【商业协议】 🤖 OpenAI与微软秘密协议曝光,AGI被标价1000亿美元 * 微软和OpenAI将AGI定义为能产生至少1000亿美元利润的AI系统。 * OpenAI预计今年将亏损数十亿美元,预计2029年前不会盈利。 * 微软可能在未来十年或更长时间内都能使用OpenAI的技术。 【AI应用】 🔍 大材小用!Anthropic:大多数任务无需复杂AI智能体 * 大多数任务不需要复杂的AI智能体。 * 从基本提示开始,仅在必要时增加复杂性。 * 客户服务和软件开发是AI智能体最有潜力的领域。

8分钟
54
11个月前

【AI日报】EP.66 12月27 理想汽车AI大模型APP将上线;小米搭建GPU万卡集群投入AI;

Aishaobing的个人播客

1. 【智能汽车】🚗 理想汽车 AI 大模型 APP 即将上线!“理想同学”入驻手机,化身全能生活助手 * “理想同学”APP 将于 12 月 27 日上线 * 智能体验从车内延伸至手机 * 具备强大的物体识别和自然语言处理能力 2. 【编程助手】👨‍💻 Deepseek V3 开源!多语言编程能力飙升,力压 Claude 3.5 Sonnet V2 * Deepseek V3 在 aider 多语言编程测评中成功率达 48%(V2.5 为 17%) * 采用 6850 亿参数的混合专家架构 * 提升模型处理复杂任务的效率 项目链接: huggingface.co 3. 【行业动态】🔥 小米加速 AI 大模型布局,正搭建 GPU 万卡集群 * 小米大模型团队已拥有 6500 张 GPU 资源 * DeepSeek-V2 关键开发者罗福莉加入小米 * 小米 AI 技术覆盖多个领域,逐步应用于各类业务板块 4. 【图像生成】🎨 阶跃星辰发布图像生成模型 Step-1X-Medium,支持图生图等新功能 * 生成速度提高 30%,图文一致性显著增强 * 新增“图生图”功能,支持细节增强、风格迁移和局部修改 * 强化中国风创作能力 项目链接: platform.stepfun.com 5. 【安全警示】⚠️ ChatGPT 搜索功能面临潜在风险:或被恶意操控输出不可信内容 * ChatGPT 在处理网页摘要时可能受到隐藏内容的操控 * 隐藏文本能影响 ChatGPT 的评估 * OpenAI 正积极修复潜在问题 6. 【机器翻译】📚 腾讯研究推出新型翻译模型 DRT-o1,重塑文学文本翻译 * DRT-o1 专注于文学文本翻译,采用多代理框架优化隐喻和比喻处理 * BLEU 和 COMET 得分均有显著提升 * 提供 7B 和 14B 两种版本 项目链接: github.com 7. 【人物动态】🧳 罗永浩进军 AI 领域,其公司招聘 AI 大模型人才 * 罗永浩并未放弃 AR 产业,计划先推出 AI 产品 * 细红线科技有限公司招聘 AI 工程研发工程师、大模型算法工程师等 * 新产品可能面向海外市场 8. 【人事变动】🤝 AI 创业老兵胡云华加入智谱,担任 C 端应用“智谱清言”负责人 * 胡云华拥有丰富的 AI 创业经验和技术背景 * 智谱清言目前拥有 2500 万用户,年收入预计超过千万元 * 胡云华将负责产品定义和用户留存 9. 【硬件前沿】🚀 英伟达 GB300/B300 GPU 横空出世!推理性能暴增,供应链大洗牌 * B300 GPU 采用台积电 4NP 工艺,FLOPS 性能比 B200 提升 50%,内存升级至 288GB * NVL72 架构允许 72 个 GPU 协同工作 * 供应链重组,更多 OEM 和 ODM 参与生产 项目链接: semianalysis.com 10. 【未来展望】🔮 马斯克预测:AI 智力将在 2025 年超越个体人类,2030 年或将超越所有人类 * 到 2025 年底,AI 智力预计将超越单个个体的人类智力 * 2027 至 2028 年,AI 有可能超越所有人类智力 * 需关注 AI 发展的潜在风险

6分钟
89
11个月前

【AI日报】EP.65 12月26 AI 阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;

Aishaobing的个人播客

【行业突破】 🤖 阿里发布多模态推理模型QVQ-72B! 视觉、语言能力双提升 * QVQ-72B模型融合强大语言和视觉能力,处理复杂推理任务。 * 多步推理提升物理和数学推理准确率,减少错误。 * 高效信息提取能力,支持技术报告和图表分析。 * 详情链接: huggingface.co 🤖 投资三家机器人公司后,OpenAI欲自研人形机器人 * OpenAI投资三家机器人公司,积极布局机器人领域。 * 旗舰模型O3在AGI测试中超越人类,技术优势明显。 * 面临市场竞争和硬件研发挑战,需快速补齐短板。 【产品更新】 🎧 QQ音乐14.0版本上线,发布首个AI大模型音效、智能匹配听歌音效 * AI大模型音效提供个性化听觉体验,提升空间感和层次感。 * 伴唱功能升级,自由调节伴唱模式、播放速度和音调。 * 多款个性化设置,享受个性化听歌体验。 🌐 讯飞星火浏览器插件新升级,新增翻译总结、继续提问等AI功能 * 新增“继续提问”功能,深入讨论,获取更高质量答案。 * 网页全局对照翻译,支持12种语言,打破语言障碍。 * 一键朗读功能,提高外语口语水平。 🛠️ 字节开源 Midscene.js: AI驱动的E2E测试框架迎来突破 * Midscene.js通过自然语言与网页交互,简化E2E测试流程。 * Shortest工具利用AI自动生成测试用例,减少重复性工作时间。 * AI技术提升基础E2E测试场景自动化水平。 * 详情链接: github.com 【技术前沿】 👁️‍🗨️ DeepMind项目MegaSaM : 输入普通视频即可预估相机视角和景深 * MegaSaM系统从普通动态视频快速准确估计相机参数和深度图。 * 克服传统方法在动态场景不足,适应复杂环境实时处理。 * 实验显示MegaSaM准确性和运行效率优于以往技术。 * 详情链接: mega-sam.github.io 📄 Fireworks AI推出文档解析神器! AI轻松读懂复杂文件 * Document Inlining提供高质量文本输出,优于传统文本型LLM。 * 支持PDF、图片等多种格式,准确提取复杂文档关键信息。 * 解析含表格和图表复杂文档,转换为LLM可理解文本。 * 详情链接: fireworks.ai 【业界动态】 👨‍💻 字节TikTok算法负责人陈志杰或将离职,投身AI Coding方向创业 * 陈志杰即将离职字节跳动,专注于AI Coding创业。 * AI Coding市场前景广阔,预计到2032年将超295亿美元。 * 国内市场投资人关注AI Coding,多个项目涌现。 🤯 果然 最强 !OpenAI 新模型o3在ARC-AGI基准测试得分破纪录 * o3在ARC-AGI基准测试中获75.7%高分,超越以往模型。 * o3解决每个谜题成本高达17到20美元,计算量巨大。 * 专家强调o3尚未达到AGI标准。 🔓 打错字也能 “越狱”GPT-4o、Claude: 揭秘AI聊天机器人的脆弱性! * 研究发现,拼写错误等技巧可轻易 “越狱”AI聊天机器人。 * BoN越狱技术在多种AI模型中成功率达52%,有些高达89%。 * 此技术在音频和图像输入中同样有效,显示AI脆弱性。 🤨 尴尬! 谷歌被曝用Claude模型进行对比测试来改进Gemini AI * Gemini正与Claude进行对比测试,提升自身AI模型性能。 * 承包商负责评分,比较涉及真实性和安全性等标准。 * Anthropic禁止未授权使用Claude进行竞争性模型训练。 🩺 研究发现,OpenAI 的 o1-preview 在诊断复杂医疗病例方面优于医生 * o1-preview诊断率超医生,达88.6%准确率。 * 医疗推理方面,o1-preview在80个病例中获78个满分。 * 实际应用中高成本和不切实际测试建议仍需解决。 * 详情链接: arxiv.org

10分钟
50
11个月前

【AI日报】EP.64 12月25 AI假冒名人直播带货违法;OpenAI o3 模型能耗惊人

Aishaobing的个人播客

1. 【AI 伦理】 🚫 AI 假冒名人直播带货属违法行为,可要求退一赔三 * 深度伪造技术被滥用,名人形象遭冒用直播带货。 * 未经授权使用他人形象或声音涉嫌违法,消费者可要求赔偿。 * 短视频平台需加强内容审核。 2. 【能源消耗】 🌍 OpenAI o3 模型:每个任务消耗相当于五箱油的能源 * OpenAI 的 o3 模型能耗巨大,每个任务相当于一个美国家庭两个月的用电量。 * 每个任务的二氧化碳排放量相当于五箱满油汽油的排放量。 * ChatGPT 对话消耗的水量达到平均人类日常饮水的 10%。 3. 【AI 动画】 🕺 DisPose:输入动作视频和参考人物即可实现让人物跳同款舞蹈 * DisPose 技术利用解耦姿态指导,实现从静态图像生成动态视频。 * 该技术提供更精确的运动生成,提升动画表现力和控制性。 * 混合 ControlNet 架构进一步提高生成视频的质量和一致性。 * 项目链接: lihxxx.github.io 4. 【图像处理】 🖼️ AI 图片高清修复工具 InvSR:一键实现照片从模糊到高分辨率 * 基于扩散反演的新技术提升图像分辨率和清晰度。 * “部分噪声预测”策略提高灵活性和效率。 * 提供详细使用指南和在线演示平台。 * 项目链接: github.com 5. 【AI 语音】 🗣️ Hume AI 发布全能语音引擎 OCTAVE:文本秒变真人声,克隆人格特征 * OCTAVE 语音引擎可通过文本或短语音录音生成逼真的语音和个性特征。 * 支持毫秒级语音生成,实现实时对话和动态调整说话风格。 * 支持多个虚拟角色的语音生成,表现丰富的情绪和说话风格。 * 参考链接: www.hume.ai 6. 【语言模型】 🌐 IBM 发布更新版 Granite3.1 开源语言模型,性能大幅提升 * Granite3.1 模型可处理多达 128,000 个令牌,提升处理复杂文本和任务的能力。 * 经过 12 种语言和 116 种编程语言的数据集训练,处理了 12 万亿个令牌。 * 开发者可通过 Hugging Face 平台访问这些模型。 * 参考链接: huggingface.co 7. 【企业融资】 💰 xAI 完成新一轮 60 亿美元融资,马斯克 AI 版图再扩张 * xAI 完成 60 亿美元融资,总融资额达 120 亿美元,估值目标 500 亿美元。 * Grok 模型将继续扩展功能,包括聊天机器人和图像生成等。 * xAI 计划扩展 GPU 服务器群以提升计算能力。 8. 【企业动态】 🚗 蔚来调整智驾组织架构,任少卿亲自带队强化大模型研发 * 蔚来汽车对智能驾驶研发部门进行重大组织架构调整,设立技术委员会。 * 任少卿将直接领导大模型部门,强化部门协作与执行效率。 * 调整旨在支持蔚来的主品牌及新品牌,满足多平台、多功能的业务需求。 9. 【公司市值】 🍎 苹果市值逼近 4 万亿美元,分析师预期 AI 技术助推 iPhone 销量 * 苹果市值即将突破 4 万亿美元,股价自 11 月初以来上涨约 16%。 * 投资者期待 AI 技术推动 iPhone 升级周期。 * 分析师预计 2025 年 iPhone 收入将反弹。 10. 【国防科技】 ⚔️ SpaceX、Palantir 与 OpenAI 联手争夺美国国防合同,挑战传统防务霸主 * SpaceX、Palantir 和 OpenAI 组建联盟,挑战传统防务承包商的垄断地位。 * Palantir 和 Anduril 在国防领域的技术应用引发伦理争议。 * 彼得·蒂尔的影响力贯穿这些公司,其科技进步理念引发对国家安全与伦理的深思。

5分钟
48
11个月前

【AI日报】EP.63 12月24 百川智能金融大模型发布;ChatGPT新增跨对话记忆功能

Aishaobing的个人播客

【AI模型】 🧠 OpenAI发布o3模型,实现推理能力重大突破 * 在ARC AGI基准测试中取得87.5%的高 * 高级数学测试成功率达到96.7% * 科学推理准确率提升10% * 在教育、医疗和软件开发等领域具有广泛应用潜力参考链接:www.cnbc.com源链接:news.qq.com项目链接:github.com 【AI工具】 🎵 Adobe与西北大学联合推出Sketch2Sound,革新声音设计 * 用户可通过哼唱、模仿声音或简单文本描述生成专业音效 * 分析音量、音色和音高,实现高效音效创建 * 特别适合Foley艺术家,提升影视音效制作效率参考链接:hugofloresgarcia.art源链接:news.qq.com项目链接:github.com 【AI模型】 💼 百川智能发布金融大模型BaiChuan4-Finance,精准度领先 * 采用领域自约束训练方案,提升金融和通用能力 * 在多个金融领域准确率达93.62%,领先GPT-4o近20% * 银行、保险、基金和证券等领域准确率突破95%参考链接:www.baichuanai.com源链接:news.qq.com项目链接:github.com 【图像处理】 🎨 清华大学与腾讯联合研发ColorFlow,自动上色黑白漫画 * 双分支设计,保持角色身份一致性 * 创新检索增强上色管道,提升上色效果与效率 * 超越现有先进模型,适用于多种艺术场景参考链接:zhang2002.github.io源链接:news.qq.com项目链接:github.com 【虚拟形象】 👓 闪极科技AI拍拍镜预售售罄,市场反响热烈 * 售价1499元,首批5万台以999元优惠价一天抢光 * 搭载索尼1600万像素摄像头,支持多种智能功能 * 300天内打卡200天可获得全额退款,增加产品吸引力参考链接:www.flashai.com源链接:news.qq.com项目链接:github.com 【AI功能】 🤖 OpenAI推出ChatGPT新记忆功能,提升用户体验 * 支持跨对话回忆用户交流内容 * 用户可全面管理记忆设置,包括删除或归档信息 * 谷歌加快Gemini聊天机器人记忆功能推出参考链接:www.openai.com源链接:news.qq.com项目链接:github.com 【研究动态】 🛠 斯坦福李飞飞团队研究多模态AI模型初显空间智能 * 开发VSI-Bench工具,评估视觉空间智能 * 多模态模型在某些任务上接近人类水平 * World Labs专注开发具备空间智能的AI模型,获多家知名机构投资参考链接:www.worldlabs.ai源链接:news.qq.com项目链接:github.com 【政策动态】 🏛 特朗普任命Sriram Krishnan为白宫AI政策高级顾问 * 负责协调政府AI政策,与加密货币相关政策协同推进 * 曾是Andreessen Horowitz合伙人,与David Sacks合作 * 在多家知名科技公司担任领导职务,分享AI趋势观点参考链接:www.whitehouse.gov源链接:news.qq.com项目链接:github.com

6分钟
67
11个月前

【AI日报】EP.60 12月21日 支付宝推AI创意生成平台;谷歌王炸推理模型Gemini2.0 Flash

Aishaobing的个人播客

【AI模型】 🌟 谷歌发布Gemini2.0Flash Thinking模型,挑战OpenAI o1 * 支持32,000个输入标记和8,000个输出标记,推理能力强大。 * 通过逐步推理方式增强模型透明性,解决“黑箱”问题。 * 具备原生图像上传与分析能力,扩展多模态应用场景。【AI模型 * 详情链接: Gemini2.0Flash Thinking 【营销工具】 📈 支付宝推出“蚂上有创意”AI创意生成平台,累计生成8700万张AI素材 * 支持快速生成海报、Banner、视频等多种内容,简化创意制作流程。 * 提供AI创意洞察服务,帮助商家分析和优化营销物料,提高转化率。 * 自去年以来,支付宝已生成8700万张AI素材,推动商家营销的智能化发展。 * 详情链接: 蚂上有创意平台 【视频制作】 🎥 Runway更新重磅功能:支持插入中间帧控制视频生成 * 用户现在可以在视频生成中选择首尾帧并插入中间帧,增加创作灵活性。 * 新增的关键帧功能使得视频画面更丰富,提升了整体质量和流畅度。 * 用户体验反馈积极,展示了该功能在实际应用中的效果。 * 详情链接: Runway更新详情 【推理模型】 🤖 OpenAI计划推出新一代“o3”推理模型,跳过“o2” * OpenAI正在开发新的推理模型“o3”,旨在提升思考能力和用户互动体验。 * 由于与英国电信公司O2的潜在商标冲突,OpenAI决定跳过“o2”直接命名为“o3”。 * 新模型的推出是OpenAI应对产品更新放缓的一项战略举措,期望在各行业实现更广泛的应用。 * 详情链接: OpenAI o3模型 【语音技术】 🎤 ElevenLabs推出Flash语音对话模型:仅75毫秒延迟,支持32种语言 * Flash模型生成语音的延迟仅为75毫秒,适合低延迟的对话式语音助手。 * Flash v2.5支持32种语言,用户生成每两个字符消耗1个积分。 * 在盲测中,Flash模型表现优于其他同类产品,成为速度最快的文本转语音解决方案。 * 详情链接: ElevenLabs Flash模型 【开发工具】 💻 ChatGPT桌面端新增“与应用协作”功能,Mac用户轻松读取应用内容 * ChatGPT新增“与应用协作”功能,支持直接读取多个应用内容。 * 支持的应用包括Apple Notes、Xcode、VS Code等,覆盖广泛。 * 更新后,用户可使用高级语音模式与应用进行互动,提供更直观的使用体验。 * 详情链接: ChatGPT应用协作功能 【融资动态】 💰 AI编程助手Cursor再获融资1亿美元,估值飙升至26亿美元 * Cursor成功融资1亿美元,估值达26亿美元! * 仅四个月时间,公司估值暴涨6.5倍,投资者热情高涨。 * 公司的年收入从400万美元迅速增长至4800万美元,业绩亮眼。 * 详情链接: Cursor融资新闻 【人才动态】 🧑‍🔬 GPT之父Alec Radford离职OpenAI,转向独立研究 * Radford在2016年加入OpenAI,推动了GPT系列模型的研发,奠定了现代AI的基础。 * 他的离职发生在OpenAI高层频繁变动的背景下,可能影响公司的未来发展方向。 * 尽管选择独立研究,Radford计划与OpenAI及其他AI开发者保持合作,探索新的创新模式。 * 详情链接: Radford离职新闻 【可穿戴设备】 🕶️ 闪极科技推出国内首款999元AI眼镜“拍拍镜”:30g重量挑战可穿戴新赛道 * 闪极AI「拍拍镜」是国内首款量产AI眼镜,起售价999元,预计2025年1月15日发货。 * 眼镜搭载索尼1600万像素摄像头和瑞声科技Hi-Fi扬声器,重量控制在50g,佩戴感受仅30g。 * 通过自研Loomo OS系统,支持语音识别、实时翻译等AI功能,未来可在线升级更多功能。 * 详情链接: 闪极AI眼镜 【AI平台】 ☁️ Stable Diffusion3.5Large正式上线亚马逊Bedrock平台 * SD3.5Large模型已在亚马逊Bedrock平台上线,支持便捷安全的AI应用开发。 * 该模型具备多样风格生成、优异的文本提示遵循性和多元化图像输出能力。 * 新升级的图像服务包括稳定图像超级版和核心版,提供更高质量和性价比的生成解决方案。 * 详情链接: Stable Diffusion3.5Large on Bedrock

6分钟
47
11个月前

【AI日报】EP.58 12月19日 字节重磅推出豆包视觉理解模型;AI“魔改”宠物跳舞爆火

Aishaobing的个人播客

【多模态大模型 & 开发工具】 * 字节跳动推出豆包视觉理解大模型,价格降低99%,企业可低成本实现智能化转型。 * OpenAI发布o1模型API,成本降低60%,新增高级视觉处理能力,GPT-4o在音频处理上的成本亦大幅下降。 * Ideogram推出批量图像生成工具,只需上传CSV文件,即可轻松批量生成图像。 * 扣子Coze 1.5版正式推出,支持GUI搭建与多模态集成,为开发者提供便捷的应用构建方案。 【创意与内容生成】 * 即梦AI上线海报生成功能及动态海报支持,只需一句描述,即可快速生成创意动态海报。 * 豆包视频生成模型将于2025年1月开放服务,助力品牌和创作者快速生成短视频内容。 * 微信推出“作者朗读音色”功能,创作者可使用个人特色语音为公众号文章配音。 【全域搜索与记忆方案】 * 字节跳动火山引擎推出全域AI搜索服务,多模态理解与A1搜推引擎加持,支持企业构建大模型记忆系统,提升信息检索与推荐精度。 【娱乐 & 潮流应用】 * AI生成宠物跳舞视频在抖音爆火,引发8.8亿次播放,荒诞与猎奇内容成流量风口。 * AI宠物Moflin在小红书走红,不需喂养却能提供情感陪伴,满足现代人精神需求。 【行业与资本动态】 * OpenAI暂未推出Sora API,因用户需求暴增而暂停新用户注册。竞争对手谷歌、AWS已有视频生成API上架。 * OpenAI员工或通过股票回购获得最高1000万美元收益,体现资本对AI企业潜力的认可。 【参考及相关链接】 * 字节跳动豆包大模型相关(豆包视觉推理大模型):www.coze.cn * OpenAI连日直播发布o1模型API相关视频链接(参考):(用户请自行搜索OpenAI官方发布渠道) * Ideogram批量图像生成工具介绍(官方站点):(用户请自行搜索Ideogram官网) * 即梦AI海报生成功能演示视频:(用户请自行搜索即梦AI官方站点) * 全域AI搜索及记忆系统方案:www.coze.cn * 微信“作者朗读音色”功能参考:news.qq.com * Moflin AI宠物详情:www.moflin.com * OpenAI股票回购相关新闻参考:www.cnbc.com

9分钟
85
1年前

【AI日报】EP.57 12月18日 ChatGPT AI搜索免费开放、谷歌AI视频模型Veo2优于Sora

Aishaobing的个人播客

【AI助手升级】 🤖 ChatGPT搜索功能全面开放 * 支持实时搜索和地图集成 * 新增高级语音交互模式 * 移动端搜索效率提升 参考链接:https://chatgpt.com 【视觉AI更新】 🎥 谷歌Veo2模型发布 * 4K分辨率视频生成 * 性能优于OpenAI Sora * 可通过VideoFX平台申请使用 参考链接:https://labs.google/fx/tools/video-fx 【AI创作工具】 🎨 Midjourney情绪版板功能上线 * 支持上传灵感图像集 * 个性化模型创建简化 * 仅需40个评分即可使用 参考链接:https://www.midjourney.com/personalize 【图像生成】 📷 谷歌推出Whisk工具 * 无需文字提示词 * 支持多图混合生成 * 自动融合不同风格 参考链接:https://top.aibase.com/tool/whisk 【平台新功能】 📺 YouTube AI训练授权功能 * 默认关闭需主动开启 * 支持OpenAI等合作方 * 保护创作者权益 【国内突破】 💡 智谱AI完成30亿融资 * B端收入增长30倍 * 付费客户增长20倍 * 用户突破2500万 【智能硬件】 👓 Ray-Ban Meta眼镜更新 * 支持实时AI对话 * 多语言即时翻译 * 整合Shazam音乐识别 【芯片产业】 💻 博通市值突破1万亿美元 * AI芯片需求激增 * 预计2027年市场规模600-900亿美元 * 收入增长达51% 【办公工具】 📊 WPS AI免费功能开放 * AI生成PPT功能 * 风格克隆与滤镜 * 年终总结模板支持

4分钟
48
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧