节目列表: 硅基觉醒FM - EarsOnMe - 精选播客，一听即合

硅基觉醒FM
节目列表

生图领域大变天？SD还有价值吗？原生多模态与下一代交互

hi，这里是硅基觉醒。这是一档围绕AI前沿技术和商业变革的节目，汇聚了AI创业者、投资人、以及大厂一线的实践和观察。我们希望一起见证超级智能的到来，迎接硅基觉醒的年代。欢迎大家在小宇宙平台和微信公众号关注我们！ GPT-4o正式发布图片生成功能，经过硅基觉醒团队测试，相比原有的Stable Diffusion等方案在文字可控性、一致性、交互性方面实现了质的突破。有自媒体惊呼，AI大模型的一次迭代又干翻了很多创业公司的努力。AI图像生成领域是否迎来大变天？SD，Midjourney，以及过去围绕AI生图创业的团队该何去何从？GPT-4o所代表的原生多模态大模型路线将产生什么样的变革？追赶这一技术路线又需要怎样的投入？本期我们将围绕GPT-4o和它所代表的原生多模态大模型深入聊聊。【本期嘉宾】 Harry，7年一级市场投资经验，2年互联网战略经验，AGI信徒。史业民，北大博士，前智源研究院研究员，研究方向为实时多模态模型、Multi-agent框架。小苏同学，互联网大厂工作多年，丰富的投融资、出海以及产品运营经验，目前在做AI Agent产品的内部孵化。提示词：请创建一幅图像：在森林中用树木排列成"你好！"三个字符。提示词：请帮我给我的AI播客设计一个头像LOGO，希望具备科技范，未来感，符合AI的主题，同时图片里需要包含醒目的四个中文字，硅基觉醒（GPT-4o连续故事情节生成展示）提示词：现在咱们开始生成一组真实风格的照片。场景1: 一个蓝色短发的男孩A刚睡醒，收到了手机上的地震预警；场景2: 男孩A走出房门，刚好看到隔壁红色头发的女生B，询问了地震的情况；场景3: 女生B跑到楼下的老师办公室【本期内容】 🟢 Part 1 多模态技术突破&下一代GUI 00:00:33 GPT-4图像生成能力开放——创业者直面技术代差冲击 00:02:06 GPT-4图像实测——哪些能力突破引发惊呼？ 00:06:20 文字可控性、复杂场景可控性、一致性 00:10:56 风格化输出能力，吉卜力风格出圈 00:17:00 指令跟随能力提升，生图门槛进一步下降，告别咒语 00:22:00 生图领域将解锁哪些新应用场景 00:25:48 下一代用户交互界面GUI 🟢 Part 2 原生多模态模型 00:38:48 SD工作流还有价值吗？是不是彻底被颠覆了 00:44:00 SD工作流为范式的生成 vs GPT-4o原生多模态大模型 00:48:25 原生多模态大模型的训练方式有什么不同 00:56:18 复现GPT-4o成本是多少？ 01:02:40 原生多模态是否会提升模型的智力水平？ 🟢 Part 3 多模态行业震荡与演进 01:05:38 谁能率先复现GPT-4o的工作？ 01:13:15 GPT-4o生成的速度与成本 01:18:30 视频生成是否也会被颠覆？国内视频生成企业如何面对？欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来，迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察，在最前沿直击AI的技术与商业演变。欢迎加入「硅基觉醒」部落，成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴，共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道，或者扫描下方二维码，备注【硅基觉醒入群】

86分钟

99+

1年前

Manus爆火背后的Agent革命：深度解析技术、成本与护城河

硅基觉醒FM

hi，这里是硅基觉醒。这是一档围绕AI前沿技术和商业变革的节目，汇聚了AI创业者、投资人、以及大厂一线的实践和观察。我们希望一起见证超级智能的到来，迎接硅基觉醒的年代。欢迎大家在小宇宙平台和微信公众号关注我们！ 2025年被广泛视为「AI Agent元年」，随着复杂推理能力的突破，大模型从实验室走向规模化应用，AI Agent成为最受关注的应用方向。近期，OpenAI升级Agent API、Manus爆火等现象引发热议，但如何理解其本质与发展路径？本期节目邀请多位资深从业者共同讨论。【主持人】 Harry，7年一级市场投资经验，2年互联网战略经验，AGI信徒。【本期嘉宾】史业民，北大博士，前智源研究院研究员，研究方向为实时多模态模型、Multi-agent框架。小苏，互联网大厂工作多年，丰富的投融资、出海以及产品运营经验，目前在做AI Agent产品的内部孵化。陈光耀，北大博士，目前在康奈尔大学做博士后，主要研究方向为开放世界学习和多智能的合作学习。【本期内容】 🟢 Part 1 Agent核心概念 00:01:59 什么是AI Agent？为什么2025年会是AI Agent元年？ 00:03:30 工业界的Agent和学术界的理解是两码事？ 00:09:19 目前已经实践成功的Agent产品有哪些？ 00:15:27 什么是Agent框架？为什么它如此重要 00:18:22 未来的Agent框架可能会越来越简洁 00:22:36 中心化Agent vs 分布式Agent 🟢 Part 2 技术实现与工程挑战 00:23:24 Agent所需的模型与通用的底座模型差异是什么？ 00:26:06 Finetune一个Agent模型的数据从哪里来？ 00:27:41 小白应用开发者如何选择Agent框架？ 00:33:16 为什么MCP开始火了？对于Agent落地MCP起到啥作用？ 00:36:20 Agent的环境感知能力是如何实现的？ 00:39:13 Manus总是因为上下文过长任务失败，如何应对这一挑战？ 00:43:08 做Agent如何挑选基座模型？ 00:45:06 强化学习才是Agent创业公司最核心的技术壁垒？ 🟢 Part 3 商业化与未来演进 00:50:52 作为一家Agent公司最核心的壁垒是什么？ 00:54:23 什么是垂直场景的专业能力？ 01:00:11 Manus爆火的秘诀是什么？ 01:02:52 为什么Manus执行任务需要这么久？ 01:08:14 Manus打破了那堵墙 01:12:25 执行一个Agent任务成本是2美金 01:16:27 Agent产品应该对标SaaS，而不是2C应用 01:20:28 拥有了世界知识，为什么Agent还要去做search？ 01:27:02 为什么Agent任务成功率很低？ 01:33:20 通用的Agent，就是AGI 01:39:09 做Agent方向创业，应该如何组建团队？ 01:44:04 对2025年Agent的期待与展望欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来，迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察，在最前沿直击AI的技术与商业演变。欢迎加入「硅基觉醒」部落，成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴，共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道，或者扫描下方二维码，备注【硅基觉醒入群】

109分钟

3k+

1年前