Album
时长:
86分钟
播放:
637
发布:
7个月前
简介...
https://xiaoyuzhoufm.com

hi,这里是硅基觉醒

这是一档围绕AI前沿技术和商业变革的节目,汇聚了AI创业者、投资人、以及大厂一线的实践和观察。我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。欢迎大家在小宇宙平台和微信公众号关注我们!


GPT-4o正式发布图片生成功能,经过硅基觉醒团队测试,相比原有的Stable Diffusion等方案在文字可控性、一致性、交互性方面实现了质的突破。有自媒体惊呼,AI大模型的一次迭代又干翻了很多创业公司的努力。AI图像生成领域是否迎来大变天?SD,Midjourney,以及过去围绕AI生图创业的团队该何去何从?GPT-4o所代表的原生多模态大模型路线将产生什么样的变革?追赶这一技术路线又需要怎样的投入?


本期我们将围绕GPT-4o和它所代表的原生多模态大模型深入聊聊。


【本期嘉宾】


Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。


史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。


小苏同学,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。


提示词:请创建一幅图像:在森林中用树木排列成"你好!"三个字符。


提示词:请帮我给我的AI播客设计一个头像LOGO,希望具备科技范,未来感,符合AI的主题,同时图片里需要包含醒目的四个中文字,硅基觉醒



(GPT-4o连续故事情节生成展示)

提示词:现在咱们开始生成一组真实风格的照片。场景1: 一个蓝色短发的男孩A刚睡醒,收到了手机上的地震预警;场景2: 男孩A走出房门,刚好看到隔壁红色头发的女生B,询问了地震的情况;场景3: 女生B跑到楼下的老师办公室





【本期内容】

🟢 Part 1 多模态技术突破&下一代GUI

00:00:33 GPT-4图像生成能力开放——创业者直面技术代差冲击

00:02:06 GPT-4图像实测——哪些能力突破引发惊呼?

00:06:20 文字可控性、复杂场景可控性、一致性

00:10:56 风格化输出能力,吉卜力风格出圈

00:17:00 指令跟随能力提升,生图门槛进一步下降,告别咒语

00:22:00 生图领域将解锁哪些新应用场景

00:25:48 下一代用户交互界面GUI


🟢 Part 2 原生多模态模型

00:38:48 SD工作流还有价值吗?是不是彻底被颠覆了

00:44:00 SD工作流为范式的生成  vs GPT-4o原生多模态大模型

00:48:25 原生多模态大模型的训练方式有什么不同


00:56:18 复现GPT-4o成本是多少?


01:02:40 原生多模态是否会提升模型的智力水平?


🟢 Part 3 多模态行业震荡与演进

01:05:38 谁能率先复现GPT-4o的工作?

01:13:15 GPT-4o生成的速度与成本

01:18:30 视频生成是否也会被颠覆?国内视频生成企业如何面对?




欢迎订阅「硅基觉醒」播客

🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。


欢迎加入「硅基觉醒」部落,成为首批村民

🔮 与资深AI学者、创业者、投资人深入交流

🤖 寻觅你的技术与商业化伙伴,共商AI创业大计

📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】


评价...

空空如也

小宇宙热门评论...
帮我系一下鞋带
6个月前 山东
2
播客里有些地方实在没必要中英混杂的表述,比如“给了我很多surprise”,“小红书style”,“meet我的需求”
li3huo
5个月前 北京
2
35:27 快进到这里,三分钟废话总结:用户相对纯文字,更喜欢图文
alltheysaid
7个月前 北京
1
刚好打算学习这块,博主更新太及时了
li3huo
5个月前 北京
0
1:05:46 qwen3 是多模态的。claude 和 gemini 也是
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧