节目列表: 科技慢半拍 - EarsOnMe - 精选播客，一听即合

#04 对话陈烨｜全力以赴做最好的基础大模型

【嘉宾】陈烨，虎博科技的创始人兼CEO，曾获美国威斯康星大学麦迪逊分校信息系统和计算机科学博士学位，美国伯克利大学客座教授。曾任美团点评集团高级副总裁，广告平台负责人。2017年，正式创立虎博科技。【节目介绍】本期节目陈烨博士将回顾虎博科技的创业历程，分享大模型的最新研发情况，并重点围绕大模型的能力要求、模型训练、行业应用等话题展开。此外，他还剖析了人工智能在企业应用落地的难点,也分享了他个人对科技创新的价值观。体会科技大咖的独家思考，听一场别开生面的行业对话，欢迎订阅并收听本期访谈节目。【时间线】 01:42 创业公司是个生命体，首先是要活下来 07:32 AI1.0和AI2.0的特征和区别 18:03 如何做大模型的预训练？ 37:19 什么样的大模型将会最终胜出？ 42:49 如何选择适合的商业模型？ 51:29 全力以赴做好基础大模型【名词解释】 * Llama2是Meta AI于2023年7月正式发布最新一代的包含了70亿、130亿和700亿参数的开源大模型。 * DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。 * Megatron是NVIDIA提出的一种由于分布式训练大规模语言模型的架构,针对Transformer进行了专门的优化，也就是大矩阵乘法。 * FlashAttention算法主要解决的是Transformer模型计算速度慢和存储占用高的问题。 * Gradient Accumulation是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。 * 训练大模型的三个步骤，1）Pre-train（预训练），2）Supervise Fine-tuning（SFT，监督调优），3）RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习） * PPO的全称是Proximal Policy Optimization，即近端策略优化算法，是一种强化学习中的策略梯度方法。 * Reinforcement Learning指强化学习方法，是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。 * Reject Sampling（拒绝采样）是对模型生成的结果进行采样，并对采样后的结果通过RM（奖励模型）选取回报值最大的结果作为最终结果的一种方法。【片头和片尾音乐】曲率飞行 - 昨夜派对（L.N Party）焰火青年 - 刘森【感谢】特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。

57分钟

#03 对话宋东桓｜枪在手，跟我走！人人都能做电影

【嘉宾】宋东桓，影视从业者，编剧/AIGC创业者，现在是一名专注于AIGC领域的创业者，彻彻底底的斜杠青年。【节目介绍】本节目对话了AI短片训练工坊的创办者，也是培训讲师的宋东桓，他敏锐的发现了AIGC这次技术革命对影视行业所带来的深远影响，以一名布道者和倡导者的角色义无反顾的杀入了这个行业。在对话中，宋东桓既谈到了AI在影视行业各个制作环节上的应用价值，也谈到了他对各类AIGC技术的发展走势预判，谈及接下来可能发生的整个产业聚变和其中无限的商机。如果你也喜欢影视制作，或者关心AI技术在此领域的应用，本期节目不容错过。【时间线】 01:36 关于AI短片训练工坊和优秀的AI 作品 10:26 AI 创作是否会导致同质化，导致新的一种平庸？ 15:27 AI技术在影视创作中的综合应用 20:50 AI技术如何应用在「编剧」环节 23:24 AI技术如何应用在「做图」环节 26:13 AI技术如何应用在「视频」环节 34:42 AI技术如何应用在「音乐」环节 37:26 AI技术如何应用在「剪辑」环节 41:24 AI在影视产业的实际应用和发展趋势 53:12 关于集体故事创作【对话中提到的AI 短视频作品】《外星人》- 喻为星《Her2》 - 陈浚嘉《异世之门》 - Jill #训练营的宣传广告# 【名词解释】 * Midjourney是一款2022年3月面世的AI绘画工具，只要用户输入想到的文字，就能通过人工智能产出相对应的图片。 * Stable Diffusion是一款专为艺术家和开发人员设计的工具，用户可以通过多种方式创建令人惊叹的动画效果。 * Runway是一家AI视频编辑软件提供商，主要为设计师、艺术家和开发人员提供一系列的工具和平台，产品是帮助专业人士生成各种内容。 * Blender是一款免费开源三维图形图像软件，提供从建模、动画、材质、渲染、到音频处理、视频剪辑等一系列动画短片制作解决方案。 * MetaHuman是一个完整的框架，可以让任何创作者在能够想象到的任何领域用上极其逼真的人类角色。 * SAM是指Segment Anything Model（分割一切模型）的缩写，是Meta公司在 2023 年 4 月发布的一种模型，它可以让计算机“看见”图像中的物体，执行一种叫作“分割”的任务，即将图像中的每个像素归属于某个物体。 * Lora是一种基于深度学习的AI绘画算法，利用计算机视觉与图像处理的技术，能够自动生成逼真的绘画作品。Lora项目致力于通过训练神经网络模型，使其能够模仿艺术家的绘画风格，并生成具有相似风格的绘画作品。 * 妙鸭相机是一款用于制作AI写真小程序App，这款软件通过AI学习消费者上传的照片来构建人脸模型，然后把人脸模型套用其他模型合成照片。 * Deepfake，即深度伪造技术，是被称作“生成式对抗网络”（GAN）的机器学习模型将图片或视频合并叠加到源图片或视频上，借助神经网络技术进行大样本学习，将个人的声音、面部表情及身体动作拼接合成虚假内容的人工智能技术。【片头和片尾音乐】 Walking Carefully - Periklis Biskinis 流浪佬与知更鸟 - royster lee 【感谢】特别感谢[AIGC开放社区]，[Stable开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。

59分钟

56

#02 对话刘杰｜大模型也需要适者生存

【嘉宾】刘杰，南开大学人工智能学院教授，研究领域包括机器学习与数据挖掘方面的基础研究，以及面向自然语言处理、网络挖掘、视频图像理解等方面。【节目介绍】本节目对话了南开大学的刘杰教授，从他个人的学术经历，谈到当今学生对于人工智能专业的选择问题。帮助听友分析和甄别大模型的各种类型，他也分享了对这项技术发展的体会和感想，以及对领域大模型和开源大模型的看法，也谈及了大模型未来的发展方向。【时间线】 00:55 嘉宾介绍 07:37 大学中的人工智能学科和毕业生的选择 16:33 从自然语言处理到大语言模型技术的演进思考 27:17 当前国内大模型的发展形态 35:20 关于大模型的测评和选择 43:53 领域模型与通用大模型的协同作战 51:50 关于开源与闭源大模型的纷争 54:26 等待杀手级的应用场景，是否会再次走入AI低谷？ 1:00:36 对话总结【名词解释】支持向量机（Support Vector Machine, SVM），是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。 BERT，全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP（Natural Language Processing，自然语言处理）任务中获得了新的state-of-the-art的结果。 C-EVAL，中文大语言模型评估基准，评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建，是面向中文语言模型的综合考试评测集。专家混合模型(Mixture-of-Experts layer,MoE)，这种模型可以被认为是具有不同的子模型(或专家)，每个子模型专门用于不同的输入。【片头和片尾音乐】对屿 - 阁楼演奏班梦在黎明破晓时 - 盘尼西林【感谢】特别感谢[AIGC开放社区]和[AI重塑世界]的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。

64分钟

#01 对话陈定定｜闯入AI世界的文科教授

【嘉宾】陈定定，暨南大学国际关系学院教授，一带一路与粤港澳大湾区研究院副院长，21世纪丝绸之路研究院副院长，海国图智研究院创始人兼院长。著作：《人工智能与全球治理》，社会科学文献出版社，2020年《国外智库看亚太经合组织(APEC)》，社会科学文献出版社，2017年《国际关系中的预测》，上海人民出版社，2014年【节目介绍】本节目对话了陈定定教授，他是一位研究国际关系的大学教授，目前也投身于人工智能领域。他介绍了自己的职业经历与新兴技术之间的联系，也谈到了海兔科技AIGC产品的特点和应用场景，特别分享了自己对于大模型技术的现状和未来的展望。这是一次有内容、有深度、跨领域的对话和沟通，不容错过。【时间线】 01:31 嘉宾介绍 02:55 从个人的写作需求中寻找到了新技术的实用价值 07:10 如何理解非线性的技术发展趋势？ 12:08 严肃性的内容生成与娱乐性的内容生成是否有区别？ 18:06 AIGC在政务领域的应用和特征 30:19 国内外大模型的发展与国际关系的辩证观点 37:46 如何为应用场景选择自己合适的大模型？ 50:09 未来的变化还会很大，始终保持“应用为王”的策略 53:51 结尾总结【片头和片尾音乐】水之湄 - 惘闻揪心的玩笑与漫长的白日梦 - 万能青年旅店【感谢】特别感谢AIGC开放社区和AI重塑世界的大力支持，请听友及时订阅微信公众号，查看本播客的文字版内容。

56分钟

#00 开篇留言

为新的播客栏目准备了一段开篇辞，与听友聊一下，我们做这档播客栏目的目的、思路，以及选题和呈现内容的方式。【时间线】 00:29 为什么以科技为主题？ 03:01 为什么会追求一种慢半拍的效果？ 08:00 为什么采用邀请嘉宾对话的方式来做播客？ 14:28 与嘉宾的对话方式和选题思路是什么？【开场和结尾音乐】慢半拍 - 薛之谦感谢AIGC开放社区，RPA全球生态，LowCode低代码时代的大力支持。

17分钟

93