Big Data系列的第二期,这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟,获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力,不亏! 本期内容会涵盖: * 数据平台产品的几大元素:元数据管理,SQL,监测,调度 * 离线数据开发Spark和Hive的实现 * 实时数据Flink和Spark Streaming * Kafka的重要性 * Presto, ElasticSearch, ClickHouse等新引擎 * 离在线一体, 数据湖, lambda/kappa框架 上期节目传送:ep103 当我们谈论大数据时,我们在谈论什么?Big Data Small Talk 欢迎收听,欢迎大家一路的支持!!! 主播:曹老师 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:14 数据平台是啥? 05:14 元数据(meta data)管理 08:36 数据任务的调度 12:23 什么叫ETL 15:40 离线数据 Hive/Spark是如何翻译SQL的? 18:04 Presto(Trino)更快查数据 21:39 存储:文件(HDFS)和KV键值对(BigTable) 24:21 数据湖(Data Lake): Hudi和Iceberg 25:57 完美处理日志数据:ElasticSearch和ClickHouse 29:39 实时数据 Flink和Spark Streaming 30:54 短视频平台是怎么实时调整推荐视频的? 33:53 实时数据怎么来/存哪里? Push/Sub 和 Kafka 39:20 实时和离线怎么结合:Lambda和Kappa框架
“假设你是一个电视节目的参赛者,你会看见三扇门,其中一扇门的里面有一辆汽车,选中有汽车的那扇门,就可以赢得该辆汽车,另外两扇门里面则都是一只羊。当你选定了一扇门,主持人会开启另一扇是羊的门;并问:要不要换一扇门?” 那么,你会换还是不换呢? 大名鼎鼎的贝叶斯公式(Bayes' theorem)会告诉你结果;同时,为什么说这个小小的公式在如今变得越来越重要?以及贝叶斯思维究竟是个啥意思呢?本期节目我们尝试来说一说。 欢迎收听,欢迎大家一路的支持!!! 主播:松阴 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:03 好书推荐:《贝叶斯的博弈》 02:32 三门问题(Monty Hall Problem) 06:03 三门问题的一种直观的解法 09:46 休谟,贝叶斯,拉普拉斯 13:39 举例说明一下贝叶斯公式 20:30 频率学派 vs. 贝叶斯学派 24:09 用贝叶斯解一下三门问题 27:41 垃圾邮件过滤器和朴素贝叶斯(Naives Bayes) 33:10 贝叶斯:思考不确定性的一种思维方式 三门问题(Monty Hall problem)背后的贝叶斯理论 贝叶斯公式和蒙提霍尔问题有什么关联? 朴素贝叶斯
高考结束了,有人欢喜有人忧。这一期主播们回忆了下自己的高考和高中生活,为什么现在回望高考,更多地是一种搞笑的感觉呢?且听主播们的高考回忆~~~ * 松阴:如果高考作文及格,我应该早好多年先去杭州了... * 阿汤:到了30岁,我才从高考“噩梦”中康复 * Yuki:从小镇女孩平稳地苟到大厂女孩 过了十多年了,我们今天会如何回看当年的高考和自己? 高考也给你留下了噩梦,还是笑料呢? 没有选择是最大的噩梦 小镇做题家和路径依赖 主播:松阴、阿汤、Yuki 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:21 上海高考先填志愿再考试,合理吗这? 05:08 抽象高考:从作文全区第一到高考作文不及格 07:43 到30岁我才释怀高考 10:00 江苏的高中生活其实也没有那么吓人 13:40 高中数学,最恐怖的存在 14:46 高三过得太轻松了,没考好是“罪有应得” 18:13 高考不决定命运嗷 28:58 没有选择就要过早决定,才是很多人高中噩梦的原因 31:30 在县城读书有什么区别 33:49 有没有想过“如果考好一点”? 40:53 职业没有贵贱,但是职业的工资有高低! 47:27 读书的时候有自我思考的时间和空间很重要 50:15 做题家的思维和路径 58:00 未选择的路 The Road Not Taken 59:16 心情不好就相信一下莱布尼茨的世界观
这次我们从一个一线数据开发的角度,聊一聊“大数据”到底是啥? 不聊虚的概念和行业,我们用一个简单的实际例子来说明一下数据开发工程师的日常工作/大数据端到端的链路。主播觉得,认真听完这45分钟,你已经比绝大多数人懂什么是“大数据”了。 这一期节目偏向业务相关的数仓和离线数据开发,Infra和数据系统开发的部分请等待我们后续的节目! 一些tags: 大数据/数据库/数据仓库/HDFS/Hive/HBase/Spark/Flink/Presto/Clickhouse/Kafka/S3/OSS/… 欢迎收听,欢迎大家一路的支持!!! 主播:松阴 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:10 数据开发的岗位差异比较大 03:22 “200万只能搞云计算!” 05:05 学校里比较难教你“大数据”的内容 07:28 举个栗子:端到端的大数据开发是什么样的? 09:44 数据库(Database) vs. 数据仓库(DataWarehouse) 13:36 日志数据(Logging)和实时数据ETL 15:38 Google的三篇论文; 大数据时代的起点 20:06 为什么要把数据同步到数仓? 25:31 数仓设计和ETL 29:46 列一下大数据开发的日常工作 33:46 计算引擎怎么选 36:30 除了BI需求以外,机器学习也高度依赖离线数据开发
又又又是一期互联网职场评论兼大厂吐槽的节目。本期话题的缘起是阿里和京东的掌门,蔡崇信和刘强东,最近都发表了公司需要回到创业阶段找回初心的言论,在鼓励大家拼搏的同时,也引发了很多争议。尤其是京东这几年”不会开除任何一个兄弟“到”你不是我的兄弟“的变化。那么在目前行情整体不太好的现在,在互联网大厂工作,究竟哪些方面的不适感会更加凸显呢? * 为什么要反对大公司回到创业阶段? * 大家长制的公司不分国内国外,它的问题在哪? * 大厂manager为什么那么喜欢“雍正王朝”和“大明王朝1566”? * 小镇做题家->大厂“官迷” 欢迎收听,欢迎大家一路的支持!!! 主播:曹老师、松阴、Yuki 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 00:00 开幕雷击 01:26 蔡崇信和刘强东最近的讲话 05:20 蔡崇信没管好篮网队 07:58 Yuki最新的大厂感受 14:36 回到创业状态? 16:24 某大佬说:办公室太干净整洁可不行 21:41 大家长制 30:55 公司不同阶段肯定有不同的形态 34:01 大厂的“官场”文化 40:44 吐槽一下“雍正王朝”和“大明王朝1566” 42:46 啥叫“阿里味”? 47:40 中国人对于leadership的定义和国外不一样 50:59 我们太热衷于”帝王术“了 56:26 最后还是要认可一下各个大厂
这次曹老师从读书/工作/生活几个方面又介绍了下北美生活工作的一些细节和科普: * 读书:北美各种学制不同,学术路怎么走,当教授有什么隐形福利 * 工作:万恶的H1B,绿卡排期,曲线救国 * 生活:吐槽恶劣天气,如何考虑国内父母养老问题 欢迎收听,欢迎大家一路的支持!!! 主播:曹老师 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 04:36 推荐出国留学从硕士开始 08:22 博士 PhD MD JD 14:30 如果走学术拿tenure track 22:16 仔细介绍下H1B的流程 25:40 H1B状态下被裁员会怎样? 28:25 H1B是一回事,公司帮你申请绿卡又是另一回事 32:19 留在加拿大是不是简单一点? 38:06 地儿太大了,生活大不同 40:15 父母养老怎么考虑呢?
朝十晚久主线节目第100期,来了!掐指一算,我们从21年11月至今已经坚持了两年半的时间,尤其是长期保持了周更的频率。虽然一直以来我们的流量都不尽如人意,也没有单子可以接。不过做到现在也还是有一些小小的成就感。 100期的时间里,主播们的生活也各有变化:有人润美,有人变成了朝十晚十;大家的心境也变得担忧裁员和35岁一道坎。那么做播客对于我们,到底意味着什么呢?作为一个没有回报的副业,为什么我们能坚持到现在?在这过程里,我们又有多少破防和小满足? 欢迎收听,欢迎大家一路的支持!!! 主播:松阴、曹老师、阿汤、Yuki 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:42 练习时长两年半 05:19 不知道该怎么定位节目内容 15:35 盘点几期流量还不错的节目 20:43 主播们的变化-> 润 or 变成朝十晚十 28:17 码农的35岁焦虑 41:10 裁员 副业 打工 创业 稳定 风险 45:26 未来节目的新idea 52:20 闲聊还是知识干货? 59:31 以后多说故事 1:05:35 以后可能做深度访问(拷打)节目 1:08:00 呼吁嘉宾的加入!
最近百度前公关副总裁璩静的一番言论引来了大量讨论,但是我们观察下来,实际上相当数量的互联网大厂人内心并不认为她说的有什么不妥。这到底是为什么呢?本期我们带来:互联网职场恶臭大赏! * 老板只把下属当资源,以及潜移默化中“恶”的传递 * 崇尚奉献牺牲是否塑造了我们的事业观? * 为什么已经被当成“牛马”了,我还会不自觉和大老板们共情? * 爱看三体和雍正王朝,社达主义无处不在 * 程序员里的女性群体,很难避免的Bias * 00后整顿职场,一切会变…更糟吗? * 程序员怎么天天在比这比那?味儿大得我受不了 主播:松阴、阿汤、Yuki 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:30 百度VP引众怒:下属就该做牛做马? 02:24 实际很多大厂员工认为璩静说的没错 05:27 网络主流意见和互联网打工人内心实际想法的差异是因为? 10:34 我们传统文化里默认事业超过家庭 14:31 集体主义vs.个人主义 18:09 为什么“牛马”爱和董事长共情 22:59 互联网人真的很“社会达尔文” 27:02 程序员里对女性仍存偏见 32:28 遇上同事开会开黄腔怎么办 36:24 默认让女生和实习生去安排规划团建也是一种压迫 40:13 有时候我没义务和你换位思考 43:29 00后整顿不了职场 47:46 一亩三分地,味太大了。。。 53:00 各行各业都在比较 54:27 我们都被“异化”成单纯的符号和标签了
聊点稍微硬核一点的,填个之前的坑,面向非码农非AI从业者的AI模型入门。“浅”谈GPT背后模型的真实,你将听到主播尽力用大白话解释的如下内容: * 神经网络和AI工作原理 * 神经网络的输入、输出、训练 * 词向量 word embedding/one-hot/word2vec * 梯度下降 * seq2seq,encoder-decoder * attention机制的具体运作 * transformer框架 无公式无复杂数学,可放心食用。同时主播水平有限,为了尽量让意思好理解可能有些错误,若有纰漏,烦请指正,提前抱歉! 主播:松阴 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 00:53 “免责声明” 03:00 GPT到底指的是什么? 04:27 AI就是用数值化的方法对世界做参数估计 05:44 为什么是神经网络? 07:14 从one-hot encoding开始,把文字输入变成数值向量 09:32 模型输出和如何训练(损失函数和优化模型) 13:18 更好的输入:词向量 word embedding (word2vec, glove, …) 19:23 梯度下降、梯度爆炸/消失 23:03 生成式、语言模型、seq2seq 26:00 RNN 循环神经网络 28:48 Attention 注意力机制 31:06 query, key, value 详解attention机制 35:00 multihead 多头注意力 37:50 attention到Transformer 39:10 positional encoding 位置编码 41:16 训练解码器decoder需要masked attention 42:42 最终decoder生成结果需要结合encoder输出和decoder本身attention 延展资料 Transformer框架 attention里的query/key/value 多头注意力 带你可视化了解seq2seq https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/ 带你可视化了解attention和 transformer https://jalammar.github.io/illustrated-transformer/ PyTorch的Transformer代码教程 https://nlp.seas.harvard.edu/annotated-transformer/ attention is all you need https://arxiv.org/abs/1706.03762
大家五一快乐!这次我们聊了聊一个稍微过期的新闻:网红猫一杯造假炒作事件。当然我们更想聊的是,在这个推荐算法为王/AI越来越强的时代,自媒体和MCN的未来会发展成什么样? * AI是不是在批量生成趋同的内容和账号? * 算法基于你的行为训练,正是你自己造成了自己的信息茧房 * AI的“恐怖”反而让人“崇拜”? 主播:松阴、曹老师、阿汤、Yuki 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 01:06 猫一杯干什么了 06:19 营造人设是自媒体的必须环节 12:59 “出圈”不一定是好事 20:46 卷起来了 MCN的KPI 21:42 自媒体起号的粗浅流程 24:14 自媒体运营和互联网产品的AB实验 29:24 算法的引导 “无序之中的控制” 31:47 对AI的崇拜感 33:17 AI掌控的内容创作和流量运营 37:35 让你信息茧房的正是你自己 39:35 自媒体的节操不如传统媒体 44:28 猫一杯这样的事情会越来越多 46:40 创业idea:用AI来做自媒体流量运营
2024年3月24日,“美国贴吧”Reddit在纽交所上市,目前市值66亿美金。而比Reddit更早出现的百度贴吧,作为曾经在中文互联网呼风唤雨的门户产品,如今却不免沦为尴尬的存在。主播作为当年在贴吧,尤其是号称“百度卢浮宫”的李毅吧高强度冲浪的老用户,不免忆往昔稍微做一期互联网考古。 李毅吧是怎么火的?屌丝又是怎么来的?什么叫做内涵?怎么理解解构与幽默才是帝吧的核心?百度十大恶俗贴吧?。。。。。。 本期节目前9分钟主要介绍了Reddit和相关人物,关于百度贴吧的内容请跳转08:55 主播:松阴 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 00:24 美国贴吧Reddit上市了 01:09 黑客与画家 当年的YCombinator 02:42 互联网之子 Aaron Swartz 05:30 27岁俱乐部 06:20 Reddit的wallstreetbets引发了GameStop踏空事件 08:55 百度贴吧比Reddit早上线了一年半 11:05 帝吧/D8/李毅吧/百度卢浮宫 11:51 “帝吧”是怎么来的 13:52 始于爆吧,终于“爆吧” 17:07 当年加入帝吧的门槛很高 18:55 日日李毅吧,天天笑哈哈 21:21 “屌丝”的真正起源,从雷霆三巨头吧到nc儿童乐趣多 27:25 帝吧宇宙(百度十大恶俗贴吧) 31:49 恶俗or解构? 33:00 百度贴吧等级制度 36:21 帝吧的毁灭 39:39 贴吧商业化尝试的失败 41:41 去中心化的高自治社区 43:24 黑话(话语体系)的重要性 46:59 亚文化圈子是否见光就死? 50:30 长岛的雪、我曾是个网管、小张和小丽 -------------------------------------- 延伸材料: Reddit两位创始人Steve Huffman(中)和Alexis Ohanian(右),从宅男到潮男。 YC第一期 最右的大叔是Paul Graham,他左边是当年的小弟Sam Altman(是的,就是目前OpenAI的老大),Sam的左边就是Aaron Swartz 《互联网之子》 帝吧往事——互联网战争发源地的没落 百度十大恶俗贴吧,希望百度管理人员不能无视! 现在的“李毅吧”,还是当年的“李毅吧”吗?
本期女性向主题,可能包含特定小圈层爱好及黑话。Yuki和阿汤来聊一聊她们所热爱的诸多“快乐”,包括但不限于: 乙女游戏,小说,广播剧,声优,动漫。。。 主播:Yuki,阿汤 节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发! 00:56 逛池袋Animate总店,哇~~~ 05:56 恋与深空 和 “四大国乙” 08:18 Yuki强推沈星回 13:57 恋与制作人带火了乙游 14:40 分析一下日本乙女游戏和国内乙女游戏 18:29 为什么都不喜欢现实向的作品了 24:04 世界之外、代号鸢 28:55 声优入坑 29:43 二点五次元 37:21 声优签售会比明星签售会有爱太多了 41:17 对家、饭圈、撕逼
与播客爱好者一起交流
播放列表还是空的
去找些喜欢的节目添加进来吧