Album
时长:
47分钟
播放:
293
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

Big Data系列的第二期,这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟,获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力,不亏!


本期内容会涵盖:



  • 数据平台产品的几大元素:元数据管理,SQL,监测,调度

  • 离线数据开发Spark和Hive的实现

  • 实时数据Flink和Spark Streaming

  • Kafka的重要性

  • Presto, ElasticSearch, ClickHouse等新引擎

  • 离在线一体, 数据湖, lambda/kappa框架



上期节目传送:ep103 当我们谈论大数据时,我们在谈论什么?Big Data Small Talk 


欢迎收听,欢迎大家一路的支持!!!


主播:曹老师


节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!


01:14 数据平台是啥?


05:14 元数据(meta data)管理


08:36 数据任务的调度


12:23 什么叫ETL


15:40 离线数据 Hive/Spark是如何翻译SQL的?


18:04 Presto(Trino)更快查数据


21:39 存储:文件(HDFS)和KV键值对(BigTable)


24:21 数据湖(Data Lake): Hudi和Iceberg


25:57 完美处理日志数据:ElasticSearch和ClickHouse


29:39 实时数据 Flink和Spark Streaming


30:54 短视频平台是怎么实时调整推荐视频的?


33:53 实时数据怎么来/存哪里? Push/Sub 和 Kafka


39:20 实时和离线怎么结合:Lambda和Kappa框架

评价...

空空如也

小宇宙热门评论...
刘亮_K3Id
1年前 未知
1
不太行
Horward-计算平台
6个月前 安徽
0
啥年代了还kappa,感觉搜索引擎都忘记这部分了。。。
出门去看花
10个月前 山东
0
想听更干货类的知识!辛苦主播这期的讲解,学到很多
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧