评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI/summary > _
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
https://xiaoyuzhoufm.com

Big Data系列的第二期,这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟,获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力,不亏!

本期内容会涵盖:

  • 数据平台产品的几大元素:元数据管理,SQL,监测,调度
  • 离线数据开发Spark和Hive的实现
  • 实时数据Flink和Spark Streaming
  • Kafka的重要性
  • Presto, ElasticSearch, ClickHouse等新引擎
  • 离在线一体, 数据湖, lambda/kappa框架

上期节目传送:ep103 当我们谈论大数据时,我们在谈论什么?Big Data Small Talk 

欢迎收听,欢迎大家一路的支持!!!

主播:曹老师

节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!

01:14 数据平台是啥?

05:14 元数据(meta data)管理

08:36 数据任务的调度

12:23 什么叫ETL

15:40 离线数据 Hive/Spark是如何翻译SQL的?

18:04 Presto(Trino)更快查数据

21:39 存储:文件(HDFS)和KV键值对(BigTable)

24:21 数据湖(Data Lake): Hudi和Iceberg

25:57 完美处理日志数据:ElasticSearch和ClickHouse

29:39 实时数据 Flink和Spark Streaming

30:54 短视频平台是怎么实时调整推荐视频的?

33:53 实时数据怎么来/存哪里? Push/Sub 和 Kafka

39:20 实时和离线怎么结合:Lambda和Kappa框架

主播...
大王圣代
评价...

空空如也

小宇宙热门评论...
刘亮_K3Id
11个月前 未知
1
不太行
Horward-计算平台
4个月前 安徽
0
啥年代了还kappa,感觉搜索引擎都忘记这部分了。。。
出门去看花
8个月前 山东
0
想听更干货类的知识!辛苦主播这期的讲解,学到很多
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧