评分
暂无评分
0人评价
5星
0%
4星
0%
3星
0%
2星
0%
1星
0%
AI智能总结...
AI 正在思考中...
本集内容尚未生成 AI 总结
简介...
Big Data系列的第二期,这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟,获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力,不亏!
本期内容会涵盖:
- 数据平台产品的几大元素:元数据管理,SQL,监测,调度
- 离线数据开发Spark和Hive的实现
- 实时数据Flink和Spark Streaming
- Kafka的重要性
- Presto, ElasticSearch, ClickHouse等新引擎
- 离在线一体, 数据湖, lambda/kappa框架
上期节目传送:ep103 当我们谈论大数据时,我们在谈论什么?Big Data Small Talk
欢迎收听,欢迎大家一路的支持!!!
主播:曹老师
节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!
01:14 数据平台是啥?
05:14 元数据(meta data)管理
08:36 数据任务的调度
12:23 什么叫ETL
15:40 离线数据 Hive/Spark是如何翻译SQL的?
18:04 Presto(Trino)更快查数据
21:39 存储:文件(HDFS)和KV键值对(BigTable)
24:21 数据湖(Data Lake): Hudi和Iceberg
25:57 完美处理日志数据:ElasticSearch和ClickHouse
29:39 实时数据 Flink和Spark Streaming
30:54 短视频平台是怎么实时调整推荐视频的?
33:53 实时数据怎么来/存哪里? Push/Sub 和 Kafka
39:20 实时和离线怎么结合:Lambda和Kappa框架
主播...

大王圣代
评价...
空空如也
小宇宙热门评论...
刘亮_K3Id
11个月前
未知
1
不太行
Horward-计算平台
4个月前
安徽
0
啥年代了还kappa,感觉搜索引擎都忘记这部分了。。。
出门去看花
8个月前
山东
0
想听更干货类的知识!辛苦主播这期的讲解,学到很多