朝十晚久 - ep106 40分钟速通大数据开发 | 简易Big Data Infra吹逼指南 - EarsOnMe

朝十晚久
ep106 40分钟速通大数据开发 | 简易Big Data Infra吹逼指南

时长：

47分钟

播放：

293

发布：

1年前

主播...

大王圣代

简介...

Big Data系列的第二期，这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟，获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力，不亏！

本期内容会涵盖：

数据平台产品的几大元素：元数据管理，SQL，监测，调度

离线数据开发Spark和Hive的实现

实时数据Flink和Spark Streaming

Kafka的重要性

Presto, ElasticSearch, ClickHouse等新引擎

离在线一体，数据湖， lambda/kappa框架

上期节目传送：ep103 当我们谈论大数据时，我们在谈论什么？Big Data Small Talk

欢迎收听，欢迎大家一路的支持！！！

主播：曹老师

节目开始前，请大家加入听友群(加群方法见播客介绍页)，以及帮忙多多转发！

01:14 数据平台是啥？

05:14 元数据(meta data)管理

08:36 数据任务的调度

12:23 什么叫ETL

15:40 离线数据 Hive/Spark是如何翻译SQL的？

18:04 Presto(Trino)更快查数据

21:39 存储：文件(HDFS)和KV键值对(BigTable)

24:21 数据湖(Data Lake): Hudi和Iceberg

25:57 完美处理日志数据：ElasticSearch和ClickHouse

29:39 实时数据 Flink和Spark Streaming

30:54 短视频平台是怎么实时调整推荐视频的？

33:53 实时数据怎么来/存哪里？ Push/Sub 和 Kafka

39:20 实时和离线怎么结合：Lambda和Kappa框架

评价...

空空如也

小宇宙热门评论...

刘亮_K3Id

1年前未知

不太行

Horward-计算平台

6个月前安徽

啥年代了还kappa，感觉搜索引擎都忘记这部分了。。。

出门去看花

10个月前山东

想听更干货类的知识！辛苦主播这期的讲解，学到很多

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表