Album
时长:
78分钟
播放:
1.08万
发布:
3年前
简介...
https://xiaoyuzhoufm.com

Databricks 为什么是 Howie 眼里今后十年最优秀的那一批大数据公司?作为被 Bloomberg 等媒体评为 2022 年最值得期待 IPO 的公司之一,Databricks 的投资人名单聚集了亚马逊、谷歌、Salesforce、摩根士丹利、贝莱德、T. Rowe Price、Fidelity、A16Z 等主要厂商和顶级基金,不少投资人认为,上市后的 Databricks 将对齐目前市场估值 760 亿美元的 Snowflake,成为未来全球最有影响力的大数据厂商。



本期节目,主播 徐皞 邀请 Databricks 联合创始人 Reynold Xin 辛湜,从创立初期讲起,深度分享大数据明星公司如何从小项目完成蜕变。Databricks 是怎么在十年前就确定自己的产品与商业模式,为什么不走定制化项目,为什么坚决走「云」?在后期从 1 到 100 的发展中,又是如何应对亚马逊微软等超级巨头的挑战?Snowflake 和 Databricks 如何看待彼此?为什么 Lake House 会是一个好赛道?Reynold 分享给 A16Z 等风投机构的独门人才招聘秘籍是什么?随着行业越来越成熟,大数据产业的下一个发展周期还会有哪些机遇?听完 Reynold的分享,可能我们每个人都会逐渐理解,为什么对大数据和人工智能的创业者和从业人员来说,长期主义非常必要。



本期人物

徐皞,硅谷连续创业者、高管、投资人、斯坦福商学院客座讲师,「科技早知道」主播,推特账号(@H0wie_Xu),公众号(硅谷云)

Reynold Xin,Databricks 联合创始人



主要话题

[03:03] Databricks 卖周边、会议门票的收入比实际产品还要多?

[07:39] 为什么创业早期就决定针对「云」?

[16:21] 从 2008 年、2009 年看,并不知道属于「云」的未来什么会到

[26:26] 为什么在开源上亚马逊竞争不过 Databricks ?

[33:29] Databricks 业务暴增的转折点是什么?

[43:51] 为什么说未来是「湖仓一体」?

[52:26] Reynold 关于管理、招聘以及创业的方法论和心得

[01:09:53] 大数据与人工智能的下一个机遇在哪里?SaaS 模式还能如何探索?



延伸阅读




  • TechCrunch 关于 Databricks 实现高速增长并达到 380亿美元估值的报道:As Databricks reaches $800M ARR, a fresh look at its last private valuation

  • Databricks 关于 Lake House 的解释:What Is a Lakehouse?

  • Databricks:2013 年成立于美国旧金山的大数据独角兽,公司雏形诞生于 Apache Spark,通过开源 SaaS 模式服务企业客户,合作对象包括微软、谷歌、阿里巴巴等互联网巨头;初期面对的竞争对手包括行业巨头 Hortonworks、Cloudarea、亚马逊,后期的主要竞争对手包括同为独角兽的 Snowflake,2021 年 8 月完成 16 亿美元的 H 轮融资,估值 380 亿美元。

  • Docker:跟 Databricks 类似的大数据公司,2019-2021 年曾面临较大经营困境,近期刚完成 1.05亿美元由 Bain Capital 领投的C轮融资,最新估值 21 亿美元。

  • Apache Spark:比较主流的开源大数据处理框架,由加州大学伯克利分校的 AMP Lab 开发,可以独立部署也可以部署在 Hadoop 集群中,与 MapReduce 类似但速度更快。

  • Data Warehouse:数据仓,用于报告的数据分析的系统,BI 的核心组件,通常为业务人员使用,通常会与数据科学家常用的 Data Lake (数据湖)比较。



往期节目





使用音乐

I Can't Get Enough - Love Beans



幕后制作

监制:刘灿

后期:Luke、Jack

运营:Yao

封面设计:饭团



关于节目

原「硅谷早知道」,全新改版后为「What's Next|科技早知道」。放眼全球,聚焦科技发展,关注商业格局变化。



关于我们

声动活泼的宗旨是「用声音碰撞世界」,致力于为人们提供源源不断的思考养料。





欢迎加入声动胡同小社区!

也许你知道「声动活泼」办公室在北京二环内的胡同里,事实上我们也有一个线上的「声动胡同小社区」。成为社区会员,你可以收到一周不少于三次的来自「声动小邮筒」的邮件,同时还可以参加我们各种各样的线上和线下活动,或者是一些有趣的游戏。



点击这里即可了解社区氛围。我们期待你加入这个虚拟胡同社区来支持我们,并和我们一起亲近交流,和有趣的人进行「碰撞」,收获新知、友谊并看见更大的世界。



国内用户(年付):加入声动胡同小社区

海外用户(月付):加入声动胡同小社区

期待你的加入!

Special Guest: Reynold Xin.

评价...

空空如也

小宇宙热门评论...
KaylaKK
3年前
26
好喜欢这期!无论是Howie的提问还是Reynold的回答都非常干货。开篇的databricks三个选择就非常有意思,从hindsight来说都选对了,但是确实能看长远选方向是非常有挑战的事情。datalake解释非常清楚,特别是由于权限不一致导致得出不一致结论的痛点是之前没有想过的角度。希望有更多类似的嘉宾对谈~
liancheng
3年前
19
Reynold 没提到的是 Above the Clouds: A Berkeley View of Cloud Computing 这篇论文的一作正是 Spark SQL 和 Delta Lake 的作者 Michael Armbrust。
硅谷徐老师
3年前
18
我贴一个听众给我在微信朋友圈的留言。我个人并不一定完全同意他的观点,但对于所有对数据软件有兴趣的同学可以琢磨一下: 全部听完了,非常精彩[强] 我觉的Databricks主要转折点不是云化,而是因为Hadoop时代的告终和去Hive的趋势,例如Facebook去年全部结束了Hive,EMR和HDinsight都是云化的,但基于Hadoop开始的,Cloudera也一样。从产品生命周期,Spark本身也在慢慢成熟或消退,另一方面由于Flink和dbt等更实时或敏捷的工具的出现,还包括现在许多场景(数据湖)从ETL转向了ELT,第二个T用Spark好像有点慢了或不灵活,一般会用Presto等。Databricks由Spark起家,目前它应该是其最大收入,但我觉得Databricks估值大涨,应该与Snowflake近年的高估值和BI向AI的趋势二方面更加相关,也就意味着与Databricks两个新概念更相关:基于DeltaLake的Lakehouse和针对MLOps的MLFlow,如果将来能对这二方面深入聊聊,也蛮有意思[微笑]
大徐Richard
3年前
10
很喜欢的一个访谈,明显能感受到Howie和Reynold都是切切实实的创业者,都是趟着坑走到今天的,非常实在的把趟坑的经历和心得分享给了大家。做toB的生意,只有躬身其中了才能知道什么是错、什么是对,纸上得来终觉浅。我个人非常赞同湖仓一体的发展判断,数据价值的发挥需要平衡好数据的准确性、时效性、完备性,数据价值终要用于优化运营,而运营一定是个实时动态的过程。解决好这些问题需要从一个复杂架构的视角去看待问题,而不仅仅是一个技术产品,是一个技术体系。在云时代,如果搭建好这样的技术体系,就是最好的壁垒。
肉圆花卷
3年前
8
真是为了这期节目 下载小宇宙app 这期太牛了
good_luck
3年前
7
可以可以 多来几个这个系列
zzmxqsm
3年前
7
26:33 Amazon 不招特别好的 engineer 😂😂😂
Amkwtl
3年前
5
这期很强
pp体操
3年前
5
嘉宾太强大了
Yaoyao2020
3年前
4
来了
硅谷徐老师
3年前
4
再贴一个评论供大家参考: “很喜欢的一个访谈,明显能感受到Howie和Reynold都是切切实实的创业者,都是趟着坑走到今天的,非常实在的把趟坑的经历和心得分享给了大家。做toB的生意,只有躬身其中了才能知道什么是错、什么是对,纸上得来终觉浅。我个人非常赞同湖仓一体的发展判断,数据价值的发挥需要平衡好数据的准确性、时效性、完备性,数据价值终要用于优化运营,而运营一定是个实时动态的过程。解决好这些问题需要从一个复杂架构的视角去看待问题,而不仅仅是一个技术产品,是一个技术体系。在云时代,如果搭建好这样的技术体系,就是最好的壁垒。”
purefun
3年前
3
29:04 Databricks 每天在三大云上跑着 1200 万台虚拟机!
HD770559z
3年前
3
那篇预测未来是云的论文哪里可以读啊?
segfault
3年前
3
databricks员工飘过~reynold真大佬🐮🍺
Wayway
3年前
3
硬核的讨论!对于数据库和数据湖还没有搞清楚的我来说,率先去自学了一通!如何利用好获得的大数据,是一个特别有价值的方向🧭!
LeslieHuang
3年前
3
这期很好,全程认真听完
HD760166x
3年前
3
我觉得主持人个人解读有点过多
Shenglan
3年前
2
这一期太有水平了!主持人提问非常有水平,问得都很在点子上。嘉宾回答毫不含糊,非常真诚且有态度。双方默契十足,仿佛知己促膝长谈,回味无穷啊!
lpbest
3年前
2
两个问题想请教下。 1,reynold提到databricks运营1200万台虚拟机,这接近百万级别物理服务器的规模了。觉得这个数字有点恐怖,甚至都不太敢相信!什么样的客户群体跑什么样的业务会消耗这么大量的资源? 2,renold讲湖仓统一架构时候提到从业务角度看,42:40左右,分裂的架构中,不同团队有不同数据权限,会导致最后分析结果上不一致的问题。这里有些疑问,不同团队的权限不同这是数据管理问题,与是否统一架构没有必然关系吧,那采用湖仓统一架构也解决不了啊。我的理解,在分裂架构,湖和仓中的数据版本不一致,导致分析结果有差别,与权限关系不大?
bluedavy
2年前 浙江
2
很诚恳和真心的一个对话,我目前正在国内做 ToB 基础软件创业,听完后的感受: 1. Reynold对数据架构的演进方向是很有判断和自己的观点的,这个奠定了在这个领域Databricks的领先性,这个也是我觉得现在国内很多做数据方向基础软件创业的人欠缺的,但这又是基础软件创业的基础,中国版本的xxx我觉得可能是存在,但对很多离开大公司创业的技术人员,意义不大,毕竟这样的人多数的梦想都是打造一个被全球很多人用的东西,改变相应的技术领域; 2. 大环境对创业公司很重要,像Databricks,之所以可以坚定做相对长远的方向,是在之前的大环境中,投资圈对创业公司的包容度是高很多的,现在,基本是都是要创业公司很快的验证产品的商业可行性,这个是现在ToB创业超级难的地方,我们回头去看目前还比较成功的一些ToB基础软件的公司,其实在商业化之前都是经历了超过3年以上的产品打造期,所以在现在的大环境下用什么样的策略,去既达成长远想做的,短期又能保证好现金流的,会是一个无比关键的问题; 3. 对话里讲到的大公司例如aws和他们的竞争,他们的优势是大公司不可能全部都做,这点是我一直很认同的,大公司因为ROI还有其他很多原因,会面临要决定到底做什么/不做什么这个巨大的挑战,这是使得创业公司有机会在一些领域和大公司竞争的关键,也是创业公司要想清楚的一个关键问题。
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧