由apache spark的原始开发人员创建的大数据分析服务databricks今天宣布,它将在开放治理模型下将其用于构建数据湖的delta lake开源项目带入linux基金会。该公司于今年早些时候宣布启动delta lake,尽管它仍然是一个相对较新的项目,但它已被许多组织采用,并得到了英特尔,阿里巴巴和booz allen hamilton等公司的支持。
“ 2013年,我们有一个小项目,我们在databricks的spark中添加了sql[…]并将其捐赠给apache基金会,” databricks首席执行官兼联合创始人ali ghodsi告诉我。“多年来,人们逐渐改变了他们实际利用spark的方式,直到最近一年左右,它才真正开始使我们意识到,正在出现一种新模式,spark的使用方式与我们以前可能完全不同。最初计划。”
他说,这种模式是公司将所有数据都放入数据湖中,然后对这些数据做几件事,其中机器学习和数据科学是显而易见的。但是他们也正在做与传统上与数据仓库相关的事情,例如商业智能和报告。ghodsi用于这种用法的术语是“湖房”。越来越多,databricks看到spark用于此目的,而不仅仅是替换hadoop并进行etl(提取,转换,加载)。“我们已经看到越来越多的这种lake house模式出现,我们希望对此加倍。”
今天发布的spark 3.0除了启用新功能外,还启用了更多用例并大大加快了使用速度,新功能使您可以向spark添加可插拔数据目录。
ghodsi说,data lake本质上是lake house模式的数据层。例如,它为数据湖提供了acid事务支持,可伸缩的元数据处理和数据版本控制。所有数据都以apache parquet格式存储,用户可以强制执行模式(并在需要时相对容易地更改它们)。
有趣的是,databricks选择了linux foundation这个项目的根源在apache foundation中。ghodsi谈到公司为何选择linux foundation时说:“我们很高兴与他们合作。”“他们运行着这个星球上最大的项目,包括linux项目以及许多云项目。这些云原生的东西都在linux foundation中。”
“将delta lake引入linux基金会的中立组织之下,将有助于依赖该项目的开源社区开发解决存储和处理大数据(本地和云端)的技术,”该公司副总裁michael dolan说。 linux基金会的战略计划。“ linux foundation帮助开源社区利用开放治理模型来实现广泛的行业贡献和共识建立,这将改善数据存储和可靠性的最新水平。”
标签: