databricks将其delta lake项目带到linux基金会-凯发官网首页

导读由apache spark的原始开发人员创建的大数据分析服务databricks今天宣布，它将在开放治理模型下将其用于构建数据湖的delta lake开源项目带

由apache spark的原始开发人员创建的大数据分析服务databricks今天宣布，它将在开放治理模型下将其用于构建数据湖的delta lake开源项目带入linux基金会。该公司于今年早些时候宣布启动delta lake，尽管它仍然是一个相对较新的项目，但它已被许多组织采用，并得到了英特尔，阿里巴巴和booz allen hamilton等公司的支持。

“ 2013年，我们有一个小项目，我们在databricks的spark中添加了sql[…]并将其捐赠给apache基金会，” databricks首席执行官兼联合创始人ali ghodsi告诉我。“多年来，人们逐渐改变了他们实际利用spark的方式，直到最近一年左右，它才真正开始使我们意识到，正在出现一种新模式，spark的使用方式与我们以前可能完全不同。最初计划。”

他说，这种模式是公司将所有数据都放入数据湖中，然后对这些数据做几件事，其中机器学习和数据科学是显而易见的。但是他们也正在做与传统上与数据仓库相关的事情，例如商业智能和报告。ghodsi用于这种用法的术语是“湖房”。越来越多，databricks看到spark用于此目的，而不仅仅是替换hadoop并进行etl(提取，转换，加载)。“我们已经看到越来越多的这种lake house模式出现，我们希望对此加倍。”

今天发布的spark 3.0除了启用新功能外，还启用了更多用例并大大加快了使用速度，新功能使您可以向spark添加可插拔数据目录。

ghodsi说，data lake本质上是lake house模式的数据层。例如，它为数据湖提供了acid事务支持，可伸缩的元数据处理和数据版本控制。所有数据都以apache parquet格式存储，用户可以强制执行模式(并在需要时相对容易地更改它们)。

有趣的是，databricks选择了linux foundation这个项目的根源在apache foundation中。ghodsi谈到公司为何选择linux foundation时说：“我们很高兴与他们合作。”“他们运行着这个星球上最大的项目，包括linux项目以及许多云项目。这些云原生的东西都在linux foundation中。”

“将delta lake引入linux基金会的中立组织之下，将有助于依赖该项目的开源社区开发解决存储和处理大数据(本地和云端)的技术，”该公司副总裁michael dolan说。 linux基金会的战略计划。“ linux foundation帮助开源社区利用开放治理模型来实现广泛的行业贡献和共识建立，这将改善数据存储和可靠性的最新水平。”

标签：

猜你喜欢

最新文章