湖仓一体化会成为企业的必然选择吗?
在越来越复杂的大数据场景中,数据仓库和数据湖各自的缺点开始显现,湖仓集成架构走向舞台中心。以前,InfoQ 也曾在 “湖仓一体化会成为企业的必然选择吗?”文章提到,对于快速增长的企业来说,选择湖仓一体化结构来取代传统的独立仓库和独立湖泊将成为不可逆转的趋势。
随着 Hadoop 逐步推进大数据平台建设,企业将尝试 Hadoop 用于一些非核心场景后,发现 Hadoop 事实证明,Hadopo不仅性能和并发支持有限,而且事务支持薄弱,交付和运维成本高。 核心数仓无法替代,其特殊定位数据湖逐渐形成。数据湖存储和挖掘各种类型的数据,为数据科学家提供基于任何原始数据开发和应用的敏捷性,而不局限于数字仓库数据,这是数据湖优于传统数字仓库。然而,数据湖始终不能满足用户在性能和事务上的要求,然后许多企业开始考虑数据湖和数据仓库之间的互补性。也就是说,在构建数据湖的同时,也使用MPP,湖仓独立部署,数据通过ETL打开。
下表解释了一切。你可以看看数据湖相对于数据仓库的11个方面的差异,然后想想我们的hadoop数据湖是否与这里提到的数据湖相同?
湖仓集成的意义是将数据湖的语义灵活性与数据仓库的生产优化和交付相结合。它是一个集成的基础设施环境,支持从原始数据到精炼数据的整个过程,并最终为消费提供优化的数据。
数据湖的热量还没有消退,湖仓的一体化就被炒了。有人问是否要进入湖仓的一体化。我的观点是:先把自己的数据湖弄清楚。其实大部分数据湖都是名副其实的,更别说湖仓的一体化了。
混合数据湖架构数据虚拟化:混合数据湖架构数据虚拟化:根据租户访问,采用多云数据本地存储,统一数据视图。
两年前,我去参加了一个展览。有人在那里介绍了数据湖的产品。我问评论员数据湖的相对数据仓库带来了什么增益价值?你能举一个令人信服的例子吗?然后评论员巴拉巴拉举了几个例子。我问这不是传统数据仓库所做的吗?然后他说这是一个广告,它是一个数据湖。
被业界视为新一代数据管理架构的“湖仓一体化”。根据赛迪顾问7月15日发布的《湖仓一体化技术研究报告》,湖仓一体化是一种新型的开放式架构,开辟了数据仓库和数据湖,将数据仓库的高性能和管理能力与数据湖的灵活性相结合。底层支持多种数据类型的共存,可以实现数据之间的共享,上层可以通过统一的包装接口访问,支持实时查询和分析。数据治理给企业带来了更多的便利。湖仓一体化可以在数据进入湖后进行数据处理和分析,可以有效避免数据冗余和流量造成的计算能力、网络和成本,可以作为超大型ODS存储源数据,实现全数据的实时处理。
不幸的是,虽然大多数企业的hadoop可以从技术角度称为数据湖,但从业务角度来看,它只是一个更大的数据仓库,披着数据湖的外衣。
赛迪顾问分析师在对《湖仓一体化技术研究报告》的解读中表示:“面对企业大量大数据场景下实时处理、非结构化数据处理的需求,以及数据仓库/数据湖独立建设的架构局限性,湖仓一体化架构已成为各厂商探索的方向。”。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!