第三代数据仓库平台结合
第三代数据仓库平台结合数据仓库和数据湖的优势,结合数据仓库丰富的管理功能和适合数据仓库的性能优化能力,以及支持各种数据格式的低成本存储数据湖的灵活性,引入统一的元数据层,不仅统一了基于表的数据访问和基于文件的数据访问模式,还实现了访问控制、版本控制等事务管理功能,形成lakehouse架构。
减少报告和分析应用之间的差异:数据科学倾向于处理数据湖,并使用各种分析技术来处理未经处理的数据。报告分析师倾向于使用集成的数据,如数据仓库或数据市场。在一个组织中,这两个团队之间往往没有太多的交集,但事实上,他们的工作有一定的重复和矛盾。使用湖仓集成架构时,两个团队可以在同一数据架构上工作,避免不必要的重复;
在实践中,大量企业仍在使用基于数据湖的传统数据仓库和大数据解决方案,许多企业有多个平行的数据系统,以满足不同的数据分析需求。但由于许多原因,这些解决方案通常存在以下主要缺陷:
在第三阶段,新系统以数据湖为中心,应用程序通过数据湖相互交互。数据湖已成为数据架构的核心。数据仓库根据数据湖提供特定的应用需求,数据管理变得重要;
2000 年后,随着互联网的发展,数据量急剧增加,非结构化数据越来越多,企业业务变化越来越快。传统的数据仓库无法适应大数据和现代企业对实时和互动分析的需求。因此,数据湖诞生了。它选择了“前松后紧”的设计理念,在初始阶段放弃了严格的模式,后置 schema,通过统一的存储管理和计算优化,获得更强的灵活性,确保数据的一致性和性能;
在第二阶段,数据湖和数据仓库并存,应用程序为数据湖提供副本数据,数据仓库和应用程序也可以从数据湖中提取数据;
这种类型的灵活组织允许存储结构化和半结构化的数据,而不必担心被锁定在数据仓库和其他专有系统中。虽然数据湖需要专家的愿景来有效地管理和处理数据,但它最终将更持久和具有成本效益。
客户接受度有待提高。新数据库制造商在产品技术方面具有领先优势,但企业用户对新一代分析数据库的接受度仍有很大的提高空间。一方面,大中型企业通常数字化程度较高。他们在传统的数字仓库和数据湖建设上投入了大量资金。他们的数据平台有大量的业务应用程序和ETL任务,直接转移的工作量和成本非常高。因此,目前企业在引入智能湖仓之前,通常会有大量的新数据存储和处理需求。另一方面,与国外企业对云的激进步伐不同,国内企业整体云步伐缓慢。目前,许多企业仍采用本地部署模式,难以充分发挥云起源带来的敏捷性、弹性、低成本等优势。
然而,数据仓库的结构化性质意味着设置数据仓库需要更多的时间来配置和调整。相比之下,数据湖可以更快更容易地调整。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!