肖冠宇:传统数据仓库这一“混搭”架构的数据湖也越来越多地出现
肖冠宇在一次采访中告诉我们,他最近主导了云湖仓库一体化系统的建设。在这个过程中,他遇到了许多“意想不到”的问题。在克服困难和系统建设成功后,他计划撰写和出版一本关于数据仓库、数据湖和湖仓库一体化建设的书。
从本质上讲,数据湖是一种企业数据架构方法,物理实现是一个数据存储平台,用于集中存储大量、多来源和各种数据,支持数据的快速处理和分析。目前,Hadoop是部署数据湖最常用的技术,但并不意味着数据湖是指Hadoop集群。MPP数据库旨在满足不同业务需求的特点 Hadoop 集群 在企业信息化建设规划中,传统数据仓库这一“混搭”架构的数据湖也越来越多地出现。
简单来说,流量一体化是需求,湖仓一体化是方案,就像我说我想吃甜的东西一样。你给我一块蛋糕,甜的是流量一体化,蛋糕是湖仓一体化。我们可以把蛋糕弄甜,但如果不是甜的,一定是蛋糕,从 lakehouse 从提出的背景来看,湖仓一体必须是流批一体,但流批一体不一定是基于数据湖的,其实很多传统的数仓都有流批一体的能力。
2022年,小冠宇提出了建设云湖仓库一体化系统的方案。依托云计算的低成本、高性能、可扩展性和强安全机制,整合云中的数据湖和数据仓库,提供更强大、更灵活的数据存储和分析能力,大大提高数据的完整性、可用性和安全性,帮助企业实现数据驱动的业务创新和竞争优势。云上湖仓一体化方案将将数据价值提升到一个新的高度,数据安全也将双重增加。
第一个数据湖是一个底部存储中心,具有很强的弹性伸缩能力,符合“省”的要求。第二,我们过去在数据湖周围建立了非常丰富的工具,但现在我们仍在向前发展 dataops 基于这套方法论,方向不断演变,沉淀了大量的规范和实践。如果基于数据湖进行流量审批,可以重用数据中心舞台上的许多能力,快速启动,满足业务对“快”的需求。
上面提到的小文件是湖仓管理中需要解决的典型问题。太多的小文件会使 OLAP 性能下降,HDFS 的 NN 不堪重负。当我们在数据湖上建立更多的实时数字仓库时,我们将面临更多的成本、及时性和性能管理需求:
与几十年的传统数字仓库相比,数据湖近十年的发展历程占据了正确的时间、地点和人。越来越多的企业强调数字化转型,越来越多的企业需要大数据来帮助决策。这是时候了;强大的可扩展性使任何企业都能在不被任何商业公司绑架的情况下,通过堆叠机器来处理爆炸的数据量。无论您是否需要数字仓库,您可能都需要数据湖,此为地利;hadoop 开源系统为用户带来了丰富的生态资源,也为企业培养了大量的大数据人才,大家都喜欢开源,此外,AI、机器学习、数据挖掘等非标业务非常依赖生态资源的支持,数据湖在这方面具有独特的优势。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!