数据湖或数据仓库的位置是什么?
作为云原生数据编排平台,Alluxio在面向异构基础设施环境(本地、混合云、公共云)时,可以实现高效的数据统一管理和编排,服务于大数据和AI应用。Alluxio已广泛应用于数据湖、数据中心平台、逻辑数据湖、数据编织等数据平台的建设架构。帮助企业/组织解决多平台混合架构、数据碎片化、平台适应复杂性等问题。
当数据湖的概念刚刚提出时,我们希望企业数据像溪流一样流入数据湖。用户可以根据数据湖中的数据直接提取和提取数据。
至于网上的其他对比,包括存储性价比(湖高仓低)、数据质量(湖差仓好)、对于用户(仓库仅供业务分析、湖泊分析、开发和数据科学家),我认为这太片面了。例如,在云本土的背景下,数据仓库也可以选择对象存储和匹配数据缓存技术来加快查询,这不仅实现了低成本和高效率。从数据的角度来看,数据仓库和数据湖, 建筑方法论不应与技术绑定。
从存储内容的角度来看,数据湖不限制存储的数据类型、设备数据、社交媒体数据、应用数据等,数据仓库强调业务系统中的结构化关系数据。
就数据架构而言,在业务运行过程中会积累大量数据。最初,大多数银行系统只做数据记录,没有发挥太大的价值。数据分散在每个系统的数据库中。如果你想分析和检查当前业务的运行,分析师需要导出数据,制作表格和报告给领导看,这样时效性就会很差。后来,许多银行开始整理数据,建立数据仓库(数据仓库或数据湖),建立BI大屏幕,领导驾驶舱,支持战略决策。当然,这种方式不能直接与业务相结合。后期考虑数据运营驱动业务创新(或IT领先业务),即电商和社交APP上的千人千面、智能推荐等功能。
以上思路的主要转变是以域数据产品为主要焦点,以数据湖工具和管道为次要焦点。这将当前的架构模式从集中数据湖转变为数据产品生态系统,即数据网格,可以很好地协同工作。
在上述架构中,数据湖或数据仓库的位置是什么?它们只是网格上的节点。我们可能不需要数据湖,因为保存原始数据的分布式日志和存储可以用来探索不同可变数据集的产品。然而,如果我们真的需要改变数据的原始格式来进一步探索,例如标记,有这种需求的域可能会创建自己的湖或数据中心。
从形式上看,数据湖强调数据的原创性,而数据仓库强调高度结构化和预定义。有一个生动的比喻,数据湖是水池,数据仓库是瓶装矿泉水。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!