X 
微信扫码联系客服
获取报价、解决方案


李经理
15150181012
首页 > 知识库 > 数据中台> 数据湖提倡存储原始数据,统一存储不同结构的数据
数据中台在线试用
数据中台
在线试用
数据中台解决方案
数据中台
解决方案下载
数据中台源码
数据中台
源码授权
数据中台报价
数据中台
产品报价

数据湖提倡存储原始数据,统一存储不同结构的数据

2023-07-20 16:35

大数据平台

数据湖提倡存储原始数据,统一存储不同结构的数据,使不同数据具有一致的存储模式,便于连接,真正解决数据集成问题。数据湖的本质是利用低成本技术捕捉、提炼和探索大规模、长期存储原始数据的方法和技术。数据湖可以存储任何类型的数据,高质量、高效地存储数据,更快、更便宜地处理数据,并将建模应用程序问题留给最终开发者。

从逻辑上讲,数据湖可分为四个主要存储区:生产数据区、原始数据区、集成数据区和总结数据区。数据湖的应用可以根据PaaS平台按需使用各区域的数据。四个区域的数据目录、元数据、数据处理流程和数据应用需要统一管理、维护和处理。

另一个集成方向是数据湖与数据仓库的集成分析架构。随着企业数据量的快速增长,不仅是结构化数据,还有非结构化数据。同时,对搜索/机器学习提出了更多的能力要求,使得原有的数字仓库技术无法有效处理复杂的场景。因此,有必要扩展原有系统,引入Hadoop数据平台,实现新型数据和新业务场景的支持。

随着企业数据分析需求的不断变化和技术的不断发展,分析数据库的定义和内涵也在不断扩展。我们认为,目前的分析数据库是指为企业管理、业务、数据分析师、数据科学家等人员提供的各种数据存储和计算引擎,包括传统的数据仓库、数据湖和目前正在兴起的智能湖仓库。

自分析数据库诞生以来,它经历了共享存储架构数据仓库、MPP数据仓库和数据湖三代的发展,目前正在向第四代智能湖仓库发展。在这一发展过程中,驱动分析数据库代际演变的因素主要包括应用场景、数据和计算环境的变化,这也导致了几代分析数据库在技术架构、功能和性能方面的根本差异。

企业对分析数据库功能升级的需求将在不久的将来使用传统的数据仓库或数据湖进行功能升级,并采用两种新的智能湖仓库路径。从长远来看,我们认为未来的企业将是高度数字化的,数据规模和数据分析场景的普遍性将趋于统一,企业需要建立统一的数据存储和计算基础,传统的分析数据库由于其自身的局限性,将逐渐被智能湖仓库取代,企业将完成分析数据库的综合迭代。

星环“湖仓一体化”的逻辑结构:星环湖仓一体化 实现了逻辑架构 N 数据源到 1 数据湖,到 N 数仓和数集,到 1 数据接口,再到 N 数据服务的整体逻辑架构。

在“湖仓一体化”时代,通过统一的资源控制、统一的分布式存储管理,支持各种存储模型、统一的分布式计算引擎、统一的数据接口,实现湖仓一体化结构,具有解耦、弹性扩展、多租户、多计算引擎、分级资源管理等技术能力;在功能方面,标准SQL具有数字仓库、ACID,数据湖的大规模异构数据存储能力;对,提供多种数据接入形式,支持多云、混合云和跨云部署,提供多种数据操作模式和接口,支持多种操作语言。

数据湖(Data lake)收集未完善的数据(以机器的形式,有限的转换、质量保证和内部治理),并允许用户以高度交互的方式进行探索和分析。数据湖不会取代数据仓库或其他记录系统;相反,它们通过存储可能具有巨大价值的未精制数据来补充它们。数据湖的最佳点是纯发现、数据科学和迭代创新的世界。

首先,数据仓库在阅读数据之前已经有了预期的数据布局。另一方面,数据湖可以接受任何格式的数据。对于数据湖,读取数据后组织数据。

如何使用因果关系数据湖?在实际应用中,因果关系数据湖可以以云服务或软件的形式部署在边缘平台上。目前,在医学领域,因果关系数据湖可以进行新冠肺炎疫苗反映的多组学分析;在社会科学领域,因果关系数据湖可以进行政策评估和分析。

本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!