X 
微信扫码联系客服
获取报价、解决方案


李经理
15150181012
首页 > 知识库 > 数据中台> 数据湖存在一些“可扩展性”缺陷
数据中台在线试用
数据中台
在线试用
数据中台解决方案
数据中台
解决方案下载
数据中台源码
数据中台
源码授权
数据中台报价
数据中台
产品报价

数据湖存在一些“可扩展性”缺陷

2023-08-15 03:37

而且在湖仓,首先这个管理系统是缺失的,hive 还有现在的数据湖 table format 归根结底,它只定义了表在数据湖上的元数据形式,没有动态的湖仓管理机制。其次,如果我们想建立一个集思想和存算于一体的湖仓管理系统 MPP 数据库也会有所不同,例如湖仓在后台进行的数据优化动作,用户需要花钱来优化这些灵活的行为,这将直接影响到湖仓库的及时性和性能。存算分离管理系统需要更透明地梳理及时性、性能和成本之间的关系:

流数据管:生成时将处理来自应用系统的数据。流处理引擎向数据存储(数据平台/数据湖)提供管道的输出、报表系统 等数据应用。

如今,数据基础设施规模庞大、复杂、重要。随着数据供需的快速增长,社交媒体、IT日志、物联网传感器、实时流等大量新的数据源应运而生。为了存储这些数据,采用了可扩展、易于部署、成本效益更高的新存储解决方案,如数据湖。为了连接各种复杂的数据源和数据湖,建立了一个数据管网络,将数据湖连接到各种数据源和应用程序。在这个过程中,ELT等技术比以前更多,、CDC、API、事件流等,并应用于对实时操作、人工智能预测分析等要求较高的场景。同时,新一代的实时分析应用程序和交互式数据仪表板使业务人员更容易访问数据,并将其用于关键任务的决策支持。

因此,数据湖开始了繁荣的十年,在过去的十年里发生了许多标志性的事件。我们将数据湖过去十年的发展分为两个阶段:

[老莫解释:这是一个新的技术理念,但也更重要。我个人的理解是数字仓库的虚拟化。不需要数据的实体进入数据仓库进入数据湖,只需指定位置即可实现数据的使用。这在技术上是一个很大的突破。但它仍然很早,首先要看。]

数据湖的优点是,如果不遵循数据湖的标准,就没有效果。因此,确保整个数据网格的功能至少与数据湖相同的唯一方法是实施全球治理。全球治理意味着两套标准:全球标准和特定的领域标准。它包括与数据产品属性相关的标准,如数据质量、数据集之间的交叉引用、命名协议、元数据语法等。

我们希望用户能够基于基础 Apache Doris 构建多种不同场景的数据分析服务,支持在线和离线业务负荷,高吞吐量的交互式分析和高并发点查询;通过一套结构实现湖仓统一,在数据湖和各种异构存储上提供无缝、快速的分析服务;还可以统一管理和分析半结构化甚至非结构化的多模数据,如日志/文本,以满足更多样化数据分析的需要。

数据中台解决方案

单点登陆

在 2.0 在版本中,我们进一步加强了数据湖的分析能力,不仅支持了更多的数据源,而且优化了用户的实际生产环境 1.2 在实际工作负荷下,版本可以显著提高性能。

目前,数据湖是一个大型刚性结构。数据从这些刚性结构中提取、处理,并作为一个单一的超级强大的数据平台提供服务。然而,数据湖存在一些“可扩展性”缺陷:

本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!