小米对数据湖 iceberg 技术做了一些实践和场景落地

2023-07-26 13:35

简介：随着批量一体化技术的发展，对实时查询的需求和成本优化的考虑，小米对数据湖 iceberg 技术做了一些实践和场景落地。

我们将看到今天所谓的现代BI的特点。从数字仓库的角度来看，它是云原生数字仓库模式，包括整个云原生数据平台模式。通过存算分离架构，在进行数据分析时不需要反复复制数据。数据通常存在于数据湖中，根据分析的需要临时处理和提取。一方面，它可以大大降低数据存储的成本，另一方面，数据分析的效率将相对较高。

当然，前提是这些数据必须首先真实、准确、自洽、分析、分析结果，并在企业发展中发挥作用，从而延伸“数据治理”、“数据底座”、“数据湖”等一系列概念。

目前，我们已经基于它 Hudi 数据湖探索了一些批流的基本场景。稍后，我们将进一步将一些复杂、昂贵的场景转移到数据湖，如探索数据湖 TB 实现一套代码、两种执行模式、一套系统、统一技术栈、一套运维、统一资源调度等场景的可能性。

3. 数据湖经常被各种数据分析引擎访问，但缺乏隔离机制，会产生相互影响，导致数据湖分析性能不稳定。例如，一些分析会受到一些批处理查询的影响，导致性能急剧下降。

科杰科技作为金融客户的长期数字合作伙伴，基于领先的大数据和人工智能技术，构建了云原湖仓集成数据智能平台Keendatata Lakehouse采用国际领先的湖仓一体化新范式，充分整合了数据湖和数据仓库的优势，具有批流一体化、ACID交易、数据编织、一站式全流程等特点。支持上层包括营销主题报告、绩效分析、风险控制系统和反洗钱项目数据应用建设，完全支持1000个节点，数千人高效协作大数据人工智能基础设施，未来5-10年银行大数据和人工智能项目，实现银行数据能力的快速建设和实施，满足银行本地信贷创新的需求。

要说近年来企业服务圈的顶级明星，不是数据中心。但七八年过去了，数据中心仍然没有成为数据仓库和数据湖等数据基础设施。

未来，中国水电八局可以在不增加管理、运维复杂性和学习成本的情况下，通过一体机或软硬件解耦的方式扩大容量，提高整体容量和性能。更重要的是，该架构支持扩展集群和双活功能，打造整体数据湖架构底座，拓展未来中国水电八局的大数据分析 AI 分析业务铺平道路。

为了降低存储成本，阿里云选择了提供独立可扩展性的存算分离架构。客户可以将数据放入湖中，并根据需要扩展计算引擎的容量。这种解耦方法将获得更高的性价比。阿里云对象存储OSS是数据湖的统一存储层，可以连接各种业务应用和计算分析平台。

本站知识库部分内容及素材来源于互联网，如有侵权，联系必删！

标签：数据中台建设

上一篇：数据湖是一种自然/原始格式的数据存储系统下一篇：数据湖或数据仓库的位置是什么?

读过这篇文章的读者还喜欢：

大数据中台与平台技术解析与实现大数据中台赋能河北，开启数字化转型新篇章数据中台在衡阳智慧城市中的应用与实现数据中台系统赋能温州数字化转型大数据中台与公司数据集成的实践对话数据中台系统在秦皇岛的沉稳发展之路数据中台赋能武汉：沉稳前行中的智慧之光在常州的欢乐时光：聊聊“数据中台”与“芜湖”的奇妙缘分数据中台系统在绍兴高校信息化建设中的应用与实践大数据中台赋能青岛：在福建视角下的区域发展思考合肥的我，笑看苏州数据中台的“大数据”人生