小米对数据湖 iceberg 技术做了一些实践和场景落地
简介:随着批量一体化技术的发展,对实时查询的需求和成本优化的考虑,小米对数据湖 iceberg 技术做了一些实践和场景落地。
我们将看到今天所谓的现代BI的特点。从数字仓库的角度来看,它是云原生数字仓库模式,包括整个云原生数据平台模式。通过存算分离架构,在进行数据分析时不需要反复复制数据。数据通常存在于数据湖中,根据分析的需要临时处理和提取。一方面,它可以大大降低数据存储的成本,另一方面,数据分析的效率将相对较高。
当然,前提是这些数据必须首先真实、准确、自洽、分析、分析结果,并在企业发展中发挥作用,从而延伸“数据治理”、“数据底座”、“数据湖”等一系列概念。
目前,我们已经基于它 Hudi 数据湖探索了一些批流的基本场景。稍后,我们将进一步将一些复杂、昂贵的场景转移到数据湖,如探索数据湖 TB 实现一套代码、两种执行模式、一套系统、统一技术栈、一套运维、统一资源调度等场景的可能性。
3. 数据湖经常被各种数据分析引擎访问,但缺乏隔离机制,会产生相互影响,导致数据湖分析性能不稳定。例如,一些分析会受到一些批处理查询的影响,导致性能急剧下降。
科杰科技作为金融客户的长期数字合作伙伴,基于领先的大数据和人工智能技术,构建了云原湖仓集成数据智能平台Keendatata Lakehouse采用国际领先的湖仓一体化新范式,充分整合了数据湖和数据仓库的优势,具有批流一体化、ACID交易、数据编织、一站式全流程等特点。支持上层包括营销主题报告、绩效分析、风险控制系统和反洗钱项目数据应用建设,完全支持1000个节点,数千人高效协作大数据人工智能基础设施,未来5-10年银行大数据和人工智能项目,实现银行数据能力的快速建设和实施,满足银行本地信贷创新的需求。
要说近年来企业服务圈的顶级明星,不是数据中心。但七八年过去了,数据中心仍然没有成为数据仓库和数据湖等数据基础设施。
未来,中国水电八局可以在不增加管理、运维复杂性和学习成本的情况下,通过一体机或软硬件解耦的方式扩大容量,提高整体容量和性能。更重要的是,该架构支持扩展集群和双活功能,打造整体数据湖架构底座,拓展未来中国水电八局的大数据分析 AI 分析业务铺平道路。
为了降低存储成本,阿里云选择了提供独立可扩展性的存算分离架构。客户可以将数据放入湖中,并根据需要扩展计算引擎的容量。这种解耦方法将获得更高的性价比。阿里云对象存储OSS是数据湖的统一存储层,可以连接各种业务应用和计算分析平台。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!