基于数据湖的架构建设业务数字仓库
在我们的实际数据处理场景中,除了人工智能和数据探索,探索未知数据的未知问题,更依赖于数据湖架构的灵活性,事实上,大多数场景是基于已知数据,即我们的数据开发学生,实际上是基于强Schema数据,从ODS,DWD,从DWB到ADS等各种业务数仓的分层建设,本质上,我们主要基于数据湖的架构建设业务数字仓库。如何提高这部分场景的查询效率,使用成本和用户体验是我们在这方面工作的核心内容。
云原生数据湖是基于云环境构建的低成本大数据解决方案。在存储方面,云原生数据湖实现了无限扩展(理论上)和更低的价格,云统一存储简化了数据调用的复杂性;在计算方面,云原生数据湖采用计算存储分离架构,使计算节点和存储节点分别灵活扩展,避免不同存储需求造成的浪费;在云策略方面,云原生数据湖采用Serverless模式,毫秒级弹性扩容按要求量自动进行,解决波峰资源短缺、波谷资源浪费等问题,实现最低单元成本最佳。
近年来,胜利油田加快了两个现代化一体化和生产物联网的全面建设,实现了对生产前端的实时感知[2]。勘探开发数据总量和数据类型呈现出快速增长的趋势,给数据资源管理带来了新的挑战。大数据和人工智能的建设和应用对数据科学、有序的管理和共享应用提出了更高的要求。加强数据管理,建设油田数据湖,进一步提高数据资产管理能力。
报告期内,北京益华录信息技术有限公司(以下简称“公司”或“益华录”)作为大数据行业的典型企业,积极响应国家促进数字化发展和“双碳”战略号召,坚持“努力降低全社会长期保存和使用数据的能耗和成本”的企业使命,充分发挥技术和平台优势,引领行业生态合作伙伴,坚持以数据湖战略为中心,围绕超级存储和数据实现两条主线,构建以光磁电智能混合存储技术为核心的超级存储能力和数据资产化服务能力,全面覆盖“低成本聚合-标准化确认-高效治理-资产交易-全场景应用”的数据要素。
数据生产已成为企业生产的核心要素。在实时、智能、云的背景下,数据湖具有自然的优势。在云起源和大数据的背景下,数据湖已成为未来企业智胜的新一代生产力工具,市场将迎来爆炸性时期。回到苏湖看更多
随着时间的推移,分析数据平面本身已经分为两代架构和技术栈。最初是数据仓库,然后是数据湖。数据湖支持数据科学访问模式,保留数据的原始形式,而数据仓库支持分析和BI报告访问模式,数据符合集中统一的本体。近年来,这两个技术栈已经开始整合,数据仓库试图配备数据科学工作流程,而数据湖则试图为数据分析师和商业智能服务,称为LakeHouse。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!