百度沧海存储加速方案的产品架构图
2023-08-16 03:08
报告指出,“数据仓库 “数据湖”的混合结构可以满足结构化、半结构化、非结构化数据的高效处理需求,但存在四个缺点:
报告指出,“数据仓库 “数据湖”的混合结构可以满足结构化、半结构化、非结构化数据的高效处理需求,但存在四个缺点:
这是百度沧海存储加速方案的产品架构图。底层是我们的对象存储 BOS,云原生数据湖存储产品提供大规模、可扩展、低成本,支持丰富的周边生态和便捷的数据流。中间是我们的数据湖存储加速层,有两种产品可供选择。一是并行文件系统 PFS,通过独立部署、高性能硬件和网络、全并行软件架构来满足终极性能需求。二是加快数据湖存储 RapidFS,通过近计算部署提供更具成本效益的分布式缓存加速能力。最上面是我们的 AI 计算包括异构计算能力、高速网络、云原生 AI 平台等。
总的来说,基于对象存储的云原生数据湖解决了大量数据的存储和流量问题。在此,我们可以进一步基于平行文件系统或缓存系统的数据存储加速层,以弥补对象存储的不足,满足大型模型各环节的性能需求。
有了这一套「数据湖 加速层」我们来详细看看大模型训练和推理几个具体场景下的问题是如何一一解决的。
本站知识库部分内容及素材来源于互联网,如有侵权,联系必删!
标签:数据中台建设