数据密集型范式加速 AI 大模型时代,华为分布式存储助力超算互联网建设

35小吃技术网 推荐阅读 2023年09月25日22时40分56秒 144 0

6月29日,高性能计算云(HPC云)产业发展论坛在北京举行。 本次论坛由中国信息通信研究院指导,超级计算创新联盟、计算网络融合产业与标准推进委员会协办。 华为数据存储解决方案首席架构师赵顺存发表了《华为数据密集型超算技术,助力超算互联网建设》的主题演讲。 他解读了“东算西算”、AI走向大规模多模态、数据密集范式背景下超算互联网面临的新趋势、新挑战,全面阐述了华为网超算互联网数据融合。计划旨在进一步与产业伙伴达成共识,充分发挥高性能计算云对我国算力和存储能力发展的赋能作用。

|超算互联网登场,数据质量决定AI智能高度

数据密集型范式是由关系数据库的鼻祖 Jim Gray 提出的。 他将科学研究分为四种范式,分别是实验科学、理论科学、计算科学和数据密集型(Data-)。 无论是“东算西算网”战略加速国家综合大数据中心建设,还是自动驾驶、基因组时空组学等新兴业务爆发,带来的大量非结构化数据加速数据密集型范式的发展。 超级计算互联网的到来,为时代搭建了坚实的舞台。

超级计算互联网是基于超级计算机和高速互联网的先进计算基础设施。 它利用高速网络连接各地的超级计算中心,支持算力、数据、软件、应用等资源的共享和交易。 用户提供多种算力服务。 当前超算互联网的发展呈现以下趋势:一方面,以“数”为基石,计算的实现基于数据,高效的数据流是算力流的基础; 另一方面,AI正朝着大模型、多模态方向演化,数据质量决定AI智能的高度,数据存储成为关键要素。

机遇往往与挑战并存。 赵顺存表示,超算互联网在快速发展的同时,也面临着以下挑战:

●数字经济快速增长导致多元化业务不断涌现,大量数据孤岛的存在导致数据共享和高效访问变得困难;

●跨域、跨业务的数据调度智能化程度不高,过于依赖人工操作,导致数据传输和流转效率低下;

AI正向大规模多模态模型演进,AI训练伴随高并发数据分析,新型生成式AI应用快速爆发,迫切需要高吞吐量、高性能的存储基础设施支持;

●安全问题贯穿数据产生、流动、使用、归档的整个生命周期。 例如,在数据传输过程中,数据可能非法流出安全区域,导致数据泄露。

|抓紧时间行动,华为打造超算互联网数据整合解决方案

网络的连通性为超算互联网创造了基础条件,而多个超算中心的数据互联是数据价值有效挖掘的关键。 为了帮助超算互联网实现稳定、长远的未来,华为致力于打造基于分布式存储的“超算互联网数据集成解决方案”。 数据管理、高效安全的数据调用主要包括以下关键措施:

首先,通过GFS(File)全局文件系统,连接多个超算中心的数据,实现跨系统、跨区域的全局统一数据视图和调度。 任何位置的数据无需迁移即可查看,立即可用;

其次,支持数据中心内部以及数据中心与云之间网的热、温、冷数据自动分类,让数据智能流动,压缩数据传输可以让数据流动更加高效,节省带宽和空间资源;

第三,针对混合负载的设计,一方面实现了多种数据访问协议的无损互操作,打破了文件、对象、大数据之间的壁垒,允许一段数据在不影响性能和语义的情况下进行重定位。丢失和高效的数据访问加速数据分析过程; 另一方面,系统满足大小文件高带宽、高吞吐量的领先设计,完美满足AI海量数据分析和模拟业务对效率的苛刻需求;

数据密集型范式加速 AI 大模型时代,华为分布式存储助力超算互联网建设-第1张图片

四是强化数据弹性,推出端到端跨域数据共享和流量安全解决方案,增强超算互联网数据的可靠性和安全性,保障业务连续性;

第五,支持数据可信流通,防止数据滥用和数据泄露,实现数据使用的可追溯。

该解决方案已广泛投入实践。 华为分布式存储与行业客户联合创新,率先将超算互联网数据集成解决方案理念应用于山东省16个城市的超算互联网建设中,并取得了显著成效。

数据密集型范式加速 AI 大模型时代,华为分布式存储助力超算互联网建设-第2张图片

进入数据密集范式的新阶段,AI业务快速增长,数字化成为时代舞台上当之无愧的主角,数据存储的作用越来越关键。 赵顺存表示,华为分布式存储将持续打造适应时代需求的数据存储产品和解决方案,助力多元化新兴业务蓬勃发展,推动我国算力和存储能力建设,为建设更坚实的数字世界。

广告声明:本文所包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息并节省选择时间,结果仅供参考。 IT之家所有文章均包含此声明。