日前,全球权威AI基准性能评测组织MLCommons正式发布最新MLPerf Storage v2.0测试结果。焱融科技携手忆恒创源,再次刷新全球纪录 —— 搭载PBlaze7系列PCIe 5.0高性能NVMe SSD的焱融全闪存储一体机F9000X在全部模型测试中性能领先,在3D-UNet模型测试中,三节点存储集群更是实现了高达513GB/s的总带宽,再次凸显其卓越的高带宽、低延迟优势,以及出色的AI负载处理能力。
MLPerf Storage v2.0测试结果(引自MLCommons官网页面)
焱融科技是国内一家专注于软件定义存储技术研发的高新技术企业。其自研高性能分布式文件存储产品YRCloudFile在全球IO500性能测试中跻身世界前六,同时也是国内首个进入CNCF Landscape的云原生存储品牌。凭借出色的性能和可靠性,焱融科技正在为国内多家人工智能、智算、自动驾驶、互联网、金融量化、智能制造、能源等行业标杆客户提供服务。
本次测试采用焱融旗舰产品F9000X分布式全闪存储。该产品基于焱融自研高性能分布式文件系统YRCloudFile,深度整合Intel、NVIDIA顶尖硬件技术构建全闪F9000X存储集群,每个存储节点搭载Intel至强第5代可扩展处理器,16片忆恒创源PBlaze7系列PCIe 5.0 NVMe SSD以及4块NVIDIA ConnectX-7 400Gbps InfiniBand网卡,带来多模型、多客户端场景下的强劲性能。
作为面向AI、云计算、虚拟化等应用场景打造的新一代高性能NVMe SSD,忆恒创源PBlaze7系列充分释放PCIe 5.0带宽潜力,读写性能分别超过14GB/s与10GB/s,配合高达30.72TB容量点,全面胜任AI训练中的数据集加载、Checkpoint保存与推理阶段的KV Cache调用等关键任务。截至目前,PBlaze7系列SSD累计出货已经突破50万片,成为国产PCIe 5.0 SSD的标杆产品。
测试时使用的网络拓扑(引自焱融科技)
此次发布的MLPerf Storage v2.0,在我们此前介绍过的v1.0基础上进一步升级:除保留3D-UNet、ResNet50、CosmoFlow三大模型训练任务外,新增Checkpoint工作负载,覆盖训练中断点恢复、模型存档等实际场景。为确保结果的严谨与公正,v2.0要求每项基准测试必须多次重复执行并最终选取平均值,也使其成为业界衡量AI存储性能更具参考价值的新标准。
MLPerf Storage关键衡量标准,是在保证GPU高使用率(3D-UNet与ResNet50训练任务中不低于90%,CosmoFlow训练任务中不低于70%)的前提下,存储系统所能实现的聚合带宽。带宽越高,其在AI训练过程中越能够充分“喂饱”计算资源,实现更快的训练速度,并避免GPU空闲浪费。
基于通用硬件环境,在3D-UNet、ResNet50以及CosmoFlow模型测试场景中,配置三节点存储集群的F9000X展现出优异的性能,在与全球多个知名分布式存储厂商的测试结果对比中保持领先:集群总带宽等关键指标位列第一,在3D-UNet模型测试中达到513GB/s,为迄今已公布结果中的最高值。
MLPerf Storage v2.0测试结果(引自焱融科技)
在MLPerf Storage v2.0新增的Checkpoint工作负载测试中,F9000X同样展现出强劲实力。针对Llama3-70B模型测试场景,通过部署8个客户端模拟并发请求,配合64个模拟GPU环境,实测达成221GB/s读取带宽与79GB/s写入带宽的高性能表现。
这种稳定且高效的带宽支撑能力,可充分保障Checkpoint文件在模型训练全流程中实现秒级读写,为AI训练任务的快速恢复与模型训练的稳定性筑牢根基,帮助客户从容应对大模型训练的严苛存储需求。
本轮测试之所以能够取得优异成绩,离不开焱融科技与忆恒创源在高性能分布式全闪存储构建方面的鼎力合作。焱融科技长期深耕AI大模型训练与推理等核心场景,从架构设计到软硬件全技术栈,持续推进系统性创新与性能优化,构建起应对高性能负载的核心能力。其自研YRCloudFile分布式文件系统通过Multi-Channel网络带宽聚合、负载感知中断切换、异步非阻塞IO与网络拥塞优化等诸多关键技术,实现高并发下的超高速数据传输和高效稳定的系统性能。
忆恒创源作为全球最早投身企业级PCIe SSD研发的厂商之一,始终专注于高性能、高可靠闪存存储产品的持续演进。其自研MemSpeed技术合集充分释放主控与NAND潜力,结合数据路径优化、多Plane并发、智能顺序流检测与预读等多项技术,确保在不同压力场景下始终提供高性能与低延迟,显著降低对CPU资源的占用,在分布式训练等高负载任务中提供更流畅、更高效的存储表现。
本轮MLPerf Storage v2.0测试不仅展示了焱融科技与忆恒创源在AI基础设施领域的技术领先实力,也验证了软硬件深度协同在应对大模型时代存储挑战中的关键价值。随着AI模型规模持续增长、训练流程日益复杂,企业对于高性能存储系统的需求只会更加迫切。未来,双方将继续携手,在性能突破、架构演进和生态协同等方面不断探索与创新,以更加坚实的存储底座,加速智能时代的落地与发展。