人工智能

SOLUTION

释放算力，以更强 I/O 性能加速 AI 模型训练与迭代进程

业务概述

在 AI 领域，模型训练已被证实是用于 AI 实现的有效方法。它广泛应用于宇宙学、物理学、计算机视觉、核聚变、医疗等领域研究，因其算法依赖于大数据量和多样性来有效进行训练任务，因此，I/O 性能是制约模型训练效率的一个重要瓶颈。
面临挑战

GPU 作为整个人工智能训练任务的算力核心，因其成本高昂，系统架构和参数设置应以最大发挥 GPU 的使用效率为目标。同时，模型参数不断增大，数据爆炸式增加，算力需求正得到前所未有的增长，并对底层 SSD、网卡等 I/O 设备提出了更高要求。

Why NVMe SSD

高性能 NVMe SSD 对 AI 训练的意义

使用 DLIO Benchmark 深度学习 I/O 性能测试工具，在 Unet3D 模型训练测试中加载3TB训练数据，单片 PBlaze7 7940 PCIe 5.0 SSD 可以在5个epoch下节省近1,000秒的时间。

更高的 I/O 性能意味着更短的数据等待时间，让加速器（如 GPU）可以更早开始训练任务。加速器性能越强，训练耗时越短，对 I/O 性能的要求也就越高。

超过10GB/s的 I/O 处理效率

在 Unet3D 训练任务中，通过增加训练数据的读压力，可以获得超过 10GB/s 的 I/O 处理速度，此时选择更高性能的 NVMe SSD 成为必需。
让多颗加速器处于90%以上利用率

随着加速器数量的增加，每颗加速器获得的数据量被均分，执行效率出现下降。配置单片 PBlaze7 7940 SSD，在模拟训练任务中将8颗加速器的使用效率提高至90%以上。

较大的内存容量可以有效减少 NVMe SSD 的读取次数，但也会造成内存成本的大幅增加。选择性能更强的 NVMe SSD，可以在数据样本较大的训练任务中降低内存要求，并减少内存等待数据的时间。

PBlaze7 7940 系列 PCIe 5.0 SSD 可提供两倍于 PCIe 4.0 SSD 的性能与容量密度，可帮助企业客户、AI团队大幅减少 SSD 的部署规模和所需服务器数量，为数据中心带来更高的算力密度并大幅降低 TCO。