此前,我们曾详细介绍过 SSD 的 MTBF 评估方法,并对所需的测试环境,忆恒创源自主研发的 Whale HT128 可靠性验证系统进行了展示。今天带来的是 HT128 的换代升级 —— 全新 PX5100 测试系统。
PX5100 可靠性验证系统
数据的价值无可估量。SSD 作为存储设备兼主要 I/O 设备,其可靠性至关重要。要达成200万小时 MTBF 可靠性指标,其过程往往需要上千样本上千小时的复杂测试,也是 SSD 所有测试项目中历时最长、规模最大,也最“烧钱”的环节。对 SSD 厂商来说,当多个产品项目同时进行,测试成本还要成倍增加。
I/O 负载模型和高温老化环境是企业级 SSD 可靠性验证过程中经常用到的两个加速因子,前者由各个产品相关部门长年累月的研发与测试经验积累,结合行业标准、上下游生态伙伴的紧密技术配合,乃至海量出货累积的真实市场反馈不断优化得出。它是能否在测试过程中发现产品潜在问题的关键所在,也是企业级 SSD 厂商的核心竞争力。
后者是加速 SSD 老化,加速产品问题显现的重要因素。有别于环境应力测试,可靠性验证需要执行大量的高温环境下的带负载测试,巨大的样本数量加上 SSD 测试过程中自身发热等不可忽视的干扰因素,使得市售成品温箱很难满足 SSD 的可靠性验证要求。
同时,SSD 迭代速度越来越快,应用最新技术往往意味着可能受到产业生态尚未完整带来的影响。而新的产品形态,更高接口速率带来的信号完整性挑战,都需要新的背板和布线加以解决,这些也都坚定了忆恒创源打造新的可靠性验证系统的决心。
忆恒创源有着多代自研可靠性验证系统的开发经验,在 PX5100 的构建过程中,也得到了行业伙伴们的鼎力支持,加速了整个项目的进程。PX5100 有着较高的温度一致性表现,它承托了忆恒创源十余年的测试经验积累,可满足新一代 PCIe 5.0 SSD 的 RDT 可靠性测试、PEST 混合四角测试以及 ORT 持续可靠性验证等要求,支持多达192片 PCIe 5.0 SSD 的满负载并发测试,支持 U.2、HHHL AIC、E1.S、E3.S 等多种不同形态 SSD,并展现出了强大的灵活性与升级空间。
测试中的 PCIe 5.0 U.2 SSD
PX5100 可以提供高温、低温、高低温交替测试环境,以及温度、偏压叠加测试场景。每一个硬盘端口均可独立进行自动上电、掉电等操作;内建企业级 SSD 自动化测试所需的全部工具和脚本,可以对故障发生时的环境参数、I/O 命令、SSD 日志等进行详细记录并自动发给测试人员,方便问题复现和诊断;支持 MCTP 协议的 SMBUS 接口,支持远程管理、远程固件更新、UART Log 实时收集,以及远程调试等工作。
对批量测试而言,保持测试环境温度的一致性可以确保所有测试样本都经历了相同的测试条件,有助于研发人员更加准确的评估样本在高温环境下的性能变化以及产品失效等问题。热空气在流经密集部署的 SSD 时,会产生一系列复杂的流体力学现象,发生热交换和能量变化。SSD 运行所散发出来的热量,又会再次加热这些空气,让情况变得更加复杂。
在 PX5100 的前舱设计过程中,使用了大量的风道空气动力仿真、散热仿真,对风道进行细致优化。通过均匀分布在前舱中的超过200颗温度传感器,对气流温度、盘片表面温度进行实时追踪,配合精细的制热、制冷调控算法和细颗粒度的局部风速控制,让每一片 SSD 均可处在尽可能相同的测试环境中,同时满足 OCP 对于企业级 SSD 密集部署时的散热要求。
PX5100 风道空气动力仿真与散热仿真
也正是得益于 PX5100 的成功构建,加速了忆恒创源 PBlaze7 7940 系列 PCIe 5.0 SSD 的测试进程,为产品的量产和率先出货起到了至关重要的加速作用。
目前,PX5100 已经在忆恒创源工厂和实验室得到批量部署,为 PBlaze7 和 PBlaze6 系列多款 SSD 的可靠性验证提供支撑。而这些测试工作也将贯穿产品的全部生命周期。
SSD是一个复杂的设备,企业级SSD更是如此,需要我们始终以谦逊的态度,严谨的测试方法,不断探索,为追求更高的产品质量不断前行。在每一个产品相关部门,每一名忆恒创源小伙伴的共同努力下,公司 PBlaze 系列企业级 SSD 的实际累计产品失效率(CFR)远低于标称的年化故障率,产品真实可靠性达到行业标杆水平,显著降低了客户系统运行开销和总体拥有成本。而作为国产闪存存储生态中的一员,忆恒创源宝贵的质量管理经验也将帮助公司上下游生态伙伴的技术发展,为推动国产闪存技术高质量发展持续贡献力量。