企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借优秀的读写性能、更低的延迟,为越来越多的企业客户所选择,并在数据库、虚拟化、应用加速、大数据、云计算乃至人工智能等领域发挥重要作用。企业级SSD往往需要在高并发、大压力、24小时全天候运行的严苛环境下运行,其可靠性是企业级用户的重点关注之一。
可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的能力。对企业级SSD而言,它是非常重要的一项指标,不仅直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键作用。
SSD的“可靠性”通常以MTBF量化衡量。MTBF全称Mean Time between Failures,平均故障间隔时间,即产品在总的使用阶段累计工作时间与故障次数的比值。它反映了产品的时间质量,产品故障越少,MTBF越高,产品可靠性也就越高。
与消费级SSD产品相比,企业级SSD在可靠性方面面临更高挑战。根据OCP(Open Compute Project)给出的建议,部署于数据中心的企业级SSD MTBF平均故障间隔时间要在2,000,000小时,也是目前企业级SSD奉行的标准。但是,MTBF是需要实际跑测验证的,不能凭空而来。按照传统方法,要完成多次200万小时的验证显然不可能。那么,这长达200万小时的平均故障间隔时间,又是如何得到的呢?
答案是基于一定样本量,在一定时间段内通过加速因子加速(如写入量加速、运行环境温度加速)进行统计推断。过程模拟典型用户场景,通过实测验证理论值,提前验收产品质量。严谨的跑测验证将直接决定MTBF“可靠性指标”是否真的可靠。
和大部分电子产品一样,SSD同样符合浴盆曲线(失效率曲线)特性,它分为三个关键时期:
• 早期失效期(Infant Mortality):产品在刚生产好并加电使用时,因良率等因素会导致其失效率较高。为保证交付到客户手上的SSD符合企业级可靠性标准,企业级SSD厂商会对所有生产线上的产品进行一定时长的老化跑测,尽可能排查产品的早期失效问题,保证客户拿到的产品不存在早期失效问题。
• 偶然失效期(Random Failures or Normal Life):这一阶段对应正式出货产品,产品失效率较低,且较稳定。产品可靠性指标MTBF所描述的就是这个时期,即产品的稳定使用阶段。
• 磨损期(Wearout Phase):该阶段因产品磨损、老化等因素,其失效率会随时间的延长而呈指数级增加。此时SSD宣称寿命已经结束,虽可继续使用,但坏块会随着PE的增加而加速上升,SSD的有效预留空间(OP)逐渐消耗殆尽,设备失效率提高。对企业级SSD而言,进入磨损期的产品已不建议继续使用。
在MTBF之外,你可能还听过另外一个可靠性描述的词——MTTF。对于一个可维护的设备来说,MTBF = MTTF + MTTR,三者关系如下:
• MTTF (Mean Time To Failure,平均失效时间):指系统两次失效的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。MTTF =∑T1/ N
• MTTR (Mean Time To Repair,平均修复时间):指系统从发生故障到维修结束之间时间段的平均值。MTTR =∑(T2+T3)/ N
• MTBF (Mean Time Between Failure,平均无故障时间):指系统两次故障发生之间(包括故障维修)时间段的平均值。MTBF =∑(T2+T3+T1)/ N
因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。
简单情况下,MTTF计算遵循如下公式:
其中:
• Ai为SSD i的加速因子
• ti为SSD i的测试时间
• nf为出现故障SSD的数量
• a为置信度(confidence limit,60%)
• c2为卡方分布(chi-squared distribution)
上述等式中的加速因子通常分为3类:
• 未加速因子:A=1,通常用于固件故障
• TBW(Total Bytes Written)加速因子 :通过增加数据写入强度进行寿命加速
• 温度加速因子 :通过升高测试环境温度进行故障出现加速
TBW是SSD寿命单位,以寿命为1.5 DWPD,用户容量3.84TB PBlaze6 SSD为例,其5年总的数据写入量(也就是现场部署写入量field)为10.5 PB,对应每天数据写入量为5.76 TB。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。TBW加速因子计算方法如下:
假设一个用户容量为100G的SSD,其产品规格书定义SSD寿命为175TBW,典型使用场景下可使用5年(43800个小时)。其在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32,如果短时间内写入更多数据,则TBW加速因子也会相应提升。
NAND因其固有特性,数据保持力会随着温度的升高而降低。阿伦尼乌斯公式(Arrhenius Equation)指出,在室温 40℃ 下SSD放置 1 年(8670个小时),相当于在 85℃ 的老化室中放置 52 个小时。JESD 22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,High Temperature Operating Life)测试,可确定长时间高温条件下SSD运行的可靠性。协议规定,如果没有特殊要求,SSD需在 125 °C 的结温压力下测试。但企业级SSD一般会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。
对于温度加速因子,计算方法如下:
其中:
• Ea 为失效模型的活化能 ,一般为0.7 eV
• k 为 玻尔兹曼常数,8.617 x 10-5 eV/°K
• T₁ 为工作温度 (标准取值为 55°C 或者328°K)
• T₂ 为测试加速温度
假设样本量为 400,测试时间为 1008 小时,加速因子Ai = A(TBW) * A(T) 为10,失败的数量为0,置信度为60%,则 MTTF = MTBF = 4,400,000小时。
注意,MTBF是和温度严格相关的。这一点在OCP Datacenter NVMe® SSD Specification中也有提到:
• MTBF 2,500,000小时(AFR≤0.35%),对应的SSD运行温度为0℃~50℃
• MTBF 2,000,000小时(AFR≤0.44%),对应的SSD运行温度为0℃~55℃
但理论和现实总是有差距的。现实中产品意义上的MTBF测试,很难达到10倍的加速因子,TBW加速因子仅能用于测试NAND颗粒的寿命,实际测试中还需要考虑电路和物理接口等硬件部分的可靠性。而这部分,只能靠温度来加速。实际操作中,MTBF=200万小时的测试,需要至少用2000片样品在加速因子作用下,跑满1000小时以上。
除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中,AFR和MTBF又可以相互转化。
• 故障率λ:SSD关键元器件选型时,需要确保每个元器件的故障率 λ 达标。相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性。
• AFR:年化故障率,可以更好地了解在任何一年中发生硬盘故障的几率。
• MTBFhours = 1/λhours
• MTBFyears = 1/(λhours*24*365)
• AFR = 365*24hours*λhours = 8760hours/MTBFhours
MTBF 和 AFR 的数值对应关系如下:
企业级SSD产品可靠性MTBF ≥ 2,000,000小时(@55℃),换算为年化失效率AFR ≤ 0.44%,对应FFR(Functional Failure Requirement,SSD在整个磨损寿命时间范围内累积的功能失效率,以5年保修期为参考)≤2.2%。
Memblaze全系列企业级SSD均按照2,000,000小时MTBF @55℃ 为标准,满足55℃环境下7×24小时稳定不间断运行要求、40℃环境下数据至少3个月断电保持能力以及低于1E-17的UBER不可修复错误率。
在数据可靠性技术领域,Memblaze自研了MemSolid 技术集,以保证企业级数据的一致性和可靠性。通过全路径数据保护、LDPC软判决解码纠错技术、元数据跨Channel备份保护、Die间动态RAID5恢复坏块数据机制,以及重读保护和过温保护等技术,实现了PBlaze可持续的数据一致性保护,保障企业关键业务数据资产始终处于安全可靠的存储环境中。
为确保出厂的SSD产品能够满足MTBF的标准,Memblaze运用十余年在固态硬盘领域的经验积累,以及对用户实际应用的理解,自主研发出MTBF测试平台 – Whale系统。它参照JEDEC标准打造,适用于PCIe SSD的研发(DVT)、环境应力(EST,Environmental Stress Test)、数据保持力、生产(老化,ORT,Ongoing Reliability Testing)、RDT等测试。Whale系统预置了贴合客户真实使用场景的测试案例,采用合理的加速因子对RDT阶段产品进行长时间跑测,成为产品量产前的质量保障。
根据Memblaze的出货量和实际故障率统计,PBlaze系列SSD的实际累计产品失效率(CFR,Cumulative Failure Rate)远低于标称的年化故障率。
经过十几年在SSD行业的深耕打磨,Memblaze 已经形成从芯片、软件、硬件、生产、出货等各个环节的严密设计和严格的质量管控体系,能够保证PBlaze系列企业级固态硬盘为客户提供较高的可靠性,也大幅降低了客户系统运行开销(OPEX)和总体拥有成本(TCO),而Memblaze也将继续以匠心精神,不断打磨,不负所期!
参考文献:
• Memblaze SSD Reliability: MTTF/MTBF/AFR/CFR/RDT
• JESD218, Solid-State Drive (SSD) Requirements and Endurance Test Method
• JESD 22-A108, Temperature, Bias, and Operating Life
• OCP Datacenter NVMe® SSD Specification Version 2.0
• Calculating Reliability using FIT & MTTF: Arrhenius HTOL Model