提交成功
返回列表

SSD 防护技:主机控制温度管理 HCTM

2022 / 01 / 29
1

我们都知道,温度是影响SSD使用的重要因素,它不光对SSD使用过程中的稳定性造成影响,过高的温度更有可能损坏NAND里的数据,造成不可估量的损失。

 

企业级SSD负载压力大,加之本身功耗就比消费级更高,“企业盘更热”的说法也就不足为奇。同时,高温机房、较差的散热条件都有可能造成硬盘温度升高。

 

尽管服务器、数据中心都会配有大量的散热设备用于系统的稳定运行,但这并不等于万无一失。

 

一般来说,企业级SSD都会带有高温保护功能,避免SSD在过热时发生损坏。

 

元器件不同,对温度的耐受力就不一样。SSD的板温、主控芯片温度、NAND温度都是高温保护是否需要执行的重要依据。企业级SSD在触发高温保护时,需避免大的性能抖动发生,降低对性能造成影响;极端情况下,也要保护里面数据周全,做到迅速降温且可恢复。

 

PBlaze系列企业级SSD设置了多个高精度温度传感器,基于板温、核温和NAND温度,Memblaze设计了可靠的温度保护逻辑,也是MemSolid高温保护技术的核心:

 

• 当SSD的综合温度达到第一临界点(TMT1,Thermal Management Temperature 1),会向主机端发送Critical Warning警告并自动降低读写性能,防止温度进一步升高;当温度下降,性能会逐步恢复至完全水平。整个过程无需用户干预,对用户完全透明。

 

• 极端情况下,SSD的综合温度可能会继续升高,达到第二临界点(TMT2,Thermal Management Temperature 2),此时所有的读写操作都会立刻停止,防止电路过热损坏NAND中的数据;当温度降低至TMT1以下时,SSD方可恢复工作。

 

高温保护逻辑示意

 

所有高温事件都会记录在SSD的Log当中,方便运维人员查看分析。

 

在PBlaze6 6920和PBlaze6 6530系列企业级SSD中,加入了名为HCTM(Host Controlled Thermal Management)的主机控制温度管理功能,它支持通过nvme set-feature标准命令来修改高温保护中TMT1和TMT2的阈值(单位开尔文),以适应更多部署场景。

 

• 阈值调整范围:Minimum Thermal Management Temperature(MNTMT,一般为70℃)≤TMT1<TMT2≤Maximum Thermal Management Temperature(MXTMT,一般为77℃)。

 

• 当TMT1或TMT2设置为0h时,相应功能将被禁用。

 

HCTM逻辑示例

 

PBlaze6 6920、PBlaze6 6530系列企业级SSD可以通过  nvme set-feature (0x04)  设置告警温度阈值。

 

缺省情况下,TMT1为70℃,TMT2为77℃,TMT1和TMT2可通过  nvme set-feature (0x10)   进行调整。

 

具体示例如下:

 

设置告警温度阈值为71℃

# nvme set-feature /dev/nvme0 -f 0x04 -v 344

 

设置过温调节阈值TMT1为71℃,TMT2为76℃

# nvme set-feature /dev/nvme0 -f 0x10 -v $(((71+273)<<16|(76+273)))

 

需要指出的是,高温保护只是为防止设备在温度过高时出现损坏或数据丢失,所采取的防护措施。另外,选择兼具高性能与低功耗的高能效比企业级SSD,也是减少存储设备高温情况发生的有效手段。

 

 

相关阅读:

 

提升172%!PBlaze6 6530 系列能耗优化设计的那些事儿

PBlaze6 6530评测:不止于低功耗,多项性能表现出众

MemSolid2.0:高温保护技术详解