在PBlaze6 6530系列企业级PCIe 4.0 NVMe SSD中,我们加入了Persistent Event Log(简称“PEL”)持久化事件日志功能。它是NVMe 1.4新增功能之一,相当于SSD的“黑匣子”,当设备在运行过程中遇到错误告警、固件升级、格式化等导致SSD状态信息发生改变的Event时,会进行清晰易读的日志记录,且当设备掉电、重启、Reset、Format、Sanitize操作时,都不会被消除,持久化保留。Persistent Event Log是非常实用的功能,便于大规模部署下的管理、监控和运维调试,查明特定事件或故障发生的时间。
在发布PBlaze6 6920系列企业级PCIe 4.0 NVMe SSD时,我们对其加入了Telemetry标准日志接口功能,它可以用来收集SSD厂商自定义的数据日志。使用时,用户只需下发一条标准命令就可获取Telemetry日志并发送给SSD厂商做进一步分析,而无需将SSD从部署系统中移出。这样可有效减少现场debug时间,提升用户的运维效率。
Telemetry的典型应用场景如现场失效分类,周期性健康监控,问题定位等,用来快速定位问题并解析,Persistent Event Log则是对事件的记录。错误与事件对照参考,可以给运维人员提供更多信息,以进一步提升运维效率。可以说,PEL和Telemetry是正交互补的关系,二者相辅相成。
在PBlaze6 6530系列企业级SSD中,我们同样提供了Telemetry功能,具体使用教程,可参考这里:
回到Persistent Event Log本身,PBlaze6 6530系列支持的事件类型定义如下:
• Event Type 01h:SMART / Health Log Snapshot
• Event Type 02h:Firmware Commit
• Event Type 03h:Timestamp Change
• Event Type 04h:Power-on or Reset
• Event Type 05h:NVM Subsystem Hardware Error
• Event Type 06h:Change Namespace
• Event Type 07h:Format NVM Start
• Event Type 08h:Format NVM Completion
• Event Type 09h:Sanitize Start
• Event Type 0Ah:Sanitize Completion
S.M.A.R.T用于监控SSD的健康状况,并根据设定的门限阈值提供预警,如严重告警、设备温度、有效预留空间占比、使用寿命等。在开启PEL后,每24小时会生成一个NVMe标准定义的SMART快照到PEL。
固件升级时,下发commit命令完成后,PEL会记录一条Firmware Commit事件,包括commit具体执行的参数,新固件激活前运行的固件版本,新固件版本等信息。
修改Timestamp会在PEL里记录为一条事件。
设备上电、Subsystem Reset、Controller Level Reset完成时,都会记录一条事件。如果有多次Reset事件,会记录在Reset Information List字段,包括执行Reset对应的Controller ID、power on次数、从生产到power on的时间、power on发生时对应的Controller时间戳。
所有被检测到的NVM Subsystem硬件错误事件都会被记录,错误事件格式包括NVM Subsystem Hardware Error Event Code和Additional Hardware Error Information两部分。值得一提的是,NVM Subsystem 硬件错误事件还会记录Media and Data Integrity Status,包括Media写入错误、不可修复的读取错误,以及NVMe端到端数据保护出错(如Guard/Application Tag/Reference Tag检错失败)等情况,进一步为PBlaze6 6530系列的端到端数据保护等功能提供维护保障。
创建或删除命名空间时会记录一条事件,包括会记录命名空间的大小、配置等信息。
Format可以实现安全擦除数据和一些配置修改,Format的开始和完成,以及对应的时间戳,都会记录到PEL中。
Sanitize可以快速清除用户数据,PEL会记录Sanitize的操作类型,完成进度等信息。
Persistent Event Log可通过标准nvmecli(版本在1.14+)指令进行收集,命令如下:
nvme persistent-event-log
在Persistent Event Log之外,我们还为PBlaze6 6530系列企业级SSD强化了包括NVMe端到端数据保护、TCG Opal 2.0等在内的诸多企业级功能,并在其性能、延时、能耗比等方面均做出了大幅改善与提升。
更多PBlaze6 6530详细介绍,看这里: