3.3. 查询选项
--show-temperature
显示板卡上温度传感器读取的温度,单位是摄氏度。
--show-version
显示BIOS,驱动和Firmware的版本信息。
--show-hbm-bandwidth
显示显存的动态带宽信息。
--show-pcie-bandwidth
显示PCIe动态带宽信息。
--show-usage
显示GPU、VPU的使用率。使用率反应过去一段采样周期内硬件资源的使用情况。
--show-memory
显示存储资源的使用情况,包括板卡显存和板卡可以访问的系统内存。
--show-board-power
显示板卡当前的电压,电流和功耗信息。
--show-pmbus-power
显示芯片内的电压,电流和功耗信息。
--show-eeprom
显示EEPROM记录的信息,包括板卡版本,板卡序列号等。
--show-clocks all
显示板卡的时钟信息。
--show-dpm cur
显示当前的performance level设置。
--show-dpm all
显示支持的performance level及其对应的时钟和电压信息,为设置performance level做参考。
--show-dpm-max
显示支持的performance level的最高级别。
--show-pcie
显示PCIe当前及最大带宽和速率。
--show-sn
显示板卡序列号。
--show-process
显示当前运行的进程信息。
--show-power-mode
显示板卡的电源模式,未用 -i 指定板卡时,默认显示所有板卡的电源模式信息。
--show-event
显示KMD关键事件信息,可指定显示相应pci错误类型或全部类型的关键事件信息,包括大小,次数,第一次发生时间,事件内容等。
未用 -i 指定板卡时,默认显示所有板卡的关键事件信息。详细信息参见表 1。
表 1 KMD关键事件信息
事件类型
说明
aer_ue
PCIe AER uncorrectable error,仅PF模式支持查询。
aer_ce
PCIe AER correctable error,仅PF模式支持查询。
synfld
PCIe syncflood error,仅PF模式支持查询,且曦云系列独有。
dbe
PCI device base error,仅PF模式支持查询。
mmio
PCI mmio invalid(disconnected),PF与VF模式均支持查询。
--show-clk-tr
显示板卡降频原因信息。 Active 表示对应项为降频原因;全为 Not Active 表示当前未降频。未用 -i 指定板卡时,默认显示所有板卡的降频原因信息。
--show-unavailable-reason
当使用 mx-smi -L 命令查看设备状态为not available时,可用以上命令查看具体不可用原因以及参考建议。
-i ID, --index ID
显示指定板卡的信息。如果没有指定,默认显示全部板卡的信息。 ID 是从0开始的自然数,可以通过 -L , --list 获取板卡的ID信息。可指定一个或多个 ID ,多个ID用“,”分隔,如“0,1,5”,“0-2”,“0-4,6”,“all”等。
-o, fileName, --output fileName
可以将命令输出写入csv格式的文件中,支持显示的命令有:
--show-temperature
--show-board-power
--show-version
--show-usage
--show-memory
--show-pcie
--show-dpm cur
--show-pmbus-power
--show-vpu
-l ms, --loop ms
以特定的间隔周期持续显示板卡信息,单位是毫秒。执行 Ctrl+C 可退出持续查询。
示例 :
以500ms周期持续显示所有卡的温度,功耗,使用率信息:
mx-smi --show-temperature --show-board-power --show-usage -l 500
以1s周期将GPU0 - GPU3的温度,功耗,使用率信息写文件:
mx-smi --show-temperature --show-board-power --show-usage -i 0-3 -l 1000 -o sample.csv