Blog Post

1. 概述 — 曦云系列通用计算GPU mx

3.3. 查询选项

--show-temperature

显示板卡上温度传感器读取的温度,单位是摄氏度。

--show-version

显示BIOS,驱动和Firmware的版本信息。

--show-hbm-bandwidth

显示显存的动态带宽信息。

--show-pcie-bandwidth

显示PCIe动态带宽信息。

--show-usage

显示GPU、VPU的使用率。使用率反应过去一段采样周期内硬件资源的使用情况。

--show-memory

显示存储资源的使用情况,包括板卡显存和板卡可以访问的系统内存。

--show-board-power

显示板卡当前的电压,电流和功耗信息。

--show-pmbus-power

显示芯片内的电压,电流和功耗信息。

--show-eeprom

显示EEPROM记录的信息,包括板卡版本,板卡序列号等。

--show-clocks all

显示板卡的时钟信息。

--show-dpm cur

显示当前的performance level设置。

--show-dpm all

显示支持的performance level及其对应的时钟和电压信息,为设置performance level做参考。

--show-dpm-max

显示支持的performance level的最高级别。

--show-pcie

显示PCIe当前及最大带宽和速率。

--show-sn

显示板卡序列号。

--show-process

显示当前运行的进程信息。

--show-power-mode

显示板卡的电源模式,未用 -i 指定板卡时,默认显示所有板卡的电源模式信息。

--show-event

显示KMD关键事件信息,可指定显示相应pci错误类型或全部类型的关键事件信息,包括大小,次数,第一次发生时间,事件内容等。

未用 -i 指定板卡时,默认显示所有板卡的关键事件信息。详细信息参见表 1。

表 1 KMD关键事件信息

事件类型

说明

aer_ue

PCIe AER uncorrectable error,仅PF模式支持查询。

aer_ce

PCIe AER correctable error,仅PF模式支持查询。

synfld

PCIe syncflood error,仅PF模式支持查询,且曦云系列独有。

dbe

PCI device base error,仅PF模式支持查询。

mmio

PCI mmio invalid(disconnected),PF与VF模式均支持查询。

--show-clk-tr

显示板卡降频原因信息。 Active 表示对应项为降频原因;全为 Not Active 表示当前未降频。未用 -i 指定板卡时,默认显示所有板卡的降频原因信息。

--show-unavailable-reason

当使用 mx-smi -L 命令查看设备状态为not available时,可用以上命令查看具体不可用原因以及参考建议。

-i ID, --index ID

显示指定板卡的信息。如果没有指定,默认显示全部板卡的信息。 ID 是从0开始的自然数,可以通过 -L , --list 获取板卡的ID信息。可指定一个或多个 ID ,多个ID用“,”分隔,如“0,1,5”,“0-2”,“0-4,6”,“all”等。

-o, fileName, --output fileName

可以将命令输出写入csv格式的文件中,支持显示的命令有:

--show-temperature

--show-board-power

--show-version

--show-usage

--show-memory

--show-pcie

--show-dpm cur

--show-pmbus-power

--show-vpu

-l ms, --loop ms

以特定的间隔周期持续显示板卡信息,单位是毫秒。执行 Ctrl+C 可退出持续查询。

示例 :

以500ms周期持续显示所有卡的温度,功耗,使用率信息:

mx-smi --show-temperature --show-board-power --show-usage -l 500

以1s周期将GPU0 - GPU3的温度,功耗,使用率信息写文件:

mx-smi --show-temperature --show-board-power --show-usage -i 0-3 -l 1000 -o sample.csv