基本情況
系統:
ubuntu16.04
症狀:
who命令可以用,w命令用不了
sudo iotop命令會卡住,黑屏
nvidia-smi命令和nvl命令都用不了,卡住
排查步驟
strace ps xauf
可以看到,是編號為42943的進程出問題了,卡在I/O上了。
第一想法嘗試kill它,發現top或ps -ef找不到此進程。
查看進程狀態的另一方式是直接cat文件:
sudo cat /proc/42943/stat
D狀態表示“uninterruptible sleep”。這種進程沒法被kill -9殺掉的。解決辦法只能是重啟系統,如果重啟后還有這個問題就是磁盤問題了。當然,還要一種可能,NFS的問題。但是我們這里應該是沒有用NFS,所以沒考慮NFS。
看看這個進程大概是做什么,讀寫哪個文件:
sudo ls /proc/42943/fd -l
參考
https://unix.stackexchange.com/questions/10980/suggestions-needed-to-debug-why-ps-ef-gets-stuck