最近阿里雲頻頻告警。磁盤使用率飆升90%以上。遂查看磁盤使用情況
df -h
發現使用率卻是很高
之后,通過du -h --max-depth=1 / 查看哪個目錄下占用的資源較多並進行刪除
后來發現:
未釋放磁盤空間原因:
在Linux或者Unix系統中,通過rm或者文件管理器刪除文件將會從文件系統的文件夾結構上解除鏈接(unlink).然而假設文件是被
打開的(有一個進程正在使用),那么進程將仍然能夠讀取該文件,磁盤空間也一直被占用。
查看已經被刪除,但是還在占用資源的文件列表:
[root@ticketb ~]# lsof |grep deleted oracle 12639 oracle 5w REG 253,0 648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted) oracle 12639 oracle 6w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted) oracle 12639 oracle 7u REG 253,0 0 36282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted) oracle 12639 oracle 8w REG 253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)
怎樣讓進程釋放呢?
一種方法是kill掉相應的進程,或者停掉使用這個文件的應用,讓os自己主動回收磁盤空間
我這個環境有非常多進程在使用的這個文件,停掉進程有點麻煩,再有就是風險非常大
當linux打開一個文件的時候,Linux內核會為每個進程在/proc/ 『/proc/nnnn/fd/文件夾(nnnn為pid)』建立一個以其pid
為名的文件夾用來保存進程的相關信息,而其子文件夾fd保存的是該進程打開的全部文件的fd(fd:file descriptor)。
kill進程是通過截斷proc文件系統中的文件能夠強制要求系統回收分配給正在使用的的文件。
這是一項高級技術,僅到管理員確定不會對執行中的進程造成影響時使用。應用程序對這樣的方
式支持的並不好,當一個正在使用的文件被截斷可能會引發不可預知的問題
本人是使用了kill -9 進程號。的方式暴力解決這個問題的
lsof | grep deleted | awk '{print $2}' | xargs kill -9
學習下lsof命令 lsof全名list opened files,也就是列舉系統中已經被打開的文件。我們都知道,linux環境中,不論什么事物都是文件, 設備是文件,文件夾是文件,甚至sockets也是文件。所以,用好lsof命令,對日常的linux管理非常有幫助。 lsof是linux最常常使用的命令之中的一個,通常的輸出格式為: 引用 COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME 常見包含例如以下幾個字段:許多其他的可見manual。 1、COMMAND 默認以9個字符長度顯示的命令名稱。可使用+c參數指定顯示的寬度,若+c后跟的參數為零,則顯示命令的全名 2、PID:進程的ID號 3、PPID 父進程的IP號,默認不顯示,當使用-R參數可打開。 4、PGID 進程組的ID編號,默認也不會顯示,當使用-g參數時可打開。 5、USER 命令的執行UID或系統中登陸的username稱。默認顯示為username,當使用-l參數時,可顯示UID。 6、FD 是文件的File Descriptor number,或者例如以下的內容: (這里非常難翻譯相應的意思,保留英文) 引用 cwd current working directory; Lnn library references (AIX); jld jail directory (FreeBSD); ltx shared library text (code and data); Mxx hex memory-mapped type number xx. m86 DOS Merge mapped file; mem memory-mapped file; mmap memory-mapped device; pd parent directory; rtd root directory; tr kernel trace file (OpenBSD); txt program text (code and data); v86 VP/ix mapped file; 文件的File Descriptor number顯示模式有: 引用 r for read access; w for write access; u for read and write access; N for a Solaris NFS lock of unknown type; r for read lock on part of the file; R for a read lock on the entire file; w for a write lock on part of the file; W for a write lock on the entire file; u for a read and write lock of any length; U for a lock of unknown type; x for an SCO OpenServer Xenix lock on part of the file; X for an SCO OpenServer Xenix lock on the entire file; space if there is no lock. 7、TYPE 引用 IPv4 IPv4的包; IPv6 使用IPv6格式的包,即使地址是IPv4的,也會顯示為IPv6,而映射到IPv6的地址; DIR 文件夾 LINK 鏈接文件 詳情請看manual中許多其他的凝視。 8、DEVICE 使用character special、block special表示的設備號 9、SIZE 文件的大小,假設不能用大小表示的,會留空。使用-s參數控制。 10、NODE 本地文件的node碼,或者協議,如TCP等 11、NAME 掛載點和文件的全路徑(鏈接會被解析為實際路徑),或者連接兩方的地址和端口、狀態等 常常使用演示例子: 1.顯示開啟文件/home/oracle/10.2.0/db_1/bin/tnslsnr的進程 [root@svr-db-test ~]# lsof /home/oracle/10.2.0/db_1/bin/tnslsnr COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME tnslsnr 3520 oracle txt REG 253,5 431062 11408866 /home/oracle/10.2.0/db_1/bin/tnslsnr 2.知道22端口如今執行什么程序 [root@svr-db-test ~]# lsof -i :22 COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME sshd 3101 root 3u IPv6 8670 TCP *:ssh (LISTEN) sshd 4545 root 3u IPv6 4237972 TCP 203.aibo.com:ssh->win-avbmq9e8ka7.gdgg.local:nsjtp-ctrl (ESTABLISHED) 3.顯示init進程如今打開的文件 [root@svr-db-test ~]# lsof -c init COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME init 1 root cwd DIR 253,0 4096 2 / init 1 root rtd DIR 253,0 4096 2 / init 1 root txt REG 253,0 43496 524446 /sbin/init init 1 root mem REG 253,0 130448 917826 /lib64/ld-2.5.so init 1 root mem REG 253,0 1678480 917827 /lib64/libc-2.5.so init 1 root mem REG 253,0 23520 917686 /lib64/libdl-2.5.so init 1 root mem REG 253,0 247528 917844 /lib64/libsepol.so.1 init 1 root mem REG 253,0 95480 917845 /lib64/libselinux.so.1 init 1 root 10u FIFO 0,16 2311 /dev/initctl 看進程號為1的進程打開了哪些文件 [root@svr-db-test ~]# lsof -p 1 COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME init 1 root cwd DIR 253,0 4096 2 / init 1 root rtd DIR 253,0 4096 2 / init 1 root txt REG 253,0 43496 524446 /sbin/init init 1 root mem REG 253,0 130448 917826 /lib64/ld-2.5.so init 1 root mem REG 253,0 1678480 917827 /lib64/libc-2.5.so init 1 root mem REG 253,0 23520 917686 /lib64/libdl-2.5.so init 1 root mem REG 253,0 247528 917844 /lib64/libsepol.so.1 init 1 root mem REG 253,0 95480 917845 /lib64/libselinux.so.1 init 1 root 10u FIFO 0,16 2311 /dev/initctl 顯示歸屬3520的進程情況 [root@svr-db-test ~]# lsof -g 3520 COMMAND PID PGID USER FD TYPE DEVICE SIZE NODE NAME tnslsnr 3520 3520 oracle cwd DIR 253,5 4096 11059201 /home/oracle tnslsnr 3520 3520 oracle rtd DIR 253,0 4096 2 / tnslsnr 3520 3520 oracle txt REG 253,5 431062 11408866 /home/oracle/10.2.0/db_1/bin/tnslsnr tnslsnr 3520 3520 oracle mem REG 253,0 130448 917826 /lib64/ld-2.5.so tnslsnr 3520 3520 oracle mem REG 253,0 1678480 917827 /lib64/libc-2.5.so tnslsnr 3520 3520 oracle mem REG 253,0 23520 917686 /lib64/libdl-2.5.so tnslsnr 3520 3520 oracle mem REG 253,0 615136 917834 /lib64/libm-2.5.so tnslsnr 3520 3520 oracle mem REG 253,0 141208 917829 /lib64/libpthread-2.5.so tnslsnr 3520 3520 oracle mem REG 253,0 109824 917839 /lib64/libnsl-2.5.so tnslsnr 3520 3520 oracle mem REG 253,5 20706622 11405436 /home/oracle/10.2.0/db_1/lib/libclntsh.so.10.1 tnslsnr 3520 3520 oracle mem REG 253,5 3803097 11410641 /home/oracle/10.2.0/db_1/lib/libnnz10.so tnslsnr 3520 3520 oracle mem REG 253,5 83493 11407251 /home/oracle/10.2.0/db_1/lib/libons.so tnslsnr 3520 3520 oracle mem REG 253,0 53880 917532 /lib64/libnss_files-2.5.so tnslsnr 3520 3520 oracle mem REG 253,5 8545 11407615 /home/oracle/10.2.0/db_1/lib/libskgxn2.so tnslsnr 3520 3520 oracle mem REG 253,5 513705 11410332 /home/oracle/10.2.0/db_1/lib/libocrutl10.so tnslsnr 3520 3520 oracle mem REG 253,5 636161 11410330 /home/oracle/10.2.0/db_1/lib/libocr10.so tnslsnr 3520 3520 oracle mem REG 253,5 657825 11410331 /home/oracle/10.2.0/db_1/lib/libocrb10.so tnslsnr 3520 3520 oracle mem REG 253,5 1745769 11410365 /home/oracle/10.2.0/db_1/lib/libhasgen10.so tnslsnr 3520 3520 oracle mem REG 253,5 61985 11410366 /home/oracle/10.2.0/db_1/lib/libclsra10.so tnslsnr 3520 3520 oracle 0u CHR 1,3 2553 /dev/null tnslsnr 3520 3520 oracle 1u CHR 1,3 2553 /dev/null tnslsnr 3520 3520 oracle 2u CHR 1,3 2553 /dev/null tnslsnr 3520 3520 oracle 3w REG 253,5 318853012 11633459 /home/oracle/10.2.0/db_1/network/log/listener.log tnslsnr 3520 3520 oracle 4r FIFO 0,6 15661 pipe tnslsnr 3520 3520 oracle 5r REG 253,5 11776 11410579 /home/oracle/10.2.0/db_1/network/mesg/nlus.msb tnslsnr 3520 3520 oracle 6r REG 253,5 46592 11407160 /home/oracle/10.2.0/db_1/network/mesg/tnsus.msb tnslsnr 3520 3520 oracle 7w FIFO 0,6 15662 pipe tnslsnr 3520 3520 oracle 8u IPv4 15665 TCP 203.aibo.com:ncube-lm (LISTEN) tnslsnr 3520 3520 oracle 9u unix 0xffff81021b7d6980 15666 /var/tmp/.oracle/s#3520.1 tnslsnr 3520 3520 oracle 10u unix 0xffff81021b7d66c0 15668 /var/tmp/.oracle/s#3520.2 6.按照文件夾/home/oracle來搜尋,但不會打開子文件夾,用來顯示文件夾下被進程開啟的文件 [root@svr-db-test ~]# lsof +d /home/oracle COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME tnslsnr 3520 oracle cwd DIR 253,5 4096 11059201 /home/oracle 打開/home/oracle文件夾以及其子文件夾搜尋,用來顯示文件夾下被進程開啟的文件 [root@svr-db-test ~]# lsof +D /home/oracle 顯示內容太多了,不顯示了 lsof -i 用以顯示符合條件的進程情況 語法: lsof -i[46] protocol[:service|port] 46 --> IPv4 or IPv6 protocol --> TCP or UDP hostname --> Internet host name hostaddr --> IPv4位置 service --> /etc/service中的 service name (能夠不僅僅一個) port --> 端口號 (能夠不僅僅一個) 例: [root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 -n COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME oracle 15633 oracle 16u IPv4 4069605 TCP 192.168.2.203:31580->192.168.2.245:ncube-lm (ESTABLISHED) 或 [root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME oracle 15633 oracle 16u IPv4 4069605 TCP 203.aibo.com:31580->192.168.2.245:ncube-lm (ESTABLISHED) lsof -n 不將IP轉換為hostname,缺省是不加上-n參數 顯示某用戶的已經打開的文件(或該用戶執行程序已經打開的文件) [root@svr-db-test ~]# lsof -u oracle 或 [root@svr-db-test ~]# lsof -u 0 僅打印進程,方便shell腳本調用 [root@svr-db-test ~]# lsof -tc sshd 3101 4545 關注: 進程調試命令:truss、strace和ltrace