轉自:http://blog.csdn.net/yuzhihui_no1/article/details/51767516
最近在查一個Bug,應用程序kill之后重啟,總是會出現adc的設備open失敗,知道應該是占用沒有釋放,但是不知道怎么查找到底誰沒有釋放,於是查到lsof這個命令,使用lsof | grep iio追溯到是udhpcd占用。
1.lsof簡介
lsof(list open files)是一個列出當前系統打開文件的工具。在linux環境下,任何事物都以文件的形式存在,通過文件不僅僅可以訪問常規數據,還可以訪問網絡連接 和硬件。所以如傳輸控制協議 (TCP) 和用戶數據報協議 (UDP) 套接字等,系統在后台都為該應用程序分配了一個文件描述符,無論這個文件的本質如何,該文件描述符為應用程序與基礎操作系統之間的交互提供了通用接口。因 為應用程序打開文件的描述符列表提供了大量關於這個應用程序本身的信息,因此通過lsof工具能夠查看這個列表對系統監測以及排錯將是很有幫助的。
2.lsof使用
lsof輸出信息含義
在終端下輸入lsof即可顯示系統打開的文件,因為 lsof 需要訪問核心內存和各種文件,所以必須以 root 用戶的身份運行它才能夠充分地發揮其功能。
#lsof COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME init 1 root cwd DIR 3,3 1024 2 / init 1 root rtd DIR 3,3 1024 2 / init 1 root txt REG 3,3 38432 1763452 /sbin/init init 1 root mem REG 3,3 106114 1091620 /lib/libdl-2.6.so init 1 root mem REG 3,3 7560696 1091614 /lib/libc-2.6.so init 1 root mem REG 3,3 79460 1091669 /lib/libselinux.so.1 init 1 root mem REG 3,3 223280 1091668 /lib/libsepol.so.1 init 1 root mem REG 3,3 564136 1091607 /lib/ld-2.6.so init 1 root 10u FIFO 0,15 1309 /dev/initctl
每行顯示一個打開的文件,若不指定條件默認將顯示所有進程打開的所有文件。lsof輸出各列信息的意義如下:
- COMMAND:進程的名稱
- PID:進程標識符
- USER:進程所有者
- FD:文件描述符,應用程序通過文件描述符識別該文件。如cwd、txt等
- TYPE:文件類型,如DIR、REG等
- DEVICE:指定磁盤的名稱
- SIZE:文件的大小
- NODE:索引節點(文件在磁盤上的標識)
- NAME:打開文件的確切名稱
其中FD 列中的文件描述符cwd 值表示應用程序的當前工作目錄,這是該應用程序啟動的目錄,除非它本身對這個目錄進行更改。txt 類型的文件是程序代碼,如應用程序二進制文件本身或共享庫,如上列表中顯示的 /sbin/init 程序。其次數值表示應用程序的文件描述符,這是打開該文件時返回的一個整數。如上的最后一行文件/dev/initctl,其文件描述符為 10。u 表示該文件被打開並處於讀取/寫入模式,而不是只讀(R) 或只寫 (w) 模式。同時還有大寫 的W 表示該應用程序具有對整個文件的寫鎖。該文件描述符用於確保每次只能打開一個應用程序實例。初始打開每個應用程序時,都具有三個文件描述符,0、1、2, 分別表示標准輸入、輸出和錯誤流。所以大多數應用程序所打開的文件的 FD 都是從 3 開始。
與 FD 列相比,Type 列則比較直觀。文件和目錄分別稱為 REG 和 DIR(在 Solaris 中,稱為 VREG 和 VDIR)。而CHR 和 BLK,分別表示字符和塊設備; 或者 UNIX、FIFO 和 IPv4,分別表示 UNIX 域套接字、先進先出 (FIFO) 隊列和網際協議 (IP) 套接字。
3.lsof常用參數
lsof 常見的用法是查找應用程序打開的文件的名稱和數目。可用於查找出某個特定應用程序將日志數據記錄到何處,或者正在跟蹤某個問題。
例如,linux限制了進程能夠打開文件的數目。通常這個數值很大,所以不會產生問題,並且在需要時,應用程序可以請求更大的值(直到某
個上限)。如果你懷疑應用程序耗盡了文件描述符,那么可以使用 lsof 統計打開的文件數目,以進行驗證。lsof語法格式是:
lsof [options] filename
常用的參數列表:
- lsof filename 顯示打開指定文件的所有進程
- lsof -a 表示兩個參數都必須滿足時才顯示結果
- lsof -c string 顯示COMMAND列中包含指定字符的進程所有打開的文件
- lsof -u username 顯示所屬user進程打開的文件
- lsof -g gid 顯示歸屬gid的進程情況
- lsof +d /DIR/ 顯示目錄下被進程打開的文件
- lsof +D /DIR/ 同上,但是會搜索目錄下的所有目錄,時間相對較長
- lsof -d FD 顯示指定文件描述符的進程
- lsof -n 不將IP轉換為hostname,缺省是不加上-n參數
- lsof -i 用以顯示符合條件的進程情況
- lsof -i[46] [protocol][@hostname|hostaddr][:service|port] 46 --> IPv4 or IPv6
- protocol --> TCP or UDP
- hostname --> Internet host name
- hostaddr --> IPv4地址
- service --> /etc/service中的 service name (可以不只一個)
- port --> 端口號 (可以不只一個)
lsof +L/-L 打開或關閉文件的連結數計算,當+L沒有指定時,所有的連結數都會顯示(默認);若+L后指定數字,則只要連結數小於該數字的信息會顯示;連結數會顯示在NLINK列。
例如:+L1將顯示沒有unlinked的文件信息;+aL1,則顯示指定文件系統所有unlinked的文件信息。-L 默認參數,其后不能跟數字,將不顯示連結數信息lsof +L1
4.lsof使用實例
- 查看22端口現在運行的情況
# lsof -i :22 COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME sshd 1409 root 3u IPv6 5678 TCP *:ssh (LISTEN)
- 查看所屬root用戶進程所打開的文件類型為txt的文件
# lsof -a -u root -d txt COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME init 1 root txt REG 3,3 38432 1763452 /sbin/init mingetty 1632 root txt REG 3,3 14366 1763337 /sbin/mingetty mingetty 1633 root txt REG 3,3 14366 1763337 /sbin/mingetty mingetty 1634 root txt REG 3,3 14366 1763337 /sbin/mingetty mingetty 1635 root txt REG 3,3 14366 1763337 /sbin/mingetty mingetty 1636 root txt REG 3,3 14366 1763337 /sbin/mingetty mingetty 1637 root txt REG 3,3 14366 1763337 /sbin/mingetty kdm 1638 root txt REG 3,3 132548 1428194 /usr/bin/kdm X 1670 root txt REG 3,3 1716396 1428336 /usr/bin/Xorg kdm 1671 root txt REG 3,3 132548 1428194 /usr/bin/kdm startkde 2427 root txt REG 3,3 645408 1544195 /bin/bash
- 查找誰在使用文件系統
# lsof /GTES11/ COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME bash 4208 root cwd DIR 3,1 4096 2 /GTES11/ vim 4230 root cwd DIR 3,1 4096 2 /GTES11/
在這個示例中,用戶root正在其/GTES11目錄中進行一些操作。一個 bash是實例正在運行,並且它當前的目錄為/GTES11,另一個則顯示的是vim正在編輯/GTES11下的文件。要成功地卸載/GTES11,應該在通知用戶以確保情況正常之后,中止這些進程。 這個示例說明了應用程序的當前工作目錄非常重要,因為它仍保持着文件資源,並且可以防止文件系統被卸載。這就是為什么大部分守護進程(后台進程)將它們的目錄更改為根目錄、或服務特定的目錄(如 sendmail 示例中的 /var/spool/mqueue)的原因,以避免該守護進程阻止卸載不相關的文件系統。
- 搜索打開的網絡連接
如果想搜索IP地址為10.645.64.23的遠程連接主機的所有網絡連接,可以執行如下命令,該命令可以打開系統中該遠程知己所有打開的套接字。:
/usr/sbin/lsof –i@10.65.64.23
- 尋找本地斷開的打開文件
用戶經常遇到這種情況,當一個進程正在向一個文件寫數據時,該文件的目錄可能被移動。這就產生了一個非常大的問題。例如,用戶可能發現正在向/data寫數據,但是卻看不到文件增大,LSOF這個工具可以找到到這樣的錯誤
/usr/sbin/lsof –a +L1 /data
- 搜索被程序打開的所有文件及打開的文件相關聯進程
如果想知道執行PID號為637的sendmail命令打開的所有文件、設備、庫及套接字等,可以執行
lsof -p 637
- c 顯示出以字母 c開頭進程現在打開的文件
例:顯示以init進程現在打開的文件
# lsof -c init COMMAND PID USER FD TYPE DEVICE SIZE/OFF INODE NAME init 1 root cwd VDIR 4095,365376 8192 2 / init 1 root txt VREG 4095,365376 286720 463 /sbin/init
- login name(登入名稱)或UID所正在打開文件。
# lsof -u loginname
- 恢復刪除的文件
當Linux計算機受到入侵時,常見的情況是日志文件被刪除,以掩蓋攻擊者的蹤跡。管理錯誤也可能導致意外刪除重要的文件,比如在清理舊日志時,意外地刪除了數據庫的活動事務日志。有時可以通過lsof來恢復這些文件。
當進程打開了某個文件時,只要該進程保持打開該文件,即使將其刪除,它依然存在於磁盤中。這意味着,進程並不知道文件已經被刪除,它仍然可以向打開該文件 時提供給它的文件描述符進行讀取和寫入。除了該進程之外,這個文件是不可見的,因為已經刪除了其相應的目錄索引節點。
在/proc 目錄下,其中包含了反映內核和進程樹的各種文件。/proc目錄掛載的是在內存中所映射的一塊區域,所以這些文件和目錄並不存在於磁盤中,因此當我們對這 些文件進行讀取和寫入時,實際上是在從內存中獲取相關信息。大多數與 lsof 相關的信息都存儲於以進程的 PID 命名的目錄中,即 /proc/1234 中包含的是 PID 為 1234 的進程的信息。每個進程目錄中存在着各種文件,它們可以使得應用程序簡單地了解進程的內存空間、文件描述符列表、指向磁盤上的文件的符號鏈接和其他系統信 息。lsof 程序使用該信息和其他關於內核內部狀態的信息來產生其輸出。所以lsof 可以顯示進程的文件描述符和相關的文件名等信息。也就是我們通過訪問進程的文件描述符可以找到該文件的相關信息。
當系統中的某個文件被意外地刪除了,只要這個時候系統中還有進程正在訪問該文件,那么我們就可以通過lsof從/proc目錄下恢復該文件的內容。 假如由於誤操作將/var/log/messages文件刪除掉了,那么這時要將/var/log/messages文件恢復的方法如下:
首先使用lsof來查看當前是否有進程打開/var/logmessages文件,如下:
# lsof |grep /var/log/messages syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted)
從上面的信息可以看到 PID 1283(syslogd)打開文件的文件描述符為 2。同時還可以看到/var/log/messages已經標記被刪除了。因此我們可以在 /proc/1283/fd/2 (fd下的每個以數字命名的文件表示進程對應的文件描述符)中查看相應的信息,如下:
# head -n 10 /proc/1283/fd/2 Aug 4 13:50:15 holmes86 syslogd 1.4.1: restart. Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started. Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8 (root@everestbuilder.linux-ren.org ) (gcc version 4.2.0) #1 SMP Wed Jul 18 11:18:32 EDT 2007 Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM map: Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 - 000000000009f000 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000100000 - 000000001f7d3800 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved)
從上面的信息可以看出,查看 /proc/8663/fd/15 就可以得到所要恢復的數據。如果可以通過文件描述符查看相應的數據,那么就可以使用 I/O 重定向將其復制到文件中,如:
cat /proc/1283/fd/2 > /var/log/messages
對於許多應用程序,尤其是日志文件和數據庫,這種恢復刪除文件的方法非常有用。
- 在 Solaris 中查找刪除的文件
# lsof -a -p 8663 -d ^txt COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME httpd 8663 nobody cwd VDIR 136,8 1024 2 / httpd 8663 nobody 0r VCHR 13,2 6815752 /devices/pseudo/mm@0:null httpd 8663 nobody 1w VCHR 13,2 6815752 /devices/pseudo/mm@0:null httpd 8663 nobody 2w VREG 136,8 185 145465 / (/dev/dsk/c0t0d0s0) httpd 8663 nobody 4r DOOR 0t0 58 /var/run/name_service_door (door to nscd[81]) (FA:->0x30002b156c0) httpd 8663 nobody 15w VREG 136,8 185 145465 / (/dev/dsk/c0t0d0s0) httpd 8663 nobody 16u IPv4 0x300046d27c0 0t0 TCP *:80 (LISTEN) httpd 8663 nobody 17w VREG 136,8 0 145466 /var/apache/logs/access_log httpd 8663 nobody 18w VREG 281,3 0 9518013 /var/run (swap)
使用 -a 和 -d 參數對輸出進行篩選,以排除代碼程序段,"^"是取反的意思。Name 列顯示出,其中的兩個文件(FD 2 和 15)使用磁盤名代替了文件名,並且它們的類型為 VREG(常規文件)。在 Solaris 中,刪除的文件將顯示文件所在的磁盤的名稱。通過這個線索,就可以知道該 FD 指向一個刪除的文件。實際上,查看 /proc/8663/fd/15 就可以得到所要查找的數據。
- linux lsof 修改句柄限制
在Linux下,我們使用ulimit -n 命令可以看到單個進程能夠打開的最大文件句柄數量(socket連接也算在里面)。系統默認值1024。對於一般的應用來說(象Apache、系統進 程)1024完全足夠使用。但是如何象squid、mysql、java等單進程處理大量請求的應用來說就有點捉襟見肘了。如果單個進程打開的文件句柄數 量超過了系統定義的值,就會提到“too many files open”的錯誤提示。在系統訪問高峰時間以root用戶執行如下腳本時,可能出現的結果如下:
# lsof -n|awk '{print $2}'|sort|uniq -c |sort -nr|more 131 24204 57 24244 57 24231 56 24264
其中第一列是打開的文件句柄數量,第二行是進程號。得到進程號后,我們可以通過ps命令得到進程的詳細內容。
#ps -aef|grep 24204 mysql 24204 24162 99 16:15 ? 00:24:25 /usr/sbin/mysqld
查看得知是mysql進程打開最多文件句柄數量。但是他目前只打開了131個文件句柄數量,遠遠底於系統默認值1024。
但是如果系統並發特別大,尤其是squid服務器,很有可能會超過1024。這時候就必須要調整系統參數,以適應應用變化。Linux關於打開文件句柄數量,有硬性限制和軟性限制。可以通過ulimit來設定這兩個參數。方法如下,以root用戶運行以下命令:
#ulimit -HSn 4096
以上命令中,H指定了硬性大小,S指定了軟性大小,n表示設定單個進程最大的打開文件句柄數量。個人覺得最好不要超過4096,畢竟打開的文件句柄數越多 響應時間肯定會越慢。設定句柄數量后,系統重啟后,又會恢復默認值。如果想永久保存下來,可以修改 /etc/profile 把上面命令加到最后。
參考至:http://hi.baidu.com/angel_dbi/item/cd2b35eac71920f62b09a4f9
http://www.linuxdiyf.com/viewarticle.php?id=17343
http://www.cnblogs.com/rootq/articles/1401850.html
http://www.ibm.com/developerworks/cn/aix/library/au-lsof.html
本文原創,轉載請注明出處、作者
如有錯誤,歡迎指正