使用python進行服務器監控
Linux服務器中,一切皆為文件。也就是說服務器運行的各種信息,其實是可以從某些文件中查詢得到;
Linux系統中,有一個/proc的虛擬文件系統
Linux 系統為管理員提供了非常好的方法,使其可以在系統運行時更改內核,而不需要重新引導內核系統,這是通過/proc 虛擬文件系統實現的。/proc 文件虛擬系統是一種內核和內核模塊用來向進程(process)發送信息的機制(所以叫做“/proc”),這個偽文件系統允許與內核內部數據結構交互,獲取有關進程的有用信息,在運行中(on the fly)改變設置(通過改變內核參數)。與其他文件系統不同,/proc 存在於內存而不是硬盤中。proc 文件系統提供的信息如下:
1.進程信息:系統中的任何一個進程,在proc的子目錄中都有一個同名的進程ID,可以找到cmdline、mem、root、stat、statm以及status。某些信息只有超級用戶可見,例如進程根目錄。每一個單獨含有現有進程信息的進程有一些可用的專門鏈接,系統中的任何一個進程都有一個單獨的自鏈接指向進程信息,其用處就是從進程中獲取命令行信息。
2.系統信息:如果需要了解整個系統信息中也可以從/proc/stat 中獲得,其中包括 CPU 占用情況、磁盤空間、內存對換、中斷等
3.CPU 信息:利用/proc/CPUinfo 文件可以獲得中央處理器的當前准確信息
4.負載信息:/proc/loadavg 文件包含系統負載信息
5.系統內存信息:/proc/meminfo 文件包含系統內存的詳細信息,其中顯示物理內存的數量、可用交換空間的數量,以及空閑內存的數量等
/proc 目錄中的主要文件的說明
以上列出來了這么多,是不是看起來眼花繚亂,但是不要慌,其實我們進行服務器監控,只會經常用到其中比較少的以部門。
利用/proc文件系統進行服務器監控
以上我們知道了服務器信息可以從哪里獲取,那么下面,我們就是編寫腳本,讀取我們要獲取信息的文件,從中得到服務器的運行數據。下面是我們經常會需要監控的服務器的一些數據:
讀取/proc/meminfo獲取內存信息
該文件內容如下
MemTotal: 1017544 kB MemFree: 583304 kB MemAvailable: 756636 kB Buffers: 42996 kB Cached: 238820 kB SwapCached: 0 kB Active: 116092 kB Inactive: 252004 kB Active(anon): 11956 kB Inactive(anon): 85136 kB Active(file): 104136 kB Inactive(file): 166868 kB Unevictable: 0 kB Mlocked: 0 kB SwapTotal: 1044476 kB SwapFree: 1044272 kB Dirty: 64 kB Writeback: 0 kB AnonPages: 86304 kB Mapped: 48832 kB Shmem: 10812 kB Slab: 40648 kB SReclaimable: 29904 kB SUnreclaim: 10744 kB KernelStack: 2048 kB PageTables: 8232 kB NFS_Unstable: 0 kB Bounce: 0 kB WritebackTmp: 0 kB CommitLimit: 1553248 kB Committed_AS: 681428 kB VmallocTotal: 34359738367 kB VmallocUsed: 5796 kB VmallocChunk: 34359727572 kB HardwareCorrupted: 0 kB AnonHugePages: 32768 kB HugePages_Total: 0 HugePages_Free: 0 HugePages_Rsvd: 0 HugePages_Surp: 0 Hugepagesize: 2048 kB DirectMap4k: 34752 kB DirectMap2M: 1013760 kB
監控代碼:
""" 內存監控 """ def memory_stat(): mem = {} f = open('/proc/meminfo', 'r') lines = f.readlines() f.close() for line in lines: if len(line) < 2: continue name = line.split(':')[0] var = line.split(':')[1].split()[0] mem[name] = float(var) mem['MemUsed'] = mem['MemTotal'] - mem['MemFree'] - mem['Buffers'] - mem['Cached'] #記錄內存使用率 已使用 總內存和緩存大小 res = {} res['percent'] = int(round(mem['MemUsed'] / mem['MemTotal'] * 100)) res['used'] = round(mem['MemUsed'] / (1024 * 1024), 2) res['MemTotal'] = round(mem['MemTotal'] / (1024 * 1024), 2) res['Buffers'] = round(mem['Buffers'] / (1024 * 1024), 2) return res
讀取/proc/loadavg獲取CPU負載信息
該文件內容如下:
0.00 0.01 0.05 1/128 9424
簡單說明一下每個字段的含義,前三個參數分別為1、5、15分鍾內cpu的平均負載,第四個參數為正在運行的進程數和總進程數,最后一個代表最近活躍的進程ID
下面為python實現的監控CPU負載的代碼:
""" CPU負載監控 """ def load_stat(): loadavg = {} f = open("/proc/loadavg") con = f.read().split() f.close() loadavg['lavg_1']=con[0] loadavg['lavg_5']=con[1] loadavg['lavg_15']=con[2] loadavg['nr']=con[3] prosess_list = loadavg['nr'].split('/') loadavg['running_prosess']=prosess_list[0] loadavg['total_prosess']=prosess_list[1] loadavg['last_pid']=con[4] return loadavg
利用python的os包獲取硬盤信息
import os ''' os.statvfs方法用於返回包含文件描述符fd的文件的文件系統的信息。 語法:os.statvfs([path]) 返回值 f_bsize: 文件系統塊大小 f_frsize: 分棧大小 f_blocks: 文件系統數據塊總數 f_bfree: 可用塊數 f_bavail:非超級用戶可獲取的塊數 f_files: 文件結點總數 f_ffree: 可用文件結點數 f_favail: 非超級用戶的可用文件結點數 f_fsid: 文件系統標識 ID f_flag: 掛載標記 f_namemax: 最大文件長度 ''' def disk_stat(): hd={} disk = os.statvfs('/') hd['available'] = float(disk.f_bsize * disk.f_bavail) hd['capacity'] = float(disk.f_bsize * disk.f_blocks) hd['used'] = float((disk.f_blocks - disk.f_bfree) * disk.f_frsize) res = {} res['used'] = round(hd['used'] / (1024 * 1024 * 1024), 2) res['capacity'] = round(hd['capacity'] / (1024 * 1024 * 1024), 2) res['available'] = res['capacity'] - res['used'] res['percent'] = int(round(float(res['used']) / res['capacity'] * 100)) return res
獲取服務器的ip
在一個服務器上,可能有多塊網卡, 在獲取網卡信息時,你需要傳入網卡的名字,具體有哪些網卡,可以使用ifconfig
命令查看
""" 獲取當前服務器ip """ def get_ip(ifname): import socket import fcntl import struct s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) return socket.inet_ntoa(fcntl.ioctl(s.fileno(), 0x8915, struct.pack('256s', ifname[:15]))[20:24])
讀取/proc/net/dev獲取網卡流量信息
我們將會從該文件中獲得系統的網絡接口,以及當系統重啟之后通過它們數據發送和接受數據的信息。 /proc/net/dev文件讓這些信息可用。如果你檢查了這個文件的內容,你就會注意到頭一兩行包含了頭信息等等,這個文件第一列是網絡接口名,第二和第三列顯示了接收和發送的字節數信息(例如總發送字節數,包數,錯誤等等)。這里我們所感興趣的就是他哦難過不同的網絡設備提取出總發送數據和接收數據。下面的代碼展示了怎么從/proc/net/dev文件中提取出這些信息,文件內容會是這樣的:
下面將獲取每個網卡的進出流量信息:
#!/usr/bin/env python from __future__ import print_function def net_stat(): net = {} f = open("/proc/net/dev") lines = f.readlines() f.close for line in lines[2:]: line = line.split(":") eth_name = line[0].strip() if eth_name != 'lo': net_io = {} net_io['receive'] = round(float(line[1].split()[0]) / (1024.0 * 1024.0),2) net_io['transmit'] = round(float(line[1].split()[8]) / (1024.0 * 1024.0),2) net[eth_name] = net_io return net if __name__ == '__main__': netdevs = net_stat() print(netdevs)
最后在提供一個Apache服務的監控腳本
#!/usr/bin/env Python import os, sys, time while True: time.sleep(4) try: ret = os.popen('ps -C apache -o pid,cmd').readlines() if len(ret) < 2: print "apache 進程異常退出, 4 秒后重新啟動" time.sleep(3) os.system("service apache2 restart") except: print "Error", sys.exc_info()[1]