很久不搭理自己的網站了,幾天突然發現啟動程序總是被killed,
於是查看了系統日志
vi /var/log/messages
發現出現 kernel: Out of memory: Kill process
這意味着整個系統的內存已經不足,如果不殺死進程的話,就會導致系統的崩潰.
Aug 15 13:05:48 izm5earhdmowvut444lz7hz kernel: Out of memory: Kill process 8292 (java) score 150 or sacrifice child Aug 15 13:05:48 izm5earhdmowvut444lz7hz kernel: Killed process 8292 (java) total-vm:2304568kB, anon-rss:156608kB, file-rss:164kB, shmem-rss:0kB
阿里雲我購買的最便宜的套餐都是1g 1核 1兆的,程序運行得多了所以出現了這樣問題
解決方法(查詢他人做法如下:)
//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
原來linux下也有內存OOM的處理,不同於android 殺掉報OOM的進程,linux是殺掉當前最占用內存的進程。
當linux報OOM時,意味着整個系統的內存已經不足,如果不殺死進程的話,就會導致系統的崩潰。每個進程都會存有一個oom_score的參數,比如輸出pid為988的oom_score:
cat /proc/988/oom_score
OOM Killer 會在系統報OOM的時候,殺死當前score最高的進程,一般情況也就是占用內存最大的進程。
解決方法:一是增加系統內存,二是優化進程,使其占用內存降低。三是可以使用oom_score_adj參數,這個參數會被計算入oom_score,可以避免進程被殺死(不推薦使用)。
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
本人租用的雲服務器,為了節約成本,各項配置都是比較低的,但是又運行了很多的服務,所以要經常查看內存占用情況以檢查哪些服務存在問題並調整參數作調優。當然,實際的生成服務器,也可能會需要做些類似的操作的。
1、 top命令
top命令經常用來監控linux的系統狀況,比如cpu、內存的使用,程序員基本都知道這個命令。
進入監控界面后按M后可以看到以內存占用大小排序的視圖:
2、free -m
使用這個命令可以直接看內存的整個使用情況:
3、ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' | grep oracle | sort -nrk5
rsz為實際內存占用:
///////////////////top 命令:
CentOS詳解top命令各個數據的含義
最近在docker(宿主機是centos虛擬機)里安裝gitlab,發現隨着時間的運行,虛擬機的內存持續走高,運行幾個小時之后內存已經爆掉了,putty遠程處理於假死狀態。
這個時候就需要查看內存進程,發現有10多個ruby進程在運行,最終定位到docker容器的問題。
使用到的指令:
查看內存使用情況
$ free -m $ top //shift+m按內存占用比排序
清理內存(效果不是很理想,最終只能強制關閉虛擬機0_0)
# sync # echo 3 > /proc/sys/vm/drop_caches
top命令經常用來監控linux的系統狀況,比如cpu、內存的使用,下面是各個數據的含義。
第一行:
13:42:59 當前系統時間
6 days, 9:29 系統已經運行了6天6小時29分鍾(在這期間沒有重啟過)
3 users 當前有3個用戶登錄系統
load average: 3.06,3.01, 1.79 load average后面的三個數分別是1分鍾、5分鍾、15分鍾的負載情況。
load average數據是每隔5秒鍾檢查一次活躍的進程數,然后按特定算法計算出的數值。如果這個數除以邏輯 CPU的數量,結果高於5的時候就表明系統在超負荷運轉了。
第二行: Tasks 任務(進程)
系統現在共有131個進程,其中處於運行中的有3個,127個在休眠(sleep),stoped狀態的有0個,zombie狀態(僵屍)的有1個。
第三行:cpu狀態
10.6% us 用戶空間占用CPU的百分比。
2.2% sy 內核空間占用CPU的百分比。
0.0% ni 改變過優先級的進程占用CPU的百分比
84.5% id 空閑CPU百分比
2.5% wa IO等待占用CPU的百分比
0.1% hi 硬中斷(Hardware IRQ)占用CPU的百分比
0.0% si 軟中斷(Software Interrupts)占用CPU的百分比
在這里CPU的使用比率和windows概念不同,如果你不理解用戶空間和內核空間,需要充充電了。
第四行:內存狀態
8300124k total 物理內存總量(8GB)
5979476k used 使用中的內存總量(5.7GB)
2320648k free 空閑內存總量(2.2G)
455544k buffers 緩存的內存量 (434M)
第五行:swap交換分區
8193108k total 交換區總量(8GB)
41568k used 使用的交換區總量(40.6M)
8151540k free 空閑交換區總量(8GB)
4217456k cached 緩沖的交換區總量(4GB)
這里要說明的是不能用windows的內存概念理解這些數據,如果按windows的方式此台服務器危矣:8G的內存總量只剩下530M的可用內存。Linux的內存管理有其特殊性,復雜點需要一本書來說明,這里只是簡單說點和我們傳統概念(windows)的不同。
第四行中使用中的內存總量(used)指的是現在系統內核控制的內存數,空閑內存總量(free)是內核還未納入其管控范圍的數量。納入內核管理的內存不見得都在使用中,還包括過去使用過的現在可以被重復利用的內存,內核並不把這些可被重新使用的內存交還到free中去,因此在linux上free內存會越來越少,但不用為此擔心。
如果出於習慣去計算可用內存數,這里有個近似的計算公式:第四行的free + 第四行的buffers + 第五行的cached,按這個公式此台服務器的可用內存: 2320648+455544 +4217456 = 6.6GB。
對於內存監控,在top里我們要時刻監控第五行swap交換分區的used,如果這個數值在不斷的變化,說明內核在不斷進行內存和swap的數據交換,這是真正的內存不夠用了。
第六行是空行
第七行以下:各進程(任務)的狀態監控
PID 進程id
USER 進程所有者
PR 進程優先級
NI nice值。負值表示高優先級,正值表示低優先級
VIRT 進程使用的虛擬內存總量,單位kb。VIRT=SWAP+RES
RES 進程使用的、未被換出的物理內存大小,單位kb。RES=CODE+DATA
SHR 共享內存大小,單位kb
S 進程狀態。D=不可中斷的睡眠狀態 R=運行 S=睡眠 T=跟蹤/停止 Z=僵屍進程
%CPU 上次更新到現在的CPU時間占用百分比
%MEM 進程使用的物理內存百分比
TIME+ 進程使用的CPU時間總計,單位1/100秒
COMMAND 進程名稱(命令名/命令行)
多U多核CPU監控
在top基本視圖中,按鍵盤數字1,可監控每個邏輯CPU的狀況:
觀察視圖,服務器有4個邏輯CPU,實際上是1個物理CPU。
進程字段排序
默認進入top時,各進程是按照CPU的占用量來排序的,在【top視圖 01】中進程ID為3527的mysqld進程排在第一(cpu占用2%),進程ID為26955的java進程排在第二(cpu占用1%)。
可通過鍵盤指令來改變排序字段,比如想監控哪個進程占用MEM最多,我一般的使用方法如下:
- 敲擊鍵盤b(打開/關閉加亮效果),top的視圖變化如下:
我們發現進程id為20517的top進程被加亮了,一般為運行狀態(runing)的進程才被加亮,可以通過敲擊y鍵關閉或打開運行態進程的加亮效果。
- 敲擊鍵盤x(打開/關閉排序列的加亮效果),top的視圖變化如下:
可以看到,top默認的排序列是%CPU。
- 通過shift + >或shift + <可以向右或左改變排序列,下圖是按一次shift + >的效果圖:
視圖現在已經按照%MEM來排序了。
改變進程顯示字段
- 敲擊f鍵,top進入另一個視圖,在這里可以編排基本視圖中的顯示字段:
這里列出了所有可在top基本視圖中顯示的進程字段,有並且標注為大寫字母的字段是可顯示的,沒有並且是小寫字母的字段是不顯示的。如果要在基本視圖中顯示CODE和DATA兩個字段,可以通過敲擊r和s鍵:
- 回車返回基本視圖,可以看到多了CODE和DATA兩個字段:
top命令的補充
top命令是Linux上進行系統監控的首選命令,但有時候卻達不到我們的要求,top命令的監控最小單位是進程,所以看不到程序的線程數和客戶連接數,通常可以ps和netstate兩個命令來補充top的不足。
監控java線程數:
ps -eLf | grep java | wc -l
監控網絡客戶連接數:
netstat -n | grep tcp | grep 偵聽端口 | wc -l
上面兩個命令,可改動grep的參數,來達到更細致的監控要求。
在Linux系統一切都是文件的思想貫徹指導下,所有進程的運行狀態都可以用文件來獲取。系統根目錄/proc中,每一個數字子目錄的名字都是運行中的進程的PID,進入任一個進程目錄,可通過其中文件或目錄來觀察進程的各項運行指標,例如task目錄就是用來描述進程中線程的,因此也可以通過下面的方法獲取某進程中運行中的線程數量(PID指的是進程ID):
ls /proc/PID/task | wc -l
在linux中還有一個命令pmap,來輸出進程內存的狀況,可以用來分析線程堆棧:
pmap PID