dmesg’命令顯示linux內核的環形緩沖區信息,我們可以從中獲得諸如系統架構、cpu、掛載的硬件,RAM等多個運行級別的大量的系統信息。當計算機啟動時,系統內核(操作系統的核心部分)將會被加載到內存中。
‘dmesg’命令顯示linux內核的環形緩沖區信息,我們可以從中獲得諸如系統架構、cpu、掛載的硬件,RAM等多個運行級別的大量的系統信息。當計算機啟動時,系統內核(操作系統的核心部分)將會被加載到內存中。在加載的過程中會顯示很多的信息,在這些信息中我們可以看到內核檢測硬件設備。
dmesg 命令的使用范例
‘dmesg’命令設備故障的診斷是非常重要的。在‘dmesg’命令的幫助下進行硬件的連接或斷開連接操作時,我們可以看到硬件的檢測或者斷開連接的信息。‘dmesg’命令在多數基於Linux和Unix的操作系統中都可以使用。
下面我們展示一些最負盛名的‘dmesg’命令工具以及其實際使用舉例。‘dmesg’命令的使用語法如下。
- # dmesg [options...]
1. 列出加載到內核中的所有驅動
我們可以使用如‘more’。 ‘tail’, ‘less ’或者‘grep’文字處理工具來處理‘dmesg’命令的輸出。由於dmesg日志的輸出不適合在一頁中完全顯示,因此我們使用管道(pipe)將其輸出送到more或者less命令單頁顯示。
- [root@tecmint.com ~]# dmesg | more
- [root@tecmint.com ~]# dmesg | less
輸出
- [ 0.000000] Initializing cgroup subsys cpuset
- [ 0.000000] Initializing cgroup subsys cpu
- [ 0.000000] Initializing cgroup subsys cpuacct
- [ 0.000000] Linux version 3.11.0-13-generic (buildd@aatxe) (gcc version 4.8.1 (Ubuntu/Linaro 4.8.1-10ubuntu8) ) #20-Ubuntu SMP Wed Oct 23 17:26:33 UTC 2013
- (Ubuntu 3.11.0-13.20-generic 3.11.6)
- [ 0.000000] KERNEL supported cpus:
- [ 0.000000] Intel GenuineIntel
- [ 0.000000] AMD AuthenticAMD
- [ 0.000000] NSC Geode by NSC
- [ 0.000000] Cyrix CyrixInstead
- [ 0.000000] Centaur CentaurHauls
- [ 0.000000] Transmeta GenuineTMx86
- [ 0.000000] Transmeta TransmetaCPU
- [ 0.000000] UMC UMC UMC UMC
- [ 0.000000] e820: BIOS-provided physical RAM map:
- [ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable
- [ 0.000000] BIOS-e820: [mem 0x00000000000f0000-0x00000000000fffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x0000000000100000-0x000000007dc08bff] usable
- [ 0.000000] BIOS-e820: [mem 0x000000007dc08c00-0x000000007dc5cbff] ACPI NVS
- [ 0.000000] BIOS-e820: [mem 0x000000007dc5cc00-0x000000007dc5ebff] ACPI data
- [ 0.000000] BIOS-e820: [mem 0x000000007dc5ec00-0x000000007fffffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x00000000e0000000-0x00000000efffffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x00000000fec00000-0x00000000fed003ff] reserved
- [ 0.000000] BIOS-e820: [mem 0x00000000fed20000-0x00000000fed9ffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x00000000fee00000-0x00000000feefffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x00000000ffb00000-0x00000000ffffffff] reserved
- [ 0.000000] NX (Execute Disable) protection: active
- .....
2. 列出所有被檢測到的硬件
要顯示所有被內核檢測到的硬盤設備,你可以使用‘grep’命令搜索‘sda’關鍵詞,如下:
- [root@tecmint.com ~]# dmesg | grep sda
- [ 1.280971] sd 2:0:0:0: [sda] 488281250 512-byte logical blocks: (250 GB/232 GiB)
- [ 1.281014] sd 2:0:0:0: [sda] Write Protect is off
- [ 1.281016] sd 2:0:0:0: [sda] Mode Sense: 00 3a 00 00
- [ 1.281039] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
- [ 1.359585] sda: sda1 sda2 < sda5 sda6 sda7 sda8 >
- [ 1.360052] sd 2:0:0:0: [sda] Attached SCSI disk
- [ 2.347887] EXT4-fs (sda1): mounted filesystem with ordered data mode. Opts: (null)
- [ 22.928440] Adding 3905532k swap on /dev/sda6. Priority:-1 extents:1 across:3905532k FS
- [ 23.950543] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
- [ 24.134016] EXT4-fs (sda5): mounted filesystem with ordered data mode. Opts: (null)
- [ 24.330762] EXT4-fs (sda7): mounted filesystem with ordered data mode. Opts: (null)
- [ 24.561015] EXT4-fs (sda8): mounted filesystem with ordered data mode. Opts: (null)
注解 ‘sda’表示第一塊 SATA硬盤,‘sdb’表示第二塊SATA硬盤。若想查看IDE硬盤搜索‘hda’或‘hdb’關鍵詞。
3. 只輸出dmesg命令的前20行日志
在‘dmesg’命令后跟隨‘head’命令來顯示開始幾行,‘dmesg | head -20′命令將顯示開始的前20行。
- [root@tecmint.com ~]# dmesg | head -20
- [ 0.000000] Initializing cgroup subsys cpuset
- [ 0.000000] Initializing cgroup subsys cpu
- [ 0.000000] Initializing cgroup subsys cpuacct
- [ 0.000000] Linux version 3.11.0-13-generic (buildd@aatxe) (gcc version 4.8.1 (Ubuntu/Linaro 4.8.1-10ubuntu8) ) #20-Ubuntu SMP Wed Oct 23 17:26:33 UTC 2013 (Ubuntu 3.11.0-13.20-generic 3.11.6)
- [ 0.000000] KERNEL supported cpus:
- [ 0.000000] Intel GenuineIntel
- [ 0.000000] AMD AuthenticAMD
- [ 0.000000] NSC Geode by NSC
- [ 0.000000] Cyrix CyrixInstead
- [ 0.000000] Centaur CentaurHauls
- [ 0.000000] Transmeta GenuineTMx86
- [ 0.000000] Transmeta TransmetaCPU
- [ 0.000000] UMC UMC UMC UMC
- [ 0.000000] e820: BIOS-provided physical RAM map:
- [ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable
- [ 0.000000] BIOS-e820: [mem 0x00000000000f0000-0x00000000000fffff] reserved
- [ 0.000000] BIOS-e820: [mem 0x0000000000100000-0x000000007dc08bff] usable
- [ 0.000000] BIOS-e820: [mem 0x000000007dc08c00-0x000000007dc5cbff] ACPI NVS
- [ 0.000000] BIOS-e820: [mem 0x000000007dc5cc00-0x000000007dc5ebff] ACPI data
- [ 0.000000] BIOS-e820: [mem 0x000000007dc5ec00-0x000000007fffffff] reserved
4. 只輸出dmesg命令最后20行日志
在‘dmesg’命令后跟隨‘tail’命令(‘ dmesg | tail -20’)來輸出‘dmesg’命令的最后20行日志,當你插入可移動設備時它是非常有用的。
- [root@tecmint.com ~]# dmesg | tail -20
- parport0: PC-style at 0x378, irq 7 [PCSPP,TRISTATE]
- ppdev: user-space parallel port driver
- EXT4-fs (sda1): mounted filesystem with ordered data mode
- Adding 2097144k swap on /dev/sda2. Priority:-1 extents:1 across:2097144k
- readahead-disable-service: delaying service auditd
- ip_tables: (C) 2000-2006 Netfilter Core Team
- nf_conntrack version 0.5.0 (16384 buckets, 65536 max)
- NET: Registered protocol family 10
- lo: Disabled Privacy Extensions
- e1000: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
- Slow work thread pool: Starting up
- Slow work thread pool: Ready
- FS-Cache: Loaded
- CacheFiles: Loaded
- CacheFiles: Security denies permission to nominate security context: error -95
- eth0: no IPv6 routers present
- type=1305 audit(1398268784.593:18630): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1
- readahead-collector: starting delayed service auditd
- readahead-collector: sorting
- readahead-collector: finished
5. 搜索包含特定字符串的被檢測到的硬件
由於‘dmesg’命令的輸出實在太長了,在其中搜索某個特定的字符串是非常困難的。因此,有必要過濾出一些包含‘usb’ ‘dma’ ‘tty’ ‘memory’等字符串的日志行。grep 命令 的‘-i’選項表示忽略大小寫。
- [root@tecmint.com log]# dmesg | grep -i usb
- [root@tecmint.com log]# dmesg | grep -i dma
- [root@tecmint.com log]# dmesg | grep -i tty
- [root@tecmint.com log]# dmesg | grep -i memory
輸出
- [ 0.000000] Scanning 1 areas for low memory corruption
- [ 0.000000] initial memory mapped: [mem 0x00000000-0x01ffffff]
- [ 0.000000] Base memory trampoline at [c009b000] 9b000 size 16384
- [ 0.000000] init_memory_mapping: [mem 0x00000000-0x000fffff]
- [ 0.000000] init_memory_mapping: [mem 0x37800000-0x379fffff]
- [ 0.000000] init_memory_mapping: [mem 0x34000000-0x377fffff]
- [ 0.000000] init_memory_mapping: [mem 0x00100000-0x33ffffff]
- [ 0.000000] init_memory_mapping: [mem 0x37a00000-0x37bfdfff]
- [ 0.000000] Early memory node ranges
- [ 0.000000] PM: Registered nosave memory: [mem 0x0009f000-0x000effff]
- [ 0.000000] PM: Registered nosave memory: [mem 0x000f0000-0x000fffff]
- [ 0.000000] please try 'cgroup_disable=memory' option if you don't want memory cgroups
- [ 0.000000] Memory: 2003288K/2059928K available (6352K kernel code, 607K rwdata, 2640K rodata, 880K init, 908K bss, 56640K reserved, 1146920K highmem)
- [ 0.000000] virtual kernel memory layout:
- [ 0.004291] Initializing cgroup subsys memory
- [ 0.004609] Freeing SMP alternatives memory: 28K (c1a3e000 - c1a45000)
- [ 0.899622] Freeing initrd memory: 23616K (f51d0000 - f68e0000)
- [ 0.899813] Scanning for low memory corruption every 60 seconds
- [ 0.946323] agpgart-intel 0000:00:00.0: detected 32768K stolen memory
- [ 1.360318] Freeing unused kernel memory: 880K (c1962000 - c1a3e000)
- [ 1.429066] [drm] Memory usable by graphics device = 2048M
6. 清空dmesg緩沖區日志
我們可以使用如下命令來清空dmesg的日志。該命令會清空dmesg環形緩沖區中的日志。但是你依然可以查看存儲在‘/var/log/dmesg’文件中的日志。你連接任何的設備都會產生dmesg日志輸出。
- [root@tecmint.com log]# dmesg -c
7. 實時監控dmesg日志輸出
在某些發行版中可以使用命令‘tail -f /var/log/dmesg’來實時監控dmesg的日志輸出。
- [root@tecmint.com log]# watch "dmesg | tail -20"
結論:dmesg命令在系統dmesg記錄實時更改或產生的情況下是非常有用的。你可以使用man dmesg來獲取更多關於dmesg的信息。
示例:
指令sudo dmesg -T | grep "(java)" ,可以查看項目被關掉的記錄。運行后:
linux 終端報錯 Out of memory: Kill process[PID] [process name] score問題分析
看到屏幕上都是 Out of memory: Kill process[PID] [process name] score,雖然知道這是linux自我保護進行內存清理動作,但是為了知道更多的細節進行了學習。
【原因分析】
Out of memory 問題,這通常是因為某時刻應用程序大量請求內存導致系統內存不足造成的,這通常會觸發 Linux 內核里的 Out of Memory (OOM) killer,OOM killer 會殺掉某個進程以騰出內存留給系統用,不致於讓系統立刻崩潰。
Linux 內核根據應用程序的要求分配內存,通常來說應用程序分配了內存但是並沒有實際全部使用,為了提高性能,這部分沒用的內存可以留作它用,這部分內存是屬於每個進程的,內核直接回收利用的話比較麻煩,所以內核采用一種過度分配內存(over-commit memory)的辦法來間接利用這部分 “空閑” 的內存,提高整體內存的使用效率。一般來說這樣做沒有問題,但當大多數應用程序都消耗完自己的內存的時候麻煩就來了,因為這些應用程序的內存需求加起來超出了物理內存(包括 swap)的容量,內核(OOM killer)必須殺掉一些進程才能騰出空間保障系統正常運行。
可能有些同學發現內存還剩下很多啊?怎么還是在報錯內存不夠呢?那是因為32位的系統,如果Low-memory耗盡,就會導致這個問題的出現。那low-memory又是怎么回事呢?
內核使用low memory來跟蹤所有的內存分配,這樣的話一個16GB內存的系統比一個4GB內存的系統,需要消耗更多的low memory,可能有4倍之多。這種額外的壓力從你剛啟動系統那一刻就開始存在了,因為內核結構必須為潛在的跟蹤四倍多的內存分配而調整大小
OOM Killer 就是一層保護機制,用於避免 Linux 在內存不足的時候不至於出太嚴重的問題,把無關緊要的進程殺掉,有些壯士斷腕的意思。
在 32 位CPU 架構下尋址是有限制的。Linux 內核定義了三個區域:
# DMA: 0x00000000 - 0x00999999 (0 - 16 MB)
# LowMem: 0x01000000 - 0x037999999 (16 - 896 MB) - size: 880MB
# HighMem: 0x038000000 - <硬件特定>
LowMem 區 (也叫 NORMAL ZONE ) 一共 880 MB,而且不能改變(除非用 hugemem 內核)。對於高負載的系統,就可能因為 LowMem 利用不好而引發 OOM Killer 。一個可能原因是 LowFree 太少了,另外一個原因是 LowMem 里都是碎片,請求不到連續的內存區域。
另外,在64位系統下low-memory是所有的內存空間。
查看low memory 和 high memory 的狀態:
[root@localhost ~]# free -lm
total used free shared buffers cached
Mem: 32105 11305 20800 0 176 5402
Low: 32105 11305 20800
High: 0 0 0
-/+ buffers/cache: 5726 26379
Swap: 32767 0 32767
【OOM killer原理】
從oom_killer給每個進程打分,根據 points 的高低來決定殺哪個進程,這個points可以調節,root 權限的進程通常被認為很重要,不應該被輕易殺掉,所以打分的時候可以得到 3% 的優惠( -= 30; 分數越低越不容易被殺掉)。我們可以在用戶空間通過操作每個進程的內核參數來決定哪些進程不這么容易被 OOM killer 選中殺掉。比如,如果不想 MySQL 進程被輕易殺掉的話可以找到 MySQL 運行的進程號后,調整 oom_score_adj 為 -15(注意 points 越小越不容易被殺)
ps aux | grep mysqld
mysql 2196 1.6 2.1 623800 44876 ? Ssl 09:42 0:00 /usr/sbin/mysqld
cat /proc/2196/oom_score_adj
0
echo -15 > /proc/2196/oom_score_adj
【解決方法】
知道了原理,那么怎么解決呢?
一、增大內存。
內存不夠咱們肯定要增加啊?不然怎么叫服務器呢?
二、升級到64位操作系統。
64位的操作系統沒有對low-memory限制。
三、使用hugemem內核。
這種內核以不同的方式分割low/high memory,而且在大多數情況下會提供足夠多的low memory到high memory的映射。在大多數案例中,這是一個很簡單的修復方法:安裝hugemem kernel RPM包,然后重啟即可。
四、配置 OOM killer
通過一些內核參數來調整 OOM killer 的行為,避免系統在那里不停的殺進程。比如我們可以在觸發 OOM 后立刻觸發 kernel panic,kernel panic 10秒后自動重啟系統。
echo "vm.panic_on_oom=1" >> /etc/sysctl.conf
echo "kernel.panic=10" >> /etc/sysctl.conf
sysctl -p
五、關閉/打開oom-killer(慎用)
echo "0" > /proc/sys/vm/oom-kill
echo "1" > /proc/sys/vm/oom-kill