一段mongodb服務器讀取數據超時的故事

本文轉載自查看原文 2016-09-25 23:22 6073 Linux服務器運維

北京時間 2016年9月25日 22:58:30 PM

近期線上生產環境mongodb的總是發現讀取數據超時的問題，今天下午坐下來細細的研究了一番，大致過程如下：

業務背景　　　　　　　　　　　　　　　　　　　　　　　　　　

線上有一對mongodb主從的服務器，只是簡單做了mongodb的主從，master - slave。

開始以為做了主從就能確保數據不丟的問題了，確實，數據沒有發生丟失的問題，但是近期發現好多用戶在點擊某些操作要讀取mongo里面的數據內容的時候，要等待很長的時間，這樣的等待是叫人無法忍受的。

最開始的時候，以為做了主從，然后在Tomcat的mong配置文件中設置好讀寫分離的步驟就能做到讀寫分離了，可是不然，並沒有想象的那么好，實際的結果是不管讀還是寫都被無情的把任務分發到了主的上面，這樣一來主的壓力就很大了，導致了用戶讀取數據的時候，需要花費很長的時間來進行等待，沿着這個問題，我們就有了下文

問題排查：　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

問題排查之：網卡流量君

先使用sar命令查看了服務器的網卡流量信息，發現正常：

sar -n DEV 1 #1秒鍾刷新一次網卡流量信息

23時05分26秒     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
23時05分27秒        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
23時05分27秒      eth1    909.18    818.37     64.31    148.47      0.00      0.00      0.00

問題排查之：服務器CPU君

查看了cpu之后發現並沒有什么異常，8核的cpu使用率不到1%

top 時時顯示服務器資源信息

Cpu0  : 57.4%us,  2.6%sy,  0.0%ni, 32.3%id,  0.0%wa,  2.6%hi,  5.2%si,  0.0%st
Cpu1  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu2  :  0.6%us,  0.0%sy,  0.0%ni, 99.4%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu3  :  0.6%us,  0.0%sy,  0.0%ni, 99.4%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu4  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu5  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu6  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu7  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st

問題排查之：服務器內存君

查看了內存使用情況，16GB的內存，我天已經爆滿了，會不會是因為服務器內存不夠了，要加內存呢？

free -m 顯示內存信息

             total       used       free     shared    buffers     cached
Mem:         15950      15338       612          0        105       8925
-/+ buffers/cache:       1307      14642 
Swap:         1023        682        341

查了下為什么內存使用率如此之高，最后得到的結論是mongo並不會主動的釋放內存資源，這就需要我們手動的進行內存的釋放

　　內存君的手動釋放

　　在清理前內存使用情況 free -m

             total       used       free     shared    buffers     cached
Mem:         15950      15338       612          0        105       8925
-/+ buffers/cache:       1307      14642 
Swap:         1023        682        341

　　用以下命令清理內存

echo 1 > /proc/sys/vm/drop_caches

　　清理后內存使用情況再用以下命令看看。

　　free –m

             total       used       free     shared    buffers     cached
Mem:         15950      10432       5518          0        118       9034
-/+ buffers/cache:       1279      14671 
Swap:         1023        681        342

雖然內存得到了解決，但是。。。。 mongo的讀取數據慢的原因依舊未能找到

問題繼續排查之：外來進程君

ps -ef 顯示系統進程

這里不方便把服務器開啟了那些進程羅列到此處，還請見諒；最后的分析結果就是，並無異常進程

這就奇怪了，到底是哪的問題呢？

此時io這個詞，在我頭腦中轉悠，我想會不會硬盤io堵塞，導致讀取數據超級慢呢？來，繼續

問題繼續排查之：系統io君

iostart -x 1 每一秒鍾查看一下系統下所有磁盤的io使用狀況

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          11.64    0.00    1.13    0.00    0.00   7.23

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdb               0.00     7.00    0.00    5.00     0.00   104.00    20.80     0.00    0.20   0.20   99.10
dm-0              0.00     0.00    0.00   12.00     0.00   104.00     8.67     0.01    0.67   0.08   0.10

找到了一個可疑的元凶，磁盤io的等待很高，磁盤超負荷運轉。

沿着這個思路，順藤摸瓜，找到了研發同事問了下對mongodb做了什么，他們淡定的說，就是簡單的增加、查詢之操作；好吧，那我就看看到底mongo的使用狀態吧

順藤摸瓜之：mongo的使用狀況

mongostat -h xx.xx.xx.xx:DD --rowcount 20 1 xx.xx.xx.xx表示mongodb的服務器地址，DD表示mongodb的端口，20表示查看20s，1表示1秒鍾刷新1次

insert  query update delete getmore command flushes mapped  vsize    res faults  locked db idx miss %     qr|qw   ar|aw  netIn netOut  conn repl       time 
    *0     *0     *0     *0       0     2|0       0    31g  62.7g   999m      0 young:0.0%          0       0|0     0|0   120b     3k    18  SLV   23:19:57 
    *0     *0     *0     *0       0     1|0       0    31g  62.7g   999m      0 young:0.0%          0       0|0     0|0    62b     3k    18  SLV   23:19:58 
    *0     *0     *0     *0       0     8|0       0    31g  62.7g   999m      0 local:0.0%          0       0|0     0|0   468b     5k    18  SLV   23:19:59 
    *0     *0     *0     *0       0     5|0       0    31g  62.7g   999m      0 young:0.0%          0       0|0     0|0   294b     4k    18  SLV   23:20:00 
    *1     *0     *0     *0       0     6|0       0    31g  62.7g   999m      0     .:0.1%          0       0|0     0|0   352b     4k    18  SLV   23:20:01 
    *0     *0     *0     *0       0     2|0       0    31g  62.7g   999m      0 young:0.0%          0       0|0     0|0   120b     3k    18  SLV   23:20:02

最終元凶：就這樣發現了mongodb的寫操作超級頻繁，導致了磁盤I/O堵塞，致使最后的數據讀取超級慢、超級慢、超級慢，由此可見java程序對mongodb的讀寫分離並

沒有生效、沒有生效、沒有生效

既然找到了元凶，那么我們來想一個解決這個麻煩的辦法----------“讀寫分離”。

解決麻煩之：讀寫分離

先看看讀寫分離的原理：這里借鑒了以為博友的思想地址

1. Replica Sets  復制集 
MongoDB 支持在多個機器中通過異步復制達到故障轉移和實現冗余。多機器中同一時刻只有一台是用於寫操作。正是由於這個情況，為 MongoDB 提供了數據一致性的保障。擔當Primary角色的機器能把讀操作分發給 slave。 
　　　那這樣，是不是以后讀取數據就不會跟主“慘禍（滄州話）”了呢？Of course
MongoDB  高可用可用分兩種:
   1.1  Master-Slave ：主從復制
      只需要在某一個服務啟動時加上–master參數，而另一個服務加上–slave與–source參數，即可實現同步。MongoDB 的最新版本已不再推薦此方案。 
   1.2 Replica Sets復制集
 MongoDB 在  1.6版本對開發了新功能replica set，這比之前的replication功能要強大一些，增加了故障自動切換和自動修復成員節點，各個DB之間數據完全一致，大大降低了維護成功。auto  shard已經明確說明不支持replication  paris，建議使用replica  set，replica  set故障切換完全自動。 
如果上圖所示，Replica Sets的結構非常類似一個集群。是的，你完全可以把它當成集群，因為它確實跟集群實現的作用是一樣的，其中一個節點如果出現故障，其它節點馬上會將業務接過來而無須停機操作。

Mongodb(M)表示主節點，Mongodb(S)表示備節點，Mongodb(A)表示仲裁節點。主備節點存儲數據，仲裁節點不存儲數據。客戶端同時連接主節點與備節點，不連接仲裁節點。

       默認設置下，主節點提供所有增刪查改服務，備節點不提供任何服務。但是可以通過設置使備節點提供查詢服務，這樣就可以減少主節點的壓力，當客戶端進行數據查詢時，請求自動轉到備節點上。這個設置叫做Read Preference Modes，同時Java客戶端提供了簡單的配置方式，可以不必直接對數據庫進行操作。
 仲裁節點是一種特殊的節點，它本身並不存儲數據，主要的作用是決定哪一個備節點在主節點掛掉之后提升為主節點，所以客戶端不需要連接此節點。這里雖然只有一個備節點，但是仍然需要一個仲裁節點來提升備節點級別。我開始也不相信必須要有仲裁節點，但是自己也試過沒仲裁節點的話，主節點掛了備節點還是備節點，所以咱們還是需要它的。

只是負責故障轉移的群體投票，這樣就少了數據復制的壓力。

部署 Replica Sets

環境： ubuntu 14.04、mongod-2.6.3x64

一下所有步驟均為測試環境操作，線上操作還請朋友自己更改相應的路徑

1. 建立數據文件夾

mkdir -p /mongodb/data/master --主

mkdir -p /mongodb/log/

mkdir -p /mongodb/data/slaver --備

mkdir -p /mongodb/log/

mkdir -p /mongodb/data/arbiter --仲裁

mkdir -p /mongodb/log/

touch /mongodb/log/master.log

touch /mongodb/log/slaver.log

touch /mongodb/log/arbiter.log

touch /mongodb/master.pid

touch /mongodb/slaver.pid

touch /mongodb/arbiter.pid

chmod -R 755 /mongodb --三個節點都執行

2.建立配置文件

# master.conf

dbpath=/mongodb/data/master
logpath=/mongodb/log/master.log
pidfilepath=/mongodb/master.pid
directoryperdb=true
logappend=true
replSet=testrs
bind_ip=192.168.1.101
port=27017
oplogSize=10000
fork=true
noprealloc=true

# slaver.conf

dbpath=/mongodb/data/slaver
logpath=/mongodb/log/slaver.log
pidfilepath=/mongodb/slaver.pid
directoryperdb=true
logappend=true
replSet=testrs
bind_ip=192.168.1.101
port=27018
oplogSize=10000
fork=true
noprealloc=true

#arbiter.conf

dbpath=/mongodb/data/arbiter
logpath=/mongodb/log/arbiter.log

pidfilepath=/mongodb/arbiter.pid

directoryperdb=true
logappend=true
replSet=testrs
bind_ip=192.168.1.101
port=27019
oplogSize=10000
fork=true
noprealloc=true

給以上文件加上讀寫執行的權限

[root@node1 bin]# chmod 755 master.conf

[root@node1 bin]# chmod 755 slaver.conf

[root@node1 bin]# chmod 755 arbiter.conf

注意：把 .log 等文件也建好

參數解釋：

dbpath：數據存放目錄

logpath：日志存放路徑

pidfilepath：進程文件，方便停止mongodb

directoryperdb：為每一個數據庫按照數據庫名建立文件夾存放

logappend：以追加的方式記錄日志

replSet：replica set的名字

bind_ip：mongodb所綁定的ip地址

port：mongodb進程所使用的端口號，默認為27017

oplogSize：mongodb操作日志文件的最大大小。單位為Mb，默認為硬盤剩余空間的5%

fork：以后台方式運行進程

noprealloc：不預先分配存儲

3.啟動mongodb

進入每個mongodb節點的bin目錄下

[root@node1 bin]# ./mongod -f master.conf
[root@node1 bin]# ./mongod -f slaver.conf
[root@node1 bin]# ./mongod -f arbiter.conf

注意配置文件的路徑一定要保證正確，可以是相對路徑也可以是絕對路徑。

4.配置主，備，仲裁節點

可以通過客戶端連接mongodb，也可以直接在三個節點中選擇一個連接mongodb。

./mongo 192.168.1.101:27017 #ip和port是某個節點的地址

>use admin

>cfg={ _id:"testrs", members:[

{_id:0,host:'192.168.1.101:27017',priority:2},

{_id:1,host:'192.168.1.101:27018',priority:1},
{_id:2,host:'192.168.1.101:27019',arbiterOnly:true}] --永遠不成為主節點

};

>rs.initiate(cfg) #使配置生效

cfg是可以任意的名字，當然最好不要是mongodb的關鍵字，conf，config都可以。

最外層的_id表示replica set的名字，

members里包含的是所有節點的地址以及優先級。優先級最高的即成為主節點，即這里的192.168.56.87:27017。

特別注意的是，對於仲裁節點，

需要有個特別的配置——arbiterOnly:true。只能作為secondary副本節點，防止一些性能不高的節點成為主節點。

這個千萬不能少了，不然主備模式就不能生效。

配置的生效時間根據不同的機器配置會有長有短，配置不錯的話基本上十幾秒內就能生效，有的配置需要一兩分鍾。

testrs:PRIMARY> rs.status()
{
     "set" : "testrs",
     "date" : ISODate("2015-05-08T03:27:59.706Z"),
     "myState" : 1,
     "members" : [
          {
               "_id" : 0,
               "name" : "192.168.1.101:27017",
               "health" : 1,   --1表明正常; 0表明異常
               "state" : 1,     -- 1表明是Primary; 2 表明是Secondary;
               "stateStr" : "PRIMARY", --表明此機器是主庫
               "uptime" : 620,
               "optime" : Timestamp(1431055581, 1),
               "optimeDate" : ISODate("2016-09-025T23:26:21Z"),
               "electionTime" : Timestamp(1431055584, 1),
               "electionDate" : ISODate("2015-09-25T23:26:24Z"),
               "configVersion" : 1,
               "self" : true
          },
          {
               "_id" : 1,
               "name" : "192.168.1.101:27018",
               "health" : 1,
               "state" : 2,      -- 1表明是Primary; 2 表明是Secondary;
               "stateStr" : "SECONDARY",   --表明此機器是從庫
               "uptime" : 294,
               "optime" : Timestamp(1431055581, 1),
               "optimeDate" : ISODate("2016-09-25T23:26:21Z"),
               "lastHeartbeat" : ISODate("2016-09-25T23:27:58.189Z"),
               "lastHeartbeatRecv" : ISODate("2015-09-25T23:27:59.287Z"),
               "pingMs" : 0,
               "configVersion" : 1
          },
          {
               "_id" : 2,
               "name" : "192.168.1.101:27019",
               "health" : 1,
               "state" : 7,
               "stateStr" : "ARBITER",
               "uptime" : 294,
               "lastHeartbeat" : ISODate("2016-09-25T23:27:59.686Z"),
               "lastHeartbeatRecv" : ISODate("2015-09-25T23:27:58.028Z"),
               "pingMs" : 0,
               "configVersion" : 1
          }
     ],
     "ok" : 1
}

5.配置從可以讀的設置

db.person.find()
Error: error: { "$err" : "not master and slaveOk=false", "code" : 13435 }

報錯了：說明從庫不能執行查詢操作

讓從庫可以執行查詢操作：

testrs:SECONDARY> db.getMongo().setSlaveOk()

testrs:SECONDARY> rs.slaveOk(); # 這是實現從庫可讀的兩種的方法，但是我執行了第一種方法，發現想要的功能未能實現，故而又執行了第二個命令，達到了目的

6.驗證

mongostat -h 192.168.1.101:27017 --rowcount 2000 1 連接主的服務器和端口，驗證如果查詢是否在主上不會產生

insert  query update delete getmore command flushes mapped  vsize    res faults  locked db idx miss %     qr|qw   ar|aw  netIn netOut  conn    set repl       time 
    *0     *0     *0     *0       0     1|0       0  10.2g  20.8g    58m      0 dblog:0.0%          0       0|0     0|0    62b     3k    18 testrs  PRI   23:52:51 
    *0     *0     *0     *0       1     3|0       0  10.2g  20.8g    58m      0  test:0.0%          0       0|0     0|0   395b     3k    18 testrs  PRI   23:52:52 
    *0     *0     *0     *0       0     1|0       0  10.2g  20.8g    58m      0  test:0.0%          0       0|0     0|0    62b     3k    18 testrs  PRI   23:52:53 
    *0     *0     *0     *0       0     6|0       0  10.2g  20.8g    58m      0  test:0.0%          0       0|0     0|0   522b     5k    18 testrs  PRI   23:52:54 
    *0     *0     *0     *0       0     1|0       0  10.2g  20.8g    58m      0  test:0.0%          0       0|0     0|0    62b     3k    18 testrs  PRI   23:52:55

mongostat -h 192.168.1.101:27018 --rowcount 2000 1 連接從的服務器和端口，驗證查詢是否在從上產生

    *0      1     *0     *0       0     3|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0   460b     5k    16 testrs  SEC   23:54:17 
    *0     *0     *0     *0       0     5|0       0  10.2g  20.8g    45m      0  test:0.0%          0       0|0     0|0   379b     4k    16 testrs  SEC   23:54:18 
    *0     *0     *0     *0       0     2|0       0  10.2g  20.8g    45m      0  test:0.0%          0       0|0     0|0   205b     3k    16 testrs  SEC   23:54:19 
    *0     *0     *0     *0       0     2|0       0  10.2g  20.8g    45m      0  test:0.0%          0       0|0     0|0   205b     3k    16 testrs  SEC   23:54:20 
    *0      2     *0     *0       0     4|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0   717b     6k    16 testrs  SEC   23:54:21 
    *0     *0     *0     *0       0     2|0       0  10.2g  20.8g    45m      0  test:0.0%          0       0|0     0|0   205b     3k    16 testrs  SEC   23:54:22 
    *0      4     *0     *0       0     9|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     1k    12k    16 testrs  SEC   23:54:23 
    *0      7     *0     *0       0     9|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     2k    17k    16 testrs  SEC   23:54:24 
    *0      6     *0     *0       0     8|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     1k    15k    16 testrs  SEC   23:54:25 
    *0      7     *0     *0       0     9|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     2k    17k    16 testrs  SEC   23:54:26 
insert  query update delete getmore command flushes mapped  vsize    res faults  locked db idx miss %     qr|qw   ar|aw  netIn netOut  conn    set repl       time 
    *0      6     *0     *0       0     8|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     1k    15k    16 testrs  SEC   23:54:27 
    *0      4     *0     *0       0     9|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     1k    12k    16 testrs  SEC   23:54:28 
    *0      5     *0     *0       0     7|0       0  10.2g  20.8g    45m      0 dblog:0.0%          0       0|0     0|0     1k    13k    16 testrs  SEC   23:54:29 
    *0     *0     *0     *0       0     2|0       0  10.2g  20.8g    45m      0  test:0.0%          0       0|0     0|0   205b     3k    16 testrs  SEC   23:54:30

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 shell腳本提取服務器一段時間的日志並輸出異常結果服務器經常運行一段時間, mysql就鏈接不上的解決辦法阿里雲服務器ssh經常一段時間就斷掉解決辦法無法讀取服務器服務中的服務器隊列性能數據。數據段的第一個四字節 (DWORD) 中包關於MongoDB查找一段時間內的數據一個部署了tomcat服務的linux服務器，運行一段時間后出現內存和空間不足的問題 IIS服務器運行一段時間后卡死，且無法打開網站（IIS管理無響應，必須重啟電腦） IIS服務器運行一段時間后卡死，且無法打開網站（IIS管理無響應，必須重啟電腦） java設置一段代碼執行超時時間 windows服務器MYSQL的數據連接超時時間設置