MongoDB的真正性能-實戰百萬用戶一-一億的道具

本文轉載自查看原文 2013-05-08 23:42 51036 MongoDB

上一篇為求振聾發聵的效果，有些口號主義，現在開始實戰，歸於實用主義。

使用情景

開始之前，我們先設定這樣一個情景：

1.一百萬注冊用戶的頁游或者手游，這是不溫不火的一個狀態，剛好是數據量不上不下的一個情況。也剛好是傳統MySql數據庫性能開始吃緊的時候。

2.數據庫就用一台很普通的服務器，只有一台。讀寫分離、水平擴展、內存緩存都不談。一百萬注冊用戶如果貢獻度和活躍度都不高，恐怕公司的日子還不是那么寬裕，能夠在數據庫上的投資也有限。

以此情景為例，設每個用戶都擁有100個道具，用戶隨時會獲得或失去道具。

我們就來看看這一億的道具怎么搞。

道具一般要使用原型、實例的設計方法，這個不屬於數據庫的范疇。

道具類型001 是屠龍刀，屠龍刀價格1500，基礎攻擊150，這些，我們把它們稱為道具原型，保存在原型數據文件中。

這個原型數據文件，無論是存在何種數據庫或者本地文件中，對服務器來說都不是問題，也不干擾數據庫設計，所以我們不去討論他。

關系數據庫設計方法

典型的關系數據庫設計方法：

用戶表：字段 xxx userid xxx ，記錄數量100萬

xxx是其他字段，userid標示用戶

用戶道具表：字段 xxx userid itemtype xxx ,記錄數量一億

xxx是其他字段，userid 標示

一個億的記錄數是不是看起來有點頭疼，mysql這個時候就要想各種辦法了。

MongoDB設計方法

但我們用mongoDB來實現這個需求，直接就沒有問題

首先第一個集合：users集合，用UserName 作為_id ,記錄數100萬

然后道具的組織，我們有兩種選擇

1.在users集合的值中建立Items對象，用Bson數組保存道具(Mongo官方稱為Bson，和Json一模一樣的存儲方法)

方法一，沒有額外的記錄數

2.新建userItems集合，同樣用UserName作為_id 每個UserItems集合的值中建立一個Item對象，使用一個Bson數組來保存道具

方法二，多了一個集合和100萬記錄數

我們的道具數據看起來像下面這樣:

{_id:xxx,Items:[

{Itemtype:xxx,ItemPower:xxx},

...

]}

測試方法

測試方法如下：測試客戶端隨機檢查一個用戶的道具數量，小於100加一個道具，大於100 刪除一個道具。

連續100萬次，采用10個線程並發。

如果用關系數據庫設計方法+mysql來實現，這是一個很壓力很大的數據處理需求。

可是用文檔數據庫設計方法+MongoDB來實現，這個測試根本算不上有壓力。

注意事項

即使我們用了一個如此勝之不武的設計方式，你依然有可能還是能把他寫的很慢。

因為MongoDB在接口設計上並沒有很好的引導和約束，如果你不注意，你還是能把他用的非常慢。

第一個問題：Key-Value數據庫可以有好多的Key，沒錯,但對MongoDB來說，大錯特錯

MongoDB的索引代價很大，大到什么程度：

1.巨大的內存占用，100萬條索引約占50M內存，如果這個設計中，你一個道具一條記錄，5G內存將用於索引。

我們的屌絲情景不可能給你這樣的服務器，

2.巨大的性能損失，作為一個數據庫，所有的東西終將被寫入硬盤，沒有關系數據庫那樣的表結構，MongoDB的索引寫入性能看起來很差，如果記錄數據較小的時候，你可以觀測到這樣震撼的景象，加一個索引，性能變成了1/2,加兩個索引，性能變成了1/3。

只有當第二個索引的查詢不可避免，才值得增加額外索引。因為沒索引的數據，查詢性能是加幾個零的慢，比加索引更慘。

我們既然選擇了Key-Value數據庫，應盡量避免需要多個索引的情況。

所有的索引只能存在於內存中，而讀取記錄時，也需要將Bson在內存中處理，內存還承擔着更重要的作用：讀取緩存。

本來就不充裕的內存，應該嚴格控制我們的記錄條數，能夠用Bson存儲的，盡量用之。

那么我們之前在MongoDB的設計中怎么還考慮第二種設計方法呢？獨立一個userItems 集合，不是又多出100萬條記錄了嗎？

這基於另兩個考慮:a.Bson的處理是要反復硬盤和內存交換的，如果每條記錄更小，則IO壓力更小。內存和硬盤對服務器來說都是稀缺資源，至於多大的數據拆分到另一個集合中更划算，這需要根據業務情況，服務器內存、硬盤情況來測試出一個合適大小，我們暫時使用1024這個數值，單用戶的道具表肯定是會突破1024字節的，所以我們要考慮將他獨立到一個集合中

b.可以不部署分片集群，將另一個集合挪到另一個服務器上去。只要服務器可以輕松承載100萬用戶，200萬還會遠么？在有錢部署分片集群以前，考慮第二組服務器更現實一些。

第二個問題：FindOne({_id:xxx})就快么？

毋庸置疑，FindOne({_id:xxx})就是最直接的用Key取Value。

也的確，用Key取Value 就是我們能用的唯一訪問Value的方式，其他就不叫Key-Value數據庫了。

但是，由於我們要控制Key的數量，單個Value就會比較大。

不要被FindOne({_id:xxx}).Items[3].ItemType這優雅的代碼欺騙，這是非常慢的，他幾乎謀殺你所有的流量。

無論后面是什么 FindOne({_id:xxx})總是返回給你完整的Value,我們的100條道具，少說也有6~8K.

這樣的查詢流量已經很大了，如果你采用MongoDB方案一設計，你的單個Value是包含一個用戶的所有數據的，他會更大。

如果查詢客戶端和數據庫服務器不在同一個機房，流量將成為一個很大的瓶頸。

我們應該使用的查詢函數是FindOne({_id:xxx},filter),filter里面就是設置返回的過濾條件,這會在發送給你以前就過濾掉

比如FindOne({_id:xxx},{Items:{"$slice":[3,1]}})，這和上面那條優雅的代碼是完成同樣功能，但是他消耗很少的流量

第三個問題：精細的使用Update

這和問題二相對的，不要暴力的FindOne，也盡量不要暴力的Update一整個節點。雖然MangoDB的性能挺暴力的，IO性能極限約等於MongoDB性能，暴力的Update就會在占用流量的同時迎接IO的性能極限。

除了創建節點時的Insert或者Save之外，所有的Update都應該使用修改器精細修改.

比如Update({_id:xxx},{$set:{"Items.3.Item.Health":38}});//修改第三把武器的健康值

至於一次修改和批量修改，MongoDB默認100ms flush一次(2.x),只要兩次修改比較貼近,被一起保存的可能性很高。

但是合並了肯定比不合並強，合並的修改肯定是一起保存，這個也要依賴於是用的開發方式，如果使用php做數據客戶端，緩存起來多次操作合並了一起提交，實現起來就比較復雜。

注意以上三點，一百萬注冊用戶並不算很多，4G內存，200G硬盤空間的MongoDB服務器即可輕松應對。性能瓶頸是硬盤IO，可以很容易的使用Raid和固態硬盤提升幾倍的吞吐量。不使用大量的Js計算，CPU不會成為問題，不要讓索引膨脹，內存不會成為問題。你根本用不着志強的一堆核心和海量的內存，更多的內存可以讓緩存的效果更好一些，可是比讀寫分離還是差遠了。如果是高並發時查詢性能不足，就要采用讀寫分離的部署方式。當IO再次成為瓶頸時，就只能采用集群部署MongoDB啟用分片功能，或者自行進行分集合與key散列的工作。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MongoDB的真正性能-實戰百萬用戶 [爬蟲]抓取知乎百萬用戶信息之自建代理池 MongoDB的真正性能 [爬蟲]抓取知乎百萬用戶信息之Redis篇 [爬蟲]抓取知乎百萬用戶信息之爬蟲模塊 [爬蟲]抓取知乎百萬用戶信息之總結篇游戲中百萬用戶排行設計與實現設計篇--站內信設計思路之己見（基於上百萬用戶）支撐日活百萬用戶的高並發系統，應該如何設計其數據庫架構？ MongoDB實戰性能優化