Redis內存最優使用


背景:有一個接入系統專門對采集到的微博、文章、微信、報刊、論壇、博客等等的數據進行解析,到目前為止已經大概存有3億多的量

需求:我們需要通過圖片的ID號得到對應圖片作者是誰(這個可以隨意)

問題:那么我們如何通過redis來解決這個問題並進行優化呢?

首先,這個通過圖片ID反查用戶UID的應用有以下幾點需求:

  • 查詢速度要足夠快
  • 數據要能全部放到內存里,最好是一台EC2的 high-memory 機型就能存儲(17GB或者34GB的,68GB的太浪費了)
  • 支持持久化,這樣在服務器重啟后不需要再預熱

  首先否定了數據庫存儲的方案,保持了KISS原則(Keep It Simple and Stupid),因為這個應用根本用不到數據庫的update功能,事務功能和關聯查詢等等牛X功能,所以不必為這些用不到的功能去選擇維護一個數據庫。

  於是我們選擇了Redis,Redis是一個支持持久化的內存數據庫,所有的數據都被存儲在內存中(忘掉VM吧),而最簡單的實現就是使用Redis的String結構來做一個key-value存儲就行了。像這樣:

> HSET "mediabucket:1155" "1155315" "939"
> HGET "mediabucket:1155" "1155315"
> "939"

  其中1155315是圖片ID,939是用戶ID,我們將每一張圖片ID為作key,用戶uid作為value來存成key-value對。然后進行了測試,將數據按上面的方法存儲,1,000,000數據會用掉70MB內存; 300,000,000張照片就會用掉21GB的內存。對比預算的17GB還是超支了。

  (其實這里我們可以看到一個優化點,我們可以將key值前面相同的media去掉,只存數字,這樣key的長度就減少了,減少key值對內存的開銷【注:Redis的key值不會做字符串到數字的轉換,所以這里節省的,僅僅是media:這6個字節的開銷】經過實驗,內存占用會降到50MB,總的內存占用是15GB,是滿足需求的,但是繼續改進仍然有必要)

  於是向Redis的開發討論組詢問優化方案,得到的回復是使用Hash結構。具體的做法就是將數據分段,每一段使用一個Hash結構存儲,由於Hash結構會為單個Hash元素在不足一定數量時進行壓縮存儲,所以可以大量節約內存。這一點在上面的String結構里是不存在的。而這個一定數量是由配置文件中的hash-zipmap-max-entries參數來控制的。經過我們的實驗,將hash-zipmap-max-entries設置為1000時,性能比較好,超過1000后HSET命令就會導致CPU消耗變得非常大。

  於是改變了方案,將數據存成如下結構:

> HSET "mediabucket:1155" "1155315" "939"
> HGET "mediabucket:1155" "1155315"
> "939"

  圖片ID為7為,通過取其前四位為Hash結構的key值,保證了每個Hash內部只包含3位的key,也就是1000個。

  再做一次實驗,結果是每1,000,000個key只消耗了16MB的內存。總內存使用也降到了5GB,滿足了應用需求。

  (同樣的,這里我們還是可以再進行優化,首先是將Hash結構的key值變成純數字,這樣key長度減少了12個字節,其次是將Hash結構中的subkey值變成三位數,這又減少了4個字節的開銷,如下所示。經過實驗,內存占用量會降到10MB,總內存占用為3GB)

> HSET "1155" "315" "939"
> HGET "1155" "315"
> "939"

  優化無止境,只要肯琢磨。希望你在使用存儲產品時也能如此愛惜內存。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM