Redis之數據存儲結構


  今天去中關村軟件園面試,被問到:你做項目用到的Redis處理數據用的什么結構?頓時石化,”用到的結構,不就是key-value嘛,還有什么結構?“。面試官說:“平時除了工作,要加強學習,下面的面試我覺得沒有了。”,之后......

  后來一想,面試官說的結構是不是指數據類型?他管數據類型叫結構,看來文字游戲害死人啊。

一、Redis和Memcache區別

我們先來看一下redis的一個定義,來自官方的:

1 Redis is an open source, BSD licensed, advanced key-value store. It is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets.
2 redis是開源,BSD許可,高級的key-value存儲系統. 
3 可以用來存儲字符串,哈希結構,鏈表,集合,因此,常用來提供數據結構服務.

那Redis和MC相比,獨特之處是什么:

1 1: redis可以用來做存儲(storge), 而memccached是用來做緩存(cache)
2   這個特點主要因為其有”持久化”的功能.
3 
4 2: 存儲的數據有”結構”,對於memcached來說,存儲的數據,只有1種類型--”字符串”,而redis則可以存儲字符串,鏈表,哈希結構,集合,有序集合
  • 性能方面:沒有必要過多的關心性能,因為二者的性能都已經足夠高了。由於Redis只使用單核,而Memcached可以使用多核,所以在比較上,平均每一個核上Redis在存儲小數據時比Memcached性能更高。而在100k以上的數據中,Memcached性能要高於Redis,雖然Redis最近也在存儲大數據的性能上進行優化,但是比起Memcached,還是稍有遜色。說了這么多,結論是,無論你使用哪一個,每秒處理請求的次數都不會成為瓶頸。(比如瓶頸可能會在網卡)
  • 內存使用效率:使用簡單的key-value存儲的話,Memcached的內存利用率更高,而如果Redis采用hash結構來做key-value存儲,由於其組合式的壓縮,其內存利用率會高於Memcached。當然,這和你的應用場景和數據特性有關。
  • 數據持久化:如果你對數據持久化和數據同步有所要求,那么推薦你選擇Redis,因為這兩個特性Memcached都不具備。即使你只是希望在升級或者重啟系統后緩存數據不會丟失,選擇Redis也是明智的。
  • 數據結構:當然,最后還得說到你的具體應用需求。Redis相比Memcached來說,擁有更多的數據結構和並支持更豐富的數據操作,通常在Memcached里,你需要將數據拿到客戶端來進行類似的修改再set回去。這大大增加了網絡IO的次數和數據體積。在Redis中,這些復雜的操作通常和一般的GET/SET一樣高效。所以,如果你需要緩存能夠支持更復雜的結構和操作,那么Redis會是不錯的選擇。
  • 網絡IO模型方面:Memcached是多線程,分為監聽線程、worker線程,引入鎖,帶來了性能損耗。Redis使用單線程的IO復用模型,將速度優勢發揮到最大,也提供了較簡單的計算功能 

  • 內存管理方面:Memcached使用預分配的內存池的方式,帶來一定程度的空間浪費 並且在內存仍然有很大空間時,新的數據也可能會被剔除,而Redis使用現場申請內存的方式來存儲數據,不會剔除任何非臨時數據 Redis更適合作為存儲而不是cache 

  • 數據的一致性方面:Memcached提供了cas命令來保證.而Redis提供了事務的功能,可以保證一串 命令的原子性,中間不會被任何操作打斷 

 如果簡單地比較Redis與Memcached的區別,大多數都會得到以下觀點:

     1 、Redis不僅僅支持簡單的k/v類型的數據,同時還提供list,set,zset,hash等數據結構的存儲。

     2 、Redis支持數據的備份,即master-slave模式的數據備份。

     3 、Redis支持數據的持久化,可以將內存中的數據保持在磁盤中,重啟的時候可以再次加載進行使用。

     4、Redis可以實現主從復制,實現故障恢復。

     5、Redis的Sharding技術: 很容易將數據分布到多個Redis實例中

二、Redis數據類型

String,Hash,Set,List,SortedSet,pub/sub,Transaction

  首先Redis內部使用一個redisObject對象來表示所有的key和value,redisObject最主要信息:

         type代表一個value對象具體是何種數據類型,

         encoding是不同數據類型在redis內部的存儲方式,

         比如:type=string代表value存儲的是一個普通字符串,那么對應的encoding可以是raw或者是int,如果是int則代表實際redis內部是按數值型類存儲和表示這個字符串的,當然前提是這個字符串本身可以用數值表示,比如:"123" "456"這樣的字符串。

       這里需要特殊說明一下vm字段,只有打開了Redis的虛擬內存功能,此字段才會真正的分配內存,該功能默認是關閉狀態的,該功能會在后面具體描述。通過上圖我們可以發現Redis使用redisObject來表示所有的key/value數據是比較浪費內存的,當然這些內存管理成本的付出主要也是為了給Redis不同數據類型提供一個統一的管理接口,實際作者也提供了多種方法幫助我們盡量節省內存使用,我們隨后會具體討論。

  String:

  Strings 數據結構是簡單的key-value類型,value其實不僅是String,也可以是數字.

  常用命令:  set,get,decr,incr,mget 等。

  應用場景:String是最常用的一種數據類型,普通的key/ value 存儲都可以歸為此類.即可以完全實現目前 Memcached 的功能,並且效率更高。還可以享受Redis的定時持久化,操作日志及 Replication等功能。除了提供與 Memcached 一樣的get、set、incr、decr 等操作外,Redis還提供了下面一些操作:

  獲取字符串長度

  往字符串append內容

  設置和獲取字符串的某一段內容

  設置及獲取字符串的某一位(bit)

  批量設置一系列字符串的內容

  實現方式:String在redis內部存儲默認就是一個字符串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding字段為int。

  Hash:

  常用命令:hget,hset,hgetall 等。

  應用場景:在Memcached中,我們經常將一些結構化的信息打包成HashMap,在客戶端序列化后存儲為一個字符串的值,比如用戶的昵稱、年齡、性別、積分等,這時候在需要修改其中某一項時,通常需要將所有值取出反序列化后,修改某一項的值,再序列化存儲回去。這樣不僅增大了開銷,也不適用於一些可能並發操作的場合(比如兩個並發的操作都需要修改積分)。而Redis的Hash結構可以使你像在數據庫中Update一個屬性一樣只修改某一項屬性值。

        我們簡單舉個實例來描述下Hash的應用場景,比如我們要存儲一個用戶信息對象數據,包含以下信息:

用戶ID為查找的key,存儲的value用戶對象包含姓名,年齡,生日等信息,如果用普通的key/value結構來存儲,主要有以下2種存儲方式:

  

  第一種方式將用戶ID作為查找key,把其他信息封裝成一個對象以序列化的方式存儲,這種方式的缺點是,增加了序列化/反序列化的開銷,並且在需要修改其中一項信息時,需要把整個對象取回,並且修改操作需要對並發進行保護,引入CAS等復雜問題。

  

  第二種方法是這個用戶信息對象有多少成員就存成多少個key-value對兒,用用戶ID+對應屬性的名稱作為唯一標識來取得對應屬性的值,雖然省去了序列化開銷和並發問題,但是用戶ID為重復存儲,如果存在大量這樣的數據,內存浪費還是非常可觀的。

  那么Redis提供的Hash很好的解決了這個問題,Redis的Hash實際是內部存儲的Value為一個HashMap,並提供了直接存取這個Map成員的接口,如下圖:

  

  也就是說,Key仍然是用戶ID, value是一個Map,這個Map的key是成員的屬性名,value是屬性值,這樣對數據的修改和存取都可以直接通過其內部Map的Key(Redis里稱內部Map的key為field), 也就是通過 key(用戶ID) + field(屬性標簽) 就可以操作對應屬性數據了,既不需要重復存儲數據,也不會帶來序列化和並發修改控制的問題。很好的解決了問題。

  這里同時需要注意,Redis提供了接口(hgetall)可以直接取到全部的屬性數據,但是如果內部Map的成員很多,那么涉及到遍歷整個內部Map的操作,由於Redis單線程模型的緣故,這個遍歷操作可能會比較耗時,而另其它客戶端的請求完全不響應,這點需要格外注意。

實現方式:

  上面已經說到Redis Hash對應Value內部實際就是一個HashMap,實際這里會有2種不同實現,這個Hash的成員比較少時Redis為了節省內存會采用類似一維數組的方式來緊湊存儲,而不會采用真正的HashMap結構,對應的value redisObject的encoding為zipmap,當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

  List

  常用命令:lpush,rpush,lpop,rpop,lrange等。

  應用場景:

  Redis list的應用場景非常多,也是Redis最重要的數據結構之一,比如twitter的關注列表,粉絲列表等都可以用Redis的list結構來實現。

  Lists 就是鏈表,相信略有數據結構知識的人都應該能理解其結構。使用Lists結構,我們可以輕松地實現最新消息排行等功能。Lists的另一個應用就是消息隊列,
可以利用Lists的PUSH操作,將任務存在Lists中,然后工作線程再用POP操作將任務取出進行執行。Redis還提供了操作Lists中某一段的api,你可以直接查詢,刪除Lists中某一段的元素。

實現方式:

  Redis list的實現為一個雙向鏈表,即可以支持反向查找和遍歷,更方便操作,不過帶來了部分額外的內存開銷,Redis內部的很多實現,包括發送緩沖隊列等也都是用的這個數據結構。

  Set

  常用命令:sadd,spop,smembers,sunion 等。

  應用場景:

  Redis set對外提供的功能與list類似是一個列表的功能,特殊之處在於set是可以自動排重的,當你需要存儲一個列表數據,又不希望出現重復數據時,set是一個很好的選擇,並且set提供了判斷某個成員是否在一個set集合內的重要接口,這個也是list所不能提供的。

  Sets 集合的概念就是一堆不重復值的組合。利用Redis提供的Sets數據結構,可以存儲一些集合性的數據,比如在微博應用中,可以將一個用戶所有的關注人存在一個集合中,將其所有粉絲存在一個集合。Redis還為集合提供了求交集、並集、差集等操作,可以非常方便的實現如共同關注、共同喜好、二度好友等功能,對上面的所有集合操作,你還可以使用不同的命令選擇將結果返回給客戶端還是存集到一個新的集合中。

  實現方式:

  set 的內部實現是一個 value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內的原因。

  Sorted Set

  常用命令:zadd,zrange,zrem,zcard等

  使用場景:

  Redis sorted set的使用場景與set類似,區別是set不是自動有序的,而sorted set可以通過用戶額外提供一個優先級(score)的參數來為成員排序,並且是插入有序的,即自動排序。當你需要一個有序的並且不重復的集合列表,那么可以選擇sorted set數據結構,比如twitter 的public timeline可以以發表時間作為score來存儲,這樣獲取時就是自動按時間排好序的。

  另外還可以用Sorted Sets來做帶權重的隊列,比如普通消息的score為1,重要消息的score為2,然后工作線程可以選擇按score的倒序來獲取工作任務。讓重要的任務優先執行。

  實現方式:

  Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序,HashMap里放的是成員到score的映射,而跳躍表里存放的是所有的成員,排序依據是HashMap里存的score,使用跳躍表的結構可以獲得比較高的查找效率,並且在實現上比較簡單。

  Pub/Sub

  Pub/Sub 從字面上理解就是發布(Publish)與訂閱(Subscribe),在Redis中,你可以設定對某一個key值進行消息發布及消息訂閱,當一個key值上進行了消息發布后,所有訂閱它的客戶端都會收到相應的消息。這一功能最明顯的用法就是用作實時消息系統,比如普通的即時聊天,群聊等功能。

  Transactions

  誰說NoSQL都不支持事務,雖然Redis的Transactions提供的並不是嚴格的ACID的事務(比如一串用EXEC提交執行的命令,在執行中服務器宕機,那么會有一部分命令執行了,剩下的沒執行),但是這個Transactions還是提供了基本的命令打包執行的功能(在服務器不出問題的情況下,可以保證一連串的命令是順序在一起執行的,中間有會有其它客戶端命令插進來執行)。Redis還提供了一個Watch功能,你可以對一個key進行Watch,然后再執行Transactions,在這過程中,如果這個Watched的值進行了修改,那么這個Transactions會發現並拒絕執行。

三、Redis應用場景

   Redis在很多方面與其他數據庫解決方案不同:它使用內存提供主存儲支持,而僅使用硬盤做持久性的存儲;它的數據模型非常獨特,用的是單線程。另一個大區別在於,你可以在開發環境中使用Redis的功能,但卻不需要轉到Redis。

  轉向Redis當然也是可取的,許多開發者從一開始就把Redis作為首選數據庫;但設想如果你的開發環境已經搭建好,應用已經在上面運行了,那么更換數據庫框架顯然不那么容易。另外在一些需要大容量數據集的應用,Redis也並不適合,因為它的數據集不會超過系統可用的內存。所以如果你有大數據應用,而且主要是讀取訪問模式,那么Redis並不是正確的選擇。

        然而我喜歡Redis的一點就是你可以把它融入到你的系統中來,這就能夠解決很多問題,比如那些你現有的數據庫處理起來感到緩慢的任務。這些你就可以通過Redis來進行優化,或者為應用創建些新的功能。在本文中,我就想探討一些怎樣將Redis加入到現有的環境中,並利用它的原語命令等功能來解決 傳統環境中碰到的一些常見問題。在這些例子中,Redis都不是作為首選數據庫。

1、顯示最新的項目列表

下面這個語句常用來顯示最新項目,隨着數據多了,查詢毫無疑問會越來越慢。

  SELECT * FROM foo WHERE ... ORDER BY time DESC LIMIT 10   

        在Web應用中,“列出最新的回復”之類的查詢非常普遍,這通常會帶來可擴展性問題。這令人沮喪,因為項目本來就是按這個順序被創建的,但要輸出這個順序卻不得不進行排序操作。

        類似的問題就可以用Redis來解決。比如說,我們的一個Web應用想要列出用戶貼出的最新20條評論。在最新的評論邊上我們有一個“顯示全部”的鏈接,點擊后就可以獲得更多的評論。

        我們假設數據庫中的每條評論都有一個唯一的遞增的ID字段。

        我們可以使用分頁來制作主頁和評論頁,使用Redis的模板,每次新評論發表時,我們會將它的ID添加到一個Redis列表:

  LPUSH latest.comments <ID>   

       我們將列表裁剪為指定長度,因此Redis只需要保存最新的5000條評論:

       LTRIM latest.comments 0 5000 

      每次我們需要獲取最新評論的項目范圍時,我們調用一個函數來完成(使用偽代碼): 

  1. FUNCTION get_latest_comments(start, num_items):  
  2.     id_list = redis.lrange("latest.comments",start,start+num_items - 1)  
  3.     IF id_list.length < num_items  
  4.         id_list = SQL_DB("SELECT ... ORDER BY time LIMIT ...")  
  5.     END  
  6.     RETURN id_list  
  7. END 

      這里我們做的很簡單。在Redis中我們的最新ID使用了常駐緩存,這是一直更新的。但是我們做了限制不能超過5000個ID,因此我們的獲取ID函數會一直詢問Redis。只有在start/count參數超出了這個范圍的時候,才需要去訪問數據庫。

        我們的系統不會像傳統方式那樣“刷新”緩存,Redis實例中的信息永遠是一致的。SQL數據庫(或是硬盤上的其他類型數據庫)只是在用戶需要獲取“很遠”的數據時才會被觸發,而主頁或第一個評論頁是不會麻煩到硬盤上的數據庫了。

2、刪除與過濾

      我們可以使用LREM來刪除評論。如果刪除操作非常少,另一個選擇是直接跳過評論條目的入口,報告說該評論已經不存在。

       有些時候你想要給不同的列表附加上不同的過濾器。如果過濾器的數量受到限制,你可以簡單的為每個不同的過濾器使用不同的Redis列表。畢竟每個列表只有5000條項目,但Redis卻能夠使用非常少的內存來處理幾百萬條項目。

3、排行榜相關

      另一個很普遍的需求是各種數據庫的數據並非存儲在內存中,因此在按得分排序以及實時更新這些幾乎每秒鍾都需要更新的功能上數據庫的性能不夠理想。

      典型的比如那些在線游戲的排行榜,比如一個Facebook的游戲,根據得分你通常想要:

         - 列出前100名高分選手

         - 列出某用戶當前的全球排名

      這些操作對於Redis來說小菜一碟,即使你有幾百萬個用戶,每分鍾都會有幾百萬個新的得分。

      模式是這樣的,每次獲得新得分時,我們用這樣的代碼:

      ZADD leaderboard  <score>  <username> 

     你可能用userID來取代username,這取決於你是怎么設計的。

      得到前100名高分用戶很簡單:ZREVRANGE leaderboard 0 99。

      用戶的全球排名也相似,只需要:ZRANK leaderboard <username>。

4、按照用戶投票和時間排序

      排行榜的一種常見變體模式就像Reddit或Hacker News用的那樣,新聞按照類似下面的公式根據得分來排序:

       score = points / time^alpha 

      因此用戶的投票會相應的把新聞挖出來,但時間會按照一定的指數將新聞埋下去。下面是我們的模式,當然算法由你決定。

      模式是這樣的,開始時先觀察那些可能是最新的項目,例如首頁上的1000條新聞都是候選者,因此我們先忽視掉其他的,這實現起來很簡單。

      每次新的新聞貼上來后,我們將ID添加到列表中,使用LPUSH + LTRIM,確保只取出最新的1000條項目。

      有一項后台任務獲取這個列表,並且持續的計算這1000條新聞中每條新聞的最終得分。計算結果由ZADD命令按照新的順序填充生成列表,老新聞則被清除。這里的關鍵思路是排序工作是由后台任務來完成的。

5、處理過期項目

      另一種常用的項目排序是按照時間排序。我們使用unix時間作為得分即可。

      模式如下:

       - 每次有新項目添加到我們的非Redis數據庫時,我們把它加入到排序集合中。這時我們用的是時間屬性,current_time和time_to_live。

       - 另一項后台任務使用ZRANGE…SCORES查詢排序集合,取出最新的10個項目。如果發現unix時間已經過期,則在數據庫中刪除條目。

6、計數

       Redis是一個很好的計數器,這要感謝INCRBY和其他相似命令。

       我相信你曾許多次想要給數據庫加上新的計數器,用來獲取統計或顯示新信息,但是最后卻由於寫入敏感而不得不放棄它們。

       好了,現在使用Redis就不需要再擔心了。有了原子遞增(atomic increment),你可以放心的加上各種計數,用GETSET重置,或者是讓它們過期。

       例如這樣操作:

         INCR user:<id> EXPIRE 

         user:<id> 60 

       你可以計算出最近用戶在頁面間停頓不超過60秒的頁面瀏覽量,當計數達到比如20時,就可以顯示出某些條幅提示,或是其它你想顯示的東西。

7、特定時間內的特定項目

        另一項對於其他數據庫很難,但Redis做起來卻輕而易舉的事就是統計在某段特點時間里有多少特定用戶訪問了某個特定資源。比如我想要知道某些特定的注冊用戶或IP地址,他們到底有多少訪問了某篇文章。

      每次我獲得一次新的頁面瀏覽時我只需要這樣做:

       SADD page:day1:<page_id> <user_id> 

      當然你可能想用unix時間替換day1,比如time()-(time()%3600*24)等等。

      想知道特定用戶的數量嗎?只需要使用SCARD page:day1:<page_id>。

       需要測試某個特定用戶是否訪問了這個頁面?SISMEMBER page:day1:<page_id>。

8、實時分析正在發生的情況,用於數據統計與防止垃圾郵件等

        我們只做了幾個例子,但如果你研究Redis的命令集,並且組合一下,就能獲得大量的實時分析方法,有效而且非常省力。使用Redis原語命令,更容易實施垃圾郵件過濾系統或其他實時跟蹤系統。

9、Pub/Sub

       Redis的Pub/Sub非常非常簡單,運行穩定並且快速。支持模式匹配,能夠實時訂閱與取消頻道。

10、隊列

        你應該已經注意到像list push和list pop這樣的Redis命令能夠很方便的執行隊列操作了,但能做的可不止這些:比如Redis還有list pop的變體命令,能夠在列表為空時阻塞隊列。

       現代的互聯網應用大量地使用了消息隊列(Messaging)。消息隊列不僅被用於系統內部組件之間的通信,同時也被用於系統跟其它服務之間的交互。消息隊列的使用可以增加系統的可擴展性、靈活性和用戶體驗。非基於消息隊列的系統,其運行速度取決於系統中最慢的組件的速度(注:短板效應)。而基於消息隊列可以將系統中各組件解除耦合,這樣系統就不再受最慢組件的束縛,各組件可以異步運行從而得以更快的速度完成各自的工作。

    此外,當服務器處在高並發操作的時候,比如頻繁地寫入日志文件。可以利用消息隊列實現異步處理。從而實現高性能的並發操作。

11、緩存

        Redis的緩存部分值得寫一篇新文章,我這里只是簡單的說一下。Redis能夠替代memcached,讓你的緩存從只能存儲數據變得能夠更新數據,因此你不再需要每次都重新生成數據了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM