超大批量刪除redis中無用key+配置


目前線上一個單實例redis中無用的key太多,決定刪除一部分。

 

1、刪除指定用戶的key,使用redis的pipeline

根據一定條件把需要刪除的用戶統計出來,放到一個表里面,表為 del_user(int user_id),rows大約在1千萬。

要刪除的key為 "login:%s" %s匹配 user_id .

寫sql文如下:把sql文保存在一個文件里面,命名為 1.sql 

SELECT CONCAT(

  "*2\r\n",  

  '$3\r\n',  
  'DEL\r\n',  
  '$', LENGTH(redis_key), '\r\n',  
  redis_key, '\r'
)  
FROM (  
  SELECT 
  CONCAT('login:',user_id) AS redis_key
  FROM del_user
) AS t;

  然后執行命令:

  mysql --raw --skip-column-names --default-character-set utf8 -h2.6.3.101 -P1067 -uroot -p'123456' test -A < /data/sql/1.sql | /data/redis/bin/redis-cli -a "password" -n 0 -p 6379 --pipe

 實際執行速度非常快,每分鍾大概刪除300多萬個key。

 

這里需要reids協議的知識點,可以參考:http://redis.io/topics/protocol

 

2、刪除模式匹配下的key,使用lua腳本

比如有個需求,需要刪除以":login"結尾的所有key, 業務中key的設計是這樣的 %s:login

 

第一種方式:

redis-cli -a "password" -n 0 -p 6379 keys "*:login" | xargs -i redis-cli -a "password" -n 0 -p 6379 del {}

 

這樣一個壞處每次都要建立一個連接,量小的話還可以接受,量大的話,效率不行。

 

第二種方式:

redis-cli -a "password" -n 0 -p 6379  EVAL "return redis.call('del', unpack(redis.call('keys', ARGV[1])))" 0 *:login

這樣的方式,通過內置的 Lua 解釋器,可以使用 EVAL 命令對 Lua 腳本

但這種處理方式,量大的情況下,lua函數unpack會出現問題,會報錯誤

(error) ERR Error running script (call to f_e177a091510d969af3b388ee986dbe6658df6b57): user_script:1: too many results to unpack 

 

第三種方式:

實際上是對第二種方式的改進,一次性unpack太多會出問題,那就干脆一次5000吧,這樣就不會有問題了

redis-cli -a "password" -n 0 -p 6379 EVAL "local keys = redis.call('keys', ARGV[1]) for i=1,#keys,5000 do redis.call('del', unpack(keys, i, math.min(i+4999, #keys))) end return #keys" 0 *:login

這段腳本的意思,首先定義一個數組 keys,里面存儲了模式匹配的所有的以 *:login結尾的key,然后for循環,每次處理5000個key,也就是說每次del 5000個key。

目前測試下來,1000萬個key,也就需要2分30多秒,速度非常快。

 

這里需要redis命令EVAL的知識點,可以參考:http://redis.io/commands/eval

 

注意:以上是基於redis2.6.14來處理的,keys在線上是禁用的。

 

自從redis2.8以后就開始支持scan命令,模式匹配可以采取下面的形式來批刪除大量的key

redis-cli -a "password" -n 0 -p 6379 --scan --pattern "*:login" | xargs -L 5000 redis-cli -a "password" -n 0 -p 6379 DEL

速度處理也是非常快的

 

 

 

 

使用redis緩存的實踐總結

 分類:
     使用場景一:高頻率使用但不頻繁更新的業務數據。由於不頻繁更新,所以可以在系統啟動時,從數據庫中加載,放入redis。如果更新,需重啟服務,當然這比較笨。更好的做法下面會列出。

        使用場景二:高頻率使用更新還算頻繁的業務數據。由於有一定頻率的更新,所以可以在用戶訪問時,查詢緩存,如果沒有值,則從數據庫中加載入redis,並設置過期時間。這樣,過期時間內的訪問就都走緩存了。這種策略也有問題,就是大並發訪問時,容易造成數據庫瞬間高並發讀,如果程序再寫的爛點,查詢語句再復雜點,那可能造成數據庫死鎖。更好的辦法,下面列出。

        使用場景三:高頻率使用高頻率更新的業務數據。這種數據就需要在寫入數據庫的同時放入緩存,不設置過期時間,這樣用戶每次訪問都走緩存。為了保證數據的一致,還有數據對內存的占用,還需要有一些額外的策略。

 
        對於場景一:更好的做法是在系統啟動的同時,利用redis的pub/sub功能,啟動一個監聽通道。當數據發生更新時,往通道publish一個消息,系統接收到消息后,重新從數據庫中加載數據,放入緩存。這樣系統實現了無中斷的更新緩存。

        對於場景二:更好的做法是單獨啟動一個定時任務,把定時任務看做是一個用戶,他每隔一段時間從數據庫中讀取數據,然后放入緩存。而前台用戶訪問的始終是緩存數據,不會觸發數據庫的相關操作。這個策略也可以用在場景一中。

 
        當然,使用memcached也可以實現類似的功能,但是我更喜歡用redis,基於他強大的性能和數據結構,可以實現多種復雜的業務需求。
 
 

日常中有時為了做實驗需要向redis導入大量數據

下面提供一些思路:

1、循環導入

key的類型為string,下面是例子腳本

for((i=1;i<=1000000;i++))
do
redis-cli -a "password" -n 0 -p 6379 set "k"$i "v"$i
done

這樣的壞處顯而易見,每次都要建立連接,效率低下,不可取。

當然你導入幾百幾千個key倒是沒什么問題。

 

2、pipeline方式導入

 

先把預先的命令導入到一個文本里面

for((i=1;i<=1000000;i++))
do
echo "set k$i v$i" >> /tmp/_t.txt
done

 

執行格式轉換

unix2dos /tmp/_t.txt 

 

pipeline導入

cat /tmp/_t.txt | redis-cli -a "password" -n 0 -p 6379 --pipe

 

以上測試下來,100萬的數據,在幾十秒中搞定,速度嗷嗷的

參考:http://redis.io/topics/mass-insert

 

還有一種情況,比如需要把MySQL中的數據批量導入redis

假如目前需要把用戶元寶表導入到redis中,表 user_gold(user_id, amount) ,每個用戶一個key,string類型。

我們可以這樣操作:

-- 1.sql 保存sql到 1.sql中

SELECT CONCAT(  
  "*3\r\n",  
  '$3\r\n',  
  'SET\r\n',  
  '$', LENGTH(redis_key), '\r\n',  
  redis_key, '\r\n',
  '$', LENGTH(redis_value), '\r\n',
  redis_value, '\r'
)  
FROM (  
  SELECT 
  CONCAT('user:gold:',user_id) AS redis_key,
  amount AS redis_value
  FROM test.user_gold
) AS t;

執行導入操作:

mysql --raw --skip-column-names -h2.6.3.101 -P1067 -uroot -p'123456' test -A < /data/sql/1.sql | /data/redis/bin/redis-cli -a "password" -n 0 -p 6379 --pipe

 

 

 

redis簡介

 分類:
簡介

Redis是一種高級key-value的NoSQL數據庫。它跟memcached類似,不過數據可以持久化,而且支持的數據類型很豐富。有字符串,鏈表,集 合。所以Redis也可以被看成是一個數據結構服務器。本次主要考慮key-list。

Redis的所有數據都是保存在內存中,然后不定期的通過異步方式保存到磁盤上。

【注】NoSQL(NoSQL = Not Only SQL ),指的是非關系型的數據庫,相對傳統的關系數據庫:

1、 對數據庫高並發讀寫的需求

2、對海量數據的高效率存儲和訪問的需求

3、對數據庫的高可擴展性和高可用性的需求

 

安裝、啟動

tar -zxvf redis-2.4.2.tar.gz

cd redis-2.4.2/

make

make install

./redis-server /root/redis-2.4.2/redis.conf

 

 

使用、數據測試

主要研究key-list方式

 

for (int i = 0; i < 10000000; i++) {

jedis.lpush(key, String.valueOf(i));

}

通過該方式一次插入1千萬條記錄,所需時間為1小時40分鍾到2小時,插入10萬條記錄1分鍾左右。

在測試中發現一個問題,無法一次取出1千萬條記錄,對於key-list方式。再多就會出現read timed out,即使在服務端不限制timeout時間也會出現。

 

使用jedis操作,版本2.0.0,通過使用連接池,設置客戶端的超時時間,可以解決read timed out問題,取1千萬條記錄需要27秒,1百萬條記錄2秒(平均每條數據10b),在進行取操作的時候,redis的內存使用會增加,與所取數據量有關,取操作完成后該部分內存釋放。

以下數據都是估計值

取1百萬條記錄約2秒(平均每條數據約10b)

取1百萬條記錄約8秒(平均每條數據約100b),和每條數據大小也有關系

Java中連接池的創建和使用

JedisPoolConfig config = new JedisPoolConfig();

            config.setMaxActive(100);

            config.setMaxIdle(20);

            config.setMaxWait(1000l);

        pool = new JedisPool(config, "192.168.126.124", 6379, 10*1000, "password");

/*

config:連接池配置

"192.168.126.124":ip地址

6379:端口

10*1000:超時時間 (ms)

"password":登錄密碼

*/

Jedis jedis=pool.getResource();

pool.returnResource(jedis);

 

 

jedis操作list介紹

lpush(key) 在key對應list的頭部添加字符串元素,返回1表示成功,0表示key存在且不是list類型
rpush(key)  同上,在尾部添加
llen(key)  返回key對應list的長度,key不存在返回0,如果key對應類型不是list返回錯誤
lrange(key,start,end) 返回指定區間內的元素,下標從0開始,負值表示從后面計算,-1表示倒數第一個元素 ,key不存在返回空列表
ltrim(key,start,end)  截取list,保留指定區間內元素,成功返回1,key不存在返回錯誤
lset( key,index,value) 設置list中指定下標的元素值,成功返回1,key或者下標不存在返回錯誤
lrem(key,count,value) 從key對應list中刪除count個和value相同的元素。count為0時候刪除全部
lpop(key)從list的頭部刪除元素,並返回刪除元素。如果key對應list不存在或者是空返回nil,如果key對應值不是list返回錯誤
rpop(key) 同上,但是從尾部刪除

 

規划使用方式

根據數據量分配足夠內存

普遍使用key-list方式存儲數據,可將key理解為表名,list理解為記錄列表,從而經行增刪改查。

因為redis都是已字符串存儲,對於list的每一個value可以考慮使用json數據結構,在底層做一個json與對象互轉的封裝。

就目前的了解,在使用redis的key-list方式,在通過key獲取list后,對list的查詢,修改還沒有發現很好的方式,目前只能全部取出再經行查詢。對list的更新只能通過下標經行。

 

持久化

Redis所具備的持久化是使用文件快照的方式,可以在配置文件中配置快照持久化的策略,可以設置多個,這里要考慮到具體的數據變化規律和性能的考慮(對磁盤文件的讀寫也較為費時),還有一點redis的文件快照持久化非增量持久化,也就是說每次進行快照都是全量數據。對於該種策略文件快照,在斷電、宕機的情況下會丟失尚未進行快照的數據,在設置策略的時候需要考慮。

插入速度與每條記錄大小關系不大,在進行save 60 10000策略插入1千萬條數據與沒有持久化策略插入1千萬時間分別是 1小時50分鍾、1小時20分鍾

文件快照設置方式如下:

#save 900 1       在900秒內 如果有1條記錄更新經行快照

#save 300 10      在300秒內 如果有10條記錄更新經行快照

#save 60 10000    在60秒內 如果有10000條記錄更新經行快照

 

事務

redis對事務的支持目前還比較簡單。redis只能保證一個client發起的事務中的命令可以連續的執行,而中間不會插入其他client的命令。 由於redis是單線程來處理所有client的請求的所以做到這點是很容易的。一般情況下redis在接受到一個client發來的命令后會立即處理並 返回處理結果,但是當一個client在一個連接中發出multi命令有,這個連接會進入一個事務上下文,該連接后續的命令並不是立即執行,而是先放到一個隊列中。當從此連接受到exec命令后,redis會順序的執行隊列中的所有命令。並將所有命令的運行結果打包到一起返回給client.然后此連接就 結束事務上下文.

Transaction t=jedis.multi();

System.out.println(t.lrange(key, 0, 1));

System.out.println(t.lrange(key, 0, 1));

t.exec();

基本配置參數

1. Redis默認不是以守護進程的方式運行,可以通過該配置項修改,使用yes啟用守護進程

    daemonize no

2. 當Redis以守護進程方式運行時,Redis默認會把pid寫入/var/run/redis.pid文件,可以通過pidfile指定

    pidfile /var/run/redis.pid

3. 指定Redis監聽端口,默認端口為6379,作者在自己的一篇博文中解釋了為什么選用6379作為默認端口,因為6379在手機按鍵上MERZ對應的號碼,而MERZ取自意大利歌女Alessia Merz的名字

    port 6379

4. 綁定的主機地址

    bind 127.0.0.1

5.當 客戶端閑置多長時間后關閉連接,如果指定為0,表示關閉該功能

    timeout 300

6. 指定日志記錄級別,Redis總共支持四個級別:debug、verbose、notice、warning,默認為verbose

    loglevel verbose

7. 日志記錄方式,默認為標准輸出,如果配置Redis為守護進程方式運行,而這里又配置為日志記錄方式為標准輸出,則日志將會發送給/dev/null

    logfile stdout

8. 設置數據庫的數量,默認數據庫為0,可以使用SELECT <dbid>命令在連接上指定數據庫id

    databases 16

9. 指定在多長時間內,有多少次更新操作,就將數據同步到數據文件,可以多個條件配合

    save <seconds> <changes>

    Redis默認配置文件中提供了三個條件:

    save 900 1

    save 300 10

    save 60 10000

    分別表示900秒(15分鍾)內有1個更改,300秒(5分鍾)內有10個更改以及60秒內有10000個更改。

 

10. 指定存儲至本地數據庫時是否壓縮數據,默認為yes,Redis采用LZF壓縮,如果為了節省CPU時間,可以關閉該選項,但會導致數據庫文件變的巨大

    rdbcompression yes

11. 指定本地數據庫文件名,默認值為dump.rdb

    dbfilename dump.rdb

12. 指定本地數據庫存放目錄

    dir ./

13. 設置當本機為slav服務時,設置master服務的IP地址及端口,在Redis啟動時,它會自動從master進行數據同步

    slaveof <masterip> <masterport>

14. 當master服務設置了密碼保護時,slav服務連接master的密碼

    masterauth <master-password>

15. 設置Redis連接密碼,如果配置了連接密碼,客戶端在連接Redis時需要通過AUTH <password>命令提供密碼,默認關閉

    requirepass foobared

16. 設置同一時間最大客戶端連接數,默認無限制,Redis可以同時打開的客戶端連接數為Redis進程可以打開的最大文件描述符數,如果設置 maxclients 0,表示不作限制。當客戶端連接數到達限制時,Redis會關閉新的連接並向客戶端返回max number of clients reached錯誤信息

    maxclients 128

17. 指定Redis最大內存限制,Redis在啟動時會把數據加載到內存中,達到最大內存后,Redis會先嘗試清除已到期或即將到期的Key,當此方法處理 后,仍然到達最大內存設置,將無法再進行寫入操作,但仍然可以進行讀取操作。Redis新的vm機制,會把Key存放內存,Value會存放在swap區

    maxmemory <bytes>

18. 指定是否在每次更新操作后進行日志記錄,Redis在默認情況下是異步的把數據寫入磁盤,如果不開啟,可能會在斷電時導致一段時間內的數據丟失。因為 redis本身同步數據文件是按上面save條件來同步的,所以有的數據會在一段時間內只存在於內存中。默認為no

    appendonly no

19. 指定更新日志文件名,默認為appendonly.aof

     appendfilename appendonly.aof

20. 指定更新日志條件,共有3個可選值: 
    no:表示等操作系統進行數據緩存同步到磁盤(快) 
    always:表示每次更新操作后手動調用fsync()將數據寫到磁盤(慢,安全) 
    everysec:表示每秒同步一次(折衷,默認值)

    appendfsync everysec

 

21. 指定是否啟用虛擬內存機制,默認值為no,簡單的介紹一下,VM機制將數據分頁存放,由Redis將訪問量較少的頁即冷數據swap到磁盤上,訪問多的頁面由磁盤自動換出到內存中(在后面的文章我會仔細分析Redis的VM機制)

     vm-enabled no

22. 虛擬內存文件路徑,默認值為/tmp/redis.swap,不可多個Redis實例共享

     vm-swap-file /tmp/redis.swap

23. 將所有大於vm-max-memory的數據存入虛擬內存,無論vm-max-memory設置多小,所有索引數據都是內存存儲的(Redis的索引數據 就是keys),也就是說,當vm-max-memory設置為0的時候,其實是所有value都存在於磁盤。默認值為0

     vm-max-memory 0

24. Redis swap文件分成了很多的page,一個對象可以保存在多個page上面,但一個page上不能被多個對象共享,vm-page-size是要根據存儲的 數據大小來設定的,作者建議如果存儲很多小對象,page大小最好設置為32或者64bytes;如果存儲很大大對象,則可以使用更大的page,如果不 確定,就使用默認值

     vm-page-size 32

25. 設置swap文件中的page數量,由於頁表(一種表示頁面空閑或使用的bitmap)是在放在內存中的,,在磁盤上每8個pages將消耗1byte的內存。

     vm-pages 134217728

26. 設置訪問swap文件的線程數,最好不要超過機器的核數,如果設置為0,那么所有對swap文件的操作都是串行的,可能會造成比較長時間的延遲。默認值為4

     vm-max-threads 4

27. 設置在向客戶端應答時,是否把較小的包合並為一個包發送,默認為開啟

    glueoutputbuf yes

28. 指定在超過一定的數量或者最大的元素超過某一臨界值時,采用一種特殊的哈希算法

    hash-max-zipmap-entries 64

    hash-max-zipmap-value 512

29. 指定是否激活重置哈希,默認為開啟(后面在介紹Redis的哈希算法時具體介紹)

    activerehashing yes

30. 指定包含其它的配置文件,可以在同一主機上多個Redis實例之間使用同一份配置文件,而同時各個實例又擁有自己的特定配置文件

    include /path/to/local.conf


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM