超大批量刪除redis中無用key+配置

本文轉載自查看原文 2016-08-04 11:50 6719 Redis/Memcached

目前線上一個單實例redis中無用的key太多，決定刪除一部分。

1、刪除指定用戶的key，使用redis的pipeline

根據一定條件把需要刪除的用戶統計出來，放到一個表里面，表為 del_user(int user_id)，rows大約在1千萬。

要刪除的key為 "login:%s" %s匹配 user_id .

寫sql文如下：把sql文保存在一個文件里面，命名為 1.sql

SELECT CONCAT(

"*2\r\n",

'$3\r\n',
'DEL\r\n',
'$', LENGTH(redis_key), '\r\n',
redis_key, '\r'
)
FROM (
SELECT
CONCAT('login:',user_id) AS redis_key
FROM del_user
) AS t;

然后執行命令：

mysql --raw --skip-column-names --default-character-set utf8 -h2.6.3.101 -P1067 -uroot -p'123456' test -A < /data/sql/1.sql | /data/redis/bin/redis-cli -a "password" -n 0 -p 6379 --pipe

實際執行速度非常快，每分鍾大概刪除300多萬個key。

這里需要reids協議的知識點，可以參考：http://redis.io/topics/protocol

2、刪除模式匹配下的key，使用lua腳本

比如有個需求，需要刪除以":login"結尾的所有key，業務中key的設計是這樣的 %s:login

第一種方式：

redis-cli -a "password" -n 0 -p 6379 keys "*:login" | xargs -i redis-cli -a "password" -n 0 -p 6379 del {}

這樣一個壞處每次都要建立一個連接，量小的話還可以接受，量大的話，效率不行。

第二種方式：

redis-cli -a "password" -n 0 -p 6379 EVAL "return redis.call('del', unpack(redis.call('keys', ARGV[1])))" 0 *:login

這樣的方式，通過內置的 Lua 解釋器，可以使用 EVAL 命令對 Lua 腳本

但這種處理方式，量大的情況下，lua函數unpack會出現問題，會報錯誤

(error) ERR Error running script (call to f_e177a091510d969af3b388ee986dbe6658df6b57): user_script:1: too many results to unpack

第三種方式：

實際上是對第二種方式的改進，一次性unpack太多會出問題，那就干脆一次5000吧，這樣就不會有問題了

redis-cli -a "password" -n 0 -p 6379 EVAL "local keys = redis.call('keys', ARGV[1]) for i=1,#keys,5000 do redis.call('del', unpack(keys, i, math.min(i+4999, #keys))) end return #keys" 0 *:login

這段腳本的意思，首先定義一個數組 keys，里面存儲了模式匹配的所有的以 *:login結尾的key，然后for循環，每次處理5000個key，也就是說每次del 5000個key。

目前測試下來，1000萬個key，也就需要2分30多秒，速度非常快。

這里需要redis命令EVAL的知識點，可以參考：http://redis.io/commands/eval

注意：以上是基於redis2.6.14來處理的，keys在線上是禁用的。

自從redis2.8以后就開始支持scan命令，模式匹配可以采取下面的形式來批刪除大量的key

redis-cli -a "password" -n 0 -p 6379 --scan --pattern "*:login" | xargs -L 5000 redis-cli -a "password" -n 0 -p 6379 DEL

速度處理也是非常快的

使用redis緩存的實踐總結

2013-04-20 11:46 493人閱讀評論(0) 收藏舉報

分類：

Redis（12）

使用場景一：高頻率使用但不頻繁更新的業務數據。由於不頻繁更新，所以可以在系統啟動時，從數據庫中加載，放入redis。如果更新，需重啟服務，當然這比較笨。更好的做法下面會列出。

使用場景二：高頻率使用更新還算頻繁的業務數據。由於有一定頻率的更新，所以可以在用戶訪問時，查詢緩存，如果沒有值，則從數據庫中加載入redis，並設置過期時間。這樣，過期時間內的訪問就都走緩存了。這種策略也有問題，就是大並發訪問時，容易造成數據庫瞬間高並發讀，如果程序再寫的爛點，查詢語句再復雜點，那可能造成數據庫死鎖。更好的辦法，下面列出。

使用場景三：高頻率使用高頻率更新的業務數據。這種數據就需要在寫入數據庫的同時放入緩存，不設置過期時間，這樣用戶每次訪問都走緩存。為了保證數據的一致，還有數據對內存的占用，還需要有一些額外的策略。

對於場景一：更好的做法是在系統啟動的同時，利用redis的pub/sub功能，啟動一個監聽通道。當數據發生更新時，往通道publish一個消息，系統接收到消息后，重新從數據庫中加載數據，放入緩存。這樣系統實現了無中斷的更新緩存。

對於場景二：更好的做法是單獨啟動一個定時任務，把定時任務看做是一個用戶，他每隔一段時間從數據庫中讀取數據，然后放入緩存。而前台用戶訪問的始終是緩存數據，不會觸發數據庫的相關操作。這個策略也可以用在場景一中。

當然，使用memcached也可以實現類似的功能，但是我更喜歡用redis，基於他強大的性能和數據結構，可以實現多種復雜的業務需求。

日常中有時為了做實驗需要向redis導入大量數據

下面提供一些思路：

1、循環導入

key的類型為string，下面是例子腳本

for((i=1;i<=1000000;i++))
do
redis-cli -a "password" -n 0 -p 6379 set "k"$i "v"$i
done

這樣的壞處顯而易見，每次都要建立連接，效率低下，不可取。

當然你導入幾百幾千個key倒是沒什么問題。

2、pipeline方式導入

先把預先的命令導入到一個文本里面

for((i=1;i<=1000000;i++))
do
echo "set k$i v$i" >> /tmp/_t.txt
done

執行格式轉換

unix2dos /tmp/_t.txt

pipeline導入

cat /tmp/_t.txt | redis-cli -a "password" -n 0 -p 6379 --pipe

以上測試下來，100萬的數據，在幾十秒中搞定，速度嗷嗷的

參考：http://redis.io/topics/mass-insert

還有一種情況，比如需要把MySQL中的數據批量導入redis

假如目前需要把用戶元寶表導入到redis中，表 user_gold(user_id, amount) ,每個用戶一個key，string類型。

我們可以這樣操作：

-- 1.sql 保存sql到 1.sql中

SELECT CONCAT(
"*3\r\n",
'$3\r\n',
'SET\r\n',
'$', LENGTH(redis_key), '\r\n',
redis_key, '\r\n',
'$', LENGTH(redis_value), '\r\n',
redis_value, '\r'
)
FROM (
SELECT
CONCAT('user:gold:',user_id) AS redis_key,
amount AS redis_value
FROM test.user_gold
) AS t;

執行導入操作：

mysql --raw --skip-column-names -h2.6.3.101 -P1067 -uroot -p'123456' test -A < /data/sql/1.sql | /data/redis/bin/redis-cli -a "password" -n 0 -p 6379 --pipe

redis簡介

2013-05-22 11:11 1224人閱讀評論(0) 收藏舉報

分類：

Redis（12）

簡介

Redis是一種高級key-value的NoSQL數據庫。它跟memcached類似，不過數據可以持久化，而且支持的數據類型很豐富。有字符串，鏈表，集合。所以Redis也可以被看成是一個數據結構服務器。本次主要考慮key-list。

Redis的所有數據都是保存在內存中，然后不定期的通過異步方式保存到磁盤上。

【注】NoSQL(NoSQL = Not Only SQL )，指的是非關系型的數據庫，相對傳統的關系數據庫：

1、對數據庫高並發讀寫的需求

2、對海量數據的高效率存儲和訪問的需求

3、對數據庫的高可擴展性和高可用性的需求

安裝、啟動

tar -zxvf redis-2.4.2.tar.gz

cd redis-2.4.2/

make

make install

./redis-server /root/redis-2.4.2/redis.conf

使用、數據測試

主要研究key-list方式

for (int i = 0; i < 10000000; i++) {

jedis.lpush(key, String.valueOf(i));

}

通過該方式一次插入1千萬條記錄，所需時間為1小時40分鍾到2小時，插入10萬條記錄1分鍾左右。

在測試中發現一個問題，無法一次取出1千萬條記錄，對於key-list方式。再多就會出現read timed out，即使在服務端不限制timeout時間也會出現。

使用jedis操作，版本2.0.0，通過使用連接池，設置客戶端的超時時間，可以解決read timed out問題，取1千萬條記錄需要27秒，1百萬條記錄2秒（平均每條數據10b），在進行取操作的時候，redis的內存使用會增加，與所取數據量有關，取操作完成后該部分內存釋放。

以下數據都是估計值

取1百萬條記錄約2秒（平均每條數據約10b）

取1百萬條記錄約8秒（平均每條數據約100b），和每條數據大小也有關系

Java中連接池的創建和使用

JedisPoolConfig config = new JedisPoolConfig();

config.setMaxActive(100);

config.setMaxIdle(20);

config.setMaxWait(1000l);

pool = new JedisPool(config, "192.168.126.124", 6379, 10*1000, "password");

config：連接池配置

"192.168.126.124":ip地址

6379：端口

10*1000：超時時間 (ms)

"password"：登錄密碼

Jedis jedis=pool.getResource();

pool.returnResource(jedis);

jedis操作list介紹

lpush(key) 在key對應list的頭部添加字符串元素，返回1表示成功，0表示key存在且不是list類型
rpush(key)  同上，在尾部添加
llen(key)  返回key對應list的長度，key不存在返回0,如果key對應類型不是list返回錯誤
lrange(key,start,end) 返回指定區間內的元素，下標從0開始，負值表示從后面計算，-1表示倒數第一個元素，key不存在返回空列表
ltrim(key,start,end)  截取list，保留指定區間內元素，成功返回1，key不存在返回錯誤
lset( key,index,value) 設置list中指定下標的元素值，成功返回1，key或者下標不存在返回錯誤
lrem(key,count,value) 從key對應list中刪除count個和value相同的元素。count為0時候刪除全部
lpop (key)從list的頭部刪除元素，並返回刪除元素。如果key對應list不存在或者是空返回nil，如果key對應值不是list返回錯誤
rpop(key) 同上，但是從尾部刪除

規划使用方式

根據數據量分配足夠內存

普遍使用key-list方式存儲數據，可將key理解為表名，list理解為記錄列表，從而經行增刪改查。

因為redis都是已字符串存儲，對於list的每一個value可以考慮使用json數據結構，在底層做一個json與對象互轉的封裝。

就目前的了解，在使用redis的key-list方式，在通過key獲取list后，對list的查詢，修改還沒有發現很好的方式，目前只能全部取出再經行查詢。對list的更新只能通過下標經行。

持久化

Redis所具備的持久化是使用文件快照的方式，可以在配置文件中配置快照持久化的策略，可以設置多個，這里要考慮到具體的數據變化規律和性能的考慮（對磁盤文件的讀寫也較為費時），還有一點redis的文件快照持久化非增量持久化，也就是說每次進行快照都是全量數據。對於該種策略文件快照，在斷電、宕機的情況下會丟失尚未進行快照的數據，在設置策略的時候需要考慮。

插入速度與每條記錄大小關系不大，在進行save 60 10000策略插入1千萬條數據與沒有持久化策略插入1千萬時間分別是 1小時50分鍾、1小時20分鍾

文件快照設置方式如下：

#save 900 1 在900秒內如果有1條記錄更新經行快照

#save 300 10 在300秒內如果有10條記錄更新經行快照

#save 60 10000 在60秒內如果有10000條記錄更新經行快照

事務

redis對事務的支持目前還比較簡單。redis只能保證一個client發起的事務中的命令可以連續的執行，而中間不會插入其他client的命令。由於redis是單線程來處理所有client的請求的所以做到這點是很容易的。一般情況下redis在接受到一個client發來的命令后會立即處理並返回處理結果，但是當一個client在一個連接中發出multi命令有，這個連接會進入一個事務上下文，該連接后續的命令並不是立即執行，而是先放到一個隊列中。當從此連接受到exec命令后，redis會順序的執行隊列中的所有命令。並將所有命令的運行結果打包到一起返回給client.然后此連接就結束事務上下文.

Transaction t=jedis.multi();

System.out.println(t.lrange(key, 0, 1));

t.exec();

基本配置參數

1. Redis默認不是以守護進程的方式運行，可以通過該配置項修改，使用yes啟用守護進程

daemonize no

2. 當Redis以守護進程方式運行時，Redis默認會把pid寫入/var/run/redis.pid文件，可以通過pidfile指定

pidfile /var/run/redis.pid

3. 指定Redis監聽端口，默認端口為6379，作者在自己的一篇博文中解釋了為什么選用6379作為默認端口，因為6379在手機按鍵上MERZ對應的號碼，而MERZ取自意大利歌女Alessia Merz的名字

port 6379

4. 綁定的主機地址

bind 127.0.0.1

5.當客戶端閑置多長時間后關閉連接，如果指定為0，表示關閉該功能

timeout 300

6. 指定日志記錄級別，Redis總共支持四個級別：debug、verbose、notice、warning，默認為verbose

loglevel verbose

7. 日志記錄方式，默認為標准輸出，如果配置Redis為守護進程方式運行，而這里又配置為日志記錄方式為標准輸出，則日志將會發送給/dev/null

logfile stdout

8. 設置數據庫的數量，默認數據庫為0，可以使用SELECT <dbid>命令在連接上指定數據庫id

databases 16

9. 指定在多長時間內，有多少次更新操作，就將數據同步到數據文件，可以多個條件配合

save <seconds> <changes>

Redis默認配置文件中提供了三個條件：

save 900 1

save 300 10

save 60 10000

分別表示900秒（15分鍾）內有1個更改，300秒（5分鍾）內有10個更改以及60秒內有10000個更改。

10. 指定存儲至本地數據庫時是否壓縮數據，默認為yes，Redis采用LZF壓縮，如果為了節省CPU時間，可以關閉該選項，但會導致數據庫文件變的巨大

rdbcompression yes

11. 指定本地數據庫文件名，默認值為dump.rdb

dbfilename dump.rdb

12. 指定本地數據庫存放目錄

dir ./

13. 設置當本機為slav服務時，設置master服務的IP地址及端口，在Redis啟動時，它會自動從master進行數據同步

slaveof <masterip> <masterport>

14. 當master服務設置了密碼保護時，slav服務連接master的密碼

masterauth <master-password>

15. 設置Redis連接密碼，如果配置了連接密碼，客戶端在連接Redis時需要通過AUTH <password>命令提供密碼，默認關閉

requirepass foobared

16. 設置同一時間最大客戶端連接數，默認無限制，Redis可以同時打開的客戶端連接數為Redis進程可以打開的最大文件描述符數，如果設置 maxclients 0，表示不作限制。當客戶端連接數到達限制時，Redis會關閉新的連接並向客戶端返回max number of clients reached錯誤信息

maxclients 128

17. 指定Redis最大內存限制，Redis在啟動時會把數據加載到內存中，達到最大內存后，Redis會先嘗試清除已到期或即將到期的Key，當此方法處理后，仍然到達最大內存設置，將無法再進行寫入操作，但仍然可以進行讀取操作。Redis新的vm機制，會把Key存放內存，Value會存放在swap區

maxmemory <bytes>

18. 指定是否在每次更新操作后進行日志記錄，Redis在默認情況下是異步的把數據寫入磁盤，如果不開啟，可能會在斷電時導致一段時間內的數據丟失。因為 redis本身同步數據文件是按上面save條件來同步的，所以有的數據會在一段時間內只存在於內存中。默認為no

appendonly no

19. 指定更新日志文件名，默認為appendonly.aof

appendfilename appendonly.aof

20. 指定更新日志條件，共有3個可選值：
  no：表示等操作系統進行數據緩存同步到磁盤（快）
  always：表示每次更新操作后手動調用fsync()將數據寫到磁盤（慢，安全）
  everysec：表示每秒同步一次（折衷，默認值）

appendfsync everysec

21. 指定是否啟用虛擬內存機制，默認值為no，簡單的介紹一下，VM機制將數據分頁存放，由Redis將訪問量較少的頁即冷數據swap到磁盤上，訪問多的頁面由磁盤自動換出到內存中（在后面的文章我會仔細分析Redis的VM機制）

vm-enabled no

22. 虛擬內存文件路徑，默認值為/tmp/redis.swap，不可多個Redis實例共享

vm-swap-file /tmp/redis.swap

23. 將所有大於vm-max-memory的數據存入虛擬內存,無論vm-max-memory設置多小,所有索引數據都是內存存儲的(Redis的索引數據就是keys),也就是說,當vm-max-memory設置為0的時候,其實是所有value都存在於磁盤。默認值為0

vm-max-memory 0

24. Redis swap文件分成了很多的page，一個對象可以保存在多個page上面，但一個page上不能被多個對象共享，vm-page-size是要根據存儲的數據大小來設定的，作者建議如果存儲很多小對象，page大小最好設置為32或者64bytes；如果存儲很大大對象，則可以使用更大的page，如果不確定，就使用默認值

vm-page-size 32

25. 設置swap文件中的page數量，由於頁表（一種表示頁面空閑或使用的bitmap）是在放在內存中的，，在磁盤上每8個pages將消耗1byte的內存。

vm-pages 134217728

26. 設置訪問swap文件的線程數,最好不要超過機器的核數,如果設置為0,那么所有對swap文件的操作都是串行的，可能會造成比較長時間的延遲。默認值為4

vm-max-threads 4

27. 設置在向客戶端應答時，是否把較小的包合並為一個包發送，默認為開啟

glueoutputbuf yes

28. 指定在超過一定的數量或者最大的元素超過某一臨界值時，采用一種特殊的哈希算法

hash-max-zipmap-entries 64

hash-max-zipmap-value 512

29. 指定是否激活重置哈希，默認為開啟（后面在介紹Redis的哈希算法時具體介紹）

activerehashing yes

30. 指定包含其它的配置文件，可以在同一主機上多個Redis實例之間使用同一份配置文件，而同時各個實例又擁有自己的特定配置文件

include /path/to/local.conf

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Redis——大批量刪除redis的key [linux] 大批量刪除任務 Linux rm刪除大批量文件 Mysql 大批量數據插入與刪除 Redis導入大批量數據 SQL Server從讀寫頻繁的大表中刪除大批量數據 c# sqlserver 刪除大批量數據超時 SQLSERVER大批量數據快速導入Redis 集群Redis使用 Python pipline大批量插入數據大批量數據讀寫