拼多多面試題：如何用 Redis 統計獨立用戶訪問量？

本文轉載自查看原文 2020-04-09 08:46 853 java

眾所周至，拼多多的待遇也是高的可怕，在挖人方面也是不遺余力，對於一些工作3年的開發，稍微優秀一點的，都給到30K的Offer。

當然，拼多多加班也是出名的，一周上6天班是常態，每天工作時間基本都是超過12個小時，也是相當辛苦的。

廢話不多說，今天我們來聊一聊拼多多的一道后台面試真題，是一道簡單的架構類的題目：

1、Hash

哈希是Redis的一種基礎數據結構，Redis底層維護的是一個開散列，會把不同的key映射到哈希表上，如果是遇到關鍵字沖突，那么就會拉出一個鏈表出來。

當一個用戶訪問的時候，如果用戶登陸過，那么我們就使用用戶的id，如果用戶沒有登陸過，那么我們也能夠前端頁面隨機生成一個key用來標識用戶

當用戶訪問的時候，我們可以使用HSET命令，key可以選擇URI與對應的日期進行拼湊，field可以使用用戶的id或者隨機標識，value可以簡單設置為1。

當我們要統計某一個網站某一天的訪問量的時候，就可以直接使用HLEN來得到最終的結果了。

優點：簡單，容易實現，查詢也是非常方便，數據准確性非常高。

缺點：占用內存過大，。隨着key的增多，性能也會下降。小網站還行，拼多多這種數億PV的網站肯定受不了。

2、Bitset

我們知道，對於一個32位的int，如果我們只用來記錄id，那么只能夠記錄一個用戶，但如果我們轉成2進制，每位用來表示一個用戶，那么我們就能夠一口氣表示32個用戶，空間節省了32倍！

對於有大量數據的場景，如果我們使用bitset，那么可以節省非常多的內存。推薦：Redis 21問，你會幾道？

對於沒有登陸的用戶，我們也可以使用哈希算法，把對應的用戶標識哈希成一個數字id。bitset非常的節省內存，假設有1億個用戶，也只需要100000000/8/1024/1024約等於12兆內存。

Redis已經為我們提供了SETBIT的方法，使用起來非常的方便，我們可以看看下面的例子。

關注微信公眾號：Java技術棧，在后台回復：redis，可以獲取我整理的 N 篇最新 Redis 教程，都是干貨。

我們在item頁面可以不停地使用SETBIT命令，設置用戶已經訪問了該頁面，也可以使用GETBIT的方法查詢某個用戶是否訪問。最后我們通過BITCOUNT可以統計該網頁每天的訪問數量。

優點： 占用內存更小，查詢方便，可以指定查詢某個用戶，數據可能略有瑕疵，對於非登陸的用戶，可能不同的key映射到同一個id，否則需要維護一個非登陸用戶的映射，有額外的開銷。

缺點： 如果用戶非常的稀疏，那么占用的內存可能比方法一更大。

3、概率算法

對於拼多多這種多個頁面都可能非常多訪問量的網站，如果所需要的數量不用那么准確，可以使用概率算法

事實上，我們對一個網站的UV的統計，1億跟1億零30萬其實是差不多的。

在Redis中，已經封裝了HyperLogLog算法，他是一種基數評估算法。這種算法的特征，一般都是數據不存具體的值，而是存用來計算概率的一些相關數據。

當用戶訪問網站的時候，我們可以使用PFADD命令，設置對應的命令，最后我們只要通過PFCOUNT就能順利計算出最終的結果，因為這個只是一個概率算法，所以可能存在0.81%的誤差。

優點： 占用內存極小，對於一個key，只需要12kb。對於拼多多這種超多用戶的特別適用。

缺點： 查詢指定用戶的時候，可能會出錯，畢竟存的不是具體的數據。總數也存在一定的誤差。

上面就是常見的3種適用Redis統計網站用戶訪問數的方法了。

作者：沙茶敏碎碎念
https://www.toutiao.com/i6695734985246114312

推薦去我的博客閱讀更多：

1.Java JVM、集合、多線程、新特性系列教程

生活很美好，明天見～

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 拼多多面試真題：如何用 Redis 統計獨立用戶訪問量！如何用Redis統計獨立用戶訪問量拼多多面試題訪問量統計 nginx訪問量統計 nginx訪問量統計網站訪問量的統計利用redis實現網站訪問量統計 linux訪問量統計統計網站日訪問量，總訪問量