Java使用極小的內存完成對超大數據的去重計數，用於實時計算中統計UV

本文轉載自查看原文 2018-12-17 15:49 1053 algorithm

Java使用極小的內存完成對超大數據的去重計數，用於實時計算中統計UV – lxw的大數據田地 http://lxw1234.com/archives/2015/09/516.htm

Java使用極小的內存完成對超大數據的去重計數，用於實時計算中統計UV

編程語言 lxw1234@qq.com 3年前 (2015-09-25) 15132℃ 1評論

關鍵字：streamlib、基數估計、實時計算uv、大數據、去重計數

一直在想如何在實時計算中完成對海量數據去重計數的功能，即SELECT COUNT(DISTINCT) 的功能。比如：從每天零點開始，實時計算全站累計用戶數（UV），以及某些組合維度上的用戶數，這里的用戶假設以Cookieid來計。

想想一般的解決辦法，在內存中使用HaspMap、HashSet？或者是在Redis中以Cookieid為key？感覺都不合適，在數以億計用戶的業務場景下，內存顯然也成了瓶頸。

如果說，實時計算的業務場景中，對UV的計算精度並不要求100%（比如：實時的監測某一網站的PV和UV），那么可以考慮采用基數估計算法來統計。這里有一個Java的實現版本 stream-lib：https://github.com/addthis/stream-lib

采用基數估計算法目的就是為了使用很小的內存，即可完成超大數據的去重計數。號稱是只使用幾KB的內存，就可以完成對數以條數據的去重計數。但基數估計算法都不是100%精確的，誤差在0~2%之間，一般是1%左右。

本文使用stream-lib來嘗試對兩個數據集進行去重計數。相關的文檔和下載見文章最后。

測試數據集1：

文件名：small_cookies.txt
文件內容：每個cookieid一行
文件總記錄數：14892708
去重記錄數：3896911
文件總大小：350153062（約334M）

[liuxiaowen@dev site_raw_log]$ head -5 small_cookies.txt
7EDCF13A03D387548FB2B8
da5f0196-56036078075b9f-14892137
1D0A83B604ADD4558970EE
3DF76E7100025F553B1980
72C756700C3CAA56035EE0
[liuxiaowen@dev site_raw_log]$ wc -l small_cookies.txt
14892708 small_cookies.txt
[liuxiaowen@dev site_raw_log]$ awk '!a[$0]++{print $0}' small_cookies.txt | wc -l
3896911
[liuxiaowen@dev site_raw_log]$ ll small_cookies.txt
-rw-rw-r--. 1 liuxiaowen liuxiaowen 350153062 Sep 25 10:50 small_cookies.txt

測試數據集2：

文件名：big_cookies.txt
文件內容：每個cookieid一行
文件總記錄數：547631464
去重記錄數：190264959
文件總大小：12610638153（約11.8GB）

--總記錄數
spark-sql> select count(1) from big_cookies;
547631464
Time taken: 7.311 seconds, Fetched 1 row(s)
--去重記錄數
spark-sql> select count(1) from (select cookieid from big_cookies group by cookieid) x;
190264959
Time taken: 80.516 seconds, Fetched 1 row(s)
hadoop fs -getmerge /hivedata/warehouse/liuxiaowen.db/big_cookies/* big_cookies.txt
[liuxiaowen@dev site_raw_log]$ wc -l big_cookies.txt
547631464 cookies.txt
//總大小
[liuxiaowen@dev site_raw_log]$ ll big_cookies.txt
-rw-r--r--. 1 liuxiaowen liuxiaowen 12610638153 Sep 25 13:25 big_cookies.txt

普通方法測試

所謂普通方法，就是遍歷文件，將所有cookieid放到內存的HashSet中，而HashSet的size就是去重記錄數。

代碼如下：

package com.lxw1234.streamlib;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
public class Test {
public static void main(String[] args) {
Runtime rt = Runtime.getRuntime();
Set set = new HashSet();
File file = new File(args[0]);
BufferedReader reader = null;
long count = 0l;
try {
reader = new BufferedReader(new FileReader(file));
String tempString = null;
while ((tempString = reader.readLine()) != null) {
count++;
set.add(tempString);
if(set.size() % 5000 == 0) {
System.out.println("Total count:[" + count + "] Unique count:[" + set.size() + "] FreeMemory:[" + rt.freeMemory() + "] ..");
}
}
reader.close();
} catch (Exception e) {
e.printStackTrace();
} finally {
if (reader != null) {
try {
reader.close();
} catch (IOException e1) {}
}
}
System.out.println("Total count:[" + count + "] Unique count:[" + set.size() + "] FreeMemory:[" + rt.freeMemory() + "] ..");
}
}

指定使用10M的內存運行，命令為：

java -cp /tmp/teststreamlib.jar -Xms10M -Xmx10M -XX:PermSize=10M -XX:MaxPermSize=10M \
com.lxw1234.streamlib.Test /home/liuxiaowen/site_raw_log/small_cookies.txt

運行結果如下：

streamlib

10M的內存，僅僅夠存65000左右的cookieid，之后就報錯，內存不夠了。大數據集更不用說。

基數估計方法測試

采用streamlib中的基數估計算法實現ICardinality，對兩個結果集的總記錄數和去重記錄數進行統計，代碼如下：

package com.lxw1234.streamlib;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import com.clearspring.analytics.stream.cardinality.AdaptiveCounting;
import com.clearspring.analytics.stream.cardinality.ICardinality;
public class TestCardinality {
public static void main(String[] args) {
Runtime rt = Runtime.getRuntime();
long start = System.currentTimeMillis();
long updateRate = 1000000l;
long count = 0l;
ICardinality card = AdaptiveCounting.Builder.obyCount(Integer.MAX_VALUE).build();
File file = new File(args[0]);
BufferedReader reader = null;
try {
reader = new BufferedReader(new FileReader(file));
String tempString = null;
while ((tempString = reader.readLine()) != null) {
card.offer(tempString);
count++;
if (updateRate > 0 && count % updateRate == 0) {
System.out.println("Total count:[" + count + "] Unique count:[" + card.cardinality() + "] FreeMemory:[" + rt.freeMemory() + "] ..");
}
}
reader.close();
} catch (Exception e) {
e.printStackTrace();
} finally {
if (reader != null) {
try {
reader.close();
} catch (IOException e1) {}
}
}
long end = System.currentTimeMillis();
System.out.println("Total count:[" + count + "] Unique count:[" + card.cardinality() + "] FreeMemory:[" + rt.freeMemory() + "] ..");
System.out.println("Total cost:[" + (end - start) + "] ms ..");
}
}

測試數據集1

指定使用10M的內存運行，測試數據集1命令為：

java -cp /tmp/stream-2.9.1-SNAPSHOT.jar:/tmp/teststreamlib.jar -Xms10M -Xmx10M -XX:PermSize=10M -XX:MaxPermSize=10M \
com.lxw1234.streamlib.TestCardinality /home/liuxiaowen/site_raw_log/small_cookies.txt

運行結果如下：

streamlib

測試數據集2

同樣指定使用10M的內存運行，測試數據集2命令為：

java -cp /tmp/stream-2.9.1-SNAPSHOT.jar:/tmp/teststreamlib.jar -Xms10M -Xmx10M -XX:PermSize=10M -XX:MaxPermSize=10M \
com.lxw1234.streamlib.TestCardinality /home/liuxiaowen/site_raw_log/big_cookies.txt

運行結果為：

streamlib

測試結果

streamlib

測試結果來看，基數估計算法統計的結果中誤差的確是0~2%，如果可以接受這個誤差，那么這個方案完全可以用於實時計算中的不同維度UV統計中。

從運行結果圖上可以看到，雖然指定了10M內存，但空閑內存（FreeMemory）一直在差不多7M以上，也就是說，5.4億的數據去重計數，也僅僅使用了3M左右的內存。