海量數據處理問題

本文轉載自查看原文 2018-03-20 17:43 903 數據結構

海量數據的處理在互聯網行業一直是很受關注的一類問題。面對如此龐大的數據量，要在它們當中進行查找、找最值、統計等操作，不難想象，這是一件比較困難的事情。而實際處理當中，通常是會利用 布隆過濾器和哈希兩種數據結構來解決這類問題。

布隆過濾器(Bloom Filter)

Bloom Filter（BF）是一種空間效率很高的隨機數據結構，它底層利用位數組很簡潔地表示一個集合，並能判斷一個元素是否屬於這個集合。它是一個能快速判斷元素是否存在集合的一種概率算法。之所以說是概率的是因為Bloom Filter有可能會出現錯誤判斷 (即如果判斷元素存在集合中，有一定的概率判斷錯誤)；但它不會漏判，如Bloom Filter判斷元素不在集合，那肯定不在。因此，Bloom Filter不適合那些“零錯誤”的應用場合。

構成：一個位圖和多個哈希函數

原理：

（1）基於位圖：位圖底層是一個位數組，每一位就有0和1 兩種狀態，那么通過這兩種狀態便可以標識一個數據是否存在；同時根據不同的需求我們還可以用多個比特位來標識數據的狀態（如后面的應用）。

（2）設置多個獨立hash函數

我們知道當進行哈希映射時，是會產生哈希沖突的。譬如處理字符串“sort”和“srot”時很有可能得到相同的哈希值，而實際應用當中，這便造成大量的沖突。為了減少沖突，Bloom Filter使用m個相互獨立的哈希函數（Hash Function）， 通過 m個哈希函數將其轉成不同的整型進而得到m個哈希值，然后在位數組中所有對應的比特位都設置為1。當一個元素的這m個位置都為1時，便可以大致確定它存在於集合了，這便大大減少了沖突。 注意，如果一個位置多次被置為1，那么只有第一次會起作用，后面幾次將沒有任何效果。在下圖中，3個哈希函數，且有兩個哈希函數選中同一個位置（下標4）

總結下來就分這么幾個步驟：

一數據元素使用m個哈希函數得到m個哈希值
判斷是否所有哈希值對應的位置都被置為1（1≤i≤m）
如果所有位置都已置成了‘1’，該元素可大致確定為集合中的元素；只要有一個位置上是‘0’，那該元素一定不是集合中的元素。

注意：.布隆過濾器除了存在誤判以外還不能刪除元素。刪除一個元素就要把m個位置置為‘0’，這樣就會影響其他元素。（不過可以改進）

#pragma once #include "BitMap.h" typedef const char* KeyType; typedef size_t (*HASH_FUNC)(KeyType);  //計算哈希值的函數指針
 typedef struct BloomFilter { BitMap _bm; //size_t* _bm; //Reset時將一個query用一個32位一個數據項保存信息，如此可以表示更大的引用計數
    HASH_FUNC _hashfunc1;   //計算字符串的哈希值函數
 HASH_FUNC _hashfunc2; HASH_FUNC _hashfunc3; }BloomFilter; void BloomFilterInit(BloomFilter* bf, size_t range); void BloomFilterSet(BloomFilter* bf, KeyType key); //void BloomFilterReset(BloomFilter* bf, KeyType key); //優化后可實現
int BloomFilterTest(BloomFilter* bf, KeyType key); size_t BKDRHash(KeyType str) { register size_t hash = 0; while(size_t ch = (size_t)*str++) { hash = hash * 131 + ch;// 也可以乘以31、131、1313、13131、131313.. 
 } return hash; } size_t SDBMHash(KeyType str) { register size_t hash =0; while(size_t ch = (size_t)*str++) { hash = 65599 * hash + ch;//hash =(size_t)ch + (hash <<6) + (hash << 16) - hash; 
 } return hash; } size_t RSHash(KeyType str) { register size_t hash = 0; size_t magic = 63689; while(size_t ch = (size_t)*str++) { hash = hash * magic + ch; magic*= 378551; } return hash; } void BloomFilterInit(BloomFilter* bf, size_t range) { assert(bf); BitMapInit(&bf->_bm, range); bf->_hashfunc1 = BKDRHash; bf->_hashfunc2 = SDBMHash; bf->_hashfunc3 = RSHash; } void BloomFilterSet(BloomFilter* bf, KeyType key) { assert(bf); //假如sort 123 
    size_t hash1 = bf->_hashfunc1(key);  //得到字符串的size_t類型的一個哈希值
    size_t hash2 = bf->_hashfunc2(key); size_t hash3 = bf->_hashfunc2(key); BitMapSet(&bf->_bm, hash1%bf->_bm._range);  //算得的hash 可能比 range大，產生越界訪問；故取模運算
    BitMapSet(&bf->_bm, hash2%bf->_bm._range); BitMapSet(&bf->_bm, hash3%bf->_bm._range); } int BloomFilterTest(BloomFilter* bf, KeyType key) //驗證實現
{ assert(bf); size_t hash1 = bf->_hashfunc1(key);  //得到字符串的size_t類型的一個哈希值
    if(BitMapTest(&bf->_bm, hash1%bf->_bm._range) == -1) return -1; size_t hash2 = bf->_hashfunc2(key); if(BitMapTest(&bf->_bm, hash2%bf->_bm._range) == -1) return -1; size_t hash3 = bf->_hashfunc2(key); if(BitMapTest(&bf->_bm, hash3%bf->_bm._range)) return -1; return 0; }