布隆過濾器原理及使用

本文轉載自查看原文 2019-01-07 14:00 609 算法

什么是布隆過濾器

1970年，由布隆提出來的一個用於判斷元素是否在集合中的高效的算法，集合中的元素可以增加，但是要刪除一個元素比較困難，同時還有少量的誤報率。

在數據量比較小的時候，我們可以使用 Hash 來判斷元素是否命中，但是當元素增加起來后，Hash 算法需要的空間就會急速增長，查找時間也會增加。布隆過濾器主要用在樣本集合量大但是很少有刪除元素，不要求 $100 %$

布隆過濾器原理

爬蟲URL去重

初始條件

設數據集合 $A = a_{1}, a_{2}, \dots ., a_{n}$
Bloom Filter 用一個長度為 $m$
$k$

加入url的處理

首先經過 $k$

檢查是否重復

首先將該元素經過上步中類似操作，獲得 $k$

執行示意圖

算法特點

對於已經在集合中的元素，通過上述中的查找方法，一定可以判定該元素在集合中。
對於不在集合中的元素，可能會被誤判在集合中。

布隆過濾器的選擇與質量評估

確定布隆過濾器的長度 $m$

設樣本個數為 $n$

$n$

確定哈希函數的個數 $k$

根據已求得的 $m$

$m$

計算真實失誤率

根據向上取整的 $m 、 n 、 k$

$m 、 n 、 k$

Python實現布隆過濾器

安裝PyBloom

Python中有多個實現 BloomFilter 的包詳情可以自己搜索Pypi，本文中主要介紹 PyBloom，可以通過 pip 進行安裝。

pip install pybloom

也可以直接去作者的github上下載源碼編譯安裝。

python setup.py install

PyBloom源碼解析

pybloom主要包括兩個類：BloomFilter和ScalableBloomFilter。

BloomFilter 是一個定容的過濾器， $e r r o r_{r a t e}$

ScalableBloomFilter類

在ScalableBloomFilter的 add 方法中可以看到：

其本質依舊是創建了一個BloomFilter類。

BloomFilter類

在BloomFilter的 __init__ 函數中：

可以看到它引用了Python的bitarray庫來實現布隆過濾器。

在BloomFilter的 add 方法中：

可以看到，我們可以通過設置 $s k i p_{c h e c k}$

PyBloom的使用

使用BloomFilter

from pybloom import BloomFilter
bf = BloomFilter(capacity=10000, error_rate=0.001)
bf.add('test-bf')
print 'test-bf' in bf

True

使用ScalableBloomFilter

from pybloom import ScalableBloomFilter
sbf = ScalableBloomFilter(mode=ScalableBloomFilter.SMALL_SET_GROWTH)
sbf.add('test-sbf')
print 'sbf' in sbf

False

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 布隆過濾器的原理以及使用場景布隆過濾器基礎原理算法(3)---布隆過濾器原理布隆過濾器的原理及應用 redis布隆過濾器的使用 guava布隆過濾器的使用布隆過濾器布隆過濾器布隆過濾器 python實現布隆過濾器及原理解析