寫在前面
開發過程中會經常處理集合這種數據結構,簡單點的處理方法都是使用內置的map實現。但是如果要應對大量數據,例如,存放大量電話號碼,使用map占用內存大的問題就會凸顯出來。內存占用高又會帶來一些列的問題,這里就不展開說了。還有就是,大量數據存放於map,查找的哈希算法消耗也會很高。這時就該考慮對數據結構進行優化。之前瀏覽awesome-go時發現了一種叫bitset的數據結構,今天就介紹一下它。
bitset 簡介
首先這是一個數據結構。從名字set不難發現,這是一個集合的數據結構。bit的含義也比較好懂,通過set是通過bit實現的。如果你需要一個集合,正好集合內的元素都是正整數,那么用這個就沒錯了。
注:biset 有時也會被叫做 Bitmap。
Example
import "github.com/willf/bitset" var b bitset.BitSet // 定義一個BitSet對象 b.Set(10).Set(11) // 給這個set新增兩個值10和11 if b.Test(1000) { // 查看set中是否有1000這個值(我覺得Test這個名字起得是真差勁,為啥不叫Exist) b.Clear(1000) // 情況set } for i,e := v.NextSet(0); e; i,e = v.NextSet(i + 1) { // 遍歷整個Set fmt.Println("The following bit is set:",i); } if B.Intersection(bitset.New(100).Set(10)).Count() > 1 { // set求交集 fmt.Println("Intersection works.") }
這個包功能已經非常完善了,完整的文檔可以參考它的godoc。我使用這些包,除了看重基礎功能(對於集合,就是增刪改查這些),還有就是得方便調試。bitset內部保存數字都是按位存的,如果調試的時候是把bitset的內部數據給我看,我也是看不懂的,還好這個包提供了String()
方法,可以把我設置的數據已字符串的形式返回,棒棒噠。
實現原理
研究一下實現原理才是我的Style。大概說一下原理。正整數集合可以都放到一個大的整數里面,用位來表示數字。比如1001
就可以表示0和2這兩個數字。用一個bit代替了一個int
,可以大大降低內存的占用。但是一個整數最大也就64位,也就是說最大表示的數字就是64了,所以可以通過多個int
拼接的形式來表示大整數。
bitset的內部數據結構,很親切有木有:
type BitSet struct { length uint // set的大小 set []uint64 // 這個就會被用來表示一個大整數 }
通過下面的測試代碼對於內部實現一探究竟:
var b bitset.BitSet // 定義一個BitSet對象 fmt.Println(b.Bytes()) // >> [] b.Set(0) fmt.Println(b.Bytes(),0) // >> [1] 0 b.Set(10) // 給這個set新增兩個值10 fmt.Println(b.Bytes(),0,10)// >> [1025] 0 10 b.Set(64) fmt.Println(b.Bytes(),0,10,64) // >> [1025 1] 0 10 64 if b.Test(1000) { // 查看set中是否有1000這個值(我覺得Test這個名字起得是真差勁,為啥不叫Exist) b.Clear(1000) // 情況set }
輸出:
- 新建的bitset,set是空
[]
- 放入了一個0,用第一位表示,也就是
0x00000001
- 放入了10,內部結構
0x00000041
- 放入了64,這個時候一個整數已經存不下了,內部結構是
0x00000041
和0x00000001
。set這個數組里面,從前往后表示的數據依次增加,但是在uint64
內部,是從低位開始,低位表示小的數。
與其它數據結構的對比
表示正整數的集合,Golang有很多種方式,自帶的map
就可以,當然這是最差的一種選擇,首先就是內存的浪費,其次是每次查找還涉及到hash計算,雖然理論上hashmap的復雜度是O(1),實際上跟bitset比完全就是渣渣。此外,bitset都得升級版roaring也是不錯的選擇。如果你要保存的數據是10000000000這種級別的,那么用bitset就會存在低位浪費內存的情況,roaring可以用來壓縮空間。
import ( "testing" "github.com/RoaringBitmap/roaring" "github.com/willf/bitset" ) func BenchmarkMap(b *testing.B) { var B = make(map[int]int8, 3) B[10] = 1 B[11] = 1 for i := 0; i < b.N; i++ { if _, exists := B[1]; exists { } if _, exists := B[11]; exists { } if _, exists := B[1000000]; exists { } } } func BenchmarkBitset(b *testing.B) { var B bitset.BitSet B.Set(10).Set(11) for i := 0; i < b.N; i++ { if B.Test(1) { } if B.Test(11) { } if B.Test(1000000) { } } } func BenchmarkRoaring(b *testing.B) { for i := 0; i < b.N; i++ { B := roaring.BitmapOf(10, 11) if B.ContainsInt(1) { } if B.ContainsInt(11) { } if B.ContainsInt(1000000) { } } } $ go test -bench=.* -benchmem BenchmarkMap-2 50000000 28.4 ns/op 0 B/op 0 allocs/op BenchmarkBitset-2 2000000000 1.86 ns/op 0 B/op 0 allocs/op BenchmarkRoaring-2 3000000 492 ns/op 152 B/op 6 allocs/op
結論
如果是比較連續的非負整數,推薦用bitset解決集合的問題。當然具體問題具體分析。
本文所涉及到的完整源碼請參考。
原文鏈接:Golang 優化之路——bitset,轉載請注明來源!