簡單實用算法——位圖算法(BitMap)


算法原理

BitMap的基本思想就是用一個bit位來標記某個元素對應的Value,而Key即是該元素。由於采用了Bit為單位來存儲數據,因此可以大大節省存儲空間
BitMap可以看成一種數據結構

假設有這樣一個需求:在20億個隨機整數中找出某個數m是否存在其中,並假設32位操作系統,4G內存。
在Java中,int占4字節,1字節=8位(1 byte = 8 bit)。
如果每個數字用int存儲,那就是20億個int,因而占用的空間約為 (2000000000*4/1024/1024/1024)≈7.45G
如果按位存儲就不一樣了,20億個數就是20億位,占用空間約為 (2000000000/8/1024/1024/1024)≈0.233G

優點和缺點

優點:由於采用了Bit為單位來存儲數據並建立映射關系來查找位置,因此可以大大減少存儲空間,加快在大量數據中查詢的時間。(有點哈希表的意思,但哈希中的value值數據類型可以豐富多樣,而BitMap最終查到的value只能表示簡單的幾種狀態。)
缺點:BitMap中的查詢結果(value)能表達的狀態有限,且所有的數據不能重復。即不可對重復的數據進行排序和查找

算法實現(C#)

.NET中已經實現了BitMap的數據結構——BitArray,建議使用BitMap算法解決問題時直接使用官方的BitArray
我參照.NET源碼實現了一個簡化版的BitMap,以int數組存儲位值(最多存21億個位值),代碼如下:

    class BitMap
    {
        public int Length{ get{ return m_length;}
        }
        private int[] m_array;
        private int m_length;

        public BitMap(int length):  this(length, false) { }

        //索引根據需求添加
        public bool this[int index]
        {
            get
            {                
                return Get(index);
            }
            set
            {
                Set(index,value); 
            }
        }

        //分配空間以容納長度位值, 位數組中的所有值都設置為defaultValue。
        public BitMap(int length, bool defaultValue)
        {
            if (length < 0) {
                throw new ArgumentOutOfRangeException("length", "長度值不能小於0");
            }

            int arrayLength = length > 0 ? (((length - 1) / 32) + 1) : 0;
            m_array = new int[arrayLength];
            m_length = length;
    
            int fillValue = defaultValue ? unchecked(((int)0xffffffff)) : 0;
            for (int i = 0; i < m_array.Length; i++) {
                m_array[i] = fillValue;
            }
        }

        //返回位置索引處的位值。
        public bool Get(int index) {
            if (index < 0 || index >= Length) {
                throw new ArgumentOutOfRangeException("index", "索引值超出范圍");
            }
            return (m_array[index / 32] & (1 << (index % 32))) != 0;
        }
    
        //將位置索引處的位值設置為value。
        public void Set(int index, bool value) {
            if (index < 0 || index >= Length) {
                throw new ArgumentOutOfRangeException("index", "索引值超出范圍");
            }
    
            if (value) {
                m_array[index / 32] |= (1 << (index % 32));
            } else {
                m_array[index / 32] &= ~(1 << (index % 32));
            }
        }
    }

算法應用

問題1:給40億個不重復的unsigned int的整數,沒有排過序,然后再給一個數,如果快速判斷這個數是否在那40億個數當中。(解決海量數據中的查詢問題
問題1解法:建立一個位集合,全部初始化為0。遍歷40億個不重復的整數,通過上述提供的一種映射(每個不重復的整數映射到給定的位)找到其位的位置,標記為1。判斷這個數是否在大整數集合中,即通過映射關系計算此整數的位位置,檢查是否為1,若為1,則存在,若為0,則不存在

問題2:數據庫里存了很多800電話號碼,數量特別大,以至於內存放不下,如何排序,時間比空間更重要?電話號碼類似於800-810-5555。(高效排序
問題2解法:其實就是不重復的任意7位數及其之內的排序問題。我們用1位來表示電話是否出現,遍歷整個電話號序列,設置相應的位,遍歷位圖收集位被設置的號碼即可。查看上述的實現代碼

參考文章

算法系列-bitmap算法詳解和實現——CSDN
Bitmap簡介——博客園
經典算法系列之(一) - BitMap——簡書
BitArray——.NET源碼


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM