【海量數據處理】100億個整數，內存足夠，如何找到中位數？內存不足，如何找到中位數？

本文轉載自查看原文 2015-09-17 17:23 4026 海量數據處理

內存足夠的情況：可以使⽤用類似quick sort的思想進行，均攤復雜度為O(n)，算法思想如下：
• 隨機選取一個元素，將比它小的元素放在它左邊，比它大的元素放在右邊
• 如果它恰好在中位數的位置，那么它就是中位數，可以直接返回
• 如果小於它的數超過一半，那么中位數一定在左半邊，遞歸到左邊處理
• 否則，中位數一定在右半邊，根據左半邊的元素個數計算出中位數是右半邊的第幾大，然后遞歸到右半邊處理

內存不足的情況：

無重復數字：

　　bitmap方法

有重復數字：

　既然要找中位數，很簡單就是排序的想法。那么基於字節的桶排序是一個可行的方法：

　　思想：將整形的每1byte作為一個關鍵字，也就是說一個整形可以拆成4個keys，而且最高位的keys越大，整數越大。如果高位keys相同，則比較次高位的keys。整個比較過程類似於字符串的字典序。

　　第一步:把10G整數每2G讀入一次內存，然后一次遍歷這536,870,912個數據。每個數據用位運算">>"取出最高8位(31-24)。這8bits(0-255)最多表示255個桶，那么可以根據8bit的值來確定丟入第幾個桶。最后把每個桶寫入一個磁盤文件中，同時在內存中統計每個桶內數據的數量，自然這個數量只需要255個整形空間即可。

　　代價：(1) 10G數據依次讀入內存的IO代價(這個是無法避免的，CPU不能直接在磁盤上運算)。(2)在內存中遍歷536,870,912個數據，這是一個O(n)的線性時間復雜度。(3)把255個桶寫會到255個磁盤文件空間中，這個代價是額外的，也就是多付出一倍的10G數據轉移的時間。

　　第二步：根據內存中255個桶內的數量，計算中位數在第幾個桶中。很顯然，2,684,354,560個數中位數是第1,342,177,280個。假設前127個桶的數據量相加，發現少於1,342,177,280，把第128個桶數據量加上，大於1,342,177,280。說明，中位數必在磁盤的第128個桶中。而且在這個桶的第1,342,177,280-N(0-127)個數位上。N(0-127)表示前127個桶的數據量之和。然后把第128個文件中的整數讀入內存。(平均而言，每個文件的大小估計在10G/128=80M左右，當然也不一定，但是超過2G的可能性很小)。

　　代價：(1)循環計算255個桶中的數據量累加，需要O(M)的代價，其中m<255。(2)讀入一個大概80M左右文件大小的IO代價。

注意，變態的情況下，這個需要讀入的第128號文件仍然大於2G，那么整個讀入仍然可以按照第一步分批來進行讀取。

　　第三步：繼續以內存中的整數的次高8bit進行桶排序(23-16)。過程和第一步相同，也是255個桶。

　　第四步：一直下去，直到最低字節(7-0bit)的桶排序結束。我相信這個時候完全可以在內存中使用一次快排就可以了。

　　整個過程的時間復雜度在O(n)的線性級別上(沒有任何循環嵌套)。但主要時間消耗在第一步的第二次內存-磁盤數據交換上，即10G數據分255個文件寫回磁盤上。一般而言，如果第二步過后，內存可以容納下存在中位數的某一個文件的話，直接快排就可以了。

參考資料：

　　1. http://www.zhihu.com/question/35365929

　　2. http://hxraid.iteye.com/blog/649831

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【轉】海量數據求中位數海量數據處理題海量數據處理之BitMap 海量數據處理方案 linux內存不足海量數據處理專題（三）——Hash 海量數據處理問題海量數據處理方法整理記錄 Java堆內存不足海量數據處理專題（四）——Bit-map