[經典算法題]尋找數組中第K大的數的方法總結

今天看算法分析是，看到一個這樣的問題，就是在一堆數據中查找到第k個大的值。

名稱是：設計一組N個數，確定其中第k個最大值，這是一個選擇問題，當然，解決這個問題的方法很多，本人在網上搜索了一番，查找到以下的方式，決定很好，推薦給大家。

所謂“第（前）k大數問題”指的是在長度為n(n>=k)的亂序數組中S找出從大到小順序的第（前）k個數的問題。

解法1：我們可以對這個亂序數組按照從大到小先行排序，然后取出前k大，總的時間復雜度為O(n*logn + k)。

解法2：利用選擇排序或交互排序，K次選擇后即可得到第k大的數。總的時間復雜度為O(n*k)

解法3：利用快速排序的思想，從數組S中隨機找出一個元素X，把數組分為兩部分Sa和Sb。Sa中的元素大於等於X，Sb中元素小於X。這時有兩種情況：

1. Sa中元素的個數小於k，則Sb中的第k-|Sa|個元素即為第k大數；

2. Sa中元素的個數大於等於k，則返回Sa中的第k大數。時間復雜度近似為O(n)

解法4：二分[Smin,Smax]查找結果X，統計X在數組中出現，且整個數組中比X大的數目為k-1的數即為第k大數。時間復雜度平均情況為O(n*logn)

解法5：用O(4*n)的方法對原數組建最大堆，然后pop出k次即可。時間復雜度為O(4*n + k*logn)

解法6：維護一個k大小的最小堆，對於數組中的每一個元素判斷與堆頂的大小，若堆頂較大，則不管，否則，彈出堆頂，將當前值插入到堆中。時間復雜度O(n * logk)

解法7：利用hash保存數組中元素Si出現的次數，利用計數排序的思想，線性從大到小掃描過程中，前面有k-1個數則為第k大數，平均情況下時間復雜度O(n)

附注：

1. STL中可以用nth_element求得類似的第n大的數（由謂詞決定），使用的是解法3中的思想，還可以用partial_sort對區間進行部分排序，得到類似前k大的數（由謂詞決定），它采用的是解法5的思想。

2. 求中位數實際上是第k大數的特例。

《編程之美》2.5節課后習題：

1. 如果需要找出N個數中最大的K個不同的浮點數呢？比如，含有10個浮點數的數組（1.5，1.5，2.5，3.5，3.5，5，0，- 1.5，3.5）中最大的3個不同的浮點數是（5，3.5，2.5）。

解答：上面的解法均適用，需要注意的是浮點數比較時和整數不同，另外求hashkey的方法也會略有不同。

2. 如果是找第k到第m（0<k<=m<=n)大的數呢？

解答：如果把問題看做m-k+1個第k大問題，則前面解法均適用。但是對於類似前k大這樣的問題，最好使用解法5或者解法7，總體復雜度較低。

3. 在搜索引擎中，網絡上的每個網頁都有“權威性”權重，如page rank。如果我們需要尋找權重最大的K個網頁，而網頁的權重會不斷地更新，那么算法要如何變動以達到快速更新（incremental update）並及時返回權重最大的K個網頁？

提示：堆排序？當每一個網頁權重更新的時候，更新堆。還有更好的方法嗎？

解答：要達到快速的更新，我們可以解法5，使用映射二分堆，可以使更新的操作達到O(logn)

4. 在實際應用中，還有一個“精確度”的問題。我們可能並不需要返回嚴格意義上的最大的K個元素，在邊界位置允許出現一些誤差。當用戶輸入一個query的時候，對於每一個文檔d來說，它跟這個query之間都有一個相關性衡量權重f (query, d)。搜索引擎需要返回給用戶的就是相關性權重最大的K個網頁。如果每頁10個網頁，用戶不會關心第1000頁開外搜索結果的“精確度”，稍有誤差是可以接受的。比如我們可以返回相關性第10 001大的網頁，而不是第9999大的。在這種情況下，算法該如何改進才能更快更有效率呢？網頁的數目可能大到一台機器無法容納得下，這時怎么辦呢？

提示：歸並排序？如果每台機器都返回最相關的K個文檔，那么所有機器上最相關K個文檔的並集肯定包含全集中最相關的K個文檔。由於邊界情況並不需要非常精確，如果每台機器返回最好的K’個文檔，那么K’應該如何取值，以達到我們返回最相關的90%*K個文檔是完全精確的，或者最終返回的最相關的K個文檔精確度超過90%（最相關的K個文檔中90%以上在全集中相關性的確排在前K），或者最終返回的最相關的K個文檔最差的相關性排序沒有超出110%*K。

解答：正如提示中所說，可以讓每台機器返回最相關的K'個文檔，然后利用歸並排序的思想，得到所有文檔中最相關的K個。最好的情況是這K個文檔在所有機器中平均分布，這時每台機器只要K' = K / n （n為所有機器總數）；最壞情況，所有最相關的K個文檔只出現在其中的某一台機器上，這時K'需近似等於K了。我覺得比較好的做法可以在每台機器上維護一個堆，然后對堆頂元素實行歸並排序。

5. 如第4點所說，對於每個文檔d，相對於不同的關鍵字q1, q2, …, qm，分別有相關性權重f（d, q1），f（d, q2）, …, f（d, qm）。如果用戶輸入關鍵字qi之后，我們已經獲得了最相關的K個文檔，而已知關鍵字qj跟關鍵字qi相似，文檔跟這兩個關鍵字的權重大小比較靠近，那么關鍵字qi的最相關的K個文檔，對尋找qj最相關的K個文檔有沒有幫助呢？

解答：肯定是有幫助的。在搜索關鍵字qj最相關的K個文檔時，可以在qj的“近義詞”相關文檔中搜索部分，然后在全局的所有文檔中在搜索部分。

來源： <http://job.xdnice.com/content/BiShiJingYan/2012-11/3971.htm>

[經典算法題]尋找數組中第K大的數的方法總結

[經典算法題]尋找數組中第K大的數的方法總結

免責聲明！