【分步詳解】兩個有序數組中的中位數和Top K問題

本文轉載自查看原文 2016-04-10 13:42 4986 算法/ TopK/ 算法雜/ 有序數組的中值

(這也是一道leetcode的經典題目：《LeetCode》解題筆記：004. Median of Two Sorted Arrays[H]

問題介紹

這是個超級超級經典的分治算法！！這個問題大致是說，如何在給定的兩個有序數組里面找其中的中值，或者變形問題，如何在2個有序數組數組中查找Top K的值（Top K的問題可以轉換成求第k個元素的問題）。這個算法在很多實際應用中都會用到，特別是在當前大數據的背景下。

我覺得下面的這個思路特別好，特別容易理解！！請按順序看。是來自leetcode上的stellari英文答案，我整理並自己修改了一下。

預備知識

先解釋下“割”

我們通過切一刀，能夠把有序數組分成左右兩個部分，切的那一刀就被稱為割(Cut)，割的左右會有兩個元素，分別是左邊最大值和右邊最小值。
我們定義L = Max(LeftPart)，R = Min(RightPart)

Ps. 割可以割在兩個數中間，也可以割在1個數上，如果割在一個數上，那么這個數即屬於左邊，也屬於右邊。（后面講單數組中值問題的時候會說）

比如說[2 3 5 7]這個序列，割就在3和5之間
[2 3 / 5 7]
中值就是（3+5）/2 = 4

如果[2 3 4 5 6]這個序列，割在4上，我們可以把4分成2個
[2 3 (4/4) 5 7]
中值就是（4+4）/2 = 4

這樣可以保證不管中值是1個數還是2個數都能統一運算。

割和第k個元素

對於單數組，找其中的第k個元素特別好做，我們用割的思想就是：

常識1：如果在k的位置割一下，然后A[k]就是L。換言之，就是如果左側有k個元素，A[k]屬於左邊部分的最大值。（都是明顯的事情，這個不用解釋吧！）

雙數組

我們設:
\(C_i\)為第i個數組的割。
\(L_i\)為第i個數組割后的左元素.
\(R_i\)為第i個數組割后的右元素。

這里寫圖片描述

如何從雙數組里取出第k個元素

這里寫圖片描述

首先\(L_i <= R_i\)是肯定的（因為數組有序，左邊肯定小於右邊）
如果我們讓\(L_1 <= R_2\) && \(L_2 <= R_1\)
那么左半邊全小於右半邊，如果左邊的元素個數相加剛好等於k，那么第k個元素就是Max(L1,L2)，參考上面常識1。
如果 L1>R2，說明數組1的左邊元素太大（多），我們把C1減小，把C2增大。L2>R1同理，把C1增大，C2減小。

假設k=3

對於
\([1\ 4\ 7\ 9]\)
\([2\ 3\ 5]\)

設C1 = 2，那么C2 = k-C1 = 1
\([1\ 4/ 7\ 9]\)
\([2/3\ 5]\)

這時候，L1(4)>R2(3)，說明C1要減小，C2要增大，C1 = 1，C2=k-C1 = 2
\([1/4\ 7\ 9]\)
\([2\ 3/5]\)

這時候，滿足了\(L_1 <= R_2\) && \(L_2 <= R_1\)，第3個元素就是Max(1,3) = 3。

如果對於上面的例子，把k改成4就恰好是中值。

下面具體來看特殊情況的中值問題。

雙數組的奇偶

中值的關鍵在於，如何處理奇偶性，單數組的情況，我們已經討論過了，那雙數組的奇偶問題怎么辦，m+n為奇偶處理方案都不同。

讓數組恆為奇數

有沒有辦法讓兩個數組長度相加一定為奇數或偶數呢？

其實有的，虛擬加入‘#'(這個trick在manacher算法中也有應用)，讓數組長度恆為奇數（2n+1恆為奇數）。
Ps.注意是虛擬加，其實根本沒這一步，因為通過下面的轉換，我們可以保證虛擬加后每個元素跟原來的元素一一對應

映射關系

這有什么好處呢，為什么這么加?因為這么加完之后，每個位置可以通過/2得到原來元素的位置。

在虛擬數組里表示“割”

不僅如此，割更容易，如果割在‘#'上等於割在2個元素之間，割在數字上等於把數字划到2個部分。

奇妙的是不管哪種情況：

Li = (Ci-1)/2
Ri = Ci/2

例：

割在4/7之間‘#'，C = 4，L=(4-1)/2=1 ，R=4/2=2
剛好是4和7的原來位置！
割在3上，C = 3，L=(3-1)/2=1，R=3/2 =1，剛好都是3的位置！

剩下的事情就好辦了，把2個數組看做一個虛擬的數組A，目前有2m+2n+2個元素，割在m+n+1處，所以我們只需找到m+n+1位置的元素和m+n+2位置的元素就行了。
左邊：A[m+n] = Max(L1+L2)
右邊：A[m+n+1] = Min(R1+R2)

Mid = (A[m+n]+A[m+n+1])/2
= (Max(L1+L2) + Min(R1+R2) )/2

至於在兩個數組里找割的方案，就是上面的方案。

分治的思路

有了上面的知識后，現在的問題就是如何利用分治的思想。

怎么分？

最快的分的方案是二分，有2個數組，我們對哪個做二分呢？
根據之前的分析，我們知道了，只要C1或C2確定，另外一個也就確定了。這里，為了效率，我們肯定是選長度較短的做二分，假設為C1。

怎么治？

也比較簡單，我們之前分析了：就是比較L1,L2和R1,R2。

L1>R2，把C1減小，C2增大。—> C1向左二分
L2>R1，把C1增大，C2減小。—> C1向右二分

越界問題

如果C1或C2已經到頭了怎么辦？
這種情況出現在：如果有個數組完全小於或大於中值。可能有4種情況：

C1 = 0 —— 數組1整體都比中值大，L1 >R2，中值在2中
C2 = 0 —— 數組1整體都比中值小，L1 <R2，中值在1中
C1 = n*2 —— 數組1整體都比中值小，L1 <R2，中位數在2中
C2 = m*2 —— 數組1整體都比中值大，L1 >R2，中位數在1中

考慮下面兩種情況了，解決方案：

如果C1 = 0 —> 那么我們縮小L1，L1 = INT_MIN，保證判斷正確。
如果C1 = n*2 —> 那么我們增大R1，R1 = INT_MAX，保證判斷正確。

剩下兩種情況解決方案類似。

代碼

    double findMedianSortedArrays(vector<int>& nums1, vector<int>& nums2) {
        int n = nums1.size();
        int m = nums2.size();
        if(n > m)   //保證數組1一定最短
            return findMedianSortedArrays(nums2,nums1);
        int L1,L2,R1,R2,c1,c2,lo = 0, hi = 2*n;  //我們目前是虛擬加了'#'所以數組1是2*n+1長度
        while(lo <= hi)   //二分
        {
            c1 = (lo+hi)/2;  //c1是二分的結果
            c2 = m+n- c1;
            L1 = (c1 == 0)?INT_MIN:nums1[(c1-1)/2];   //map to original element
            R1 = (c1 == 2*n)?INT_MAX:nums1[c1/2];
            L2 = (c2 == 0)?INT_MIN:nums2[(c2-1)/2];
            R2 = (c2 == 2*m)?INT_MAX:nums2[c2/2];

            if(L1 > R2)
                hi = c1-1;
            else if(L2 > R1)
                lo = c1+1;
            else
                break;
        }
        return (max(L1,L2)+ min(R1,R2))/2.0;
    }
};

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 兩個有序數組的中位數（第k大的數）兩個有序數組中找中位數或者第K大的元素尋找兩個有序數組的中位數算法題--尋找兩個有序數組的中位數求兩個有序數組的中位數-算法導論 LeetCode：4. 尋找兩個有序數組的中位數 LeetCode 尋找兩個有序數組的中位數尋找兩個有序數組的中位數尋找兩個有序數組的中位數求兩個有序數組的中位數或者第k小元素