轉【算法之動態規划（一）】動態規划（DP）詳解

動態規划(dynamic programming)是運籌學的一個分支，是求解決策過程(decision process)最優化的數學方法。20世紀50年代初美國數學家R.E.Bellman等人在研究多階段決策過程(multistep decision process)的優化問題時，提出了著名的最優化原理(principle of optimality)，把多階段過程轉化為一系列單階段問題，利用各階段之間的關系，逐個求解，創立了解決這類過程優化問題的新方法——動態規划。1957年出版了他的名著《Dynamic Programming》，這是該領域的第一本著作。

動態規划過程是：每次決策依賴於當前狀態，又隨即引起狀態的轉移。一個決策序列就是在變化的狀態中產生出來的，所以，這種多階段最優化決策解決問題的過程就稱為動態規划。

基本思想與分治法類似，也是將待求解的問題分解為若干個子問題（階段），按順序求解子階段，前一子問題的解，為后一子問題的求解提供了有用的信息。在求解任一子問題時，列出各種可能的局部解，通過決策保留那些有可能達到最優的局部解，丟棄其他局部解。依次解決各子問題，最后一個子問題就是初始問題的解。

由於動態規划解決的問題多數有重疊子問題這個特點，為減少重復計算，對每一個子問題只解一次，將其不同階段的不同狀態保存在一個二維數組中。

與分治法最大的差別是：適合於用動態規划法求解的問題，經分解后得到的子問題往往不是互相獨立的（即下一個子階段的求解是建立在上一個子階段的解的基礎上，進行進一步的求解）。

動態規划算法：它通常用於求解具有某種最優性質的問題。在這類問題中，可能會有許多可行解。每一個解都對應於一個值，我們希望找到具有最優值的解。動態規划算法與分治法類似，其基本思想也是將待求解問題分解成若干個子問題，先求解子問題，然后從這些子問題的解得到原問題的解。與分治法不同的是，適合於用動態規划求解的問題，經分解得到子問題往往不是互相獨立的。

分治法：若用分治法來解這類問題，則分解得到的子問題數目太多，有些子問題被重復計算了很多次。如果我們能夠保存已解決的子問題的答案，而在需要時再找出已求得的答案，這樣就可以避免大量的重復計算，節省時間。我們可以用一個表來記錄所有已解的子問題的答案。

注：不管該子問題以后是否被用到，只要它被計算過，就將其結果填入表中。這就是動態規划法的基本思路。

(1) 最優化原理：如果問題的最優解所包含的子問題的解也是最優的，就稱該問題具有最優子結構，即滿足最優化原理。

(2) 無后效性：即某階段狀態一旦確定，就不受這個狀態以后決策的影響。也就是說，某狀態以后的過程不會影響以前的狀態，只與當前狀態有關。

（3）有重疊子問題：即子問題之間是不獨立的，一個子問題在下一階段決策中可能被多次使用到。（該性質並不是動態規划適用的必要條件，但是如果沒有這條性質，動態規划算法同其他算法相比就不具備優勢）

動態規划所處理的問題是一個多階段決策問題，一般由初始狀態開始，通過對中間階段決策的選擇，達到結束狀態。這些決策形成了一個決策序列，同時確定了完成整個過程的一條活動路線(通常是求最優的活動路線)。如圖所示。動態規划的設計都有着一定的模式，一般要經歷以下幾個步驟。

初始狀態→│決策１│→│決策２│→…→│決策ｎ│→結束狀態

(1)划分階段：按照問題的時間或空間特征，把問題分為若干個階段。在划分階段時，注意划分后的階段一定要是有序的或者是可排序的，否則問題就無法求解。

(2)確定狀態和狀態變量：將問題發展到各個階段時所處於的各種客觀情況用不同的狀態表示出來。當然，狀態的選擇要滿足無后效性。

(3)確定決策並寫出狀態轉移方程：因為決策和狀態轉移有着天然的聯系，狀態轉移就是根據上一階段的狀態和決策來導出本階段的狀態。所以如果確定了決策，狀態轉移方程也就可寫出。但事實上常常是反過來做，根據相鄰兩個階段的狀態之間的關系來確定決策方法和狀態轉移方程。

(4)尋找邊界條件：給出的狀態轉移方程是一個遞推式，需要一個遞推的終止條件或邊界條件。

一般，只要解決問題的階段、狀態和狀態轉移決策確定了，就可以寫出狀態轉移方程（包括邊界條件）。

（3）以自底向上或自頂向下的記憶化方式（備忘錄法）計算出最優值

動態規划的主要難點在於理論上的設計，也就是上面4個步驟的確定，一旦設計完成，實現部分就會非常簡單。

使用動態規划求解問題，最重要的就是確定動態規划三要素：

遞推關系必須是從次小的問題開始到較大的問題之間的轉化，從這個角度來說，動態規划往往可以用遞歸程序來實現，不過因為遞推可以充分利用前面保存的子問題的解來減少重復計算，所以對於大規模問題來說，有遞歸不可比擬的優勢，這也是動態規划算法的核心之處。

確定了動態規划的這三要素，整個求解過程就可以用一個最優決策表來描述，最優決策表是一個二維表，其中行表示決策的階段，列表示問題狀態，表格需要填寫的數據一般對應此問題的在某個階段某個狀態下的最優值（如最短路徑，最長公共子序列，最大價值等），填表的過程就是根據遞推關系，從1行1列開始，以行或者列優先的順序，依次填寫表格，最后根據整個表格的數據通過簡單的取舍或者運算求得問題的最優解。

如圖，給定一個運輸網絡，兩點之間連線上的數字表示兩點間的距離。試求一條從A到E的運輸路線，使總距離最短。

從圖中可以看出，我們可以把從A到E的過程分成若干個階段，這里是四個階段。處於每個階段時，都要選擇走哪條支路——決策，一個階段的決策除了影響該階段的效果之外，還影響到下一階段的初始狀態，從而也就影響到整個過程以后的進程。因此，在進行某一階段的決策時，就不能只從這一階段本身考慮，而應使整體的效果最優。

我們可以從最后一個階段開始，由終點向始點方向逐階遞推，尋找各點到終點的最短路徑，當遞推到始點時，即得到了從始點到終點的全過程最短路。這種由后向前的遞推方法，正是動態規划的尋優思想。

下面我們對這個問題進行求解。把從A到E的全過程分為四個階段，用k表示階段變量。第一階段，有一個初始狀態A，三條可供選擇的支路、、，以此類推。我們用（，）表示在第k階段由初始狀態到下階段的初始狀態的支路距離。用（）表示從第k階段的到終點E的最短距離。

第4階段有兩個初始狀態和。若全過程最短路徑經過，則有（）= 4 ；若全過程最短路徑經過，則有（）= 3 。

因此，（）= min（8，9）= 8 ，即由的最短路徑是，最短距離是8。

因此，由的最短路徑有三條、、，最短距離都是14；由的最短路徑是，距離是11；由的最短路徑有兩條：和，距離是13。

從以上過程可以看出，每個階段中，都求出本階段的各個初始狀態到終點E的最短路徑和最短距離，當逆序遞推到過程始點A時，便得到全過程的最短路徑及其最短距離，同時得到一族最優結果（即各階段的各狀態到終點E的最優結果）。和窮舉法相比，逆敘遞推方法大大減少了計算量，且大大豐富了計算結果。

此題也可以用順序遞推的方法求解，解法過程相似，在此就不贅述了。

一個有N個元素的一維數組(a[0], a[1]….a[n-1])，我們定義連續的a[i] ~ a[j]，0<= i, j <=n-1為子數組。

顯然這個數組中包含很多子數組，請求最大的子數組之和。

如果不想時間復雜度，用遍歷所有可能子數組，然后找出最大值就可以了。

現在如果要求時間復雜度最小，那么肯定是要DP解的。

我們假設定義兩個數組：

all[i]：表示從i~n-1，最大的子數組之和。

start[i]：表示包含i，並且從i~n-1，最大子數組之和。

all[i]中max只有三種可能：

(1) a[i]單獨就是最大，之后再加一個就會變小。
(2)a[i]+…a[j]最大，即start[i]最大
(3)a[x]+..a[j]最大，即不包含i的后序某一個子數組和最大。

最終，最大的子數組之和是all[0]。根據上述3個可能，很容易寫出如下遞推式：

start[i] = max (a[i], a[i]+start[i+1])
all[i] = max(start[i], all[i+1])

注意我們把上面max(a, b, c)拆成了兩個max(a, b)

由於我們在計算start[i]/all[i]時候需要start[i+?]的值，所以我們從后向前遞推dp。

代碼如下，時間復雜度O(n)：

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

int max(int a, int b)

{

if(a>b)

{

return a;

}else

{

return b;

}

int max_sum(int* arr, int n)

{

// Helper array

int i;

int* start = (int*)malloc(sizeof(int)*n);

int* all = (int*)malloc(sizeof(int)*n);

int final;

if(!start || !all)

{

return -1;

}

memset(start, 0, sizeof(int)*n);

memset(all, 0, sizeof(int)*n);

// dp

start[n-1] = arr[n-1];

all[n-1] = arr[n-1];

for(i=n-2;i>=0;i--)

{

start[i] = max(arr[i], arr[i]+start[i+1]);

all[i] = max(start[i], all[i+1]);

}

final = all[0];

// Free helper array

free(start);

free(all);

return final;

}

int main()

{

//int arr[6] = {1, -2, 3, 5, -3, 2}; // 8

int arr[6] = {0, -2, 3, 5, -1, 2}; // 9

//int arr[5] = {-9, -2, -3, -5, -3}; // -2

printf("max sum of sub_arr: %d \n", max_sum(arr, sizeof(arr)/sizeof(int)));

return 0;

}

轉【算法之動態規划（一）】動態規划（DP）詳解

免責聲明！