馬爾可夫決策過程是基於馬爾可夫過程理論的隨機動態系統的最優決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態規划相結合的產物,故又稱馬爾可夫型隨機動態規划,屬於運籌學中數學規划的一個分支。
序貫決策
有些決策問題,決策者只需要作一次決策即可,這類決策方法稱單階段決策。但是很多時候,不僅需要單階段決策,更需要進行多階段決策,即序貫決策。
序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略),是用於隨機性或不確定性動態系統最優化的決策方法。
序貫決策特點
- 無后效性。序貫決策是前一段決策方案的選擇,直接影響到后一階段決策方案的選擇,后一階段的選擇取決於前一階段決策方案的結果。
- 多階段性。序貫決策具有在時間上有先后之別的多階段決策。決策者關心的是多階段決策的總結果,而不是各階段的當即結果。
- 預測性。決策的實施是對各采用的多種可行方案進行比較,擇其最優。序貫決策若對各種可行方案的前景加以預測,在預測的結果中會顯示出最優可行方案。
- 條件性。序貫決策是根據最優性原理求解,問題是所涉及的過程都要滿足一定的條件,即馬爾可夫性。也就是利用轉移概率矩陣和相應的利潤矩陣對不同方案在作出預測的基礎上進行決策。
- 連續性。每個階段所面臨的狀態,帶有各自的不確定性,需要對每一個階段作出決策,下一個階段決策是在前一個階段決策基礎上再進行決策,這樣連續進行,形成一序列方案。





































