本页使用了标题或全文手工转换

馬可夫決策過程

维基百科,自由的百科全书
跳到导航 跳到搜索

在數學中,馬可夫決策過程MDP)是離散時間隨機控製過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知;[1] 一個對馬可夫決策過程的核心研究是 Ronald Howard英语Ronald A. Howard於1960年出版的《動態規劃和馬可夫過程》[2]。 它們被用於許多領域,包括機器人學自動化經濟學製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫,因為它們是馬可夫鏈的推廣。

在每個時間步驟中,隨機過程都處於某種狀態,決策者可以選擇在狀態下可用的動作。 該隨機過程在下一時間步驟會隨機進入新狀態,並給予決策者相應的回饋

隨機過程進入新狀態的機率受所選操作影響。 具體來說,它是由狀態轉換函數給出的。 因此,下一個狀態取決於當前狀態和決策者的動作。 但是給定,它條件獨立於所有先前的狀態和動作; 換句話說,MDP的狀態轉換滿足馬可夫性質。

参见[编辑]

参考文献[编辑]

  1. ^ Bellman, R. A Markovian Decision Process. Journal of Mathematics and Mechanics. 1957, 6 (5): 679–684. JSTOR 24900506. 
  2. ^ Howard, Ronald A. Dynamic Programming and Markov Processes (PDF). The M.I.T. Press. 1960. 
  • Yosida, K. “Functional Analysis”, Ch XIII, § 3, Springer-Verlag, 1968. ISBN 3-540-58654-7
  • Ribarič.M. and I.Vidav, “An inequality for concave functions.” Glasnik Matematički 8 (28), 183–186 (1973).

外部链接[编辑]