馬可夫決策過程

维基百科,自由的百科全书
(重定向自高斯-马尔可夫过程
跳转至: 导航搜索

概率论统计学中,馬可夫決策過程英语Markov Decision Processes,縮寫為 MDPs)提供了一個數學架構模型,用於面對部份隨機,部份可由決策者控制的狀態下,如何進行決策,以俄罗斯数学家安德雷·马尔可夫的名字命名。在經由動態規劃強化學習以解決最佳化問題的研究領域中,馬可夫決策過程是一個有用的工具。

马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程,并(从数学上)体现出马尔可夫性质,以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是,使用具有马尔可夫性质这个假设来建立模型。在建模领域,具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时,当分支增多时,允许相关性下降的少有几种简单的方式。

参见[编辑]

注释[编辑]

  • Yosida, K. “Functional Analysis”, Ch XIII, § 3, Springer-Verlag, 1968. ISBN 3-540-58654-7
  • Ribarič.M. and I.Vidav, “An inequality for concave functions.” Glasnik Matematički 8 (28), 183–186 (1973).

引用[编辑]

外部链接[编辑]