部分可觀察馬可夫決策過程

維基百科,自由的百科全書

部分可觀察馬可夫決策過程(Partially Observable Markov Decision Process,縮寫:POMDP),是一種通用化的馬可夫決策過程。POMDP模擬代理人決策程序是假設系統動態由MDP決定,但是代理人無法直接觀察目前的狀態。相反的,它必須要根據模型的全域與部分區域觀察結果來推斷狀態的分佈。

因為POMDP架構的通用程度足以模擬不同的真實世界的連續過程,應用於機械人導航問題、機械維護和不定性規劃。架構最早由研究機構所建立,隨後人工智能自動規劃社群繼續發展。