跳至內容

分散式部分可觀察馬爾可夫決策過程

維基百科,自由的百科全書

分散式部分可觀察馬爾可夫決策過程(英語:Decentralized partially observable Markov decision processDec-POMDP[1][2]是一種多智慧體協調決策模型。這是一種概率模型,對於現實生活中結果、傳感器和通信的不確定性具有很好的解決能力。

該模型是馬爾可夫決策過程部分可觀察馬可夫決策過程的泛化,適用於分布式多智慧體的情形。[3]

定義

[編輯]

正式定義

[編輯]

Dec-POMDP是一個7元組,其中:

  • 是狀態的集合,
  • 是智慧體i的行動集合,其中是聯合行動的集合,
  • 是是狀態間條件轉移概率的集合,
  • 是回報函數,
  • 是智慧體i的觀察集合,其中是聯合觀察的集合,
  • 是一組條件觀察概率,
  • 是折現因子

參考文獻

[編輯]
  1. ^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836可免費查閱. doi:10.1287/moor.27.4.819.297. 
  2. ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. (原始內容存檔 (PDF)於2021-09-16) (英國英語). 
  3. ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. (原始內容存檔於2022-04-24) (英語).