近端策略優化

維基百科,自由的百科全書

近端策略優化(英語:Proximal Policy OptimizationPPO)是OpenAI公司於2017年開發的一系列無模型強化學習算法。該算法採用了策略梯度算法,這意味着它們的做法是搜索策略空間而非狀態-動作對的值。

近端策略優化包含了置信域方法的一些優點,如更易於實現,更通用,並且具有更好的樣本複雜度。[1]該算法是通過使用不同的目標函數來完成的。[2]

另見[編輯]

參考文獻[編輯]

  1. ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg. Proximal Policy Optimization Algorithms. 2017. arXiv:1707.06347可免費查閱. 
  2. ^ Proximal Policy Optimization. OpenAI. 2017 [2023-05-13]. (原始內容存檔於2023-02-23). 

外部連結[編輯]