強化學習

維基百科,自由的百科全書
(重新導向自奖励学习
跳至導覽 跳至搜尋

強化學習(英語:Reinforcement learning,簡稱RL)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益[1]。強化學習是除了監督學習非監督學習之外的第三種基本的機器學習方法。與監督學習不同的是,強化學習不需要帶標籤的輸入輸出對,同時也無需對非最優解的精確地糾正。其關注點在於尋找探索(對未知領域的)和利用(對已有知識的)的平衡[2],強化學習中的「探索-利用」的交換,在多臂老虎機英語multi-armed bandit問題和有限MDP中研究得最多。

其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。這個方法具有普適性,因此在其他許多領域都有研究,例如博弈論控制論運籌學資訊理論、仿真優化、多智能體系統群體智能統計學以及遺傳算法。在運籌學和控制理論研究的語境下,強化學習被稱作「近似動態規劃」(approximate dynamic programming,ADP)。在最優控制理論中也有研究這個問題,雖然大部分的研究是關於最優解的存在和特性,並非是學習或者近似方面。在經濟學博弈論中,強化學習被用來解釋在有限理性的條件下如何出現平衡。

在機器學習問題中,環境通常被抽象為馬爾可夫決策過程(Markov decision processes,MDP),因為很多強化學習算法在這種假設下才能使用動態規劃的方法[3]。傳統的動態規劃方法和強化學習算法的主要區別是,後者不需要關於MDP的知識,而且針對無法找到確切方法的大規模MDP。[4]

介紹[編輯]

強化學習的典型框架:智能體在環境中採取一種行為,環境將其轉換為一次回報和一種狀態表示,隨後反饋給智能體。

由於其通用性很強,強化學習已經在諸如博弈論控制論運籌學資訊理論仿真優化多智能體群體智能統計學等領域有了深入研究。在運籌學和控制文獻中,強化學習被稱為近似動態規劃神經動態規劃。強化學習所感興趣的問題在最優控制(一種關注最優解的存在性、表示和求解的理論,但較少涉及學習和近似)中也有所研究,尤其是環境的數學模型難以求得的時候。在經濟學和博弈論中,強化學習可能被用來解釋在有限的理性(rationality)下如何達到平衡狀態。

基本的強化學習被建模為馬爾可夫決策過程:

  1. 環境狀態的集合;
  2. 動作的集合;
  3. 在狀態之間轉換的規則(轉移概率矩陣)
  4. 規定轉換後「即時獎勵」的規則(獎勵函數)
  5. 描述主體能夠觀察到什麼的規則。

規則通常是隨機的。主體通常可以觀察即時獎勵和最後一次轉換。在許多模型中,主體被假設為可以觀察現有的環境狀態,這種情況稱為「完全可觀測」(full observability),反之則稱為「部分可觀測」(partial observability)。通常,主體被允許的動作是有限的,例如,在棋盤中棋子只能上、下、左、右移動,或是使用的錢不能多於所擁有的。

強化學習的主體與環境基於離散的時間步作用。在每一個時間,主體接收到一個觀測,通常其中包含獎勵。然後,它從允許的集合中選擇一個動作,然後送出到環境中去。環境則變化到一個新的狀態,然後決定了和這個變化相關聯的獎勵。強化學習主體的目標,是得到儘可能多的獎勵。主體選擇的動作是其歷史的函數,它也可以選擇隨機的動作。

將這個主體的表現和自始自終以最優方式行動的主體相比較,它們之間的行動差異產生了「悔過」的概念。如果要接近最優的方案來行動,主體必須根據它的長時間行動序列進行推理:例如,要最大化我的未來收入,我最好現在去上學,雖然這樣行動的即時貨幣獎勵為負值。

因此,強化學習對於包含長期反饋的問題比短期反饋的表現更好。它在許多問題上得到應用,包括機器人控制、電梯調度、電信通訊、雙陸棋西洋跳棋[5]

強化學習的強大能力來源於兩個方面:使用樣本來優化行為,使用函數近似來描述複雜的環境。它們使得強化學習可以使用在以下的複雜環境中:

  • 模型的環境已知,且解析解不存在;
  • 僅僅給出環境的模擬模型(模擬優化方法的問題)[6]
  • 從環境中獲取信息的唯一辦法是和它互動。前兩個問題可以被考慮為規劃問題,而最後一個問題可以被認為是genuine learning問題。使用強化學習的方法,這兩種規劃問題都可以被轉化為機器學習問題。

常用算法[編輯]

蒙特卡洛學習 Monte-Carlo Learning

Temporal-Difference Learning

SARSA

Q-Learning

探索機制[編輯]

強化學習需要比較聰明的探索機制,直接隨機的對動作進行採樣的方法性能比較差。雖然小規模的馬氏過程已經被認識的比較清楚,這些性質很難在狀態空間規模比較大的時候適用,這個時候相對簡單的探索機制是更加現實的。

其中的一種方法就是 -貪婪演算法,這種方法會以比較大的概率(1-)去選擇現在最好的動作。如果沒有選擇最優動作,就在剩下的動作中隨機選擇一個。 在這裡是一個可調節的參數,更小的 意味著算法會更加貪心。[7]

參考文獻[編輯]

  1. ^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning. IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423. 
  2. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1996, 4: 237–285. S2CID 1708582. arXiv:cs/9605103可免費查閱. doi:10.1613/jair.301. (原始內容存檔於2001-11-20). 
  3. ^ van Otterlo, M.; Wiering, M. Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization 12. 2012: 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1.  |journal=被忽略 (幫助)
  4. ^ 强化学习:原理与Python实现. 北京. 2019: 16–19. ISBN 9787111631774. 
  5. ^ Sutton1998|Sutton and Barto 1998 Chapter 11
  6. ^ Gosavi, Abhijit. Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. 2003 [2015-08-19]. ISBN 1-4020-7454-9. (原始內容存檔於2012-06-15). 
  7. ^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF), Lecture Notes in Computer Science 7006, Springer: 335–346, 2011 [2018-09-03], ISBN 978-3-642-24455-1, (原始內容存檔 (PDF)於2018-11-23)