跳转到内容

时序差分学习:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
无编辑摘要
无编辑摘要
第1行: 第1行:
{{机器学习导航栏}}
{{机器学习导航栏}}
'''时序差分学习'''({{lang-en|Temporal difference learning}},'''TD learning''')是一类无模型[[强化学习]]方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像[[蒙特卡罗方法]]那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如[[动态规划]]算法。<ref name="RSutton-2018">{{harvp|Sutton|Barto|2018}}</ref>
'''时序差分学习'''({{lang-en|Temporal difference learning}},'''TD learning''')是一类无模型[[强化学习]]方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像[[蒙特卡罗方法]]那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如[[动态规划]]算法。<ref name="RSutton-2018">{{harvp|Sutton|Barto|2018}}</ref>

和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。<ref name="RSutton-1988">{{cite journal |author=Richard Sutton |title=Learning to predict by the methods of temporal differences |journal=Machine Learning |volume=3 |issue=1 |pages=9–44 |year=1988 |doi=10.1007/BF00115009|doi-access=free }} (A revised version is available on [http://incompleteideas.net/sutton/publications.html Richard Sutton's publication page] {{Webarchive|url=https://web.archive.org/web/20170330002227/http://incompleteideas.net/sutton/publications.html |date=2017-03-30 }})</ref>
== 参考文献 ==
== 参考文献 ==
{{reflist}}
{{reflist}}

2023年4月4日 (二) 13:51的版本

时序差分学习(英語:Temporal difference learningTD learning)是一类无模型强化学习方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像蒙特卡罗方法那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如动态规划算法。[1]

和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。[2]

参考文献

  1. ^ Sutton & Barto (2018)
  2. ^ Richard Sutton. Learning to predict by the methods of temporal differences. Machine Learning. 1988, 3 (1): 9–44. doi:10.1007/BF00115009可免费查阅.  (A revised version is available on Richard Sutton's publication page 互联网档案馆存檔,存档日期2017-03-30.)

参考著作