时序差分学习:修订间差异
外观
删除的内容 添加的内容
无编辑摘要 |
无编辑摘要 |
||
第1行: | 第1行: | ||
{{机器学习导航栏}} |
{{机器学习导航栏}} |
||
'''时序差分学习'''({{lang-en|Temporal difference learning}},'''TD learning''')是一类无模型[[强化学习]]方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像[[蒙特卡罗方法]]那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如[[动态规划]]算法。<ref name="RSutton-2018">{{harvp|Sutton|Barto|2018}}</ref> |
'''时序差分学习'''({{lang-en|Temporal difference learning}},'''TD learning''')是一类无模型[[强化学习]]方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像[[蒙特卡罗方法]]那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如[[动态规划]]算法。<ref name="RSutton-2018">{{harvp|Sutton|Barto|2018}}</ref> |
||
和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。<ref name="RSutton-1988">{{cite journal |author=Richard Sutton |title=Learning to predict by the methods of temporal differences |journal=Machine Learning |volume=3 |issue=1 |pages=9–44 |year=1988 |doi=10.1007/BF00115009|doi-access=free }} (A revised version is available on [http://incompleteideas.net/sutton/publications.html Richard Sutton's publication page] {{Webarchive|url=https://web.archive.org/web/20170330002227/http://incompleteideas.net/sutton/publications.html |date=2017-03-30 }})</ref> |
|||
== 参考文献 == |
== 参考文献 == |
||
{{reflist}} |
{{reflist}} |
2023年4月4日 (二) 13:51的版本
机器学习与数据挖掘 |
---|
时序差分学习(英語:Temporal difference learning,TD learning)是一类无模型强化学习方法的统称,这种方法强调通过从当前价值函数的估值中自举的方式进行学习。这一方法需要像蒙特卡罗方法那样对环境进行取样,并根据当前估值对价值函数进行更新,宛如动态规划算法。[1]
和蒙特卡罗法所不同的是,时序差分学习可以在最终结果出来前对其参数进行调整,使其预测更为准确,而蒙特卡罗法只能在最终结果产生后进行调整。[2]
参考文献
- ^ Sutton & Barto (2018)
- ^ Richard Sutton. Learning to predict by the methods of temporal differences. Machine Learning. 1988, 3 (1): 9–44. doi:10.1007/BF00115009 . (A revised version is available on Richard Sutton's publication page 互联网档案馆的存檔,存档日期2017-03-30.)
参考著作
- Sutton, Richard S.; Barto, Andrew G. Reinforcement Learning: An Introduction 2nd. Cambridge, MA: MIT Press. 2018.
- Tesauro, Gerald. Temporal Difference Learning and TD-Gammon. Communications of the ACM. March 1995, 38 (3): 58–68. S2CID 6023746. doi:10.1145/203330.203343.