跳转到内容

深度强化学习

维基百科，自由的百科全书

这是本页的一个历史版本，由Jeasinema（留言 | 贡献）在2019年2月27日 (三) 10:22 （→‎算法）编辑。这可能和当前版本存在着巨大的差异。

(差异) ←上一修订 | 最后版本 (差异) | 下一修订→ (差异)

此條目需要擴充。 (2018年6月25日)
请協助改善这篇條目，更進一步的信息可能會在討論頁或扩充请求中找到。请在擴充條目後將此模板移除。

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。

介绍

传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。^[1]

算法

一些算法包括：

DQN
演员-评论家 (Actor-Critic)
DDPG
TRPO
PPO

应用

游戏

Go
Chess

机器人技术

机器人规划

智能城市

室内定位^[2]
智能运输

参阅

强化学习
端到端强化学习
Q-学习
State–action–reward–state–action (SARSA)
深度学习

参考文献

^ Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement learning." Nature 518, no. 7540 (2015): 529.
^ Mohammadi, Mehdi; Al-Fuqaha, Ala; Guizani, Mohsen; Oh, Jun-Seok. Semisupervised Deep Reinforcement Learning in Support of IoT and Smart City Services. IEEE Internet of Things Journal. 2018, 5 (2): 624–635. doi:10.1109/JIOT.2017.2712560.

取自“https://zh.wikipedia.org/w/index.php?title=深度强化学习&oldid=53368055”

分类：

机器学习

隐藏分类：

自2018年6月扩充中的条目