深度强化学习
此條目需要擴充。 (2018年6月25日) |
深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。
介绍
传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。[1]
算法
一些算法包括:
- DQN
- 演员-评论家 (Actor-Critic)
- DDPG
- TRPO
- PPO
应用
游戏
机器人技术
- 机器人规划
智能城市
- 室内定位[2]
- 智能运输
参阅
参考文献
- ^ Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement learning." Nature 518, no. 7540 (2015): 529.
- ^ Mohammadi, Mehdi; Al-Fuqaha, Ala; Guizani, Mohsen; Oh, Jun-Seok. Semisupervised Deep Reinforcement Learning in Support of IoT and Smart City Services. IEEE Internet of Things Journal. 2018, 5 (2): 624–635. doi:10.1109/JIOT.2017.2712560.