【PyTorch深度学习-龙龙老师】-测试版202112接下来,马上开启深度学习算法之旅! 预览版202112 1.8 参考文献 23 1.8 参考文献 [1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski 预览版202112 第 13 章 生成对抗网络 28 预览版202112 第14章 强化学习 人工智能=深度学习+强化学习 − David Silver 本章节代码部分尚未完成修改! 强化学习是机器学习领域除有监督学习、无监督学习外的另一个研究分支,它主要利 用智能体与环境进行交互,从而学习到能获得良好结果的策略。与有监督学习不同,强化 测试。 预览版202112 14.7 参考文献 39 14.7 参考文献 [1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0并行计算的能力也对强化学习的进步做出了相当关键的贡献。这导致了计算机在围棋、雅达里游戏、星 际争霸和物理模拟(例如,使用MuJoCo)中实现超人性能的重大进步。有关如何在AlphaGo中实现这 一点的说明,请参见如 (Silver et al., 2016) 。简而言之,如果有大量的(状态、动作、奖励)三元组可 用,即只要有可能尝试很多东西来了解它们之间的关系,强化学习就会发挥最好的作用。仿真提供了这 样一条途径。 al., 2002) 击败了加里·卡 斯帕罗夫(Garry Kasparov)。围棋由于其巨大的状态空间,难度更大。AlphaGo在2015年达到了相当于 人类的棋力,使用和蒙特卡洛树抽样 (Silver et al., 2016) 相结合的深度学习。扑克中的挑战是状态空间 很大,而且没有完全观察到(我们不知道对手的牌)。在扑克游戏中,库图斯使用有效的结构化策略超 过了人类的表现 (Brown autoencoder. Proceedings of the 37th International Conference on Machine Learning. [Silver et al., 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ⋯ others0 码力 | 797 页 | 29.45 MB | 1 年前3
共 2 条
- 1













