 动手学深度学习 v2.0的情景。 控制 在很多情况下,环境会记住我们所做的事。不一定是以一种对抗的方式,但它会记住,而且它的反应将取决于 之前发生的事情。例如,咖啡锅炉控制器将根据之前是否加热锅炉来观测到不同的温度。在这种情况下,PID (比例—积分—微分)控制器算法是一个流行的选择。同样,一个用户在新闻网站上的行为将取决于之前向她 展示的内容(例如,大多数新闻她只阅读一次)。许多这样的算法形成了一个环境模型,在这个模型中,他们 强化学习(reinforcement learning)强调如何基于环境而行动,以取得最大化的预期利益。国际象棋、围棋、 西洋双陆棋或星际争霸都是强化学习的应用实例。再比如,为自动驾驶汽车制造一个控制器,或者以其他方 式对自动驾驶汽车的驾驶方式做出反应(例如,试图避开某物体,试图造成事故,或者试图与其合作)。 考虑到环境 上述不同情况之间的一个关键区别是:在静止环境中可能一直有效的相同策略,在环境能够改变的情况下可 块只能作为一个整体来写入,因此需要耗费大量的 时间,导致固态驱动器在按位随机写入时性能非常差。而且通常数据写入需要大量的时间还因为块必 须被读取、擦除,然后再重新写入新的信息。如今固态驱动器的控制器和固件已经开发出了缓解这种情 况的算法。尽管有了算法,写入速度仍然会比读取慢得多,特别是对于QLC(四层单元)固态驱动器。 提高性能的关键是维护操作的“队列”,在队列中尽可能地优先读取和写入大的块。0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0的情景。 控制 在很多情况下,环境会记住我们所做的事。不一定是以一种对抗的方式,但它会记住,而且它的反应将取决于 之前发生的事情。例如,咖啡锅炉控制器将根据之前是否加热锅炉来观测到不同的温度。在这种情况下,PID (比例—积分—微分)控制器算法是一个流行的选择。同样,一个用户在新闻网站上的行为将取决于之前向她 展示的内容(例如,大多数新闻她只阅读一次)。许多这样的算法形成了一个环境模型,在这个模型中,他们 强化学习(reinforcement learning)强调如何基于环境而行动,以取得最大化的预期利益。国际象棋、围棋、 西洋双陆棋或星际争霸都是强化学习的应用实例。再比如,为自动驾驶汽车制造一个控制器,或者以其他方 式对自动驾驶汽车的驾驶方式做出反应(例如,试图避开某物体,试图造成事故,或者试图与其合作)。 考虑到环境 上述不同情况之间的一个关键区别是:在静止环境中可能一直有效的相同策略,在环境能够改变的情况下可 块只能作为一个整体来写入,因此需要耗费大量的 时间,导致固态驱动器在按位随机写入时性能非常差。而且通常数据写入需要大量的时间还因为块必 须被读取、擦除,然后再重新写入新的信息。如今固态驱动器的控制器和固件已经开发出了缓解这种情 况的算法。尽管有了算法,写入速度仍然会比读取慢得多,特别是对于QLC(四层单元)固态驱动器。 提高性能的关键是维护操作的“队列”,在队列中尽可能地优先读取和写入大的块。0 码力 | 797 页 | 29.45 MB | 1 年前3
共 1 条
- 1













