【强化学习】Actor-Critic算法

简介

结合了 Policy Gradient(Actor)和 Function Approximation(Critic)的方法。Actor 基于概率选择行为,Critic 基于 Actor 的行为评判行为的得分,Actor 根据 Critic 的评分修改选择行为的概率。

优势:

  • 可以进行单步更新,比传统的 Policy Gradient 学习更快

劣势:

  • 取决于 Critic 的价值判断,但是 Critic 难收敛,再加上 Actor 的更新,就更难以收敛。为了解决这个问题,Google Deepmind 提出了 Actor Critic 的升级版:Deep Deterministic Policy Gradient。后者融合了 DQN 的优势,解决了收敛难的问题。
Author: iwannaeat
Link: https://iwannaeat.github.io/2020/12/08/【强化学习】Actor-Critic算法/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.