简介
结合了 Policy Gradient(Actor)和 Function Approximation(Critic)的方法。Actor 基于概率选择行为,Critic 基于 Actor 的行为评判行为的得分,Actor 根据 Critic 的评分修改选择行为的概率。
优势:
- 可以进行单步更新,比传统的 Policy Gradient 学习更快
劣势:
- 取决于 Critic 的价值判断,但是 Critic 难收敛,再加上 Actor 的更新,就更难以收敛。为了解决这个问题,Google Deepmind 提出了 Actor Critic 的升级版:Deep Deterministic Policy Gradient。后者融合了 DQN 的优势,解决了收敛难的问题。