創屋ぷれす

A2C アルゴリズム

A2C(Advantage Actor Critic)は、A3C(Asynchronous Advantage Actor-Critic)を発展させたアルゴリズムです。

数字が減っているのは、A3Cの無駄を省き簡素化されたことによるものです。
(Asynchronous) : 複数のエージェントが非同期で学習するという部分がA2Cでは取り除かれています。
(Advantage) : 少し先の未来を考慮して、学習することを指します。AIの学習時には、モデルへのBackwordを遅らせることと透過となります。
(Critic) :A2Cの学習では、通常の強化学習のモデルとは異なり、行動を決めるAIの他に方策を評価するAI部分が追加されています。

A2Cの強みは、Critic状態をスコア化できることが大きな強みです。
 価値ベースでは無く、方策ベースの強化学習となっています。

創屋のホームページはこちらから

Comments are closed.