創屋ぷれす

敵対的逆強化学習 とは

逆強化学習とGANを組み合わせたものが、敵対的逆強化学習となります。

強化学習は、模倣学習(プロの技を再現する学習)に用いられます。
強化学習そのものは、AIの行動に対して報酬を与えることで目的を達成するための行動を自動的に学習していきます。
しかし、強化学習のみでは、報酬の設計や、学習では膨大なデータと時間が必要になります。

そこで逆強化学習により、プロの行動を模倣する報酬を決める。手法がでてきてきました。
さらに、GANと組み合わせることでより効率的に精度の高い学習が実現できるようになりました。

敵対的逆強化学習は、通常のGAN同様、Generator, Discriminator の2つのモデルを使用しします。
Generatorは、AIによって行動を決めるモデル
Discriminatorは、Generatorの行動と、プロの行動、どちらが熟練者の行動かを見分けるモデルになります。
正解(プロの行動)を与えることで、より早く学習が進み、より模倣の精度が上がるようです。

実現している技術ではAlfaGOなど、囲碁のAIに用いられています。

創屋のホームページはこちらから

Comments are closed.