創屋ぷれす

DoubleQ学習とは

AIの学習手法の中に、強化学習というのがあります。
AlphaGo(アルファ碁)が非常に有名ですね。

強化学習というのは、ざっくりいうと
何度も試して、いい結果になるパターンを学習するようなものです。

強化学習の基本的な考えの一つとして「Q学習」というものがあります。
このQ学習のQは「価値」で、
ある環境において、この価値が最も最大になるような行動を試行しながら見つけていきます。

ただ、この行動可能なパターンが限られていればよいのですが、
連続した動きをするようなロボットなどは、行動できるパターンが無数にありこれまでの計算方法では
計算量が膨大になります。
その問題を解決するために、Q学習に深層学習を組み合わせた学習方法が「DQN(Deep Q Network)」です。

DQN(Deep Q Network)にも弱点があって、良い状態を過大評価してしまうような特性があります。
なので、DQNを2つ組み合わせて一方のネットワークでの評価を、もう一方のネットワークで確認することで
過大評価を防ぐ仕組みを持つのがDoubleQ学習 DDQN(Double Deep Q Network)です。

これらのQ学習をもとにした考え方は、
強化学習の中でも代表的なもののひとつなので、まずはQ学習から勉強するのがいいかもしれませんね。

創屋のホームページはこちらから

Comments are closed.