❒ 基本理論:ベイズ統計から深層学習・強化学習まで

 

❒ 強化学習の基本 

代表例:Q-学習

強化学習は通常の機械学習(教師ありor教師なし)とは違う。状態→行動→報酬→次の状態という状態空間上の報酬を最大にするのが最終目的である。言い換えると「価値のある行動を取る」ということである。状態と行動は強化学習の基本要素であるが、我々の実社会も、多くは、この「状態」と「行動」によって成り立っている。それ故に、強化学習手法は我々の実社会の最適化問題に非常に適した学習手法であると云える。行動の価値を決める為に行動価値関数が必要であるが、簡単な問題ならば数学で行動価値観数のモデルを構築できるが、複雑な問題にはなかなかうまくいかない。
Q学習は、各状態において可能な行動の中で最も行動価値関数の値が高い行動をとるように学習を行う方法である。この場合、最適な行動価値関数Q(s,a)=maxQ(s,a) さらにQ(s,a)は、以下のように定義されている。
Q( st , at)=Q( st , at)+α (r+γ⋅maxQ(st+1 , at+1)−Q( st , at))  
r: 報酬 α: 学習率 γ: 割引率 maxQ():次の時刻において取りうるQ()の最大値。
Q学習は探索法を使って、Qテーブルを構築する。行動を取る時、Q-Tableに従って動けば、必ず最大報酬を貰えることになる。下記の例はQ-tableの凄さを表している。
qtable

 

 

 

 

 

 

 

 

深層強化学習手法は価値関数を数学的に定義せず、状態→行動→報酬→次の状態という状態空間上に、深層NN(Q-network)を用いて価値関数を定義する。

深層強化学習のMilestoneとも言われる代表的な2枚のNatureの論文がある:Atari-game: Nature 518, 529 (2015)とAlphaGo: Nature 529, 484 (2016)。我々は、このNatureの論文に従い、深層NNとQ-学習法を組み合わせてAtari-gameを再現した。結果は以下である。

          学習回数2回の結果

 

 

      学習回数10回の結果

 

 

 

 

      学習回数20回の結果

 

 

 

      学習回数30回の結果

 

 

      学習回数77回の結果

 

 

 

 

 

      学習回数200回の結果