~ 深層強化学習の基本・最新アルゴリズムと応用 1日コースの講師を務めます 2018.3.30

セミナー2018.3.30

セミナー2018.3.30

 

今回のテーマは「深層強化学習の基本・最新アルゴリズムと応用」です。これまで、延120人に深層強化学習を含めた強化学習の入門講義を実践した経験を元に、様々な背景を持つ受講者のみなさんにとって「どこが難しく感じるのか」あるいは「どこをもっと説明してほしいのか」を配慮しました。目的に合わせて、理解しやすく、実際に役立てられるように講義内容の難易度を調整。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

 

2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。また昨年、AlphaGoのシリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。

AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方々にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。
本セミナーはこのような現状を踏まえ、深層強化学習の基本と応用において下記をポイントに講義の内容を構成しました。

① 最も基本となる強化学習の中核アルゴリズムについて、例題と「動画」を通して、アルゴリズムのコードを砕きながらなるべくわかりやすく説明します。

② 強化学習と深層学習の架け橋となる関数近似器の説明について工夫を加えます。難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法について簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。

③ 深層強化学習はニューラルネットワークに適した新しいアルゴリズムが近年、多数提案され、従来の強化学習手法より著しく向上した学習結果が得られています。本セミナーは最新深層強化学習アルゴリズムの理論土台になる確率方策勾配と決定的方策勾配法の違いを徹底的に分析し、簡易モデルを通してわかりやすく説明します。

④ 担当講師の実際の研究内容を踏まえ、現場での深層強化学習の応用ノウハウと経験を解説し、受講者の皆様がすぐ役立つスキルを持ち帰ることができるよう内容を準備します。

 

<詳細>

セミナータイトル: 深層強化学習の基本・最新アルゴリズムと応用

日 時:  2018年3月30日(金)  10:30~16:30

場 所: 東京・大田区平和島 東京流通センター 2F  第5会議室

講 師: 曽我部東馬准教授

主 催: サイエンス&テクノロジー

詳細・お申込みはこちら: URL  https://www.science-t.com/st/cont/id/28503   

 

セミナー内容

<プログラム>
第1部 はじめに
 1.1 強化学習の基本概念
 1.2 強化学習・深層学習および深層強化学習の特徴と違い
 1.3 深層強化学習により可能となること
 1.4 強化学習における探索と利用のジレンマ
 1.5 多腕バンディット問題の解法をわかりやすく説明

   ・Epsilon-greedy
   ・最適初期値設定法
   ・UCB1
   ・Bayesian/Thompson 法の詳細
 1.6簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

第2部 基本概念:マルコフ決定過程(MDP)の基本原理のポイント 
 2.1 マルコフ性とは
 2.2 平均という簡単な概念からMDPを学ぶ
 2.3 MDPの定義と式の導き方
 2.4 状態遷移確率と行動確率の違い
 2.5 価値関数V(s)と状態行動価値関数[Q(s,a)]の定義
 2.6 簡易演習デモ(python)1:Gridworld(式を理解するために)
 2.7 最適状態価値関数V_* (s)のポイント
 2.8 最適状態行動価値関数Q_* (s,a)のポイント
 2.9 簡易デモ(python)2:Gridworld(式を理解する)
 2.10 ディスカッション:最適性と近似性について

第3部 中核:強化学習におけるMDP問題の解法
 3.1 動的計画法の解説と入門

   ・最適な方策の探索手法をわかりやすく説明
    ・方策反復法による最適状態価値関数を求める
    ・価値反復法による最適状態価値関数を求める
   ・簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
 3.2 Monte-Carlo(MC)法をわかりやすく解説
   ・モデル法とモデルフリー法のちがい
   ・MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
   ・簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
 3.3 TD学習手法のポイントと入門
   ・SARSA法の説明と式の導きかた
   ・Q-学習法の説明と式の導きかた
   ・On-PolicyとOff-Policyを詳しく説明
   ・簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

第4部 拡張:強化学習における関数近似手法とは(入門編)
 4.1 Tabular法(表形式手法)と近似解法のちがい
 4.2 回帰モデルと誤差関数をあらためて復習
 4.3 最急降下勾配法とMC法との関連性をわかりやすく説明
 4.4 疑似勾配(Semi-Gradient)とは
 4.5 簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
 4.6 簡単な非線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
 4.7 簡単な非線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
 4.8 簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

第5部 最前線:深層強化学習の基本概念と最重要ポイント
 5.1 簡易型ニューラルネットワークを応用したQ-学習手法の説明
 5.2 深層Q-学習(DQN)の基本ポイント
 5.3 連続動作空間における強化学習のポイント
 5.4 方策勾配法の基本と式の導き方
 5.5 ガウシアン型行動確率分布の導入
 5.6 方策勾配法による連続動作空間における強化学習の簡易説明
 5.7 深層Actor-Critic法の基本と実行のコツ
 5.8 確率方策勾配法と決定的方策勾配の比較
 5.9 決定的方策勾配DDPGの長所と短所について分析
 5.10 簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)

第6部 応用:強化学習と深層強化学習の応用事例
 6.1 蓄電池充放電制御における強化学習の応用事例
 6.2 混合整数計画問題における深層強化学習応用事例
 6.3 PID制御素子における強化学習の応用事例 

 □全体のまとめと質疑応答・名刺交換□