一日セミナー「深層強化学習の基礎とその応用」で講師を務めます。
■深層学習の先にある「深層強化学習」の基礎知識と応用情報を「動画」と「デモ」を用いて分かりやすく解説。
今話題の逆強化学習についても解説します。
■日時:2019年4月22日(月) 10:30~16:30
■会場:江東区産業会館 第5展示室
■題目:深層強化学習の基礎とその応用
■主催:(株)R&D支援センター
詳細は下記をご参照ください。
深層強化学習の基礎とその応用 | セミナーのことならR&D支援センター (rdsc.co.jp)
第1部 はじめに
強化学習の基本概念
強化学習・深層学習および深層強化学習の特徴と違い
深層強化学習により可能となること
多腕バンディット問題をわかりやすく説明
強化学習における探索と利用のジレンマ
多腕バンディット問題の解法をわかりやすく説明
・平均報酬という概念について
・平均報酬を更新するための式の導きかた
・Epsilon-greedy
・最適初期値設定法
・UCB1
・Bayesian/Thompson法の詳細
簡易デモ(python) : Gridworld(上記4種類解法の実行:直感的に理解する)
第2部 基本概念ーマルコフ決定過程(MDP)の基本原理のポイント
確率過程
マルコフ性とは
MDPの定義と式の導き方
方策πの定義と価値関数の対応関係
状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
状態行動価値関数[Q(s,a)]におけるベルマン方程式をわかりやすく説明
簡易演習デモ(python)1 : Gridworld(式を理解するために)
最適状態価値関数V*(s)のポイント
最適状態行動価値関数Q*(s,a)のポイント
最適状態価値関数V*(s)と最適状態行動価値関数Q*(s,a)の相互関係
ベルマン最適性方程式の導き方
簡易デモ(python)2: Gridworld(式を理解する)
ディスカッション:最適性と近似性について
第3部 中核:強化学習におけるMDP問題の解法
(1)動的計画法の解説と入門:
反復法による価値関数を求める:ランダム方策vs固定方策
最適な方策の探索手法をわかりやすく説明
・方策反復法による最適状態価値関数を求める
・遷移確率を考慮した方策反復法による最適状態価値関数を求める
・価値反復法による最適状態価値関数を求める
簡易デモ(python) : Gridworld(4種類解法の実行と結果比較:概念を理解する)
(2)Monte-Carlo(MC)法をわかりやすく解説
モデル法とモデルフリー法のちがい
経験に基づく学習手法のポイント
MC法と多腕バンディットの内在関連性
状態価値関数・行動状態価値関数Q(s,a)の求め方とポイント
簡易デモ(python) : Gridworld(3種類TD法の実行と比較:概念を理解する)
第4部 拡張ー強化学習における関数近似手法とは(入門編)
Tabular法(表形式手法)と近似解法の違い
回帰モデルと誤差関数をあらためて復習
簡単な線形回帰モデルに基づいたMC法による状態価値関数V(s,θ)を求める
簡易デモ(python) : Gridworld(回帰近似MDP解法の実行:直感的理解)
第5部 最前線:深層強化学習の基本概念と最重要ポイント
簡易型ニュートラスネットワークを応用したQ-学習(DQN)の基本ポイント
方策勾配法による連続動作空間における強化学習の簡易説明
深層Actor-Critic法の基本と実行のコツ
簡易実演デモ(python) : Mountain car, Cartpole, Atariなど(概念の理解)
第6部 逆強化学習の基本概念と最重要ポイント
逆強化学習の解法:線形計画最適化逆強化学習手法
逆強化学習の解法:最大エントロピー逆強化学習手法
逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
第7部 応用:強化学習と深層強化学習及び逆強化学習の応用事例