NEWS
ニュース

セミナー:深層強化学習の基礎とその応用

一日セミナー「深層強化学習の基礎とその応用」で講師を務めます。

■深層学習の先にある「深層強化学習」の基礎知識と応用情報を「動画」と「デモ」を用いて分かりやすく解説。

今話題の逆強化学習についても解説します。

 

■日時:2019年4月22日(月) 10:30~16:30

■会場:江東区産業会館 第5展示室

■題目:深層強化学習の基礎とその応用

■主催:(株)R&D支援センター

 

詳細は下記をご参照ください。

深層強化学習の基礎とその応用 | セミナーのことならR&D支援センター (rdsc.co.jp)

 

第1部 はじめに

強化学習の基本概念

強化学習・深層学習および深層強化学習の特徴と違い

深層強化学習により可能となること

多腕バンディット問題をわかりやすく説明

強化学習における探索と利用のジレンマ

多腕バンディット問題の解法をわかりやすく説明

・平均報酬という概念について

・平均報酬を更新するための式の導きかた

・Epsilon-greedy

・最適初期値設定法

・UCB1

・Bayesian/Thompson法の詳細

簡易デモ(python) : Gridworld(上記4種類解法の実行:直感的に理解する)

 

第2部 基本概念ーマルコフ決定過程(MDP)の基本原理のポイント

確率過程

マルコフ性とは

MDPの定義と式の導き方

方策πの定義と価値関数の対応関係

状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明

状態行動価値関数[Q(s,a)]におけるベルマン方程式をわかりやすく説明

簡易演習デモ(python)1 : Gridworld(式を理解するために)

最適状態価値関数V*(s)のポイント

最適状態行動価値関数Q*(s,a)のポイント

最適状態価値関数V*(s)と最適状態行動価値関数Q*(s,a)の相互関係

ベルマン最適性方程式の導き方

簡易デモ(python)2: Gridworld(式を理解する)

ディスカッション:最適性と近似性について

 

第3部 中核:強化学習におけるMDP問題の解法

(1)動的計画法の解説と入門:

反復法による価値関数を求める:ランダム方策vs固定方策

最適な方策の探索手法をわかりやすく説明

・方策反復法による最適状態価値関数を求める

・遷移確率を考慮した方策反復法による最適状態価値関数を求める

・価値反復法による最適状態価値関数を求める

簡易デモ(python) : Gridworld(4種類解法の実行と結果比較:概念を理解する)

(2)Monte-Carlo(MC)法をわかりやすく解説

モデル法とモデルフリー法のちがい

経験に基づく学習手法のポイント

MC法と多腕バンディットの内在関連性

状態価値関数・行動状態価値関数Q(s,a)の求め方とポイント

簡易デモ(python) : Gridworld(3種類TD法の実行と比較:概念を理解する)

 

第4部 拡張ー強化学習における関数近似手法とは(入門編)

Tabular法(表形式手法)と近似解法の違い

回帰モデルと誤差関数をあらためて復習

簡単な線形回帰モデルに基づいたMC法による状態価値関数V(s,θ)を求める

簡易デモ(python) : Gridworld(回帰近似MDP解法の実行:直感的理解)

 

第5部 最前線:深層強化学習の基本概念と最重要ポイント

簡易型ニュートラスネットワークを応用したQ-学習(DQN)の基本ポイント

方策勾配法による連続動作空間における強化学習の簡易説明

深層Actor-Critic法の基本と実行のコツ

簡易実演デモ(python) : Mountain car, Cartpole, Atariなど(概念の理解)

 

第6部 逆強化学習の基本概念と最重要ポイント

逆強化学習の解法:線形計画最適化逆強化学習手法

逆強化学習の解法:最大エントロピー逆強化学習手法

逆強化学習の解法:深層NN最大エントロピー逆強化学習手法

 

第7部 応用:強化学習と深層強化学習及び逆強化学習の応用事例

 

Page top