NEWS
ニュース

セミナー:逆強化学習~その真相を一括解説~

一日セミナー「逆強化学習~その真相を一括解説~」で講師を務めます。

 

■日時:2018年12月10日(月) 10:30-16:30

■会場:オームビル(東京都千代田区神田錦町3-1)

■題目:「逆強化学習~その真相を一括解説~」

■主催:トリケップス

 

詳細は下記をご参照ください。

セミナー 逆強化学習 曽我部東馬 (catnet.ne.jp)

 

第1部 逆強化学習の基礎知識

1.1 マルコフ決定過程

・平均とマルコフ性(MP)

・逐次平均表現とMP

・マルコフ報酬課程

・マルコフ決定過程

1.2 Bellman方程式の導出

・平均から決定型Bellman方程式の導入

・平均表現と価値関数の導入

①行動状態価値関数の導入

②確率型ベルマン方程式の導出

③遷移確率関数T(r(S’),S’|s,a)の極意

④グリッドワールド問題の応用

1.3 動的計画法

・ℰ=1-Greedy反復方策

・ℰ=0-Greedy方策反復法(On-Policy)

・ℰ=0-Greedy価値反復法(Off-Policy)

1.4 逆強化学習の基本概念の導入

・報酬関数の定義

・報酬関数による価値関数の推移

 

第2部 逆強化学習の解法:線形計画最適化逆強化学習手法

2.1 線形計画最適化逆強化学習手法の導入

2.2 線形計画逆強化学習手法の定式化

2.3 線形計画逆強化学習手法のコーディング要領

2.4 線形計画逆強化学習手法の応用事例の紹介

 

第3部 逆強化学習の解法:最大エントロピー逆強化学習手法

3.1 関数近似の基本概念

3.2 関数近似モデルを用いた報酬の表現

3.3 機械学習による報酬関数の回帰

3.4 最大エントロピーを取り入れた報酬誤差関数の設計

3.5 熟練者による行動確率教師データの生成

3.6 最大エントロピー逆強化学習手法のコーディング要領

3.7 最大エントロピー逆強化学習手法の応用事例の紹介

 

第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法

4.1 深層NN(neural network)の導入

4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計

4.3 熟練者による状態頻度教師データの生成

4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領

4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

 

第5部 逆強化学習の展望と関連技術の紹介

 

Page top