NEWS
ニュース

セミナー :逆強化学習の基礎、手法選択と応用

1日セミナー「逆強化学習の基礎、手法選択と応用」で講師を務めます。

■日時:2020年1月20日(月) 10:00~17:00
■会場:[東京・五反田]技術情報協会 セミナールーム
■題目:逆強化学習の基礎、手法選択と応用
■講師:曽我部 東馬
■主催:技術情報協会

 

詳細は下記をご参照下さい。
https://www.gijutu.co.jp/doc/s_001413.htm

 

第1部 逆強化学習の基礎知識
1.1 マルコフ決定過程
・平均とマルコフ性(MP)
・逐次平均表現とMP
・マルコフ報酬過程
・マルコフ決定過程
1.2 Bellman方程式の導出:
・平均から決定型Bellman方程式の導入:
・平均表現と価値関数の導入:
・確率型Bellman方程式の導出:
① 行動状態価値関数の導入:
② 確率型ベルマン方程式の導出
③ 遷移確率関数 T (r ( S’) , S’│s,a )の極意
④ グリッドワード問題の応用
1.3 動的計画法
・ε = 1 – Greedy反復方策
・ε = 0 – Greedy方策反復法(On-Policy)
・ε = 0 – Greedy価値反復法(Off-Policy)
1.4 逆強化学習の基本概念の導入
・報酬関数の定義
・報酬関数による価値関数の推定

第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
2.1 線形計画最適化逆強化学習手法の導入
2.2 線形計画逆強化学習手法の定式化
2.3 線形計画逆強化学習手法のコーディング要領
2.4 線形計画逆強化学習手法の応用事例の紹介

第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
3.1 関数近似の基本概念
3.2 関数近似モデルを用いた報酬の表現
3.3 機械学習による報酬関数の回帰
3.4 最大エントロピーを取り入れた報酬誤差関数の設計
3.5 熟練者による行動確率教師データの生成
3.6 最大エントロピー逆強化学習手法のコーディング要領
3.7 最大エントロピー逆強化学習手法の応用事例の紹介

第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
4.1 深層NN(neural network)の導入
4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
4.3 熟練者による状態頻度教師データの生成
4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第5部 逆強化学習の展望と関連技術の紹介

Page top