セミナー：逆強化学習～その真相を一括解説～ | 曽我部研究室 SogabeLab 国立大学法人電気通信大学│AI 人工知能量子

NEWS
ニュース

TOP > SEMINAR > セミナー：逆強化学習～その真相を一括解説～

2018.12.10

セミナー：逆強化学習～その真相を一括解説～

一日セミナー「逆強化学習～その真相を一括解説～」で講師を務めます。

■日時：2018年12月10日（月） 10:30－16:30

■会場：オームビル（東京都千代田区神田錦町3-1）

■題目：「逆強化学習～その真相を一括解説～」

■主催：トリケップス

詳細は下記をご参照ください。

セミナー　逆強化学習　曽我部東馬 (catnet.ne.jp)

第１部　逆強化学習の基礎知識

1.1 マルコフ決定過程

・平均とマルコフ性(MP)

・逐次平均表現とMP

・マルコフ報酬課程

・マルコフ決定過程

1.2 Bellman方程式の導出

・平均から決定型Bellman方程式の導入

・平均表現と価値関数の導入

①行動状態価値関数の導入

②確率型ベルマン方程式の導出

③遷移確率関数T(r(S’),S’|s,a)の極意

④グリッドワールド問題の応用

1.3 動的計画法

・ℰ=1-Greedy反復方策

・ℰ=0-Greedy方策反復法(On-Policy)

・ℰ=0-Greedy価値反復法(Off-Policy)

1.4 逆強化学習の基本概念の導入

・報酬関数の定義

・報酬関数による価値関数の推移

第２部　逆強化学習の解法：線形計画最適化逆強化学習手法

2.1 線形計画最適化逆強化学習手法の導入

2.2 線形計画逆強化学習手法の定式化

2.3 線形計画逆強化学習手法のコーディング要領

2.4 線形計画逆強化学習手法の応用事例の紹介

第３部　逆強化学習の解法：最大エントロピー逆強化学習手法

3.1 関数近似の基本概念

3.2 関数近似モデルを用いた報酬の表現

3.3 機械学習による報酬関数の回帰

3.4 最大エントロピーを取り入れた報酬誤差関数の設計

3.5 熟練者による行動確率教師データの生成

3.6 最大エントロピー逆強化学習手法のコーディング要領

3.7 最大エントロピー逆強化学習手法の応用事例の紹介

第４部　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法

4.1 深層NN(neural network)の導入

4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計

4.3 熟練者による状態頻度教師データの生成

4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領

4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第５部　逆強化学習の展望と関連技術の紹介

« PREV

一覧へ戻る

NEXT »