NEWS
ニュース

セミナー「強化学習アルゴリズム入門 平均からはじめる基礎と応用」

1日セミナー「強化学習アルゴリズム入門:平均からはじめる基礎と応用」で講師を務めます。

■日時:2019年7月23日(火) 10:30-16:30
■会場:中央大学駿河台記念館 (千代田区神田駿河台3-11-5)
■主催:(株)トリケップス

詳細は下記をご参照下さい。

http://catnet.ne.jp/triceps/sem/s190723k.html

■セミナー概要

最適化への応用に最も適した強化学習。その難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。

5/23にオーム社より発売の「強化学習アルゴリズム入門〜平均からはじめる基礎と応用〜」をサブテキストとして使用。

セミナー後半では最適化への応用事例の紹介も丁寧に行います。

 

■プログラム

第1章 平均から学ぶ強化学習の基本概念
1.0 はじめに
1.1 平均と期待値
1.2 平均と価値
1.3 平均とマルコフ性
1.4 平均によるベルマン方程式の導出
1.5 平均によるモンテカルロ学習手法の導出
1.6 平均によるTD法の導出

第2章 各アルゴリズムの特徴と応用
2.0 はじめに
2.1 方策π(a | S)
2.2 動的計画法
2.3 モンテカルロ法
2.4 TD(0)法

第3章 関数近似手法
3.0 はじめに
3.1 関数近似の基本概念
3.2 関数近似モデルを用いたV(St)の表現
3.3 機械学習による価値関数の回帰
3.4 モンテカルロ法を応用した価値関数回帰
3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

第4章 深層強化学習の原理と手法
4.1 TD-Q学習におけるNNによる行動価値関数回帰
4.2 DQNによる行動状態価値関数近似
4.3 確率方策勾配法
4.4 決定型方策勾配法
4.5 TRPO/PPO法
4.6 アルファ碁ゼロ学習法
4.7 最適化への応用事例の紹介
4.8まとめと展開

Page top