NEWS
ニュース

セミナー:強化学習入門~基本アルゴリズムから深層強化学習・応用まで~

一日セミナー 強化学習入門~基本アルゴリズムから深層強化学習・応用まで~ で講師を務めます。

 

日 時: 2017年9月19日(火) 10:30-16:30

場 所:会場 [東京・大井町]きゅりあん4階第3グループ活動室 →「セミナー会場へのアクセス」

詳細・お申込みはこちら: URL http://www.johokiko.co.jp/seminar_chemical/AC170979.php

 

ディープラーニングの先にあり、一躍注目を集める「深層強化学習手法」:人工知能のビジネス応用にはその原理理解が必要不可欠な状況にもかかわらず、現状わかりやすく説明している資料はなかなか見当たらない状況です。

本セミナーでは、その基本となる強化学習から、難解といわれる「深層強化学習」まで順を追って、例題や動画・簡易デモなどを通して、よりわかり易く説明します。

 

第I部 はじめに
強化学習の基本概念
強化学習・深層学習および深層強化学習の特徴と違い
深層強化学習により可能となること
多腕バンディット問題をわかりやすく説明
強化学習における探索と利用のジレンマ
多腕バンディット問題の解法をわかりやすく説明
・平均報酬という概念について
・平均報酬を更新するための式の導きかた
・Epsilon ?greedy
・最適初期値設定法
・UCB1
・Bayesian/Thompson 法の詳細
簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

第II部:基本概念?マルコフ決定過程(MDP)の基本原理のポイント
確率過程
マルコフ性とは
マルコフ鎖とは
MDPの定義と式の導き方
方策πの定義と価値関数の対応関係
状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
簡易演習デモ(python)1:Gridworld(式を理解するために)
最適状態価値関数V_* (s)のポイント
最適状態行動価値関数Q_* (s,a)のポイント
最適状態価値関数V_* (s)と最適状態行動価値関数Q_* (s,a)の相互関係
ベルマン最適性方程式の導きかた
簡易デモ(python)2:Gridworld(式を理解する)
ディスカッション:最適性と近似性について

第III部: 中核:強化学習におけるMDP問題の解法:
(1) 動的計画法の解説と入門:
反復法による価値関数を求める:ランダム方策 vs 固定方策
最適な方策の探索手法をわかりやすく説明
・方策反復法による最適状態価値関数を求める
・遷移確率を考慮した方策反復法による最適状態価値関数を求める
・価値反復法による最適状態価値関数を求める
簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)

(2) Monte-Carlo(MC)法をわかりやすく解説
モデル法とモデルフリー法のちがい
経験に基づく学習手法のポイント
MC法と多腕バンディットの内在関連性
状態価値関数・行動状態価値関数と平均報酬との関係
MC法による状態価値関数の求め方とポイント
MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)

(3) TD学習手法のポイントと入門
TD(0)法の説明と式の導きかた
SARSA法の説明と式の導きかた
Q-学習法の説明と式の導きかた
On-PolicyとOff-Policyを詳しく説明
簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

第IV部: 拡張ー強化学習における関数近似手法とは(入門編):
Tabular法(表形式手法)と近似解法のちがい
回帰モデルと誤差関数をあらためて復習
最急降下勾配法とMC法との関連性をわかりやすく説明
疑似勾配(Semi-Gradient)とは
簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
簡単な線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

第V部: 最前線:深層強化学習の基本概念と最重要ポイント:
簡易型ニューラルネットワークを応用したQ-学習手法の説明
深層Q-学習(DQN)の基本ポイント
連続動作空間における強化学習のポイント
方策勾配法の基本と式の導き方
ガウシアン型行動確率分布の導入
方策勾配法による連続動作空間における強化学習の簡易説明
深層Actor-Critic法の基本と実行のコツ
簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)

第VI部:応用:強化学習と深層強化学習の応用事例:
(1) ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
(2) 電気制御素子のパラメーター探索における強化学習の応用事例紹介
(3) 蓄電池充放電制御における強化学習の応用事例紹介
(4) 太陽光発電の変動制御における強化学習の応用事例紹介
(5) 簡易実演デモ(python):(応用の可能性と効果を議論する)

<全体のまとめと質疑応答>

Page top