【ポイント】
*エネルギー分野における「アンサンブル強化学習による最適化」の開発に成功
*不確実なエネルギー環境における「リスク評価型強化学習」の開発に世界ではじめて成功
*カーボンニュートラルに向けた「スマートグリッド」最適化によるエネルギー有効活用に大きな期待
【概要】
電気通信大学i-パワードエネルギー・システム研究センター 曽我部 東馬 准教授らの研究グループは、株式会社グリッドとの共同研究において、強化学習(1)アルゴリズムにリスク評価(2)技術とアンサンブル学習(3)を適用することで不確実な環境におけるエネルギー最適化問題をより高い精度で解決できることを示しました。この成果はAIP(American Institute of Physics)発行の学術雑誌「Journal of Renewable and Sustainable Energy」にて掲載されました。
【背景 】
クリーンエネルギーの普及に伴う電源の分散化に伴い、電力の利用状況を最適化し効率的な送配電を目指す「スマートグリッド」技術が注目を集めています。しかし天候や電力需要は予測が難しく、不確実な予測シナリオに対しても配電の制約を守る手法の確立が課題となっています。
これまでも強化学習を用いてエネルギー最適化を行う試みはありましたが、主に単一のネットワークを訓練するものでした。一方、機械学習分野では並行して訓練された複数のネットワークの出力から総合的に判断するアンサンブル学習が広く用いられています。強化学習とアンサンブル学習を組み合わせた「アンサンブル強化学習」は不確実な問題への効果が期待できるものの、基礎研究に留まっている状態でした。
今回の研究では、このアンサンブル強化学習をエネルギー分野の問題に応用することで、変わりやすい天候や未知の需要データに対しても、より制約の違反が少なく経済的な売買電の計画を作成できることを示しました。さらにその計画に対してリスクマネジメントの観点から分析を行なっています。
また、本研究の結果の波及効果の一つとして、不確実な環境でも機能するAIの開発に成功し、AIの最大の課題である「フレーム問題(4)」を解決する糸口を示唆することができました。
【手法】
対象とするエネルギー最適化問題では、図1に示す配電網について、ソーラーパネルが発電した余剰な電力を売却するか不足した電力を購入するかを24時間に渡って決定することを目的としています。ここで電力需要および発電量は一定ではなく一年を通じて変化することを想定しています。
この問題を単独のAIモデルで解決するには、一年分の需要や発電量のサンプルを用いた環境モデルを作成し、その環境に対して学習する方法が考えられます。一方で、本論文で提案するアルゴリズムでは事前に典型的な需要と天候のパターンをいくつか用意し、それぞれに対応するAIモデルを独立に学習させることで、異なる判断基準を備えた複数のAIモデルを用意しました。アルゴリズム全体の行動を決める際には複数のAIモデルの出力を平均化することで行動をひとつに決定します。
アルゴリズムの効果検証の一環として、利益の平均とリスクのふたつの軸を元にマッピングしています。これによって平均利益のみの比較だけでなく異なる指標での評価が可能となります。
【成果】
本研究の効果を測定するため、365日の需要・天候データについて作成したAIモデルを用いて電力の需給計画を策定しました。図3に示すように、個々のAIモデルは一部のパターンの需要と天候しか学習していないため、多くの日付のデータで「夜間にバッテリーを満タンに充電する」という制約を守れない結果となったのに対して、異なる環境で学習した複数のAIモデルの出力を統合する提案手法では制約の違反量を減少させ、より安定した送配電を達成できることを示しました。
さらに、平均とリスクの評価によって提案手法の結果とアンサンブルを構成する個々のエージェントの結果を比較しました。その結果、図3に示すように、単一のエージェントの結果が広い範囲に分散するのに対して提案手法の分布が狭い箇所に集中していることを明らかにしました。
これは従来の強化学習アルゴリズムの安定性の低さが要因であると考えられ、またアンサンブル学習を用いた提案手法がそれに対する対策になり得ることを示しています。
【今後の期待】
これまで不確実な環境でも機能するAIをエネルギー分野に応用した研究は、国内外でも例がありませんでした。今回の研究結果は、カーボンニュートラルの実現に向けた「スマートグリッド」最適化によるエネルギーの有効活用への大きな足がかりとなることが期待されます。
曽我部研究室では今後もエネルギー問題の解決に向けて、リスクを考慮したAI最適化、不確実な環境における最適化の開発を進化させて参ります。
(論文情報)
タイトル:“Attention and Masking embedded Ensemble Reinforcement Learning for Smart Energy Optimization and Risk Evaluation under Uncertainties”
著者:Tomah Sogabe, Chih-Chieh Chen, Dinesh Bahadur Malla, Katsuyoshi Sakamoto
掲載誌:Journal of Renewable and Sustainable Energy,in press(2022)
公開日: 2022 年 6 月 20 日
本誌リンク:https://aip.scitation.org/doi/10.1063/5.0097344
用語説明
(1)強化学習:強化学習とは、ある環境内におけるエージェントが、現在の状態を観測し、最適な行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から最大の報酬を得ることを目的とします。
(2)リスク評価:いろいろな種類がありますが、本研究で使用するリスク評価基準は金融工学によく使われる資産の収益の標準偏差をリスクとして考え、平均的に得られる収益との相関を評価します。
(3)アンサンブル学習:アンサンブル学習とは、個々の学習器を学習させたものを、多数決で融合することによって予測能力が向上する機械学習の一種です。
(4)フレーム問題:解決したい課題について考慮すべき情報が多い場合にAIが情報を適切に取捨選択できなくなる問題を指します。特に将来予測を交えた不確定要素が強い環境を扱う問題では、この「フレーム問題」への対処が重要となります
【連絡先】
<研究内容に関すること>
電気通信大学 i-パワードエネルギー・システム研究センター
大学院 情報理工学研究科 基盤理工学専攻
准教授 曽我部 東馬
E-mail:sogabe@uec.ac.jp
<報道に関すること>
電気通信大学 総務企画課 広報係
Tel: 042-443-5019 Fax: 042-443-5887
E-Mail:kouhou-k@office.uec.ac.jp
■下記のニュースも併せてご覧ください。
電気通信大学ニュースリリース:https://www.uec.ac.jp/news/announcement/2022/20220728_4676.html