◾タイトル
ハイブリッド量子古典的 Ulam-von Neumann線形ソルバーベースの量子動的プログラミングアルゴリズムの開発
◾概要
線形方程式の大規模システムを解くことは、多くの人工知能アプリケーション、特に強化学習分野で頻繁に使用される動的プログラミングにとって重要な部分です。ノイズの多い中間規模の量子コンピューターの登場により、より大規模な線形システムを解く新たな機会が提供されます。 Ulam-von Neumann法を使用したハイブリッド量子古典線形ソルバーは、以前に実証されました。この作業では、状態値関数またはアクション状態値関数V(またはQ)=(1-γP)-1 R(ここで、γはである動的プログラミングにハイブリッド量子古典Ulam-von Neumann線形ソルバーを適用します割引率、Pは状態遷移行列、Rは報酬)を解決します。ユニスタライズと量子ランダムウォークの線形結合のアイデアに基づいて、非確率的マトリックスを超える体系的な回路拡張が開発されています。マトリックス構築のための生成的敵対ネットワーク訓練法も開発されています。いくつかのベンチマーク強化学習タスクの数値例を示します。
◾ 著者
Chen Chih-Chieh、斯波 廣大、曽我部 完、坂本 克好 、曽我部 東馬
◾ 論文リンク
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_2K6ES203/_article/-char/ja
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
◾タイトル
“Bootstrapping Baysian Inverse Reinforcement Learning in Robotics through VR Demonstration”
◾概要
スパースな報酬は、強化学習(RL)における永続的な問題でした。多くの場合、報酬関数を手動で指定または形成する必要があります。これにより、通常、長いタスク期間と高いアクション次元を備えている現実世界のタスクにRLの適用が大幅に制限され、報酬関数の手動設定が非常に困難になります。この作業では、準最適なデモンストレーションから報酬をシミュレートして推論するベイズ逆強化学習を使用することにより、スパース報酬問題を克服することを提案します。 7-DOFCrane-X7ロボットアームを適応制御するために、ROS環境で表示されるのと同じ周波数で、HTV-Viveインターフェイステクニックとともに、深い決定論的ポリシーグラジエントと後知恵体験リプレイアルゴリズムを使用します。提案手法は、さまざまなフェッチタスクを解決でき、デモンストレーターポリシーよりも優れたポリシーを学習できることを示します。
◾著者
Sogabe Reed、木村 友彰、Malla Dinesh、曽我部 完、坂本 克好、曽我部 東馬
◾論文リンク
https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_2G1ES402/_article/-char/ja