de.mpg.escidoc.pubman.appbase.FacesBean
日本語
 
ヘルプ Guide ポリシー/免責事項 連絡先 ログイン
  詳細検索ブラウズ

アイテム詳細

  Gaussian Process Dynamic Programming

Deisenroth, M., Rasmussen, C., & Peters, J. (2009). Gaussian Process Dynamic Programming. Neurocomputing, 72(7-9), 1508-1524. doi:10.1016/j.neucom.2008.12.019.

Item is

基本情報

表示: 非表示:
アイテムのパーマリンク: http://hdl.handle.net/11858/00-001M-0000-0013-C589-B 版のパーマリンク: http://hdl.handle.net/11858/00-001M-0000-0013-C58A-9
資料種別: 学術論文

ファイル

表示: ファイル

関連URL

表示:

作成者

表示:
非表示:
 作成者:
Deisenroth, MP1, 著者              
Rasmussen, CE1, 著者              
Peters, J1, 2, 著者              
所属:
1Department Empirical Inference, Max Planck Institute for Biological Cybernetics, Max Planck Society, escidoc:1497795              
2Dept. Empirical Inference, Max Planck Institute for Intelligent Systems, Max Planck Society, escidoc:1497647              

内容説明

表示:
非表示:
キーワード: -
 要旨: Reinforcement learning (RL) and optimal control of systems with contin- uous states and actions require approximation techniques in most interesting cases. In this article, we introduce Gaussian process dynamic programming (GPDP), an approximate value-function based RL algorithm. We consider both a classic optimal control problem, where problem-specific prior knowl- edge is available, and a classic RL problem, where only very general priors can be used. For the classic optimal control problem, GPDP models the unknown value functions with Gaussian processes and generalizes dynamic programming to continuous-valued states and actions. For the RL problem, GPDP starts from a given initial state and explores the state space using Bayesian active learning. To design a fast learner, available data has to be used efficiently. Hence, we propose to learn probabilistic models of the a priori unknown transition dynamics and the value functions on the fly. In both cases, we successfully apply the resulting continuous-valued controllers to the under-actuated pendulum swing up and analyze the performances of the suggested algorithms. It turns out that GPDP uses data very efficiently and can be applied to problems, where classic dynamic programming would be cumbersome.

資料詳細

表示:
非表示:
言語:
 日付: 2009-03
 出版の状態: 紙媒体で出版済み
 ページ: -
 出版情報: -
 目次: -
 査読: -
 学位: -

関連イベント

表示:

訴訟

表示:

Project information

表示:

出版物 1

表示:
非表示:
出版物名: Neurocomputing
種別: 学術雑誌
 著者・編者:
所属:
出版社, 出版地: -
ページ: - 巻号: 72 (7-9) 通巻号: - 開始・終了ページ: 1508 - 1524 識別子(ISBN, ISSN, DOIなど): -