Policy gradient methods

Peters, J

doi:10.4249/scholarpedia.3698

Datensatz

DATENSATZ AKTIONENEXPORT

Zur Ablage hinzufügen

Bitte beachten Sie, dass eine neuere Version dieses Datensatzes verfügbar ist:
https://pure.mpg.de/pubman/item/item_1788428_2

DetailsÜbersicht

Policy gradient methods

Peters, J. (2010). Policy gradient methods. Scholarpedia, 5(11), 3698. doi:10.4249/scholarpedia.3698.

Item is Freigegeben

einblenden: alle ausblenden: alle

Basisdaten

einblenden: ausblenden:

Datensatz-Permalink: https://hdl.handle.net/11858/00-001M-0000-0013-BD68-3 Versions-Permalink: https://hdl.handle.net/11858/00-001M-0000-0013-BD69-1

Genre: Zeitschriftenartikel

ausblenden:

Urheber:
Peters, J^{1, 2}, Autor

Affiliations:
1Department Empirical Inference, Max Planck Institute for Biological Cybernetics, Max Planck Society, ou_1497795
2Dept. Empirical Inference, Max Planck Institute for Intelligent Systems, Max Planck Society, ou_1497647

Inhalt

einblenden:

ausblenden:

Schlagwörter: -

Zusammenfassung: Policy gradient methods are a type of reinforcement learning techniques that rely upon optimizing parametrized policies with respect to the expected return (long-term cumulative reward) by gradient descent. They do not suffer from many of the problems that have been marring traditional reinforcement learning approaches such as the lack of guarantees of a value function, the intractability problem resulting from uncertain state information and the complexity arising from continuous states actions.