Using Reward-weighted Regression for Reinforcement Learning of Task Space 
Control

Peters, J; Schaal, S

doi:10.1109/ADPRL.2007.368197

Datensatz

DATENSATZ AKTIONENEXPORT

Zur Ablage hinzufügen

Lokale TagsFreigabegeschichteDetailsÜbersicht

Freigegeben

Konferenzbeitrag

Using Reward-weighted Regression for Reinforcement Learning of Task Space Control

MPG-Autoren

Es sind keine MPG-Autoren in der Publikation vorhanden

Externe Ressourcen

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=4220842
(Verlagsversion)

Volltexte (beschränkter Zugriff)

Für Ihren IP-Bereich sind aktuell keine Volltexte freigegeben.

Volltexte (frei zugänglich)

Es sind keine frei zugänglichen Volltexte in PuRe verfügbar

Ergänzendes Material (frei zugänglich)

Es sind keine frei zugänglichen Ergänzenden Materialien verfügbar

Zitation

Peters, J., & Schaal, S. (2007). Using Reward-weighted Regression for Reinforcement Learning of Task Space Control. In 2007 IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning (pp. 262-267). Piscataway, NJ, USA: IEEE Computer Society.

Zitierlink: https://hdl.handle.net/11858/00-001M-0000-0013-CE29-8

Zusammenfassung

Many robot control problems of practical importance, including task or operational space control, can be
reformulated as immediate reward reinforcement learning problems.
However, few of the known optimization or reinforcement
learning algorithms can be used in online learning control
for robots, as they are either prohibitively slow, do not scale
to interesting domains of complex robots, or require trying
out policies generated by random search, which are infeasible
for a physical system. Using a generalization of the EM-base
reinforcement learning framework suggested by Dayan amp; Hinton,
we reduce the problem of learning with immediate rewards to a
reward-weighted regression problem with an adaptive, integrated
reward transformation for faster convergence. The resulting
algorithm is efficient, learns smoothly without dangerous jumps
in solution space, and works well in applications of complex high
degree-of-freedom robots.