Analyse des Deep Reinforcement Learning Algorithmus PPO2 in der RoboCup Umgebung
- Seit 2009 nimmt das Team ”magmaOffenburg” an der 3D-Simulationsliga des RoboCups teil. Für das erfolgreiche Abschneiden in Turnieren ist die Qualität der erlernten Bewegungsabläufe ein zentraler Faktor. Bisher wurden genetische Algorithmen verwendet, um verschiedenste Aktionen zu erlernen sowie zu optimieren. In dieser Arbeit wird der Deep Reinforcement Learning Algorithmus Proximal PolicySeit 2009 nimmt das Team ”magmaOffenburg” an der 3D-Simulationsliga des RoboCups teil. Für das erfolgreiche Abschneiden in Turnieren ist die Qualität der erlernten Bewegungsabläufe ein zentraler Faktor. Bisher wurden genetische Algorithmen verwendet, um verschiedenste Aktionen zu erlernen sowie zu optimieren. In dieser Arbeit wird der Deep Reinforcement Learning Algorithmus Proximal Policy Optimization für das Erlernen bestimmter Bewegungen verwendet. Um ein Verständnis für dessen einflussreichen Parameter zu erhalten, werden Größen wie paralleles Lernen, Hyperparameter, Netzwerktopologie, Größe des Observationspace sowie asynchronem Lernen anhand dem Kicken aus dem Stand evaluiert. Durch die Ergebnisse der Evaluierung konnte der erlernte Kick signifikant verbessert werden und sein genetisch erlerntes Gegenstück im Spiel ablösen. Drüber hinaus wurden die Erkenntnisse anhand dem Laufen lernen evaluiert und Zusammenhänge bzw. Unterschiede der zwei Lernprobleme festgestellt.…
- The team ”magmaOffenburg” has been taking part in the 3D simulation league ofthe RoboCup since 2009. The quality of the learned behaviors is a central factor forthe successful performance in tournaments. So far, genetic algorithms have beenused to learn and optimize various behaviors. In this work the deep reinforcementlearning algorithm Proximal Policy Optimization is used for learning behaviors.The team ”magmaOffenburg” has been taking part in the 3D simulation league ofthe RoboCup since 2009. The quality of the learned behaviors is a central factor forthe successful performance in tournaments. So far, genetic algorithms have beenused to learn and optimize various behaviors. In this work the deep reinforcementlearning algorithm Proximal Policy Optimization is used for learning behaviors. Itsconfiguration consisting of parallel learning, hyperparameters, network topology,size of the observation space and asynchronous learning is evaluated using kickingfrom a standing start. The results of the evaluation made it possible to significantlyimprove the kick learned and replace its genetically learned counterpart in the game.Also, the results were evaluated based on learning to walk and differences betweenthe two learning problems were determined.…
Document Type: | Bachelor Thesis |
---|---|
Zitierlink: | https://opus.hs-offenburg.de/4245 | Bibliografische Angaben |
Title (German): | Analyse des Deep Reinforcement Learning Algorithmus PPO2 in der RoboCup Umgebung |
Title Additional (English): | Analysis of the deep reinforcement learning algorithm PPO2 in the RoboCup environment |
Author: | Martin Spitznagel |
Advisor: | Klaus Dorer, Janis Keuper |
Year of Publication: | 2020 |
Publishing Institution: | Hochschule Offenburg |
Granting Institution: | Hochschule Offenburg |
Place of publication: | Offenburg |
Page Number: | vi, 87, vi |
URN: | https://urn:nbn:de:bsz:ofb1-opus4-42450 |
Language: | German | Inhaltliche Informationen |
Institutes: | Fakultät Elektrotechnik, Medizintechnik und Informatik (EMI) (ab 04/2019) |
Institutes: | Abschlussarbeiten / Bachelor-Studiengänge / AI |
Projekte / Magma Offenburg | |
DDC classes: | 000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik |
Tag: | Deep Learning; Hyperparameter; Proximal Policy Optimization; Reinforcement Learning; RoboCup3D | Formale Angaben |
Open Access: | Open Access |
Licence (German): | Urheberrechtlich geschützt |
SWB-ID: | 1744128413 |