TY - THES U1 - Bachelor Thesis A1 - Spitznagel, Martin T1 - Analyse des Deep Reinforcement Learning Algorithmus PPO2 in der RoboCup Umgebung N2 - Seit 2009 nimmt das Team ”magmaOffenburg” an der 3D-Simulationsliga des RoboCups teil. Für das erfolgreiche Abschneiden in Turnieren ist die Qualität der erlernten Bewegungsabläufe ein zentraler Faktor. Bisher wurden genetische Algorithmen verwendet, um verschiedenste Aktionen zu erlernen sowie zu optimieren. In dieser Arbeit wird der Deep Reinforcement Learning Algorithmus Proximal Policy Optimization für das Erlernen bestimmter Bewegungen verwendet. Um ein Verständnis für dessen einflussreichen Parameter zu erhalten, werden Größen wie paralleles Lernen, Hyperparameter, Netzwerktopologie, Größe des Observationspace sowie asynchronem Lernen anhand dem Kicken aus dem Stand evaluiert. Durch die Ergebnisse der Evaluierung konnte der erlernte Kick signifikant verbessert werden und sein genetisch erlerntes Gegenstück im Spiel ablösen. Drüber hinaus wurden die Erkenntnisse anhand dem Laufen lernen evaluiert und Zusammenhänge bzw. Unterschiede der zwei Lernprobleme festgestellt. N2 - The team ”magmaOffenburg” has been taking part in the 3D simulation league ofthe RoboCup since 2009. The quality of the learned behaviors is a central factor forthe successful performance in tournaments. So far, genetic algorithms have beenused to learn and optimize various behaviors. In this work the deep reinforcementlearning algorithm Proximal Policy Optimization is used for learning behaviors. Itsconfiguration consisting of parallel learning, hyperparameters, network topology,size of the observation space and asynchronous learning is evaluated using kickingfrom a standing start. The results of the evaluation made it possible to significantlyimprove the kick learned and replace its genetically learned counterpart in the game.Also, the results were evaluated based on learning to walk and differences betweenthe two learning problems were determined. KW - Deep Learning KW - RoboCup3D KW - Proximal Policy Optimization KW - Reinforcement Learning KW - Hyperparameter Y2 - 2020 U6 - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-42450 UN - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-42450 SP - vi, 87, vi S1 - vi, 87, vi CY - Offenburg ER -