TY - THES U1 - Bachelor Thesis A1 - Braun, Hannes T1 - Analyse domänenseitiger Optimierungen für Deep Reinforcement Learning in der RoboCup Umgebung N2 - Mit dem Team "magmaOffenburg" nimmt die Hochschule Offenburg seit 2009 am internationalen Wettbewerb "RoboCup" in der 3D-Simulationsliga für Fußball teil. Dabei kommt es vor allem auf den Einsatz guter Lauf- und Kickverhalten an. Seit 2019 ist es dem Team magmaOffenburg möglich auch Deep Reinforcement Learning für die Weiterentwicklung der Verhalten einzusetzen. Während auf diese Weise schon verwendbare Ergebnisse für das Kicken produziert wurden, so fehlt noch ein Fortschritt beim Laufen lernen. Diese Arbeit beschäftigt sich mit den nötigen Optimierungen auf der Domänenseite, um das gelernte Laufen zu verbessern. Das beinhaltet die Optimierung des Observation- und Actionspaces, sowie auch eine Optimierung der Rewardfunktion. Dabei wurde versucht, die einzelnen Einflüsse verschiedener Parameter und Techniken innerhalb dieser drei Bereiche zu evaluieren. So konnte zum Schluss eine Verbesserung in der Laufgeschwindigkeit von etwas unter einem Meter pro Sekunde auf bis zu 1,8 Metern pro Sekunde erreicht werden. Ausschlaggebend für dieses Ergebnis waren vor allem der Verbesserungen in der Rewardfunktion. N2 - With the team 'magmaOffenburg', the Offenburg University is participating in the international competition 'RoboCup' in the 3D simulation league for soccer since 2009. To archieve a great result, the team heavily relies on using well-trained behaviors for their agents (e.g. kicking or walking). Since 2019, magmaOffenburg is also able to use deep reinforcement learning in order to further develop their behaviors. Using deep reinforcement learning, the team was already able to score usable results in kicking. However, there is still a lack of progress for learning to walk. In this thesis, the required optimizations on the domain side were tested and evaluated in order to get a better result at walking. This includes optimizing the observation space as well as the action space. Furthermore, a lot of optimizations for the reward function will also be tested and evaluated. The goal was to get a clarification of the influence of the various parameters and the applied techniques on walking in the RoboCup domain. Finally, it was possible to improve the running speed from little under a meter per second to up to 1.8 meters per second. The main reason for this improvement were the optimizations in the reward function. KW - Laufen lernen KW - Deep Reinforcement Learning KW - RoboCup Y2 - 2021 U6 - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-46827 UN - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-46827 SP - vi, 78, vi S1 - vi, 78, vi CY - Offenburg ER -