B
Shaping Intelligence: Eine vergleichende Analyse
von Reward-Strukturen in Multi-Agent RL
Eine Einführung in das Forschungsprojekt, die Motivation dahinter und die wissenschaftlichen Fragestellungen, die ich untersuche.
Ursprünglich war das Ziel simpel: Einen Agenten zu bauen, der eine Runde eines selbstdesignten Spiels überlebt. Doch nach unzähligen Iterationen in Capture the Flag musste ich lernen: Man kann nicht einfach "einen guten Agenten" bauen.
Die Konsequenz:
Statt einer "perfekten" Lösung entwickelte ich drei spezialisierte Modelle — Charlie, Gordon und Algernon — um genau diese Unterschiede sichtbar zu machen.
Statt das Rad neu zu erfinden, nutzt dieses Projekt Industriestandards für maximale Reproduzierbarkeit.
Ein streng wissenschaftlicher Ansatz, um Zufall auszuschließen und reines Verhalten zu isolieren.
Ein symmetrisches Schlachtfeld für kompetitive Agenten.
Das Kernziel: Gegnerische Flagge stehlen und zur eigenen Basis bringen.
Nahkampf-Angriff betäubt Gegner für ~1 Sekunde.
Die Spielfeldhälfte bestimmt die Rolle des Agenten.
Jeder Agent erhält 31 kontinuierliche Werte pro Frame.
Jedes Modell wurde mit einer anderen Reward-Strategie trainiert. Wähle einen Agenten, um seine spezifischen Eigenschaften zu erkunden.
Charlie ist der "Purist". Er erhält nur Feedback für das absolute Endergebnis: Capture und Sieg/Niederlage. Kein Lob für Zwischenschritte, keine Hilfe beim Lernen. Das Ergebnis? Kein messbares Lernen - nach 95M Steps immer noch bei 0 Reward.
Gordon ist der "Overachiever". Er bekommt Punkte für alles: Bewegung zur Flagge, Tackles, Distanzverkleinerung, sogar für das bloße Sehen von Gegnern. Das Ergebnis? Deutliche Verbesserung (+47.26), aber instabil mit hoher Varianz.
Algernon ist der "Goldene Mittelweg". Er erhält große Belohnungen nur für kritische Momente: Captures, Flaggenträger tacklen, Flagge zurückbringen. Das Ergebnis? +79.62 Reward-Verbesserung und kürzeste Episoden (357 Steps = schnellste Captures).
Tauche tiefer ein in die Daten, Analysen und Live-Visualisierungen.
Entdecke, wie die Agenten lernen und sich entwickeln.