B Project Algernon | RL Portfolio

PROJECT
ALGERNON

Shaping Intelligence: Eine vergleichende Analyse
von Reward-Strukturen in Multi-Agent RL

Python PyTorch Stable Baselines 3 Gymnasium
Scrollen

Das Projekt

Eine Einführung in das Forschungsprojekt, die Motivation dahinter und die wissenschaftlichen Fragestellungen, die ich untersuche.

01

Die Evolution:
Vom Spiel zur Studie

Ursprünglich war das Ziel simpel: Einen Agenten zu bauen, der eine Runde eines selbstdesignten Spiels überlebt. Doch nach unzähligen Iterationen in Capture the Flag musste ich lernen: Man kann nicht einfach "einen guten Agenten" bauen.

Zentrale Erkenntnis:
Es gibt keine perfekte Reward-Struktur. Es ist immer ein Trade-off zwischen Lern-Effizienz und Kreativität.
Sparse Rewards Zu wenig Feedback führt dazu, dass der Agent selbst nach tagelangem Training kaum Intelligenz zeigt.
Dense Rewards Zu viele Hilfen machen das Verhalten effizient, aber vorhersehbar und anfällig für Reward Hacking.

Die Konsequenz:

Statt einer "perfekten" Lösung entwickelte ich drei spezialisierte Modelle — Charlie, Gordon und Algernon — um genau diese Unterschiede sichtbar zu machen.

02

Technologie
Stack

Statt das Rad neu zu erfinden, nutzt dieses Projekt Industriestandards für maximale Reproduzierbarkeit.

Stable Baselines 3 PyTorch Gymnasium TensorBoard PettingZoo
  • Core AI PPO (Proximal Policy Optimization) als robuster On-Policy Algorithmus.
  • Custom Env Eigens entwickelte Gymnasium-Umgebung mit Box2D-Physik.
  • Vectorization SubprocVecEnv für echtes Multiprocessing auf 16 CPU-Kernen.
  • Evaluation Automatisierte Log-Verarbeitung und JSON-Export für das Web-Dashboard.
03

Methodik &
Experiment

Ein streng wissenschaftlicher Ansatz, um Zufall auszuschließen und reines Verhalten zu isolieren.

  • Ceteris Paribus Identische Hyperparameter (LR 3e-4, Netzgröße) für alle Agenten.
  • Sample Efficiency Jedes Modell wurde über exakt 100 Millionen Zeitschritte trainiert.
  • Qualitative Analyse Fokus auf emergentem Verhalten (z.B. Deckung) statt nur Score.
  • Blind Tests Evaluation gegen unbekannte Checkpoints gegen Overfitting.

Spielregeln & Umgebung

Ein symmetrisches Schlachtfeld für kompetitive Agenten.

Flagge erobern

Das Kernziel: Gegnerische Flagge stehlen und zur eigenen Basis bringen.

  • +100 Punkte pro erfolgreichen Capture
  • Eigene Flagge muss in der Basis sein
  • 3 Captures = Sieg
  • Träger ist 30% langsamer

Tackle & Stun

Nahkampf-Angriff betäubt Gegner für ~1 Sekunde.

  • Cooldown: 3.25 Sekunden
  • Betäubte lassen Flagge fallen
  • +8 Punkte für Tackle auf Flaggenträger
Capture the Flag Spielfeld - 24x24 Grid

Territorium

Die Spielfeldhälfte bestimmt die Rolle des Agenten.

  • Eigene Hälfte: Verteidiger-Status
  • Gegnerseite: Angreifer (verwundbar)
  • Flaggenträger immer angreifbar
  • Safe Zone in der Basis

Observation Space

Jeder Agent erhält 31 kontinuierliche Werte pro Frame.

  • Position, Flaggen-Status, Stun-Timer
  • Vektoren zu Basen & Flaggen
  • Positionen von Team & Gegnern
  • Wände blockieren keine Sicht

Die drei Agenten

Jedes Modell wurde mit einer anderen Reward-Strategie trainiert. Wähle einen Agenten, um seine spezifischen Eigenschaften zu erkunden.

Sparse Rewards

Charlie

Charlie ist der "Purist". Er erhält nur Feedback für das absolute Endergebnis: Capture und Sieg/Niederlage. Kein Lob für Zwischenschritte, keine Hilfe beim Lernen. Das Ergebnis? Kein messbares Lernen - nach 95M Steps immer noch bei 0 Reward.

  • Lernkurve: Keine erkennbare Verbesserung
  • Problem: Sparse Rewards zu extrem für diese Aufgabe
  • Trainingszeit: 9.15 Stunden für 95.4M Steps
Reward-Struktur
Capture (Flagge erobern) +100.0
Sieg +50.0
Niederlage -50.0
Alles andere 0.0
95.4M
Steps
0.00
Final Reward
500
Avg Episode
Dense Rewards

Gordon

Gordon ist der "Overachiever". Er bekommt Punkte für alles: Bewegung zur Flagge, Tackles, Distanzverkleinerung, sogar für das bloße Sehen von Gegnern. Das Ergebnis? Deutliche Verbesserung (+47.26), aber instabil mit hoher Varianz.

  • Lernkurve: Von 4.34 auf 51.60 Reward gestiegen
  • Peak Performance: 113.13 Max Reward
  • Problem: Lange Trainingszeit (15.56h für 100M Steps)
Reward-Struktur (Auszug)
Capture +50.0
Sieg / Niederlage ±20.0
Flagge aufheben +10.0
Tackle (allgemein) +3.0
Distanz zur Flagge +0.2/step
Step-Penalty -0.01
100.1M
Steps
51.60
Final Reward
113.13
Max Reward
Balanced Rewards

Algernon

Algernon ist der "Goldene Mittelweg". Er erhält große Belohnungen nur für kritische Momente: Captures, Flaggenträger tacklen, Flagge zurückbringen. Das Ergebnis? +79.62 Reward-Verbesserung und kürzeste Episoden (357 Steps = schnellste Captures).

  • Beste Reward-Entwicklung: 0.00 → 79.62
  • Schnellstes Training: 15.3M Steps/h (6.53h für 100M)
  • Beste Value Function: 0.911 Explained Variance
Reward-Struktur (Empfohlen)
Capture +100.0
Sieg / Niederlage ±30.0
Tackle Flaggenträger +8.0
Flagge zurückbringen +5.0
Distanz (nur Träger) +0.1/step
100.1M
Steps
79.62
Final Reward
357
Min Episode