Project Algernon | RL Portfolio

Das Projekt

Eine Einführung in das Forschungsprojekt, die Motivation dahinter und die wissenschaftlichen Fragestellungen, die ich untersuche.

Die Evolution:
Vom Spiel zur Studie

Ursprünglich war das Ziel simpel: Einen Agenten zu bauen, der eine Runde eines selbstdesignten Spiels überlebt. Doch nach unzähligen Iterationen in Capture the Flag musste ich lernen: Man kann nicht einfach "einen guten Agenten" bauen.

Zentrale Erkenntnis:
Es gibt keine perfekte Reward-Struktur. Es ist immer ein Trade-off zwischen Lern-Effizienz und Kreativität.

Sparse Rewards Zu wenig Feedback führt dazu, dass der Agent selbst nach tagelangem Training kaum Intelligenz zeigt.

Dense Rewards Zu viele Hilfen machen das Verhalten effizient, aber vorhersehbar und anfällig für Reward Hacking.

Die Konsequenz:

Statt einer "perfekten" Lösung entwickelte ich drei spezialisierte Modelle — Charlie, Gordon und Algernon — um genau diese Unterschiede sichtbar zu machen.

Technologie
Stack

Statt das Rad neu zu erfinden, nutzt dieses Projekt Industriestandards für maximale Reproduzierbarkeit.

Stable Baselines 3 PyTorch Gymnasium TensorBoard PettingZoo

Core AI PPO (Proximal Policy Optimization) als robuster On-Policy Algorithmus.
Custom Env Eigens entwickelte Gymnasium-Umgebung mit Box2D-Physik.
Vectorization SubprocVecEnv für echtes Multiprocessing auf 16 CPU-Kernen.
Evaluation Automatisierte Log-Verarbeitung und JSON-Export für das Web-Dashboard.

Methodik &
Experiment

Ein streng wissenschaftlicher Ansatz, um Zufall auszuschließen und reines Verhalten zu isolieren.

Ceteris Paribus Identische Hyperparameter (LR 3e-4, Netzgröße) für alle Agenten.
Sample Efficiency Jedes Modell wurde über exakt 100 Millionen Zeitschritte trainiert.
Qualitative Analyse Fokus auf emergentem Verhalten (z.B. Deckung) statt nur Score.
Blind Tests Evaluation gegen unbekannte Checkpoints gegen Overfitting.

Spielregeln & Umgebung

Ein symmetrisches Schlachtfeld für kompetitive Agenten.

Flagge erobern

Das Kernziel: Gegnerische Flagge stehlen und zur eigenen Basis bringen.

+100 Punkte pro erfolgreichen Capture
Eigene Flagge muss in der Basis sein
3 Captures = Sieg
Träger ist 30% langsamer

Tackle & Stun

Nahkampf-Angriff betäubt Gegner für ~1 Sekunde.

Cooldown: 3.25 Sekunden
Betäubte lassen Flagge fallen
+8 Punkte für Tackle auf Flaggenträger

Territorium

Die Spielfeldhälfte bestimmt die Rolle des Agenten.

Eigene Hälfte: Verteidiger-Status
Gegnerseite: Angreifer (verwundbar)
Flaggenträger immer angreifbar
Safe Zone in der Basis

Observation Space

Jeder Agent erhält 31 kontinuierliche Werte pro Frame.

Position, Flaggen-Status, Stun-Timer
Vektoren zu Basen & Flaggen
Positionen von Team & Gegnern
Wände blockieren keine Sicht

Die drei Agenten

Jedes Modell wurde mit einer anderen Reward-Strategie trainiert. Wähle einen Agenten, um seine spezifischen Eigenschaften zu erkunden.

Sparse Rewards

Charlie

Charlie ist der "Purist". Er erhält nur Feedback für das absolute Endergebnis: Capture und Sieg/Niederlage. Kein Lob für Zwischenschritte, keine Hilfe beim Lernen. Das Ergebnis? Kein messbares Lernen - nach 95M Steps immer noch bei 0 Reward.

Lernkurve: Keine erkennbare Verbesserung
Problem: Sparse Rewards zu extrem für diese Aufgabe
Trainingszeit: 9.15 Stunden für 95.4M Steps

Reward-Struktur

Capture (Flagge erobern) +100.0

Sieg +50.0

Niederlage -50.0

Alles andere 0.0

95.4M

Steps

0.00

Final Reward

500

Avg Episode

Dense Rewards

Gordon

Gordon ist der "Overachiever". Er bekommt Punkte für alles: Bewegung zur Flagge, Tackles, Distanzverkleinerung, sogar für das bloße Sehen von Gegnern. Das Ergebnis? Deutliche Verbesserung (+47.26), aber instabil mit hoher Varianz.

Lernkurve: Von 4.34 auf 51.60 Reward gestiegen
Peak Performance: 113.13 Max Reward
Problem: Lange Trainingszeit (15.56h für 100M Steps)

Reward-Struktur (Auszug)

Capture +50.0

Sieg / Niederlage ±20.0

Flagge aufheben +10.0

Tackle (allgemein) +3.0

Distanz zur Flagge +0.2/step

Step-Penalty -0.01

100.1M

Steps

51.60

Final Reward

113.13

Max Reward

Balanced Rewards

Algernon

Algernon ist der "Goldene Mittelweg". Er erhält große Belohnungen nur für kritische Momente: Captures, Flaggenträger tacklen, Flagge zurückbringen. Das Ergebnis? +79.62 Reward-Verbesserung und kürzeste Episoden (357 Steps = schnellste Captures).

Beste Reward-Entwicklung: 0.00 → 79.62
Schnellstes Training: 15.3M Steps/h (6.53h für 100M)
Beste Value Function: 0.911 Explained Variance

Reward-Struktur (Empfohlen)

Capture +100.0

Sieg / Niederlage ±30.0

Tackle Flaggenträger +8.0

Flagge zurückbringen +5.0

Distanz (nur Träger) +0.1/step

100.1M

Steps

79.62

Final Reward

357

Min Episode

PROJECT
ALGERNON

Das Projekt

Die Evolution:
Vom Spiel zur Studie

Technologie
Stack

Methodik &
Experiment

Spielregeln & Umgebung

Flagge erobern

Tackle & Stun

Territorium

Observation Space

Die drei Agenten

Charlie

Reward-Struktur

Gordon

Reward-Struktur (Auszug)

Algernon

Reward-Struktur (Empfohlen)

EXPLORE
THE DATA

Dokumentation

Visualisierung

Kennzahlen

Das Projekt

Die Evolution:Vom Spiel zur Studie

TechnologieStack

Methodik &Experiment

Spielregeln & Umgebung

Flagge erobern

Tackle & Stun

Territorium

Observation Space

Die drei Agenten

Charlie

Reward-Struktur

Gordon

Reward-Struktur (Auszug)

Algernon

Reward-Struktur (Empfohlen)

EXPLORE THE DATA

Dokumentation

Visualisierung

Kennzahlen

Die Evolution:
Vom Spiel zur Studie

Technologie
Stack

Methodik &
Experiment

EXPLORE
THE DATA