Trainingsmetriken, Performance-Analysen und Vergleiche der drei RL-Modelle: Charlie, Gordon und Algernon
Interaktive Visualisierung der wichtigsten Trainingsmetriken und Performance-Indikatoren
Zeitliche Entwicklung der Belohnung während des Trainingsprozesses
Entwicklung der Episodenlänge - kürzere Episoden bedeuten schnelleren Flag-Capture
Entwicklung der Explained Variance - höhere Werte = präzisere Wertvorhersagen
Steps pro Stunde während des Trainings
Policy Gradient Loss misst wie stark die Policy bei Updates angepasst wird. Niedrigere Werte = stabileres und ausgereifteres Training. Algernon zeigt die beste Konvergenz.
Radar-Chart zum Vergleich der Gesamtperformance aller drei Modelle (normalisierte Werte von 0-100)
Direkter Vergleich der Kennzahlen aller trainierten Modelle im "Capture the Flag"-Spiel
| Modell | Datum | Dauer | Steps | Reward Ende | Verbesserung | Episode Min. | Expl. Variance |
|---|---|---|---|---|---|---|---|
| Charlie | 30.11.2025 | 9.15h | 95.4M | 0.00 | +0.00 | 500.0 | 0.820 |
| Gordon | 30.11.2025 | 15.56h | 100.1M | 51.60 | +47.26 | 480.6 | 0.651 |
| Algernon | 02.12.2025 | 6.53h | 100.1M | 79.62 | +79.62 | 357.0 | 0.911 |