295.6M
Training Steps (Total)
3
Modelle
113.13
Höchster Reward (Peak)
31.24h
Gesamt-Trainingszeit

Trainingsmetriken

Interaktive Visualisierung der wichtigsten Trainingsmetriken und Performance-Indikatoren

Reward-Entwicklung über Training

Zeitliche Entwicklung der Belohnung während des Trainingsprozesses

Episode-Länge Progression

Entwicklung der Episodenlänge - kürzere Episoden bedeuten schnelleren Flag-Capture

Value Function Qualität im Zeitverlauf

Entwicklung der Explained Variance - höhere Werte = präzisere Wertvorhersagen

Trainingsgeschwindigkeit

Steps pro Stunde während des Trainings

Policy Gradient Loss - Trainings-Stabilität

Policy Gradient Loss misst wie stark die Policy bei Updates angepasst wird. Niedrigere Werte = stabileres und ausgereifteres Training. Algernon zeigt die beste Konvergenz.

💡 Was bedeutet das?
Der Policy Gradient Loss zeigt, wie viel die Policy (Handlungsstrategie) des Agenten bei jedem Update verändert wird. Ein kontinuierlicher Rückgang bedeutet, dass das Modell lernt und sich einer optimalen Strategie annähert. Zu hohe Werte können auf Instabilität hinweisen, während Werte nahe Null auf eine ausgereifte Policy hindeuten.

Gesamtvergleich aller Metriken

Radar-Chart zum Vergleich der Gesamtperformance aller drei Modelle (normalisierte Werte von 0-100)

Modellvergleich

Direkter Vergleich der Kennzahlen aller trainierten Modelle im "Capture the Flag"-Spiel

Modell Datum Dauer Steps Reward Ende Verbesserung Episode Min. Expl. Variance
Charlie 30.11.2025 9.15h 95.4M 0.00 +0.00 500.0 0.820
Gordon 30.11.2025 15.56h 100.1M 51.60 +47.26 480.6 0.651
Algernon 02.12.2025 6.53h 100.1M 79.62 +79.62 357.0 0.911

Reward-Verbesserung Vergleich

Algernon +79.62
Gordon +47.26
Charlie +0.00