Kennzahlen - Multi-Agent RL

Trainingsmetriken

Interaktive Visualisierung der wichtigsten Trainingsmetriken und Performance-Indikatoren

Reward-Entwicklung über Training

Zeitliche Entwicklung der Belohnung während des Trainingsprozesses

Episode-Länge Progression

Entwicklung der Episodenlänge - kürzere Episoden bedeuten schnelleren Flag-Capture

Value Function Qualität im Zeitverlauf

Entwicklung der Explained Variance - höhere Werte = präzisere Wertvorhersagen

Trainingsgeschwindigkeit

Steps pro Stunde während des Trainings

Policy Gradient Loss - Trainings-Stabilität

Policy Gradient Loss misst wie stark die Policy bei Updates angepasst wird. Niedrigere Werte = stabileres und ausgereifteres Training. Algernon zeigt die beste Konvergenz.

💡 Was bedeutet das?
Der Policy Gradient Loss zeigt, wie viel die Policy (Handlungsstrategie) des Agenten bei jedem Update verändert wird. Ein kontinuierlicher Rückgang bedeutet, dass das Modell lernt und sich einer optimalen Strategie annähert. Zu hohe Werte können auf Instabilität hinweisen, während Werte nahe Null auf eine ausgereifte Policy hindeuten.

Gesamtvergleich aller Metriken

Radar-Chart zum Vergleich der Gesamtperformance aller drei Modelle (normalisierte Werte von 0-100)

Modellvergleich

Direkter Vergleich der Kennzahlen aller trainierten Modelle im "Capture the Flag"-Spiel

Modell	Datum	Dauer	Steps	Reward Ende	Verbesserung	Episode Min.	Expl. Variance
Charlie	30.11.2025	9.15h	95.4M	0.00	+0.00	500.0	0.820
Gordon	30.11.2025	15.56h	100.1M	51.60	+47.26	480.6	0.651
Algernon	02.12.2025	6.53h	100.1M	79.62	+79.62	357.0	0.911

Reward-Verbesserung Vergleich

Algernon +79.62

Gordon +47.26

Charlie +0.00