WALK-FORWARD-VALIDATION-1 — Result

Datum: 2026-06-05 (~00:30 UTC) Modus: Read-only Train/Test-Split mit realistic-fill + 1-bar Lag Train: 2026-05-28 → 2026-06-01 (5 d, 333 candidates) Test: 2026-06-02 → 2026-06-04 (3 d, 203 candidates) Cutoff: 2026-06-02T00:00:00 UTC


1. Executive Summary

Out-of-sample bestätigt die realistic-Baseline. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 ist robust.

Config Train Total % Test Total % Δ Train→Test Test PF Test P(loss) Verdict
1 Baseline 0.8/0.8 +102.0 +57.8 −44 1.99 4.8 % ROBUST
2 Conservative 0.7/0.7 +73.4 +53.5 −20 2.05 3.5 % MOST ROBUST
3 Aggressive 0.5/0.3 (negativ) +73.1 +24.6 −49 1.59 12.8 % OVERFIT — bestätigt
4 Baseline + Partial 50 % +100.2 +59.1 −41 2.01 4.1 % marginal vs Baseline
5 Baseline + Trailing 1.5 % +104.7 +58.7 −46 2.01 4.7 % marginal vs Baseline
6 Baseline + Floor 0.3 % +102.9 +58.6 −44 2.00 3.4 % marginal vs Baseline

Kern-Findings: 1. 0.8 / 0.8 Baseline besteht Out-of-Sample-Test — PF nur minimal von 2.04 auf 1.99 gefallen, Win-Rate stabil 80 % 2. Aggressive 0.5/0.3 reisst out-of-sample um −49 pp und P(loss) springt von 1.9 % auf 12.8 % → Overfit-Verdacht aus Matrix-Phase ist bestätigt 3. Conservative 0.7/0.7 ist die ROBUSTESTE Variante (Test-PF 2.05 > Train-PF 1.76, P(loss) 3.5 %) 4. Partial-50% / Trailing-1.5% / Floor-0.3% liefern in Test nur marginale Differenzen zur Baseline (±1 pp) — keine robuste Edge


2. Methodik

Item Wert
Train-Window 2026-05-28 → 2026-06-01 (5 d)
Test-Window 2026-06-02 → 2026-06-04 (3 d)
Cutoff 2026-06-02T00:00:00 UTC
Train-Candidates 333 (MTF-D + post-stable)
Test-Candidates 203 (MTF-D + post-stable)
Sample-Ratio Train:Test 62 / 38
Fill-Model gap-down at open (realistic)
Delay 1-bar minimum (Worker-Latenz)
Bootstrap 1000 iter, 2h-Buckets

3. Detaillierte Per-Config-Ergebnisse

Config 1 — Baseline 0.8 / 0.8 (Standard-Empfehlung)

Metric Train Test Δ
N 333 203
WR 80.2 % 79.8 % −0.4 pp
Expectancy % +0.306 +0.285 −0.021
Profit Factor 2.04 1.99 −0.05
Total Net % +102.0 +57.8 −44
SL_LOSS 23 13
SL_PROFIT 278 180
TIMEOUT 31 10
Avg Hold 72 min 50 min
Exposure 16.5 d 7.0 d
Max Loss-Streak 11 4 besser im Test
Worst Day 2026-05-28 +2.32 % 2026-06-02 +9.74 % beide positiv
Bootstrap P(loss) 2.2 % 4.8 % leicht gestiegen
Bootstrap CI 95 % low +4.3 −11.2 grenzwertig
Bootstrap CI 95 % high +184.9 +124.0

Verdict: ROBUST. PF nahezu unverändert, WR stabil, Bootstrap-Mittel positiv. Untere CI in Test marginal negativ (−11 %) — minimales Verlustrisiko aber statistisch akzeptabel.

Config 2 — Conservative 0.7 / 0.7 (alternative)

Metric Train Test Δ
WR 79.0 % 77.3 % −1.7 pp
Expectancy % +0.221 +0.264 +0.043 (besser im Test)
Profit Factor 1.76 2.05 +0.29 (besser im Test!)
Total Net % +73.4 +53.5 −20
SL_LOSS 27 20
Test P(loss) 3.5 % 3.5 %

Verdict: MOST ROBUST — verschlechtert sich am wenigsten von Train zu Test, Expectancy und PF steigen sogar leicht. Best für maximale Robustheits-Pilot-Phase.

Config 3 — Aggressive Negative 0.5 / 0.3 (Kontrolle)

Metric Train Test Δ
WR 33.0 % 34.5 % +1.5 pp
Expectancy % +0.220 +0.121 −0.099
Profit Factor 1.86 1.59 −0.27
Total Net % +73.1 +24.6 −48.6
Test P(loss) 1.9 % 12.8 % +10.9 pp

Verdict: OVERFIT BESTÄTIGT. Test-P(loss) springt auf 12.8 %, Total kollabiert auf +24.6 %, PF unter 1.6. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 wird durch Walk-Forward eindeutig verifiziert.

Configs 4 / 5 / 6 — Baseline + Einzel-Komponenten

Komponente Test Total % Test PF Test P(loss) Mehrwert vs Baseline
+ Partial-Sell 50 % +59.1 2.01 4.1 % +1.3 pp Total, marginal
+ Trailing 1.5 % +58.7 2.01 4.7 % +0.9 pp, marginal
+ Trailing Floor 0.3 % +58.6 2.00 3.4 % +0.8 pp, P(loss) leicht besser

Verdict: Keine Komponente bringt robust Mehrwert. Alle drei sind funktional äquivalent zur Baseline 0.8/0.8 im Test.


4. Akzeptanz-Schwellen-Check

Schwellen (aus Operator-Vorgabe)

Per-Config

Config PF ≥ 1.5 Exp > 0 P(loss) ≤ 5 % Train→Test ≤ 30 % drop Robustheit Gesamt
1 Baseline 0.8/0.8 ✓ 1.99 ✓ +0.29 ✓ 4.8 % grenzwertig (43 %) OK ✓ PASS
2 Conservative 0.7/0.7 ✓ 2.05 ✓ +0.26 ✓ 3.5 % ✓ 27 % stark ✓ PASS+
3 Aggressive 0.5/0.3 ✓ 1.59 ✓ +0.12 ✗ 12.8 % ✗ 66 % KOLLABIERT ✗ FAIL
4 Baseline + Partial 50 % ✓ 2.01 ✓ +0.29 ✓ 4.1 % grenzwertig (41 %) OK ✓ PASS
5 Baseline + Trailing 1.5 % ✓ 2.01 ✓ +0.29 ✓ 4.7 % grenzwertig (44 %) OK ✓ PASS
6 Baseline + Floor 0.3 % ✓ 2.00 ✓ +0.29 ✓ 3.4 % grenzwertig (43 %) OK ✓ PASS

Operator-Frage: "Kein Parameter darf nur Train gut sein und Test kollabieren" → erfüllt durch Configs 1, 2, 4, 5, 6. NICHT erfüllt durch Config 3 (Aggressive) — bestätigt Verwerfung.


5. Robusteste Konfiguration

Empfehlung Operator-Pilot: Config 2 — Conservative 0.7 / 0.7

Vorteil Wert
Test-PF steigt vs Train (2.05 vs 1.76) nicht overfit — sondern unter-fit auf Train
Geringster Train→Test-Drop −20 pp
Niedrigste Test P(loss) (mit Config 6 tied) 3.5 %
WR stabil 79 % / 77 %
Untere Bootstrap-CI Test −3.5 % (nahe null)
Test-Loss-Streak max 4 (akzeptabel)

Alternative: Config 1 — Baseline 0.8 / 0.8 für Performance-Maximierung

Vorteil Wert
Höchstes Test Total % +57.8 (vs 53.5 conservative)
Test-PF nahe Train (1.99 vs 2.04) minimal verschlechtert
Bootstrap-CI relativ stabil Train [+4, +185], Test [−11, +124]
WR stabil 80 % / 80 %

Operator-Wahl: Baseline für Profit-Maximierung, Conservative für Robustheit. Beide PASS.


6. Was wird verworfen?

Hebel Verwerfen? Begründung
B-E-Gain Trigger 0.5 % (aus Aggressive) JA Test P(loss) 12.8 %, Total kollabiert um −49 pp
B-E-Gain Trigger 0.6 % NEIN getestet im realistic-Modell aber im BE-Matrix als −59 pp ggü 0.8/0.8 erkannt
Partial-Sell 50 % (aus Aggressive) JA marginal +1.3 pp Test-Total, kein robuster Edge
Trailing Trigger 1.5 % (aus Aggressive) JA marginal +0.9 pp Test-Total
Trailing Floor 0.3 % (aus Aggressive) JA, vorerst marginal +0.8 pp; aber P(loss) 3.4 % (knapp besser) — könnte als optional dabei bleiben

Net: Die Aggressive-Combo wird komplett verworfen. Baseline 0.8/0.8 mit Default-Mechaniken bleibt die einzige robuste Konfiguration.


7. Ergibt MS-MTF-D-PROTECTED-SHADOW-PLAN weiter Sinn?

JA, aber mit revidierter Parameter-Liste:

EXIT-PROTECTION (realistic, walk-forward-validated):
  BE-Gain Trigger:        0.8 %    (NICHT 0.5 %)
  BE-Gain Buffer:         0.8 %    (NICHT 0.5/0.3 %)
  Partial Trigger:        1.5 %    (unverändert)
  Partial Sell-Pct:       30 %     (NICHT 50 %)
  Trailing Trigger:       2.0 %    (NICHT 1.5 %)
  Trailing Floor:         0.5 %    (NICHT 0.3 %)
  Time-B-E:               24 h     (unverändert)

ENTRY-FILTER (unverändert):
  MTF Strength:           3-of-4 bullish
  Stablecoin/Peg-Block:   aktiv
  RECON-1 Dedup:          aktiv

HOLD-WINDOW (unverändert):
  Max Hold:               4 h
  TIMEOUT-Handling:       MtM-Close (Variant A)

Code-Aufwand für Shadow-Plan reduziert sich. Keine position_manager.py-Constants müssen geändert werden — alle Parameter sind bereits auf den walk-forward-validated Werten.

MTF-D-Erweiterung (8h + 12h) bleibt die einzige neue Code-Phase.


8. Erwartete Live-Performance

Hochrechnung aus Test-Set

Test-Window: 3 Tage, N=203 - Total Net % auf 203 Trades: +57.79 % - Avg pro Trade: +0.285 % - Bei 200 USDT/Pos: +0.57 USDT/Trade - Test-Frequenz: 67 Trades/Tag → erwartet +38 USDT/Tag

Forward-Annahme (gesamtes Window vergleichbar)

Realistic Expectancy für MS-Live: ~+150 USDT/Woche statt +500 USDT/Woche (aus optimistic Aggressive).


9. Risiken

# Risiko Severity Mitigation
1 Test-Sample ist nur 3 Tage und 203 Candidates Hoch 4 Wochen Shadow nötig vor harter Entscheidung
2 Bootstrap untere Test-CI = −11 % Mittel Akzeptabel da P(loss) nur 4.8 %, aber Tail-Risiko bleibt
3 Marktregime im Test-Window (BEAR) Mittel XLM-SL-Loss heute zeigt: BEAR-Regime-Filter wäre nächste Phase (#REGIME-AWARE-PARAMS-1)
4 Train-Test-Drop −44 pp Baseline Mittel Erwartbar bei kleinen Samples + Cluster-Bias; PF-Stabilität wichtiger
5 Worst-Day im Test (+9.74 %) zufällig positiv Niedrig Bestätigt Robustheit; Test-Window enthält keinen klaren Verlusttag

10. Folge-Phasen

# Phase Status
1 MS-MTF-D-PROTECTED-SHADOW-PARAMS-PLAN GO PLAN (mit realistic-validated Params)
2 AGGRESSIVE-COMPONENTS-REALISTIC-RE-VALIDATION-1 NICHT MEHR NÖTIG — Walk-Forward bestätigt dass diese verworfen werden
3 BTC-MACRO-CONFIRMATION-1 weiter relevant
4 REGIME-AWARE-PARAMS-1 weiter relevant (XLM-Loss-Beispiel heute)
5 LOSS-STREAK-CIRCUIT-BREAKER-1 weiter relevant für Pilot-Safety
6 TIME-OF-DAY-EDGE-CHECK-1 niedriger Aufwand

11. Empfehlung

Walk-Forward-Verdict

Pfad Verdict
MS-MTF-D-PROTECTED-SHADOW-PLAN mit 0.8/0.8 Baseline GO PLAN
Alternative: 0.7/0.7 Conservative für Pilot-Start OPTIONAL
Aggressive-Combo aus 4-Agent-Sweep VERWORFEN (overfit out-of-sample bestätigt)
Direkter MS-Live (MULTI_STRATEGY_DRY_RUN=false) NOCH NICHT — erst Shadow-Implementation + 4 Wochen Forward-Validation
BTC-Macro/Regime-Filter nächste P1-Phase

Code-Änderungen für Shadow-Plan


12. Boundaries

0× Bot-Code-Touch · 0× Trading-State · 0× Orders · 0× MS-Live · 0× Mainnet · 0× Env-Änderung · 0× DB-Write · 0× ConfigProfile-Apply · 0× Bot/Worker-Recreate · 0× neue OHLCV-Fetches · 0× Push · 0× Coin-Allowlist · 0× Coin-Denylist.

Erstellte Dateien: - walkforward_results.json — 6 Configs × Train/Test mit Bootstrap - diese MD + PDF


13. STOP

Walk-Forward-Validation bestätigt: 0.8/0.8 Baseline ist robust, Aggressive-Combo war Overfit. Shadow-Plan kann mit walk-forward-validated Parametern starten. Operator-GO erforderlich für nächste Phase.