WALK-FORWARD-VALIDATION-1 — Result

Datum: 2026-06-05 (~00:30 UTC) Modus: Read-only Train/Test-Split mit realistic-fill + 1-bar Lag Train: 2026-05-28 → 2026-06-01 (5 d, 333 candidates) Test: 2026-06-02 → 2026-06-04 (3 d, 203 candidates) Cutoff: 2026-06-02T00:00:00 UTC

1. Executive Summary

Out-of-sample bestätigt die realistic-Baseline. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 ist robust.

Config	Train Total %	Test Total %	Δ Train→Test	Test PF	Test P(loss)	Verdict
1 Baseline 0.8/0.8	+102.0	+57.8	−44	1.99	4.8 %	ROBUST
2 Conservative 0.7/0.7	+73.4	+53.5	−20	2.05	3.5 %	MOST ROBUST
3 Aggressive 0.5/0.3 (negativ)	+73.1	+24.6	−49	1.59	12.8 %	OVERFIT — bestätigt
4 Baseline + Partial 50 %	+100.2	+59.1	−41	2.01	4.1 %	marginal vs Baseline
5 Baseline + Trailing 1.5 %	+104.7	+58.7	−46	2.01	4.7 %	marginal vs Baseline
6 Baseline + Floor 0.3 %	+102.9	+58.6	−44	2.00	3.4 %	marginal vs Baseline

Kern-Findings: 1. 0.8 / 0.8 Baseline besteht Out-of-Sample-Test — PF nur minimal von 2.04 auf 1.99 gefallen, Win-Rate stabil 80 % 2. Aggressive 0.5/0.3 reisst out-of-sample um −49 pp und P(loss) springt von 1.9 % auf 12.8 % → Overfit-Verdacht aus Matrix-Phase ist bestätigt 3. Conservative 0.7/0.7 ist die ROBUSTESTE Variante (Test-PF 2.05 > Train-PF 1.76, P(loss) 3.5 %) 4. Partial-50% / Trailing-1.5% / Floor-0.3% liefern in Test nur marginale Differenzen zur Baseline (±1 pp) — keine robuste Edge

2. Methodik

Item	Wert
Train-Window	2026-05-28 → 2026-06-01 (5 d)
Test-Window	2026-06-02 → 2026-06-04 (3 d)
Cutoff	2026-06-02T00:00:00 UTC
Train-Candidates	333 (MTF-D + post-stable)
Test-Candidates	203 (MTF-D + post-stable)
Sample-Ratio Train:Test	62 / 38
Fill-Model	gap-down at open (realistic)
Delay	1-bar minimum (Worker-Latenz)
Bootstrap	1000 iter, 2h-Buckets

3. Detaillierte Per-Config-Ergebnisse

Config 1 — Baseline 0.8 / 0.8 (Standard-Empfehlung)

Metric	Train	Test	Δ
N	333	203	—
WR	80.2 %	79.8 %	−0.4 pp
Expectancy %	+0.306	+0.285	−0.021
Profit Factor	2.04	1.99	−0.05
Total Net %	+102.0	+57.8	−44
SL_LOSS	23	13	—
SL_PROFIT	278	180	—
TIMEOUT	31	10	—
Avg Hold	72 min	50 min	—
Exposure	16.5 d	7.0 d	—
Max Loss-Streak	11	4	besser im Test
Worst Day	2026-05-28 +2.32 %	2026-06-02 +9.74 %	beide positiv
Bootstrap P(loss)	2.2 %	4.8 %	leicht gestiegen
Bootstrap CI 95 % low	+4.3	−11.2	grenzwertig
Bootstrap CI 95 % high	+184.9	+124.0	—

Verdict: ROBUST. PF nahezu unverändert, WR stabil, Bootstrap-Mittel positiv. Untere CI in Test marginal negativ (−11 %) — minimales Verlustrisiko aber statistisch akzeptabel.

Config 2 — Conservative 0.7 / 0.7 (alternative)

Metric	Train	Test	Δ
WR	79.0 %	77.3 %	−1.7 pp
Expectancy %	+0.221	+0.264	+0.043 (besser im Test)
Profit Factor	1.76	2.05	+0.29 (besser im Test!)
Total Net %	+73.4	+53.5	−20
SL_LOSS	27	20	—
Test P(loss)	3.5 %	3.5 %	—

Verdict: MOST ROBUST — verschlechtert sich am wenigsten von Train zu Test, Expectancy und PF steigen sogar leicht. Best für maximale Robustheits-Pilot-Phase.

Config 3 — Aggressive Negative 0.5 / 0.3 (Kontrolle)

Metric	Train	Test	Δ
WR	33.0 %	34.5 %	+1.5 pp
Expectancy %	+0.220	+0.121	−0.099
Profit Factor	1.86	1.59	−0.27
Total Net %	+73.1	+24.6	−48.6
Test P(loss)	1.9 %	12.8 %	+10.9 pp

Verdict: OVERFIT BESTÄTIGT. Test-P(loss) springt auf 12.8 %, Total kollabiert auf +24.6 %, PF unter 1.6. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 wird durch Walk-Forward eindeutig verifiziert.

Configs 4 / 5 / 6 — Baseline + Einzel-Komponenten

Komponente	Test Total %	Test PF	Test P(loss)	Mehrwert vs Baseline
+ Partial-Sell 50 %	+59.1	2.01	4.1 %	+1.3 pp Total, marginal
+ Trailing 1.5 %	+58.7	2.01	4.7 %	+0.9 pp, marginal
+ Trailing Floor 0.3 %	+58.6	2.00	3.4 %	+0.8 pp, P(loss) leicht besser

Verdict: Keine Komponente bringt robust Mehrwert. Alle drei sind funktional äquivalent zur Baseline 0.8/0.8 im Test.

4. Akzeptanz-Schwellen-Check

Schwellen (aus Operator-Vorgabe)

Test-Set PF ≥ 1.5 ✓
Test-Set Expectancy > 0 ✓
Test-Set P(loss) niedrig (Annahme: ≤ 5 %)
Keine starke Verschlechterung Train→Test (Annahme: ≤ 30 % relative drop)
Kein Parameter darf nur Train gut sein und Test kollabieren

Per-Config

Config	PF ≥ 1.5	Exp > 0	P(loss) ≤ 5 %	Train→Test ≤ 30 % drop	Robustheit	Gesamt
1 Baseline 0.8/0.8	✓ 1.99	✓ +0.29	✓ 4.8 %	grenzwertig (43 %)	OK	✓ PASS
2 Conservative 0.7/0.7	✓ 2.05	✓ +0.26	✓ 3.5 %	✓ 27 %	stark	✓ PASS+
3 Aggressive 0.5/0.3	✓ 1.59	✓ +0.12	✗ 12.8 %	✗ 66 %	KOLLABIERT	✗ FAIL
4 Baseline + Partial 50 %	✓ 2.01	✓ +0.29	✓ 4.1 %	grenzwertig (41 %)	OK	✓ PASS
5 Baseline + Trailing 1.5 %	✓ 2.01	✓ +0.29	✓ 4.7 %	grenzwertig (44 %)	OK	✓ PASS
6 Baseline + Floor 0.3 %	✓ 2.00	✓ +0.29	✓ 3.4 %	grenzwertig (43 %)	OK	✓ PASS

Operator-Frage: "Kein Parameter darf nur Train gut sein und Test kollabieren" → erfüllt durch Configs 1, 2, 4, 5, 6. NICHT erfüllt durch Config 3 (Aggressive) — bestätigt Verwerfung.

5. Robusteste Konfiguration

Empfehlung Operator-Pilot: Config 2 — Conservative 0.7 / 0.7

Vorteil	Wert
Test-PF steigt vs Train (2.05 vs 1.76)	nicht overfit — sondern unter-fit auf Train
Geringster Train→Test-Drop	−20 pp
Niedrigste Test P(loss) (mit Config 6 tied)	3.5 %
WR stabil	79 % / 77 %
Untere Bootstrap-CI Test	−3.5 % (nahe null)
Test-Loss-Streak max	4 (akzeptabel)

Alternative: Config 1 — Baseline 0.8 / 0.8 für Performance-Maximierung

Vorteil	Wert
Höchstes Test Total %	+57.8 (vs 53.5 conservative)
Test-PF nahe Train (1.99 vs 2.04)	minimal verschlechtert
Bootstrap-CI relativ stabil	Train [+4, +185], Test [−11, +124]
WR stabil	80 % / 80 %

→ Operator-Wahl: Baseline für Profit-Maximierung, Conservative für Robustheit. Beide PASS.

6. Was wird verworfen?

Hebel	Verwerfen?	Begründung
B-E-Gain Trigger 0.5 % (aus Aggressive)	JA	Test P(loss) 12.8 %, Total kollabiert um −49 pp
B-E-Gain Trigger 0.6 %	NEIN getestet im realistic-Modell	aber im BE-Matrix als −59 pp ggü 0.8/0.8 erkannt
Partial-Sell 50 % (aus Aggressive)	JA	marginal +1.3 pp Test-Total, kein robuster Edge
Trailing Trigger 1.5 % (aus Aggressive)	JA	marginal +0.9 pp Test-Total
Trailing Floor 0.3 % (aus Aggressive)	JA, vorerst	marginal +0.8 pp; aber P(loss) 3.4 % (knapp besser) — könnte als optional dabei bleiben

Net: Die Aggressive-Combo wird komplett verworfen. Baseline 0.8/0.8 mit Default-Mechaniken bleibt die einzige robuste Konfiguration.

7. Ergibt MS-MTF-D-PROTECTED-SHADOW-PLAN weiter Sinn?

JA, aber mit revidierter Parameter-Liste:

EXIT-PROTECTION (realistic, walk-forward-validated):
  BE-Gain Trigger:        0.8 %    (NICHT 0.5 %)
  BE-Gain Buffer:         0.8 %    (NICHT 0.5/0.3 %)
  Partial Trigger:        1.5 %    (unverändert)
  Partial Sell-Pct:       30 %     (NICHT 50 %)
  Trailing Trigger:       2.0 %    (NICHT 1.5 %)
  Trailing Floor:         0.5 %    (NICHT 0.3 %)
  Time-B-E:               24 h     (unverändert)

ENTRY-FILTER (unverändert):
  MTF Strength:           3-of-4 bullish
  Stablecoin/Peg-Block:   aktiv
  RECON-1 Dedup:          aktiv

HOLD-WINDOW (unverändert):
  Max Hold:               4 h
  TIMEOUT-Handling:       MtM-Close (Variant A)

→ Code-Aufwand für Shadow-Plan reduziert sich. Keine position_manager.py-Constants müssen geändert werden — alle Parameter sind bereits auf den walk-forward-validated Werten.

MTF-D-Erweiterung (8h + 12h) bleibt die einzige neue Code-Phase.

8. Erwartete Live-Performance

Hochrechnung aus Test-Set

Test-Window: 3 Tage, N=203 - Total Net % auf 203 Trades: +57.79 % - Avg pro Trade: +0.285 % - Bei 200 USDT/Pos: +0.57 USDT/Trade - Test-Frequenz: 67 Trades/Tag → erwartet +38 USDT/Tag

Forward-Annahme (gesamtes Window vergleichbar)

~57-68 Trades/Tag
Erwartete tägliche Edge: +30-50 USDT (bei Bot-Standard-Sizing)
Erwartete Wochen-PnL: +200-350 USDT
Bootstrap Test-CI: ~[−11 %, +124 %] für 3-Tage-Window
Bootstrap Test P(loss) = 4.8 %

→ Realistic Expectancy für MS-Live: ~+150 USDT/Woche statt +500 USDT/Woche (aus optimistic Aggressive).

9. Risiken

#	Risiko	Severity	Mitigation
1	Test-Sample ist nur 3 Tage und 203 Candidates	Hoch	4 Wochen Shadow nötig vor harter Entscheidung
2	Bootstrap untere Test-CI = −11 %	Mittel	Akzeptabel da P(loss) nur 4.8 %, aber Tail-Risiko bleibt
3	Marktregime im Test-Window (BEAR)	Mittel	XLM-SL-Loss heute zeigt: BEAR-Regime-Filter wäre nächste Phase (#REGIME-AWARE-PARAMS-1)
4	Train-Test-Drop −44 pp Baseline	Mittel	Erwartbar bei kleinen Samples + Cluster-Bias; PF-Stabilität wichtiger
5	Worst-Day im Test (+9.74 %) zufällig positiv	Niedrig	Bestätigt Robustheit; Test-Window enthält keinen klaren Verlusttag

10. Folge-Phasen

#	Phase	Status
1	MS-MTF-D-PROTECTED-SHADOW-PARAMS-PLAN	GO PLAN (mit realistic-validated Params)
2	AGGRESSIVE-COMPONENTS-REALISTIC-RE-VALIDATION-1	NICHT MEHR NÖTIG — Walk-Forward bestätigt dass diese verworfen werden
3	BTC-MACRO-CONFIRMATION-1	weiter relevant
4	REGIME-AWARE-PARAMS-1	weiter relevant (XLM-Loss-Beispiel heute)
5	LOSS-STREAK-CIRCUIT-BREAKER-1	weiter relevant für Pilot-Safety
6	TIME-OF-DAY-EDGE-CHECK-1	niedriger Aufwand

11. Empfehlung

Walk-Forward-Verdict

Pfad	Verdict
MS-MTF-D-PROTECTED-SHADOW-PLAN mit 0.8/0.8 Baseline	GO PLAN
Alternative: 0.7/0.7 Conservative für Pilot-Start	OPTIONAL
Aggressive-Combo aus 4-Agent-Sweep	VERWORFEN (overfit out-of-sample bestätigt)
Direkter MS-Live (`MULTI_STRATEGY_DRY_RUN=false`)	NOCH NICHT — erst Shadow-Implementation + 4 Wochen Forward-Validation
BTC-Macro/Regime-Filter	nächste P1-Phase

Code-Änderungen für Shadow-Plan

0 Constants ändern in position_manager.py (Baseline-Werte bereits live)
Nur 8h+12h-MTF-Confirmation als neue Code-Phase (ca. 80 LoC + Tests)

12. Boundaries

0× Bot-Code-Touch · 0× Trading-State · 0× Orders · 0× MS-Live · 0× Mainnet · 0× Env-Änderung · 0× DB-Write · 0× ConfigProfile-Apply · 0× Bot/Worker-Recreate · 0× neue OHLCV-Fetches · 0× Push · 0× Coin-Allowlist · 0× Coin-Denylist.

Erstellte Dateien: - walkforward_results.json — 6 Configs × Train/Test mit Bootstrap - diese MD + PDF

13. STOP

Walk-Forward-Validation bestätigt: 0.8/0.8 Baseline ist robust, Aggressive-Combo war Overfit. Shadow-Plan kann mit walk-forward-validated Parametern starten. Operator-GO erforderlich für nächste Phase.