Datum: 2026-06-05 (~00:30 UTC) Modus: Read-only Train/Test-Split mit realistic-fill + 1-bar Lag Train: 2026-05-28 → 2026-06-01 (5 d, 333 candidates) Test: 2026-06-02 → 2026-06-04 (3 d, 203 candidates) Cutoff: 2026-06-02T00:00:00 UTC
Out-of-sample bestätigt die realistic-Baseline. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 ist robust.
| Config | Train Total % | Test Total % | Δ Train→Test | Test PF | Test P(loss) | Verdict |
|---|---|---|---|---|---|---|
| 1 Baseline 0.8/0.8 | +102.0 | +57.8 | −44 | 1.99 | 4.8 % | ROBUST |
| 2 Conservative 0.7/0.7 | +73.4 | +53.5 | −20 | 2.05 | 3.5 % | MOST ROBUST |
| 3 Aggressive 0.5/0.3 (negativ) | +73.1 | +24.6 | −49 | 1.59 | 12.8 % | OVERFIT — bestätigt |
| 4 Baseline + Partial 50 % | +100.2 | +59.1 | −41 | 2.01 | 4.1 % | marginal vs Baseline |
| 5 Baseline + Trailing 1.5 % | +104.7 | +58.7 | −46 | 2.01 | 4.7 % | marginal vs Baseline |
| 6 Baseline + Floor 0.3 % | +102.9 | +58.6 | −44 | 2.00 | 3.4 % | marginal vs Baseline |
Kern-Findings: 1. 0.8 / 0.8 Baseline besteht Out-of-Sample-Test — PF nur minimal von 2.04 auf 1.99 gefallen, Win-Rate stabil 80 % 2. Aggressive 0.5/0.3 reisst out-of-sample um −49 pp und P(loss) springt von 1.9 % auf 12.8 % → Overfit-Verdacht aus Matrix-Phase ist bestätigt 3. Conservative 0.7/0.7 ist die ROBUSTESTE Variante (Test-PF 2.05 > Train-PF 1.76, P(loss) 3.5 %) 4. Partial-50% / Trailing-1.5% / Floor-0.3% liefern in Test nur marginale Differenzen zur Baseline (±1 pp) — keine robuste Edge
| Item | Wert |
|---|---|
| Train-Window | 2026-05-28 → 2026-06-01 (5 d) |
| Test-Window | 2026-06-02 → 2026-06-04 (3 d) |
| Cutoff | 2026-06-02T00:00:00 UTC |
| Train-Candidates | 333 (MTF-D + post-stable) |
| Test-Candidates | 203 (MTF-D + post-stable) |
| Sample-Ratio Train:Test | 62 / 38 |
| Fill-Model | gap-down at open (realistic) |
| Delay | 1-bar minimum (Worker-Latenz) |
| Bootstrap | 1000 iter, 2h-Buckets |
| Metric | Train | Test | Δ |
|---|---|---|---|
| N | 333 | 203 | — |
| WR | 80.2 % | 79.8 % | −0.4 pp |
| Expectancy % | +0.306 | +0.285 | −0.021 |
| Profit Factor | 2.04 | 1.99 | −0.05 |
| Total Net % | +102.0 | +57.8 | −44 |
| SL_LOSS | 23 | 13 | — |
| SL_PROFIT | 278 | 180 | — |
| TIMEOUT | 31 | 10 | — |
| Avg Hold | 72 min | 50 min | — |
| Exposure | 16.5 d | 7.0 d | — |
| Max Loss-Streak | 11 | 4 | besser im Test |
| Worst Day | 2026-05-28 +2.32 % | 2026-06-02 +9.74 % | beide positiv |
| Bootstrap P(loss) | 2.2 % | 4.8 % | leicht gestiegen |
| Bootstrap CI 95 % low | +4.3 | −11.2 | grenzwertig |
| Bootstrap CI 95 % high | +184.9 | +124.0 | — |
Verdict: ROBUST. PF nahezu unverändert, WR stabil, Bootstrap-Mittel positiv. Untere CI in Test marginal negativ (−11 %) — minimales Verlustrisiko aber statistisch akzeptabel.
| Metric | Train | Test | Δ |
|---|---|---|---|
| WR | 79.0 % | 77.3 % | −1.7 pp |
| Expectancy % | +0.221 | +0.264 | +0.043 (besser im Test) |
| Profit Factor | 1.76 | 2.05 | +0.29 (besser im Test!) |
| Total Net % | +73.4 | +53.5 | −20 |
| SL_LOSS | 27 | 20 | — |
| Test P(loss) | 3.5 % | 3.5 % | — |
Verdict: MOST ROBUST — verschlechtert sich am wenigsten von Train zu Test, Expectancy und PF steigen sogar leicht. Best für maximale Robustheits-Pilot-Phase.
| Metric | Train | Test | Δ |
|---|---|---|---|
| WR | 33.0 % | 34.5 % | +1.5 pp |
| Expectancy % | +0.220 | +0.121 | −0.099 |
| Profit Factor | 1.86 | 1.59 | −0.27 |
| Total Net % | +73.1 | +24.6 | −48.6 |
| Test P(loss) | 1.9 % | 12.8 % | +10.9 pp |
Verdict: OVERFIT BESTÄTIGT. Test-P(loss) springt auf 12.8 %, Total kollabiert auf +24.6 %, PF unter 1.6. Das Reversal aus MS-BE-TRIGGER-BUFFER-MATRIX-1 wird durch Walk-Forward eindeutig verifiziert.
| Komponente | Test Total % | Test PF | Test P(loss) | Mehrwert vs Baseline |
|---|---|---|---|---|
| + Partial-Sell 50 % | +59.1 | 2.01 | 4.1 % | +1.3 pp Total, marginal |
| + Trailing 1.5 % | +58.7 | 2.01 | 4.7 % | +0.9 pp, marginal |
| + Trailing Floor 0.3 % | +58.6 | 2.00 | 3.4 % | +0.8 pp, P(loss) leicht besser |
Verdict: Keine Komponente bringt robust Mehrwert. Alle drei sind funktional äquivalent zur Baseline 0.8/0.8 im Test.
| Config | PF ≥ 1.5 | Exp > 0 | P(loss) ≤ 5 % | Train→Test ≤ 30 % drop | Robustheit | Gesamt |
|---|---|---|---|---|---|---|
| 1 Baseline 0.8/0.8 | ✓ 1.99 | ✓ +0.29 | ✓ 4.8 % | grenzwertig (43 %) | OK | ✓ PASS |
| 2 Conservative 0.7/0.7 | ✓ 2.05 | ✓ +0.26 | ✓ 3.5 % | ✓ 27 % | stark | ✓ PASS+ |
| 3 Aggressive 0.5/0.3 | ✓ 1.59 | ✓ +0.12 | ✗ 12.8 % | ✗ 66 % | KOLLABIERT | ✗ FAIL |
| 4 Baseline + Partial 50 % | ✓ 2.01 | ✓ +0.29 | ✓ 4.1 % | grenzwertig (41 %) | OK | ✓ PASS |
| 5 Baseline + Trailing 1.5 % | ✓ 2.01 | ✓ +0.29 | ✓ 4.7 % | grenzwertig (44 %) | OK | ✓ PASS |
| 6 Baseline + Floor 0.3 % | ✓ 2.00 | ✓ +0.29 | ✓ 3.4 % | grenzwertig (43 %) | OK | ✓ PASS |
Operator-Frage: "Kein Parameter darf nur Train gut sein und Test kollabieren" → erfüllt durch Configs 1, 2, 4, 5, 6. NICHT erfüllt durch Config 3 (Aggressive) — bestätigt Verwerfung.
| Vorteil | Wert |
|---|---|
| Test-PF steigt vs Train (2.05 vs 1.76) | nicht overfit — sondern unter-fit auf Train |
| Geringster Train→Test-Drop | −20 pp |
| Niedrigste Test P(loss) (mit Config 6 tied) | 3.5 % |
| WR stabil | 79 % / 77 % |
| Untere Bootstrap-CI Test | −3.5 % (nahe null) |
| Test-Loss-Streak max | 4 (akzeptabel) |
| Vorteil | Wert |
|---|---|
| Höchstes Test Total % | +57.8 (vs 53.5 conservative) |
| Test-PF nahe Train (1.99 vs 2.04) | minimal verschlechtert |
| Bootstrap-CI relativ stabil | Train [+4, +185], Test [−11, +124] |
| WR stabil | 80 % / 80 % |
→ Operator-Wahl: Baseline für Profit-Maximierung, Conservative für Robustheit. Beide PASS.
| Hebel | Verwerfen? | Begründung |
|---|---|---|
| B-E-Gain Trigger 0.5 % (aus Aggressive) | JA | Test P(loss) 12.8 %, Total kollabiert um −49 pp |
| B-E-Gain Trigger 0.6 % | NEIN getestet im realistic-Modell | aber im BE-Matrix als −59 pp ggü 0.8/0.8 erkannt |
| Partial-Sell 50 % (aus Aggressive) | JA | marginal +1.3 pp Test-Total, kein robuster Edge |
| Trailing Trigger 1.5 % (aus Aggressive) | JA | marginal +0.9 pp Test-Total |
| Trailing Floor 0.3 % (aus Aggressive) | JA, vorerst | marginal +0.8 pp; aber P(loss) 3.4 % (knapp besser) — könnte als optional dabei bleiben |
Net: Die Aggressive-Combo wird komplett verworfen. Baseline 0.8/0.8 mit Default-Mechaniken bleibt die einzige robuste Konfiguration.
JA, aber mit revidierter Parameter-Liste:
EXIT-PROTECTION (realistic, walk-forward-validated):
BE-Gain Trigger: 0.8 % (NICHT 0.5 %)
BE-Gain Buffer: 0.8 % (NICHT 0.5/0.3 %)
Partial Trigger: 1.5 % (unverändert)
Partial Sell-Pct: 30 % (NICHT 50 %)
Trailing Trigger: 2.0 % (NICHT 1.5 %)
Trailing Floor: 0.5 % (NICHT 0.3 %)
Time-B-E: 24 h (unverändert)
ENTRY-FILTER (unverändert):
MTF Strength: 3-of-4 bullish
Stablecoin/Peg-Block: aktiv
RECON-1 Dedup: aktiv
HOLD-WINDOW (unverändert):
Max Hold: 4 h
TIMEOUT-Handling: MtM-Close (Variant A)
→ Code-Aufwand für Shadow-Plan reduziert sich. Keine position_manager.py-Constants müssen geändert werden — alle Parameter sind bereits auf den walk-forward-validated Werten.
MTF-D-Erweiterung (8h + 12h) bleibt die einzige neue Code-Phase.
Test-Window: 3 Tage, N=203 - Total Net % auf 203 Trades: +57.79 % - Avg pro Trade: +0.285 % - Bei 200 USDT/Pos: +0.57 USDT/Trade - Test-Frequenz: 67 Trades/Tag → erwartet +38 USDT/Tag
→ Realistic Expectancy für MS-Live: ~+150 USDT/Woche statt +500 USDT/Woche (aus optimistic Aggressive).
| # | Risiko | Severity | Mitigation |
|---|---|---|---|
| 1 | Test-Sample ist nur 3 Tage und 203 Candidates | Hoch | 4 Wochen Shadow nötig vor harter Entscheidung |
| 2 | Bootstrap untere Test-CI = −11 % | Mittel | Akzeptabel da P(loss) nur 4.8 %, aber Tail-Risiko bleibt |
| 3 | Marktregime im Test-Window (BEAR) | Mittel | XLM-SL-Loss heute zeigt: BEAR-Regime-Filter wäre nächste Phase (#REGIME-AWARE-PARAMS-1) |
| 4 | Train-Test-Drop −44 pp Baseline | Mittel | Erwartbar bei kleinen Samples + Cluster-Bias; PF-Stabilität wichtiger |
| 5 | Worst-Day im Test (+9.74 %) zufällig positiv | Niedrig | Bestätigt Robustheit; Test-Window enthält keinen klaren Verlusttag |
| # | Phase | Status |
|---|---|---|
| 1 | MS-MTF-D-PROTECTED-SHADOW-PARAMS-PLAN | GO PLAN (mit realistic-validated Params) |
| 2 | AGGRESSIVE-COMPONENTS-REALISTIC-RE-VALIDATION-1 | NICHT MEHR NÖTIG — Walk-Forward bestätigt dass diese verworfen werden |
| 3 | BTC-MACRO-CONFIRMATION-1 | weiter relevant |
| 4 | REGIME-AWARE-PARAMS-1 | weiter relevant (XLM-Loss-Beispiel heute) |
| 5 | LOSS-STREAK-CIRCUIT-BREAKER-1 | weiter relevant für Pilot-Safety |
| 6 | TIME-OF-DAY-EDGE-CHECK-1 | niedriger Aufwand |
| Pfad | Verdict |
|---|---|
| MS-MTF-D-PROTECTED-SHADOW-PLAN mit 0.8/0.8 Baseline | GO PLAN |
| Alternative: 0.7/0.7 Conservative für Pilot-Start | OPTIONAL |
| Aggressive-Combo aus 4-Agent-Sweep | VERWORFEN (overfit out-of-sample bestätigt) |
Direkter MS-Live (MULTI_STRATEGY_DRY_RUN=false) |
NOCH NICHT — erst Shadow-Implementation + 4 Wochen Forward-Validation |
| BTC-Macro/Regime-Filter | nächste P1-Phase |
position_manager.py (Baseline-Werte bereits live)0× Bot-Code-Touch · 0× Trading-State · 0× Orders · 0× MS-Live · 0× Mainnet · 0× Env-Änderung · 0× DB-Write · 0× ConfigProfile-Apply · 0× Bot/Worker-Recreate · 0× neue OHLCV-Fetches · 0× Push · 0× Coin-Allowlist · 0× Coin-Denylist.
Erstellte Dateien:
- walkforward_results.json — 6 Configs × Train/Test mit Bootstrap
- diese MD + PDF
Walk-Forward-Validation bestätigt: 0.8/0.8 Baseline ist robust, Aggressive-Combo war Overfit. Shadow-Plan kann mit walk-forward-validated Parametern starten. Operator-GO erforderlich für nächste Phase.