diff --git a/xtts/docker-compose.yml b/xtts/docker-compose.yml index 8818b1c..11e7676 100644 --- a/xtts/docker-compose.yml +++ b/xtts/docker-compose.yml @@ -33,27 +33,12 @@ services: - ./voices:/voices # Custom Voice Samples environment: - COQUI_TOS_AGREED=1 - # Local-Modus: Modell bleibt dauerhaft im GPU-VRAM (~2GB). Vorteile: - # - Render startet sofort (kein reload pro Request) - # - /tts_stream funktioniert → echtes Streaming mit ~500ms time-to-first-audio - # Ohne diesen command: apiManual-Modus, jede Anfrage laedt Modell neu, kein Streaming. - # Der NVIDIA-Entrypoint erwartet Python als ausfuehrbares Command, nicht nur Flags. - command: - - python3 - - -m - - xtts_api_server - - -hs - - "0.0.0.0" - - -p - - "8020" - - -ms - - local - - -o - - /app/output - - -mf - - /app/xtts_models - - -sf - - /voices + # Local-Modus statt default "apiManual": Modell bleibt im GPU-VRAM, + # Render startet sofort, /tts_stream funktioniert. + # Default-CMD des Images liest diese ENV: -ms ${MODEL_SOURCE:-"apiManual"} + - MODEL_SOURCE=local + # Speaker-Folder auf unsere gemounteten voices zeigen lassen + - EXAMPLE_FOLDER=/voices restart: unless-stopped # ─── XTTS Bridge (verbindet zu RVS) ───────────