feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox

Neuer aria-f5tts-bridge Container: - Python-Service, laedt F5TTS_v1_Base beim Start - Empfaengt xtts_request via RVS, synthetisiert mit Voice-Cloning, streamt PCM-Chunks (audio_pcm, 16-bit s16le) wie zuvor die XTTS-Bridge - Teilt lange Texte an Satzgrenzen, streamt satzweise - Fade-In auf erstem Chunk, Queue gegen parallel-Render Voice-Management: - Speicherort weiterhin /voices/, aber jetzt als Paar {name}.wav + {name}.txt (F5-TTS braucht Referenz-Transkription) - voice_upload: WAV speichern, intern stt_request an whisper-bridge senden, Transkription als .txt ablegen → user muss nichts eintippen - On-the-fly Transkribierung: wenn eine WAV ohne .txt liegt, wird bei erstem Render/Preload nachgezogen - Bestehende RVS-Messages (voice_upload/xtts_list_voices/... etc.) bleiben unveraendert → keine App/Diagnostic-Aenderung noetig Gaming-PC docker-compose: - xtts + xtts-bridge Services entfernt - f5tts-bridge + whisper-bridge bleiben/kommen rein - Volume xtts-models → f5tts-models Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 14:34:11 +02:00
parent e170991222
commit 576ae925dd
7 changed files with 628 additions and 644 deletions
@@ -1,7 +1,7 @@
 # ════════════════════════════════════════════════
-#  ARIA XTTS v2 — GPU TTS Server
+#  ARIA Gamebox Stack — GPU F5-TTS + Whisper STT
 #  Laeuft auf dem Gaming-PC (RTX 3060)
-#  Verbindet sich zum RVS fuer TTS-Requests
+#  Verbindet sich zum RVS fuer TTS/STT-Requests
 # ════════════════════════════════════════════════
 #
 #  Voraussetzungen:
@@ -10,15 +10,18 @@
 #    - .env mit RVS-Verbindungsdaten
 #
 #  Start: docker compose up -d
-#  Test:  curl http://localhost:8000/docs
 # ════════════════════════════════════════════════

 services:

-  # ─── XTTS v2 API Server (GPU) ─────────────────
-  xtts:
-    image: daswer123/xtts-api-server:latest
-    container_name: aria-xtts
+  # ─── F5-TTS Bridge (GPU) ──────────────────────
+  # Ersetzt den frueheren XTTS-Stack. Empfaengt xtts_request via RVS,
+  # rendert via F5-TTS mit Voice-Cloning, streamt PCM an die App.
+  # Voice-Upload: speichert WAV und laesst whisper-bridge den Referenz-
+  # text transkribieren — der User muss nichts eintippen.
+  f5tts-bridge:
+    build: ./f5tts
+    container_name: aria-f5tts-bridge
    deploy:
      resources:
        reservations:
@@ -26,45 +29,29 @@ services:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
-    ports:
-      - "8000:8020"
    volumes:
-      - xtts-models:/app/xtts_models             # Model-Cache (~2GB)
-      - ./voices:/voices                        # Custom Voice Samples
+      - ./voices:/voices                         # WAV + TXT Referenz
+      - f5tts-models:/root/.cache/huggingface    # Model-Cache persistieren
    environment:
-      - COQUI_TOS_AGREED=1
-      # Local-Modus statt default "apiManual": Modell bleibt im GPU-VRAM,
-      # Render startet sofort, /tts_stream funktioniert.
-      # Default-CMD des Images liest diese ENV: -ms ${MODEL_SOURCE:-"apiManual"}
-      - MODEL_SOURCE=local
-      # Speaker-Folder auf unsere gemounteten voices zeigen lassen
-      - EXAMPLE_FOLDER=/voices
-    restart: unless-stopped
-
-  # ─── XTTS Bridge (verbindet zu RVS) ───────────
-  xtts-bridge:
-    build: .
-    container_name: aria-xtts-bridge
-    depends_on:
-      - xtts
-    volumes:
-      - ./voices:/voices                        # Shared mit XTTS-Server
-    environment:
-      - XTTS_API_URL=http://xtts:8020
      - RVS_HOST=${RVS_HOST}
      - RVS_PORT=${RVS_PORT:-443}
      - RVS_TLS=${RVS_TLS:-true}
      - RVS_TLS_FALLBACK=${RVS_TLS_FALLBACK:-true}
      - RVS_TOKEN=${RVS_TOKEN}
+      - F5TTS_MODEL=${F5TTS_MODEL:-F5TTS_v1_Base}
+      - F5TTS_DEVICE=${F5TTS_DEVICE:-cuda}
+      - VOICES_DIR=/voices
    restart: unless-stopped

  # ─── Whisper STT (GPU) ────────────────────────
  # Faster-Whisper auf der Gamebox statt auf der VM (CPU) —
  # deutlich schneller. Verbindet sich selbst per WebSocket an
  # den RVS und nimmt dort stt_request Nachrichten der aria-bridge
-  # entgegen, antwortet mit stt_response. Laedt das Modell beim
-  # Start vor; auf Config-Broadcasts (Diagnostic → whisperModel)
-  # wird zur Laufzeit hot-swapped.
+  # entgegen, antwortet mit stt_response. Zusaetzlich nutzt die
+  # f5tts-bridge Whisper intern fuer die Referenz-Transkription bei
+  # Voice-Uploads. Laedt das Modell beim Start vor; auf Config-
+  # Broadcasts (Diagnostic → whisperModel) wird zur Laufzeit hot-
+  # swapped.
  whisper-bridge:
    build: ./whisper
    container_name: aria-whisper-bridge
@@ -86,9 +73,9 @@ services:
      - WHISPER_COMPUTE_TYPE=${WHISPER_COMPUTE_TYPE:-float16}
      - WHISPER_LANGUAGE=${WHISPER_LANGUAGE:-de}
    volumes:
-      - whisper-models:/root/.cache/huggingface # Model-Cache persistieren
+      - whisper-models:/root/.cache/huggingface
    restart: unless-stopped

 volumes:
-  xtts-models:
+  f5tts-models:
  whisper-models: