fix: XTTS local-Mode per ENV statt command-Override

Das Image-Default-CMD liest Konfig aus ENV Variablen: CMD: ... -ms \${MODEL_SOURCE:-"apiManual"} Also reicht MODEL_SOURCE=local — command bleibt Image-Default und wir sparen uns den brueckigen Override der schief ging (python nicht da, flag-Namen raten, etc.). Zusaetzlich: EXAMPLE_FOLDER=/voices damit der Speaker-Folder auf unser gemountetes /voices zeigt (sonst /app/example was nur die Demo-Voices enthaelt). Kein command override mehr noetig — das Image macht alles wie vorher, nur mit local-Mode. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
fix: XTTS command nutzt python3 statt python
2026-04-22 17:59:39 +02:00 · 2026-04-22 17:58:29 +02:00 · 2026-04-22 17:49:29 +02:00 · 2026-04-22 17:38:53 +02:00 · 2026-04-22 17:23:55 +02:00 · 2026-04-22 16:47:28 +02:00
2 changed files with 136 additions and 46 deletions
@@ -138,31 +138,43 @@ async function _runTTSRequest(payload) {
    let chunkIndex = 0;
    let pcmMeta = null;

-    // EIN Request fuer den GANZEN Text — kein Gap zwischen Saetzen.
-    // XTTS rendert und wir streamen PCM sobald es reinkommt.
-    await streamXTTSAsPCM(
-      cleanText,
-      language || "de",
-      hasCustomVoice ? voiceSample : null,
-      (pcmBase64, meta) => {
-        if (!pcmMeta) pcmMeta = meta;
-        sendToRVS({
-          type: "audio_pcm",
-          payload: {
-            requestId: requestId || "",
-            messageId: messageId || "",
-            base64: pcmBase64,
-            format: "pcm_s16le",
-            sampleRate: meta.sampleRate,
-            channels: meta.channels,
-            voice: voice || "default",
-            chunk: chunkIndex++,
-            final: false,
-          },
-          timestamp: Date.now(),
-        });
-      },
-    );
+    const onChunk = (pcmBase64, meta) => {
+      if (!pcmMeta) pcmMeta = meta;
+      sendToRVS({
+        type: "audio_pcm",
+        payload: {
+          requestId: requestId || "",
+          messageId: messageId || "",
+          base64: pcmBase64,
+          format: "pcm_s16le",
+          sampleRate: meta.sampleRate,
+          channels: meta.channels,
+          voice: voice || "default",
+          chunk: chunkIndex++,
+          final: false,
+        },
+        timestamp: Date.now(),
+      });
+    };
+
+    // /tts_stream fuer echtes Streaming (funktioniert im XTTS local-Mode).
+    // Wenn Server im apiManual/api-Mode laeuft: 400 → Fallback auf /tts_to_audio/.
+    try {
+      await streamXTTSAsPCM(
+        cleanText,
+        language || "de",
+        hasCustomVoice ? voiceSample : null,
+        onChunk,
+      );
+    } catch (streamErr) {
+      log(`/tts_stream fehlgeschlagen (${streamErr.message.slice(0, 100)}) — Fallback /tts_to_audio/`);
+      await streamXTTSBatch(
+        cleanText,
+        language || "de",
+        hasCustomVoice ? voiceSample : null,
+        onChunk,
+      );
+    }

    // Am Ende: final-Flag damit App weiss "fertig" und Cache geschrieben werden kann
    if (pcmMeta) {
@@ -195,42 +207,44 @@ async function _runTTSRequest(payload) {
 }

 /**
- * Ruft /tts_stream auf — echter Streaming-Endpoint von daswer123.
- * Chunked Transfer-Encoding: Samples kommen WAEHREND XTTS rendert,
- * nicht erst am Ende. Time-to-first-audio ~300-500ms statt 2-3s.
- *
- * stream_chunk_size = Characters pro Render-Iteration.
- * 40 = guter Kompromiss zwischen Schnellstart und GPU-Effizienz.
+ * Ruft /tts_stream auf — echter Streaming-Endpoint bei daswer123.
+ * Schickt was der Server verlangt (allow: GET), aber mit JSON-Body
+ * als POST scheitert mit 405. Manche Versionen wollen GET + Query,
+ * andere POST + JSON. Testen was funktioniert.
 */
 function streamXTTSAsPCM(text, language, speakerWav, onPcmChunk) {
  return new Promise((resolve, reject) => {
-    const body = JSON.stringify({
-      text,
-      language,
-      speaker_wav: speakerWav || "",
-      stream_chunk_size: 40,
-    });
+    // Wichtig: speaker_wav MUSS als Query-Key dabei sein (Pydantic required) —
+    // auch bei default-voice mit leerem Wert. Sonst gibt's HTTP 422.
+    const qs = new URLSearchParams();
+    qs.set("text", text);
+    qs.set("language", language || "de");
+    qs.set("speaker_wav", speakerWav || "");
+    qs.set("stream_chunk_size", "40");

-    const url = new URL(`${XTTS_API_URL}/tts_stream`);
+    const url = new URL(XTTS_API_URL);
+    const fullPath = `/tts_stream?${qs.toString()}`;
    const options = {
      hostname: url.hostname,
-      port: url.port,
-      path: url.pathname,
-      method: "POST",
-      headers: {
-        "Content-Type": "application/json",
-        "Content-Length": Buffer.byteLength(body),
-      },
+      port: url.port || 80,
+      path: fullPath,
+      method: "GET",
      timeout: 60000,
    };

+    log(`TTS GET /tts_stream?text=${text.slice(0, 30)}... (voice=${speakerWav ? "custom" : "default"})`);
+
    const req = http.request(options, (res) => {
      if (res.statusCode !== 200) {
        let body = "";
        res.on("data", (d) => { body += d.toString(); });
-        res.on("end", () => reject(new Error(`XTTS HTTP ${res.statusCode}: ${body.slice(0, 200)}`)));
+        res.on("end", () => {
+          log(`XTTS /tts_stream ${res.statusCode}: ${body.slice(0, 300)}`);
+          reject(new Error(`XTTS HTTP ${res.statusCode}: ${body.slice(0, 200)}`));
+        });
        return;
      }
+      log(`TTS stream verbunden, empfange PCM...`);

      let headerParsed = false;
      let sampleRate = 24000;
@@ -282,6 +296,76 @@ function streamXTTSAsPCM(text, language, speakerWav, onPcmChunk) {

    req.on("error", reject);
    req.on("timeout", () => { req.destroy(); reject(new Error("XTTS API Timeout (60s)")); });
+    req.end();
+  });
+}
+
+/**
+ * Fallback: /tts_to_audio/ (POST JSON) — rendert komplett, dann response.
+ * Kein echtes Streaming, aber stabil als Backup wenn /tts_stream nicht geht.
+ * Shared chunking-Logik mit streamXTTSAsPCM — parst WAV-Header, stueckelt PCM.
+ */
+function streamXTTSBatch(text, language, speakerWav, onPcmChunk) {
+  return new Promise((resolve, reject) => {
+    const body = JSON.stringify({
+      text,
+      language: language || "de",
+      speaker_wav: speakerWav || "",
+    });
+    const url = new URL(XTTS_API_URL);
+    const options = {
+      hostname: url.hostname,
+      port: url.port || 80,
+      path: "/tts_to_audio/",
+      method: "POST",
+      headers: {
+        "Content-Type": "application/json",
+        "Content-Length": Buffer.byteLength(body),
+      },
+      timeout: 60000,
+    };
+
+    const req = http.request(options, (res) => {
+      if (res.statusCode !== 200) {
+        let rb = "";
+        res.on("data", (d) => { rb += d.toString(); });
+        res.on("end", () => reject(new Error(`XTTS Batch HTTP ${res.statusCode}: ${rb.slice(0, 200)}`)));
+        return;
+      }
+      let headerParsed = false;
+      let sampleRate = 24000;
+      let channels = 1;
+      let leftover = Buffer.alloc(0);
+      let headerBuf = Buffer.alloc(0);
+      const HEADER_BYTES = 44;
+      const PCM_CHUNK_BYTES = 8192;
+
+      res.on("data", (chunk) => {
+        let data = chunk;
+        if (!headerParsed) {
+          headerBuf = Buffer.concat([headerBuf, data]);
+          if (headerBuf.length < HEADER_BYTES) return;
+          const header = headerBuf.slice(0, HEADER_BYTES);
+          try { channels = header.readUInt16LE(22); sampleRate = header.readUInt32LE(24); } catch (_) {}
+          headerParsed = true;
+          data = headerBuf.slice(HEADER_BYTES);
+        }
+        let combined = Buffer.concat([leftover, data]);
+        while (combined.length >= PCM_CHUNK_BYTES) {
+          const slice = combined.slice(0, PCM_CHUNK_BYTES);
+          combined = combined.slice(PCM_CHUNK_BYTES);
+          onPcmChunk(slice.toString("base64"), { sampleRate, channels });
+        }
+        leftover = combined;
+      });
+      res.on("end", () => {
+        if (leftover.length > 0) onPcmChunk(leftover.toString("base64"), { sampleRate, channels });
+        resolve();
+      });
+      res.on("error", reject);
+    });
+    req.on("error", reject);
+    req.on("timeout", () => { req.destroy(); reject(new Error("XTTS Batch Timeout (60s)")); });
    req.write(body);
    req.end();
  });
@@ -33,6 +33,12 @@ services:
      - ./voices:/voices                        # Custom Voice Samples
    environment:
      - COQUI_TOS_AGREED=1
+      # Local-Modus statt default "apiManual": Modell bleibt im GPU-VRAM,
+      # Render startet sofort, /tts_stream funktioniert.
+      # Default-CMD des Images liest diese ENV: -ms ${MODEL_SOURCE:-"apiManual"}
+      - MODEL_SOURCE=local
+      # Speaker-Folder auf unsere gemounteten voices zeigen lassen
+      - EXAMPLE_FOLDER=/voices
    restart: unless-stopped

  # ─── XTTS Bridge (verbindet zu RVS) ───────────
Author	SHA1	Message	Date
duffyduck	ee3e0a0af6	fix: XTTS local-Mode per ENV statt command-Override Das Image-Default-CMD liest Konfig aus ENV Variablen: CMD: ... -ms \${MODEL_SOURCE:-"apiManual"} Also reicht MODEL_SOURCE=local — command bleibt Image-Default und wir sparen uns den brueckigen Override der schief ging (python nicht da, flag-Namen raten, etc.). Zusaetzlich: EXAMPLE_FOLDER=/voices damit der Speaker-Folder auf unser gemountetes /voices zeigt (sonst /app/example was nur die Demo-Voices enthaelt). Kein command override mehr noetig — das Image macht alles wie vorher, nur mit local-Mode. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:59:39 +02:00
duffyduck	0783b1b99d	fix: XTTS command nutzt python3 statt python Image hat nur /usr/bin/python3, kein 'python'-Symlink. Vorher ging's weil kein command override — das Image-Default CMD lief durch. Wir ueberschreiben nur damit wir -ms local setzen koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:58:29 +02:00
duffyduck	5492c7a46f	fix: XTTS command braucht 'python -m xtts_api_server' als erstes Arg NVIDIA-Entrypoint fuehrt 'exec \$@' aus — erstes Arg muss ein ausfuehrbares sein. Nur Flags zu geben ('--listen') fuehrt zu 'exec: --: invalid option'. Fix: command=['python','-m','xtts_api_server','-ms','local',...] Damit wird der xtts_api_server Python-Modul gestartet und im local-Mode konfiguriert. Ob die Flag-Namen exakt stimmen (-hs/-p/-ms/-o/-mf/-sf) — falls nicht, poppt ein klarer Python-Fehler im Log. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:49:29 +02:00
duffyduck	4cbe184faa	feat: XTTS auf local-Mode (dauerhaft im VRAM) + /tts_stream + Fallback Root cause der langen Render-Zeiten und /tts_stream 400-Errors: daswer123 default ist apiManual/api-Mode — Modell wird pro Request gefetched/reloaded, Streaming unsupported. Fix in xtts/docker-compose.yml: command: ['--listen', '-p', '8020', '-t', 'http://0.0.0.0:8020', '-ms', 'local', '-o', '/app/output', '-mf', '/app/xtts_models', '-sf', '/voices'] -ms local: - Modell dauerhaft im GPU-VRAM (~2GB, passt auf RTX 3060 mit 12GB) - Render startet sofort, kein per-Request-Load mehr - /tts_stream unterstuetzt → echtes progressive streaming - time-to-first-audio ~500ms statt 8-11s xtts/bridge.js: /tts_stream primary, /tts_to_audio/ als Fallback wenn Stream fehlt. Robust: wenn User spaeter den Mode wieder umstellt, fallback greift. Erste Ladung nach dem Wechsel dauert einmalig laenger (Modell ins VRAM laden). Danach: schnell + streaming. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:38:53 +02:00
duffyduck	647a1cb726	fix: XTTS nutzt direkt /tts_to_audio/ — /tts_stream nicht verfuegbar XTTS-Server (daswer123) im API-Modus antwortet auf /tts_stream mit: HTTP 400: "HTTP Streaming is only supported for local models" Das Feature braucht MODE=local in der XTTS-Config (Modell direkt im Server-Prozess). Userbetreibt im Remote-Modus → kein Streaming. Der try /tts_stream + fallback /tts_to_audio Ansatz war reine Ver- schwendung: jeder Request wartete 6ms auf 400, bevor der Fallback griff. Jetzt geht's direkt an /tts_to_audio/. Kein echtes Streaming, aber: - Queue sorgt fuer sequentielle Verarbeitung (kein Overlap mehr) - 32x AudioTrack-Buffer faengt den bursty Response ab - aria-bridge spiegelt audio_pcm nicht mehr (kein Doppel-Audio) Wenn User spaeter /tts_stream haben will: XTTS-Server mit MODE=local oder --streaming-mode starten, dann kann man /tts_stream als primary einfuehren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:23:55 +02:00
duffyduck	73263b69a6	fix: /tts_stream — speaker_wav muss IMMER als query-param gesetzt sein XTTS-Server (daswer123) markiert speaker_wav als required Pydantic-Feld. Mein 'if (speakerWav) qs.set(...)' hat den Key bei default-voice weggelassen → HTTP 422 'Field required, input: null' → Fallback auf /tts_to_audio/ hat gegriffen, aber Streaming nie gefunden. Log-Beweis vom User: XTTS /tts_stream 422: {"detail":[{"type":"missing","loc":["query", "speaker_wav"],"msg":"Field required","input":null}]} Fix: Key immer setzen, leerer String bei default-voice. POST-Variante (/tts_to_audio/ JSON-Body) hat das auch so akzeptiert — GET-Query nun gleiches Verhalten. Ab jetzt sollte /tts_stream endlich greifen und echte Streaming-Latenz (~300-500ms) zeigen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 16:47:28 +02:00
duffyduck	c62ceafdc2	fix: XTTS-Endpoint mit Fallback-Chain + Diagnose-Logs Problem: /tts_stream hat bei User nicht funktioniert → keine Sprachausgabe mehr. Server hatte vorher 405 fuer POST geantwortet, meine Umstellung auf GET scheint aber einen anderen Fehler zu produzieren der nicht geloggt wurde. Fix: - streamXTTSAsPCM() = /tts_stream (GET, Streaming) mit ausfuehrlichem Error-Logging bei non-200 Response - streamXTTSBatch() = /tts_to_audio/ (POST, Batch) als Fallback - handleTTSRequest versucht Stream zuerst, bei Exception Fallback auf Batch — so gibt's IMMER Audio, auch wenn /tts_stream kaputt ist - Log zeigt welcher Pfad benutzt wurde Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 15:53:10 +02:00
duffyduck	9b5a35cb4a	fix: /tts_stream als GET mit Query-Params (war 405 Method Not Allowed) daswer123 xtts-api-server hat /tts_stream nur als GET: allow: GET → POST gab 405 → Request hing. Umstellung: - method: 'GET' - text/language/speaker_wav/stream_chunk_size als URLSearchParams im Query-String - kein body mehr (kein req.write, kein Content-Length) Ab jetzt echter streaming-Flow: Samples kommen waehrend XTTS noch rendert, time-to-first-audio ~300-500ms. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:52:16 +02:00
duffyduck	5ac1a0a522	revert: XTTS-Endpoint zurueck auf /tts_to_audio/ /tts_stream war bei der aktiven daswer123-Version nicht erreichbar — Requests hingen stille, App bekam kein Audio. Zurueck auf /tts_to_audio/ + Queue + 32x AudioTrack-Buffer. Das ist zwar nicht echt-streaming aber stabil. Ueberlappung sollte durch die Queue weg sein, Buffer toleriert den bursty Delivery. Echt-Streaming-Migration spaeter mit verifizierter Server-Version oder anderem Endpoint. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:48:27 +02:00