release: bump version to 0.0.5.1

release: bump version to 0.0.5.0
feat: voice_preload/voice_ready — Feedback wenn neue Stimme geladen ist
2026-04-23 22:02:17 +02:00 · 2026-04-23 15:31:18 +02:00 · 2026-04-23 10:24:08 +02:00 · 2026-04-22 23:02:28 +02:00 · 2026-04-22 19:32:40 +02:00 · 2026-04-22 19:17:04 +02:00
12 changed files with 735 additions and 141 deletions
@@ -79,8 +79,8 @@ android {
        applicationId "com.ariacockpit"
        minSdkVersion rootProject.ext.minSdkVersion
        targetSdkVersion rootProject.ext.targetSdkVersion
-        versionCode 402
+        versionCode 501
-        versionName "0.0.4.2"
+        versionName "0.0.5.1"
        // Fallback fuer Libraries mit Product Flavors
        missingDimensionStrategy 'react-native-camera', 'general'
    }
@@ -13,22 +13,30 @@ import com.facebook.react.bridge.ReactMethod
 import java.util.concurrent.LinkedBlockingQueue
 /**
- * Streamt PCM-s16le Audio direkt via AudioTrack MODE_STREAM.
+ * Streamt PCM-s16le Audio direkt via AudioTrack MODE_STREAM mit Pre-Roll.
 *
 * Pre-Roll: AudioTrack wird zwar direkt gebaut und gefuttert, aber play()
 * wird erst aufgerufen wenn PREROLL_SECONDS Audio im Buffer ist. So hat
 * der Stream Zeit einen Vorrat aufzubauen — wenn XTTS mit RTF>1 rendert
 * (langsamer als Echtzeit), laeuft der Buffer trotzdem nicht leer.
 *
 * Flow:
- *   JS: start(sampleRate, channels) → öffnet AudioTrack und startet Writer-Thread
+ *   JS: start(sampleRate, channels) → öffnet AudioTrack (noch nicht play())
- *   JS: writeChunk(base64)           → dekodiert, queued, Writer schreibt non-blocking
+ *   JS: writeChunk(base64)           → dekodiert, queued, Writer schreibt
- *   JS: end()                         → wartet bis Queue leer, schließt AudioTrack
+ *   Writer: spielt los sobald PREROLL erreicht ist
- *   JS: stop()                        → Hart stoppen, Queue leeren (Cancel)
+ *   JS: end()                         → wartet bis Queue leer, schließt
- *
+ *   JS: stop()                        → Hart stoppen (Cancel)
 * Vorteil gegenüber Sound-File-Queue:
 *   - Keine Gap zwischen Chunks (AudioTrack puffert intern)
 *   - Erste Samples beginnen zu spielen sobald der erste Chunk da ist
 *   - Kein WAV-Header-Parsing pro Chunk
 */
 class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContextBaseJavaModule(reactContext) {
    companion object {
        private const val TAG = "PcmStreamPlayer"
        // Fallback wenn JS keinen Wert uebergibt.
        private const val DEFAULT_PREROLL_SECONDS = 3.5
        private const val MIN_PREROLL_SECONDS = 0.5
        private const val MAX_PREROLL_SECONDS = 10.0
        // Stille am Stream-Anfang, damit AudioTrack sauber anfaehrt und die
        // ersten Samples nicht abgeschnitten werden (XTTS-Warmup + play()-Latenz).
        private const val LEADING_SILENCE_SECONDS = 0.2
    }
    override fun getName() = "PcmStreamPlayer"
@@ -38,20 +46,34 @@ class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContex
    private var writerThread: Thread? = null
    @Volatile private var writerShouldStop = false
    @Volatile private var endRequested = false
    @Volatile private var prerollBytes: Int = 0
    @Volatile private var playbackStarted = false
    @Volatile private var bytesBuffered: Long = 0
    @Volatile private var streamBytesPerFrame: Int = 2 // mono s16le default
    // ── Lifecycle ──
    @ReactMethod
-    fun start(sampleRate: Int, channels: Int, promise: Promise) {
+    fun start(sampleRate: Int, channels: Int, prerollSeconds: Double, promise: Promise) {
        try {
            // Alte Session beenden falls vorhanden
            stopInternal()
            val prerollSec = prerollSeconds
                .coerceIn(MIN_PREROLL_SECONDS, MAX_PREROLL_SECONDS)
                .let { if (it.isFinite() && it > 0) it else DEFAULT_PREROLL_SECONDS }
            val channelConfig = if (channels == 2) AudioFormat.CHANNEL_OUT_STEREO else AudioFormat.CHANNEL_OUT_MONO
            val encoding = AudioFormat.ENCODING_PCM_16BIT
            val minBuf = AudioTrack.getMinBufferSize(sampleRate, channelConfig, encoding)
-            // Etwas grosszuegiger Buffer: 8x MinSize (ca. 200-400ms bei 24kHz) — glatt auch bei kleinen Netzwerk-Aussetzern
+            val bytesPerSecond = sampleRate * channels * 2 // 16-bit = 2 bytes
-            val bufferSize = (minBuf * 8).coerceAtLeast(32 * 1024)
+            // Buffer muss mindestens PREROLL + etwas Spielraum fassen.
            val prerollTarget = (bytesPerSecond * prerollSec).toInt()
            val bufferSize = (minBuf * 32).coerceAtLeast(prerollTarget * 2)
            prerollBytes = prerollTarget
            bytesBuffered = 0
            playbackStarted = false
            streamBytesPerFrame = channels * 2 // s16 = 2 bytes per sample
            val newTrack = AudioTrack.Builder()
                .setAudioAttributes(
@@ -71,7 +93,7 @@ class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContex
                .setTransferMode(AudioTrack.MODE_STREAM)
                .build()
-            newTrack.play()
+            // AudioTrack erstellen — play() wird erst aufgerufen wenn Pre-Roll erreicht.
            track = newTrack
            queue.clear()
            writerShouldStop = false
@@ -80,27 +102,83 @@ class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContex
            writerThread = Thread({
                val t = track ?: return@Thread
                try {
                    // Leading-Silence in den Buffer — gibt AudioTrack Zeit anzufahren.
                    val silenceBytes = ((sampleRate * channels * 2) * LEADING_SILENCE_SECONDS).toInt() and 0x7FFFFFFE
                    if (silenceBytes > 0) {
                        val silence = ByteArray(silenceBytes)
                        var silOff = 0
                        while (silOff < silence.size && !writerShouldStop) {
                            val w = t.write(silence, silOff, silence.size - silOff)
                            if (w <= 0) break
                            silOff += w
                        }
                        bytesBuffered += silence.size
                    }
                    while (!writerShouldStop) {
                        val data = queue.poll(50, java.util.concurrent.TimeUnit.MILLISECONDS) ?: run {
-                            if (endRequested) return@Thread
+                            if (endRequested) {
                                // Falls wir vor Pre-Roll enden (kurzer Text): trotzdem abspielen
                                if (!playbackStarted) {
                                    try { t.play() } catch (_: Exception) {}
                                    playbackStarted = true
                                }
                                return@Thread
                            }
                            null
                        } ?: continue
                        // Pre-Roll Check: play() erst wenn genug gepuffert
                        if (!playbackStarted && bytesBuffered + data.size >= prerollBytes) {
                            try {
                                t.play()
                                playbackStarted = true
                                Log.i(TAG, "Playback gestartet nach Pre-Roll ${bytesBuffered + data.size} Bytes")
                            } catch (e: Exception) {
                                Log.w(TAG, "play() failed: ${e.message}")
                            }
                        }
                        var offset = 0
                        while (offset < data.size && !writerShouldStop) {
                            val written = t.write(data, offset, data.size - offset)
                            if (written <= 0) break
                            offset += written
                        }
                        bytesBuffered += data.size
                    }
                } catch (e: Exception) {
                    Log.w(TAG, "Writer-Thread Fehler: ${e.message}")
                } finally {
                    // Warten bis alle geschriebenen Samples tatsaechlich abgespielt sind,
                    // sonst cuttet t.release() die letzten Sekunden ab.
                    try {
                        val totalFrames = (bytesBuffered / streamBytesPerFrame).toInt()
                        var lastPos = -1
                        var stalledCount = 0
                        while (!writerShouldStop) {
                            val pos = t.playbackHeadPosition
                            if (pos >= totalFrames) break
                            // Safety: wenn Position 2s nicht mehr vorwaerts → AudioTrack hing
                            if (pos == lastPos) {
                                stalledCount++
                                if (stalledCount > 40) {
                                    Log.w(TAG, "playback stalled at $pos/$totalFrames — give up")
                                    break
                                }
                            } else {
                                stalledCount = 0
                                lastPos = pos
                            }
                            Thread.sleep(50)
                        }
                        Log.i(TAG, "Playback fertig: frames=$totalFrames pos=${t.playbackHeadPosition}")
                    } catch (_: Exception) {}
                    try { t.stop() } catch (_: Exception) {}
                    try { t.release() } catch (_: Exception) {}
                }
            }, "PcmStreamWriter").apply { start() }
-            Log.i(TAG, "Stream gestartet: ${sampleRate}Hz ch=$channels buf=${bufferSize}B")
+            Log.i(TAG, "Stream gestartet: ${sampleRate}Hz ch=$channels buf=${bufferSize}B preroll=${prerollBytes}B (${prerollSec}s)")
            promise.resolve(true)
        } catch (e: Exception) {
            Log.e(TAG, "start fehlgeschlagen", e)
@@ -1,6 +1,6 @@
 {
  "name": "aria-cockpit",
-  "version": "0.0.4.2",
+  "version": "0.0.5.1",
  "private": true,
  "scripts": {
    "android": "react-native run-android",
@@ -18,6 +18,7 @@ import {
  Image,
  ScrollView,
  Modal,
  ToastAndroid,
 } from 'react-native';
 import AsyncStorage from '@react-native-async-storage/async-storage';
 import RNFS from 'react-native-fs';
@@ -325,6 +326,26 @@ const ChatScreen: React.FC = () => {
        const tool = (message.payload.tool as string) || '';
        setAgentActivity({ activity, tool });
      }
      // Voice-Config aus Diagnostic — setzt die lokale App-Stimme auf den
      // gerade in Diagnostic gewaehlten Wert zurueck. User-Wahl in der App
      // wird dadurch ueberschrieben.
      if (message.type === ('config' as any)) {
        const newVoice = ((message.payload as any).xttsVoice as string) ?? '';
        localXttsVoiceRef.current = newVoice;
        AsyncStorage.setItem('aria_xtts_voice', newVoice);
      }
      // XTTS-Bridge meldet Stimme fertig geladen (kurzer Status-Toast)
      if (message.type === ('voice_ready' as any)) {
        const v = ((message.payload as any).voice as string) ?? '';
        const err = (message.payload as any).error as string | undefined;
        if (err) {
          ToastAndroid.show(`Stimme "${v}" Fehler: ${err}`, ToastAndroid.LONG);
        } else {
          ToastAndroid.show(`Stimme "${v || 'Standard'}" bereit`, ToastAndroid.SHORT);
        }
      }
    });
    const unsubState = rvs.onStateChange((state) => {
@@ -15,11 +15,19 @@ import {
  StyleSheet,
  Alert,
  Platform,
  ToastAndroid,
  ActivityIndicator,
 } from 'react-native';
 import AsyncStorage from '@react-native-async-storage/async-storage';
 import RNFS from 'react-native-fs';
 import DocumentPicker from 'react-native-document-picker';
 import rvs, { ConnectionState, RVSMessage, ConnectionConfig, ConnectionLogEntry } from '../services/rvs';
 import {
  TTS_PREROLL_DEFAULT_SEC,
  TTS_PREROLL_MIN_SEC,
  TTS_PREROLL_MAX_SEC,
  TTS_PREROLL_STORAGE_KEY,
 } from '../services/audio';
 import ModeSelector from '../components/ModeSelector';
 import QRScanner from '../components/QRScanner';
 import VoiceCloneModal from '../components/VoiceCloneModal';
@@ -73,8 +81,10 @@ const SettingsScreen: React.FC = () => {
  const [autoDownload, setAutoDownload] = useState(true);
  const [storageSize, setStorageSize] = useState('...');
  const [ttsEnabled, setTtsEnabled] = useState(true);
  const [ttsPrerollSec, setTtsPrerollSec] = useState<number>(TTS_PREROLL_DEFAULT_SEC);
  const [editingPath, setEditingPath] = useState(false);
  const [xttsVoice, setXttsVoice] = useState('');
  const [loadingVoice, setLoadingVoice] = useState<string | null>(null);
  const [availableVoices, setAvailableVoices] = useState<Array<{name: string, size: number}>>([]);
  const [voiceCloneVisible, setVoiceCloneVisible] = useState(false);
  const [tempPath, setTempPath] = useState('');
@@ -99,6 +109,14 @@ const SettingsScreen: React.FC = () => {
    AsyncStorage.getItem('aria_tts_enabled').then(saved => {
      if (saved !== null) setTtsEnabled(saved === 'true');
    });
    AsyncStorage.getItem(TTS_PREROLL_STORAGE_KEY).then(saved => {
      if (saved != null) {
        const n = parseFloat(saved);
        if (isFinite(n) && n >= TTS_PREROLL_MIN_SEC && n <= TTS_PREROLL_MAX_SEC) {
          setTtsPrerollSec(n);
        }
      }
    });
    AsyncStorage.getItem('aria_xtts_voice').then(saved => {
      if (saved) setXttsVoice(saved);
    });
@@ -250,6 +268,31 @@ const SettingsScreen: React.FC = () => {
        }
        rvs.send('xtts_list_voices' as any, {});
      }
      // Diagnostic-Voice-Wechsel → lokale App-Stimme auf den neuen Default zuruecksetzen.
      // Zusaetzlich Preload triggern, damit der User weiss wann's geladen ist.
      if (message.type === ('config' as any)) {
        const newVoice = ((message.payload as any).xttsVoice as string) ?? '';
        setXttsVoice(newVoice);
        AsyncStorage.setItem('aria_xtts_voice', newVoice);
        if (newVoice) {
          setLoadingVoice(newVoice);
        }
      }
      // XTTS-Bridge meldet: Stimme fertig geladen
      if (message.type === ('voice_ready' as any)) {
        const v = ((message.payload as any).voice as string) ?? '';
        const err = (message.payload as any).error as string | undefined;
        const ms = (message.payload as any).loadMs as number | undefined;
        setLoadingVoice(null);
        if (err) {
          ToastAndroid.show(`Stimme "${v}" konnte nicht geladen werden: ${err}`, ToastAndroid.LONG);
        } else {
          const suffix = ms ? ` (${(ms / 1000).toFixed(1)}s)` : '';
          ToastAndroid.show(`Stimme "${v || 'Standard'}" bereit${suffix}`, ToastAndroid.SHORT);
        }
      }
    });
    return () => {
@@ -318,6 +361,13 @@ const SettingsScreen: React.FC = () => {
  const selectVoice = useCallback((voiceName: string) => {
    setXttsVoice(voiceName);
    AsyncStorage.setItem('aria_xtts_voice', voiceName);
    // Preload nur fuer Custom-Voices — "Standard" braucht keinen Ladevorgang
    if (voiceName) {
      setLoadingVoice(voiceName);
      rvs.send('voice_preload' as any, { voice: voiceName, source: 'app' });
    } else {
      setLoadingVoice(null);
    }
  }, []);
  const deleteVoice = useCallback((name: string) => {
@@ -527,6 +577,42 @@ const SettingsScreen: React.FC = () => {
          />
        </View>
        {ttsEnabled && (
          <View style={{marginTop: 20}}>
            <Text style={styles.toggleLabel}>Puffer vor Wiedergabestart</Text>
            <Text style={styles.toggleHint}>
              Wie viel Audio gesammelt wird bevor die Wiedergabe startet.
              Hoeher = robuster gegen Render-Pausen, aber mehr Startverzoegerung.
              Default: {TTS_PREROLL_DEFAULT_SEC.toFixed(1)}s.
            </Text>
            <View style={styles.prerollRow}>
              <TouchableOpacity
                style={styles.prerollButton}
                onPress={() => {
                  const next = Math.max(TTS_PREROLL_MIN_SEC, Math.round((ttsPrerollSec - 0.5) * 10) / 10);
                  setTtsPrerollSec(next);
                  AsyncStorage.setItem(TTS_PREROLL_STORAGE_KEY, String(next));
                }}
                disabled={ttsPrerollSec <= TTS_PREROLL_MIN_SEC}
              >
                <Text style={styles.prerollButtonText}>−0.5</Text>
              </TouchableOpacity>
              <Text style={styles.prerollValue}>{ttsPrerollSec.toFixed(1)} s</Text>
              <TouchableOpacity
                style={styles.prerollButton}
                onPress={() => {
                  const next = Math.min(TTS_PREROLL_MAX_SEC, Math.round((ttsPrerollSec + 0.5) * 10) / 10);
                  setTtsPrerollSec(next);
                  AsyncStorage.setItem(TTS_PREROLL_STORAGE_KEY, String(next));
                }}
                disabled={ttsPrerollSec >= TTS_PREROLL_MAX_SEC}
              >
                <Text style={styles.prerollButtonText}>+0.5</Text>
              </TouchableOpacity>
            </View>
          </View>
        )}
        {ttsEnabled && (
          <View style={{marginTop: 20}}>
            <Text style={styles.toggleLabel}>Stimme (geraetelokal)</Text>
@@ -561,7 +647,10 @@ const SettingsScreen: React.FC = () => {
                    </Text>
                    <Text style={styles.voiceRowMeta}>{(v.size / 1024).toFixed(0)} KB</Text>
                  </TouchableOpacity>
-                  {xttsVoice === v.name && <Text style={styles.voiceRowCheck}>{'\u2713'}</Text>}
+                  {loadingVoice === v.name && (
                    <ActivityIndicator size="small" color="#0096FF" style={{marginRight: 8}} />
                  )}
                  {xttsVoice === v.name && loadingVoice !== v.name && <Text style={styles.voiceRowCheck}>{'\u2713'}</Text>}
                  <TouchableOpacity onPress={() => deleteVoice(v.name)} style={styles.voiceRowDelete}>
                    <Text style={styles.voiceRowDeleteIcon}>X</Text>
                  </TouchableOpacity>
@@ -1118,6 +1207,34 @@ const styles = StyleSheet.create({
  bottomSpacer: {
    height: 40,
  },
  prerollRow: {
    flexDirection: 'row',
    alignItems: 'center',
    justifyContent: 'center',
    marginTop: 12,
    gap: 16,
  },
  prerollButton: {
    backgroundColor: '#2A2A3E',
    paddingHorizontal: 18,
    paddingVertical: 10,
    borderRadius: 8,
    minWidth: 72,
    alignItems: 'center',
  },
  prerollButtonText: {
    color: '#FFFFFF',
    fontSize: 16,
    fontWeight: '600',
  },
  prerollValue: {
    color: '#FFFFFF',
    fontSize: 20,
    fontWeight: '700',
    minWidth: 80,
    textAlign: 'center',
  },
 });
 export default SettingsScreen;
@@ -9,6 +9,7 @@
 import { Platform, PermissionsAndroid, NativeModules } from 'react-native';
 import Sound from 'react-native-sound';
 import RNFS from 'react-native-fs';
 import AsyncStorage from '@react-native-async-storage/async-storage';
 import AudioRecorderPlayer, {
  AudioEncoderAndroidType,
  AudioSourceAndroidType,
@@ -41,7 +42,7 @@ const { AudioFocus, PcmStreamPlayer } = NativeModules as {
    release: () => Promise<boolean>;
  };
  PcmStreamPlayer?: {
-    start: (sampleRate: number, channels: number) => Promise<boolean>;
+    start: (sampleRate: number, channels: number, prerollSeconds: number) => Promise<boolean>;
    writeChunk: (base64Pcm: string) => Promise<boolean>;
    end: () => Promise<boolean>;
    stop: () => Promise<boolean>;
@@ -80,6 +81,26 @@ const VAD_SPEECH_MIN_MS = 500;         // ms Sprache bevor Aufnahme zaehlt — l
 // Max-Dauer einer Aufnahme in Gespraechsmodus (Notbremse gegen Runaway-Loops)
 const MAX_RECORDING_MS = 30000;
 // Pre-Roll: Wie lange Audio im AudioTrack-Buffer liegt bevor play() startet.
 // Einstellbar via Diagnostic/Settings (Key: aria_tts_preroll_sec).
 export const TTS_PREROLL_DEFAULT_SEC = 3.5;
 export const TTS_PREROLL_MIN_SEC = 1.0;
 export const TTS_PREROLL_MAX_SEC = 6.0;
 export const TTS_PREROLL_STORAGE_KEY = 'aria_tts_preroll_sec';
 async function loadPrerollSec(): Promise<number> {
  try {
    const raw = await AsyncStorage.getItem(TTS_PREROLL_STORAGE_KEY);
    if (raw != null) {
      const n = parseFloat(raw);
      if (isFinite(n) && n >= TTS_PREROLL_MIN_SEC && n <= TTS_PREROLL_MAX_SEC) {
        return n;
      }
    }
  } catch {}
  return TTS_PREROLL_DEFAULT_SEC;
 }
 // --- Audio-Service ---
 class AudioService {
@@ -373,8 +394,9 @@ class AudioService {
      this.pcmBuffer = [];
      this.pcmBytesCollected = 0;
      if (!silent) {
        const prerollSec = await loadPrerollSec();
        try {
-          await PcmStreamPlayer!.start(sampleRate, channels);
+          await PcmStreamPlayer!.start(sampleRate, channels, prerollSec);
        } catch (err) {
          console.error('[Audio] PcmStreamPlayer.start fehlgeschlagen:', err);
          this.pcmStreamActive = false;
@@ -150,6 +150,15 @@ def _small_range_to_words(m):
    return f"{_num_to_words_de(a)} bis {_num_to_words_de(b)}"
 def _decimal_to_words(m):
    """'0.1' / '0,1' → 'null komma eins', '1,25' → 'eins komma zwei fuenf'."""
    int_part = int(m.group(1))
    dec_part = m.group(2)
    int_word = _num_to_words_de(int_part) if 0 <= int_part <= 59 else str(int_part)
    dec_words = " ".join(_num_to_words_de(int(d)) for d in dec_part)
    return f"{int_word} komma {dec_words}"
 _UNIT_WORDS = [
    (r'\bTB\b', 'Terabyte'),
    (r'\bGB\b', 'Gigabyte'),
@@ -236,6 +245,11 @@ def clean_text_for_tts(text: str) -> str:
    # Kleine Zahlen-Bereiche ohne "Uhr": "5-6" → "fuenf bis sechs"
    t = _re_tts.sub(r'\b(\d{1,2})\s*[-–]\s*(\d{1,2})\b', _small_range_to_words, t)
    # Dezimalzahlen: "0.1" / "0,5" / "1,25" → "null komma eins" / "null komma fuenf" / ...
    # Muss vor "Zahl+Einheit" laufen, sonst frisst die Unit-Regel den Nachkommaanteil.
    # Lookahead verhindert Match auf IP-artigen Strings wie 192.168.1.1.
    t = _re_tts.sub(r'\b(\d+)[.,](\d+)(?![.,\d])', _decimal_to_words, t)
    # Zahlen + Einheit: "22GB" → "22 Gigabyte" (Leerzeichen einfuegen)
    t = _re_tts.sub(r'(\d+)([A-Za-z]{1,4})\b', r'\1 \2', t)
@@ -243,6 +257,12 @@ def clean_text_for_tts(text: str) -> str:
    for pat, repl in _UNIT_WORDS:
        t = _re_tts.sub(pat, repl, t)
    # Generisches Buchstabieren: alle verbleibenden 2-5-Zeichen-Grossbuchstaben-Woerter
    # (XTTS, USB, DNS, JSON, HTML, ...) → "X T T S". Laeuft NACH der expliziten Liste,
    # damit TTS/GPU/... schon aufgeloest sind. "WLAN"-artige, die als Wort gesprochen
    # werden, koennen bei Bedarf explizit in _UNIT_WORDS uebersteuert werden.
    t = _re_tts.sub(r'\b([A-Z]{2,5})\b', lambda m: " ".join(m.group(1)), t)
    # Anfuehrungszeichen
    t = _re_tts.sub(r'["""„`]', '', t)
@@ -1100,25 +1120,12 @@ class ARIABridge:
            return
        elif msg_type == "audio_pcm":
-            # XTTS-PCM-Stream vom Gaming-PC empfangen → durchleiten zur App.
+            # Audio-PCM geht direkt von XTTS-Bridge an die App.
-            # Wenn in payload kein messageId (alte XTTS-Bridge), aus requestId auflösen.
+            # Die aria-bridge darf es NICHT rebroadcasten — sonst bekommt die App
-            error = payload.get("error", "")
+            # jeden Chunk doppelt (einmal direkt von XTTS-Bridge via RVS-Broadcast,
-            if error:
+            # einmal indirekt via uns).
-                logger.warning("[rvs] XTTS PCM-Fehler: %s", error)
+            # Wir ignorieren diese Message hier einfach — messageId wird von
-                return
+            # XTTS-Bridge selbst im Payload mitgeliefert.
            linked_message_id = payload.get("messageId", "")
            if not linked_message_id:
                req_id_full = payload.get("requestId", "")
                req_id_base = req_id_full.rsplit("_", 1)[0] if "_" in req_id_full else req_id_full
                linked_message_id = self._xtts_request_to_message.get(req_id_base, "")
            # Einfach 1:1 weiterleiten mit eingefuellter messageId
            forwarded = dict(payload)
            forwarded["messageId"] = linked_message_id
            await self._send_to_rvs({
                "type": "audio_pcm",
                "payload": forwarded,
                "timestamp": int(asyncio.get_event_loop().time() * 1000),
            })
            return
        elif msg_type == "xtts_response":
@@ -127,6 +127,33 @@
  </style>
 </head>
 <body>
  <!-- Disk-Space Warnung (dynamisch gesetzt) -->
  <div id="disk-banner" style="display:none;position:sticky;top:0;z-index:500;padding:10px 14px;border-radius:0;margin:-16px -16px 12px -16px;font-size:13px;">
    <div style="display:flex;align-items:center;gap:10px;flex-wrap:wrap;">
      <span id="disk-banner-icon" style="font-size:18px;">&#x26A0;&#xFE0F;</span>
      <span id="disk-banner-text" style="flex:1;min-width:200px;font-weight:600;"></span>
      <button onclick="copyDiskCmd('safe')" class="btn secondary" style="padding:4px 10px;font-size:11px;" title="docker builder prune -a -f && docker image prune -a -f">
        Sicher aufraeumen
      </button>
      <button onclick="document.getElementById('disk-banner-aggressive').style.display=(document.getElementById('disk-banner-aggressive').style.display==='none'?'flex':'none')"
              class="btn secondary" style="padding:4px 10px;font-size:11px;">
        Mehr &#x25BE;
      </button>
      <button onclick="document.getElementById('disk-banner').style.display='none'" class="btn secondary" style="padding:4px 10px;font-size:11px;">Schliessen</button>
    </div>
    <!-- Aggressive Variante (erst nach Klick sichtbar) -->
    <div id="disk-banner-aggressive" style="display:none;margin-top:10px;padding:8px;background:rgba(0,0,0,0.25);border-radius:4px;flex-direction:column;gap:6px;font-size:12px;">
      <div>
        <b>Sicher</b> (empfohlen) — Build-Cache + ungenutzte Images, keine Volumes:<br>
        <code style="font-family:monospace;">docker builder prune -a -f && docker image prune -a -f</code>
      </div>
      <div style="color:#FFAA55;">
        <b>Aggressiv</b> — zusaetzlich ungenutzte Volumes. <b>Nur wenn alle ARIA-Container laufen</b>, sonst riskierst du Daten-Verlust (Sessions, SSH-Keys, Shared):<br>
        <code style="font-family:monospace;">docker system prune -a --volumes -f</code>
        <button onclick="copyDiskCmd('aggressive')" class="btn secondary" style="padding:2px 8px;font-size:10px;margin-left:6px;">Kopieren</button>
      </div>
    </div>
  </div>
  <h1>ARIA Diagnostic</h1>
  <!-- Haupt-Navigation -->
@@ -411,13 +438,14 @@
        </div>
        <!-- XTTS Stimme -->
-        <div style="display:flex;align-items:center;gap:12px;margin-bottom:12px;">
+        <div style="display:flex;align-items:center;gap:12px;margin-bottom:6px;">
          <label style="color:#8888AA;font-size:12px;">XTTS Stimme:</label>
          <select id="diag-xtts-voice" onchange="sendVoiceConfig()" style="background:#1E1E2E;color:#fff;border:1px solid #2A2A3E;border-radius:6px;padding:6px 10px;font-size:13px;">
            <option value="">Standard (XTTS Default)</option>
          </select>
          <button class="btn secondary" onclick="loadXTTSVoices()" style="padding:4px 10px;font-size:11px;">Laden</button>
        </div>
        <div id="voice-status" style="font-size:11px;min-height:14px;margin-bottom:12px;color:#8888AA;"></div>
        <!-- Gecloned Stimmen — Liste mit Loeschen -->
        <div id="xtts-voice-list" style="margin-bottom:12px;"></div>
@@ -753,6 +781,11 @@
          return;
        }
        if (msg.type === 'disk_status') {
          updateDiskBanner(msg);
          return;
        }
        if (msg.type === 'mode' && msg.payload) {
          // Bridge hat den Modus geaendert (evtl. von anderer App/Diagnostic) — UI syncen
          const mode = (msg.payload.mode || '').toLowerCase();
@@ -819,6 +852,25 @@
          return;
        }
        if (msg.type === 'voice_ready') {
          const v = msg.payload?.voice || '';
          const err = msg.payload?.error;
          const ms = msg.payload?.loadMs;
          const statusEl = document.getElementById('voice-status');
          if (statusEl) {
            if (err) {
              statusEl.textContent = `⚠️ Stimme "${v}" Fehler: ${err}`;
              statusEl.style.color = '#FF3B30';
            } else {
              statusEl.textContent = `✅ Stimme "${v || 'Standard'}" bereit${ms ? ` (${(ms/1000).toFixed(1)}s)` : ''}`;
              statusEl.style.color = '#34C759';
            }
            setTimeout(() => { if (statusEl) statusEl.textContent = ''; }, 5000);
          }
          addLog('info', 'xtts', err ? `Voice "${v}": ${err}` : `Voice "${v || 'Standard'}" bereit`);
          return;
        }
        if (msg.type === 'watchdog') {
          const colors = { warning: '#FFD60A', fixing: '#FF9500', fixed: '#34C759', error: '#FF3B30' };
          const color = colors[msg.status] || '#FFD60A';
@@ -1519,6 +1571,11 @@
      const xttsVoice = document.getElementById('diag-xtts-voice').value;
      const whisperModel = document.getElementById('diag-whisper-model').value;
      send({ action: 'send_voice_config', ttsEnabled, xttsVoice, whisperModel });
      const statusEl = document.getElementById('voice-status');
      if (statusEl && xttsVoice) {
        statusEl.textContent = `⏳ Stimme "${xttsVoice}" wird geladen...`;
        statusEl.style.color = '#FFD60A';
      }
    }
    // ── Passwort-Feld Anzeigen/Verbergen ─────────────────────
@@ -2155,6 +2212,53 @@
    const ttsToggleEl = document.getElementById('tts-debug-toggle');
    if (ttsToggleEl) ttsToggleEl.checked = showTtsDebug;
    // Disk-Space Banner aktualisieren (wird vom Server via disk_status gepusht)
    function updateDiskBanner(status) {
      const banner = document.getElementById('disk-banner');
      const icon = document.getElementById('disk-banner-icon');
      const text = document.getElementById('disk-banner-text');
      if (!banner) return;
      if (!status || status.level === 'ok') {
        banner.style.display = 'none';
        return;
      }
      const gb = (n) => (n / 1024 / 1024 / 1024).toFixed(1);
      const pct = status.percent;
      const used = gb(status.usedBytes);
      const total = gb(status.totalBytes);
      const avail = gb(status.availBytes);
      let bg, col, msg;
      if (status.level === 'critical') {
        bg = '#5C1A1A'; col = '#FF6B6B'; icon.innerHTML = '&#x1F6A8;'; // 🚨
        msg = `KRITISCH: Platte ${pct}% voll (${used}GB von ${total}GB, nur noch ${avail}GB frei). aria-core kann bald nicht mehr schreiben — sofort aufraeumen!`;
      } else if (status.level === 'warn') {
        bg = '#5C3A1A'; col = '#FFAA55'; icon.innerHTML = '&#x26A0;&#xFE0F;'; // ⚠️
        msg = `Warnung: Platte ${pct}% voll (${avail}GB frei). Bald aufraeumen.`;
      } else {
        bg = '#4A3A1A'; col = '#FFD60A'; icon.innerHTML = '&#x2139;&#xFE0F;'; // ℹ️
        msg = `Hinweis: Platte ${pct}% voll (${avail}GB frei).`;
      }
      banner.style.background = bg;
      banner.style.color = col;
      banner.style.borderBottom = `2px solid ${col}`;
      text.textContent = msg;
      banner.style.display = 'block';
    }
    function copyDiskCmd(variant) {
      const cmd = variant === 'aggressive'
        ? 'docker system prune -a --volumes -f'
        : 'docker builder prune -a -f && docker image prune -a -f';
      navigator.clipboard.writeText(cmd).then(() => {
        const btn = event.target;
        const old = btn.textContent;
        btn.textContent = 'Kopiert!';
        setTimeout(() => { btn.textContent = old; }, 1500);
      }).catch(() => {
        alert('Kopieren fehlgeschlagen — Befehl: ' + cmd);
      });
    }
    connectWS();
  </script>
 </body>
@@ -626,6 +626,17 @@ function connectRVS(forcePlain) {
        // Mode-Broadcast von der Bridge → an Browser-Clients weiterreichen
        log("info", "rvs", `Mode-Broadcast: ${msg.payload?.mode} (${msg.payload?.name})`);
        broadcast({ type: "mode", payload: msg.payload });
      } else if (msg.type === "voice_ready") {
        // XTTS-Bridge meldet Stimme fertig geladen → an Browser durchreichen
        const v = msg.payload?.voice || "";
        const err = msg.payload?.error;
        const ms = msg.payload?.loadMs;
        if (err) {
          log("warn", "rvs", `Voice-Ready Fehler fuer "${v}": ${err}`);
        } else {
          log("info", "rvs", `Voice "${v || "default"}" geladen${ms ? ` in ${(ms/1000).toFixed(1)}s` : ""}`);
        }
        broadcast({ type: "voice_ready", payload: msg.payload });
      } else {
        log("debug", "rvs", `Nachricht: ${JSON.stringify(msg).slice(0, 150)}`);
      }
@@ -1148,6 +1159,53 @@ function updateAgentActivity() {
  watchdogWarned = false;
 }
 // ── Disk-Space Monitor ───────────────────────────────
 // Prueft regelmaessig die Host-Disk (via gemountetem /shared) und
 // broadcastet bei kritischen Schwellwerten ein disk_status Event.
 let lastDiskStatus = null;
 let currentDiskStatus = null; // Vollstaendig fuer neu verbundene Clients
 function checkDiskSpace() {
  const { exec } = require("child_process");
  exec("df -B1 /shared", (err, stdout) => {
    if (err) return;
    const lines = stdout.trim().split("\n");
    if (lines.length < 2) return;
    const cols = lines[1].split(/\s+/);
    // Filesystem  Size  Used  Avail  Use%  MountedOn
    const total = parseInt(cols[1], 10);
    const used = parseInt(cols[2], 10);
    const avail = parseInt(cols[3], 10);
    if (!total) return;
    const pct = Math.round((used / total) * 100);
    let level = "ok";
    if (pct >= 95) level = "critical";
    else if (pct >= 85) level = "warn";
    else if (pct >= 70) level = "info";
    const status = {
      type: "disk_status",
      level,
      percent: pct,
      usedBytes: used,
      totalBytes: total,
      availBytes: avail,
    };
    currentDiskStatus = status;
    // Nur broadcasten wenn sich was geaendert hat (oder alle 60s Refresh)
    const key = `${level}-${pct}`;
    if (lastDiskStatus !== key) {
      lastDiskStatus = key;
      broadcast(status);
      if (level !== "ok") {
        log(level === "critical" ? "error" : "warn", "server",
          `Disk ${pct}% belegt (${(used/1024/1024/1024).toFixed(1)}GB von ${(total/1024/1024/1024).toFixed(1)}GB)`);
      }
    }
  });
 }
 // Beim Start + alle 30s
 setTimeout(checkDiskSpace, 2000);
 setInterval(checkDiskSpace, 30000);
 // Watchdog prüft alle 30s ob ARIA nach einer gesendeten Nachricht reagiert
 setInterval(async () => {
  if (pendingMessageTime === 0) return; // Keine Nachricht gesendet
@@ -1281,6 +1339,8 @@ wss.on("connection", (ws) => {
  browserClients.add(ws);
  // Initialen State + letzte Logs senden
  ws.send(JSON.stringify({ type: "init", state, logs: logs.slice(-100) }));
  // Letzten Disk-Status mitgeben damit der Client sofort weiss wie's um Platz steht
  if (currentDiskStatus) ws.send(JSON.stringify(currentDiskStatus));
  ws.on("message", (raw) => {
    try {
@@ -19,6 +19,7 @@ const ALLOWED_TYPES = new Set([
  "agent_activity", "cancel_request",
  "audio_pcm",
  "xtts_delete_voice",
  "voice_preload", "voice_ready",
 ]);
 // Token-Raum: token -> { clients: Set<ws> }
@@ -69,6 +69,18 @@ function connectRVS(forcePlain) {
        await handleListVoices();
      } else if (msg.type === "xtts_delete_voice") {
        await handleDeleteVoice(msg.payload);
      } else if (msg.type === "voice_preload") {
        await handleVoicePreload(msg.payload);
      } else if (msg.type === "config") {
        // Diagnostic hat globale Voice gewechselt → Preload damit der naechste
        // Render ohne Ladewartezeit startet + alle Clients "voice_ready" sehen
        const v = msg.payload && msg.payload.xttsVoice;
        if (v && v !== lastDiagnosticVoice) {
          lastDiagnosticVoice = v;
          await handleVoicePreload({ voice: v, source: "diagnostic" });
        } else if (!v) {
          lastDiagnosticVoice = "";
        }
      }
    } catch (err) {
      log(`Fehler: ${err.message}`);
@@ -95,7 +107,43 @@ function connectRVS(forcePlain) {
 // ── TTS Request Handler ─────────────────────────────
-async function handleTTSRequest(payload) {
+/**
 * Linearer Fade-In auf einen base64-PCM-Chunk (s16le).
 * Mascht XTTS-Warmup-Glitches am Anfang eines Renders.
 */
 function applyFadeIn(base64Pcm, sampleRate, channels, fadeMs) {
  const buf = Buffer.from(base64Pcm, "base64");
  const totalSamples = buf.length / 2; // s16le
  const fadeSamples = Math.min(
    Math.floor((fadeMs / 1000) * sampleRate) * channels,
    totalSamples
  );
  for (let i = 0; i < fadeSamples; i++) {
    const sample = buf.readInt16LE(i * 2);
    const gain = i / fadeSamples;
    buf.writeInt16LE(Math.round(sample * gain), i * 2);
  }
  return buf.toString("base64");
 }
 // ── TTS-Queue ──────────────────────────────────────
 // XTTS verarbeitet Requests sequenziell, damit Streams sich nicht ueberlappen.
 // Ohne Queue wuerden parallele Requests parallel streamen → App bekommt
 // interleaved PCM-Chunks aus zwei Rendern → klingt wie Chaos.
 let ttsQueue = Promise.resolve();
 // Merkt sich die letzte in Diagnostic gewaehlte Voice, damit wir nicht bei jedem
 // config-Broadcast (auch ohne Aenderung) einen Preload triggern.
 let lastDiagnosticVoice = "";
 function handleTTSRequest(payload) {
  ttsQueue = ttsQueue.then(() => _runTTSRequest(payload)).catch(err => {
    log(`TTS-Queue Fehler: ${err.message}`);
  });
  return ttsQueue;
 }
 async function _runTTSRequest(payload) {
  const { text, voice, requestId, language, messageId } = payload;
  if (!text) return;
@@ -116,87 +164,88 @@ async function handleTTSRequest(payload) {
    .replace(/\(\)/g, "")
    .trim();
-  // Satzweise Chunks (XTTS Modell laedt Context pro Call — Saetze gruppieren)
+  log(`TTS-Request (streaming): "${cleanText.slice(0, 80)}..." (${cleanText.length} chars, voice: ${voice || "default"})`);
  const sentences = cleanText.split(/(?<=[.!?])\s+/)
    .map(s => s.trim())
    .filter(s => s.length > 0)
    .map(s => s.replace(/[.]+$/, ''));
  const MAX_CHUNK_CHARS = 150;
  const chunks = [];
  let currentChunk = '';
  for (const sentence of sentences) {
    if (currentChunk && (currentChunk.length + sentence.length + 2) > MAX_CHUNK_CHARS) {
      chunks.push(currentChunk);
      currentChunk = sentence;
    } else {
      currentChunk = currentChunk ? currentChunk + ', ' + sentence : sentence;
    }
  }
  if (currentChunk) chunks.push(currentChunk);
  if (chunks.length === 0) return;
  log(`TTS-Request (streaming): "${cleanText.slice(0, 60)}..." (${chunks.length} Chunks, voice: ${voice || "default"})`);
  try {
-    const voiceSample = voice ? path.join(VOICES_DIR, `${voice}.wav`) : null;
+    // Im local-Mode erwartet daswer123 XTTS speaker_wav als Basename (ohne .wav,
-    const hasCustomVoice = voiceSample && fs.existsSync(voiceSample);
+    // ohne Pfad) — der Server prefixt EXAMPLE_FOLDER selbst. Wir checken hier
    // nur das physische File ab um Warnungen zu loggen; runter ans API geht
    // nur der Name.
    const voiceFilePath = voice ? path.join(VOICES_DIR, `${voice}.wav`) : null;
    const hasCustomVoice = voiceFilePath && fs.existsSync(voiceFilePath);
    const speakerName = hasCustomVoice ? voice : "";
    if (voice && !hasCustomVoice) {
      log(`WARNUNG: Voice "${voice}" angefordert, aber ${voiceFilePath} existiert nicht — nehme Default`);
    } else if (hasCustomVoice) {
      log(`Voice "${voice}" verwendet (speaker_wav="${speakerName}")`);
    }
    let chunkIndex = 0;
    // Audio-Format (aus WAV-Header extrahiert, einmal pro Request)
    let pcmMeta = null;
    let firstChunkSeen = false;
-    for (let i = 0; i < chunks.length; i++) {
+    const onChunk = (pcmBase64, meta) => {
-      const chunk = chunks[i];
+      if (!pcmMeta) pcmMeta = meta;
-      const isLastChunk = i === chunks.length - 1;
+      let outBase64 = pcmBase64;
-      try {
+      // Fade-In auf den ersten Chunk — maskiert XTTS-Warmup-Glitches
-        // Streaming: PCM-Frames werden nacheinander an RVS gepusht,
+      // (autoregressiver Generator hat am Anfang wenig Kontext → Artefakte).
-        // sobald sie vom XTTS-Server reinkommen
+      if (!firstChunkSeen && pcmBase64) {
-        await streamXTTSAsPCM(
+        firstChunkSeen = true;
-          chunk,
+        outBase64 = applyFadeIn(pcmBase64, meta.sampleRate, meta.channels, 120);
          language || "de",
          hasCustomVoice ? voiceSample : null,
          (pcmBase64, meta) => {
            if (!pcmMeta) pcmMeta = meta;
            sendToRVS({
              type: "audio_pcm",
              payload: {
                requestId: requestId || "",
                messageId: messageId || "",
                base64: pcmBase64,
                format: "pcm_s16le",
                sampleRate: meta.sampleRate,
                channels: meta.channels,
                voice: voice || "default",
                chunk: chunkIndex++,
                final: false,
              },
              timestamp: Date.now(),
            });
          },
        );
        // Nach letztem Text-Chunk: final-Flag senden damit App weiss "fertig"
        if (isLastChunk && pcmMeta) {
          sendToRVS({
            type: "audio_pcm",
            payload: {
              requestId: requestId || "",
              messageId: messageId || "",
              base64: "",
              format: "pcm_s16le",
              sampleRate: pcmMeta.sampleRate,
              channels: pcmMeta.channels,
              voice: voice || "default",
              chunk: chunkIndex++,
              final: true,
            },
            timestamp: Date.now(),
          });
        }
      } catch (chunkErr) {
        log(`TTS [${i + 1}/${chunks.length}] Fehler: ${chunkErr.message} — ueberspringe`);
      }
      sendToRVS({
        type: "audio_pcm",
        payload: {
          requestId: requestId || "",
          messageId: messageId || "",
          base64: outBase64,
          format: "pcm_s16le",
          sampleRate: meta.sampleRate,
          channels: meta.channels,
          voice: voice || "default",
          chunk: chunkIndex++,
          final: false,
        },
        timestamp: Date.now(),
      });
    };
    // /tts_stream fuer echtes Streaming (funktioniert im XTTS local-Mode).
    // Wenn Server im apiManual/api-Mode laeuft: 400 → Fallback auf /tts_to_audio/.
    try {
      await streamXTTSAsPCM(
        cleanText,
        language || "de",
        speakerName,
        onChunk,
      );
    } catch (streamErr) {
      log(`/tts_stream fehlgeschlagen (${streamErr.message.slice(0, 100)}) — Fallback /tts_to_audio/`);
      await streamXTTSBatch(
        cleanText,
        language || "de",
        speakerName,
        onChunk,
      );
    }
    // Am Ende: final-Flag damit App weiss "fertig" und Cache geschrieben werden kann
    if (pcmMeta) {
      sendToRVS({
        type: "audio_pcm",
        payload: {
          requestId: requestId || "",
          messageId: messageId || "",
          base64: "",
          format: "pcm_s16le",
          sampleRate: pcmMeta.sampleRate,
          channels: pcmMeta.channels,
          voice: voice || "default",
          chunk: chunkIndex++,
          final: true,
        },
        timestamp: Date.now(),
      });
    }
    log(`TTS komplett: ${chunkIndex} PCM-Frames gestreamt (${cleanText.length} chars)`);
@@ -211,45 +260,47 @@ async function handleTTSRequest(payload) {
 }
 /**
- * Ruft /tts_to_audio/ auf und streamt das resultierende WAV bereits waehrend
+ * Ruft /tts_stream auf — echter Streaming-Endpoint bei daswer123.
- * des Empfangs in PCM-Frames an den Callback. Der WAV-Header wird einmal
+ * Schickt was der Server verlangt (allow: GET), aber mit JSON-Body
- * geparst, danach werden nur noch raw PCM-Samples weitergeleitet.
+ * als POST scheitert mit 405. Manche Versionen wollen GET + Query,
- *
+ * andere POST + JSON. Testen was funktioniert.
 * Warum nicht echtes /tts_stream/? daswer123 hat den Endpoint, aber die
 * Audio-Quality ist dort niedriger und er produziert beim ersten Chunk
 * oft Artefakte. Pragmatischer Weg: /tts_to_audio/ + Response-Stream
 * chunkweise auslesen. Das ist zwar kein echtes Server-Streaming, aber
 * gibt uns deutlich kleinere Netzwerk-Haeppchen und die App kann via
 * AudioTrack MODE_STREAM sofort nahtlos abspielen.
 */
 function streamXTTSAsPCM(text, language, speakerWav, onPcmChunk) {
  return new Promise((resolve, reject) => {
-    const body = JSON.stringify({
+    // Wichtig: speaker_wav MUSS als Query-Key dabei sein (Pydantic required) —
-      text,
+    // auch bei default-voice mit leerem Wert. Sonst gibt's HTTP 422.
-      language,
+    // stream_chunk_size=250: grosse Chunks = wenige Chunk-Grenzen = wenig
-      speaker_wav: speakerWav || "",
+    // Render-Artefakte. daswer123 erzeugt an Chunk-Boundaries haeufig Glitches
-    });
+    // in den Worten die ueber die Grenze gehen. Hoehere Latenz ist OK.
    const qs = new URLSearchParams();
    qs.set("text", text);
    qs.set("language", language || "de");
    qs.set("speaker_wav", speakerWav || "");
    qs.set("stream_chunk_size", "250");
-    const url = new URL(`${XTTS_API_URL}/tts_to_audio/`);
+    const url = new URL(XTTS_API_URL);
    const fullPath = `/tts_stream?${qs.toString()}`;
    const options = {
      hostname: url.hostname,
-      port: url.port,
+      port: url.port || 80,
-      path: url.pathname,
+      path: fullPath,
-      method: "POST",
+      method: "GET",
      headers: {
        "Content-Type": "application/json",
        "Content-Length": Buffer.byteLength(body),
      },
      timeout: 60000,
    };
    log(`TTS GET /tts_stream?text=${text.slice(0, 30)}... (voice=${speakerWav ? "custom" : "default"})`);
    const req = http.request(options, (res) => {
      if (res.statusCode !== 200) {
        let body = "";
        res.on("data", (d) => { body += d.toString(); });
-        res.on("end", () => reject(new Error(`XTTS HTTP ${res.statusCode}: ${body.slice(0, 200)}`)));
+        res.on("end", () => {
          log(`XTTS /tts_stream ${res.statusCode}: ${body.slice(0, 300)}`);
          reject(new Error(`XTTS HTTP ${res.statusCode}: ${body.slice(0, 200)}`));
        });
        return;
      }
      log(`TTS stream verbunden, empfange PCM...`);
      let headerParsed = false;
      let sampleRate = 24000;
@@ -301,6 +352,76 @@ function streamXTTSAsPCM(text, language, speakerWav, onPcmChunk) {
    req.on("error", reject);
    req.on("timeout", () => { req.destroy(); reject(new Error("XTTS API Timeout (60s)")); });
    req.end();
  });
 }
 /**
 * Fallback: /tts_to_audio/ (POST JSON) — rendert komplett, dann response.
 * Kein echtes Streaming, aber stabil als Backup wenn /tts_stream nicht geht.
 * Shared chunking-Logik mit streamXTTSAsPCM — parst WAV-Header, stueckelt PCM.
 */
 function streamXTTSBatch(text, language, speakerWav, onPcmChunk) {
  return new Promise((resolve, reject) => {
    const body = JSON.stringify({
      text,
      language: language || "de",
      speaker_wav: speakerWav || "",
    });
    const url = new URL(XTTS_API_URL);
    const options = {
      hostname: url.hostname,
      port: url.port || 80,
      path: "/tts_to_audio/",
      method: "POST",
      headers: {
        "Content-Type": "application/json",
        "Content-Length": Buffer.byteLength(body),
      },
      timeout: 60000,
    };
    const req = http.request(options, (res) => {
      if (res.statusCode !== 200) {
        let rb = "";
        res.on("data", (d) => { rb += d.toString(); });
        res.on("end", () => reject(new Error(`XTTS Batch HTTP ${res.statusCode}: ${rb.slice(0, 200)}`)));
        return;
      }
      let headerParsed = false;
      let sampleRate = 24000;
      let channels = 1;
      let leftover = Buffer.alloc(0);
      let headerBuf = Buffer.alloc(0);
      const HEADER_BYTES = 44;
      const PCM_CHUNK_BYTES = 8192;
      res.on("data", (chunk) => {
        let data = chunk;
        if (!headerParsed) {
          headerBuf = Buffer.concat([headerBuf, data]);
          if (headerBuf.length < HEADER_BYTES) return;
          const header = headerBuf.slice(0, HEADER_BYTES);
          try { channels = header.readUInt16LE(22); sampleRate = header.readUInt32LE(24); } catch (_) {}
          headerParsed = true;
          data = headerBuf.slice(HEADER_BYTES);
        }
        let combined = Buffer.concat([leftover, data]);
        while (combined.length >= PCM_CHUNK_BYTES) {
          const slice = combined.slice(0, PCM_CHUNK_BYTES);
          combined = combined.slice(PCM_CHUNK_BYTES);
          onPcmChunk(slice.toString("base64"), { sampleRate, channels });
        }
        leftover = combined;
      });
      res.on("end", () => {
        if (leftover.length > 0) onPcmChunk(leftover.toString("base64"), { sampleRate, channels });
        resolve();
      });
      res.on("error", reject);
    });
    req.on("error", reject);
    req.on("timeout", () => { req.destroy(); reject(new Error("XTTS Batch Timeout (60s)")); });
    req.write(body);
    req.end();
  });
@@ -365,6 +486,63 @@ async function handleDeleteVoice(payload) {
 // ── Voice List Handler ──────────────────────────────
 /**
 * Preload einer Stimme — rendert stumm ein kurzes Dummy-Audio, damit XTTS
 * die Speaker-Latents laedt und der naechste echte Request ohne Wartezeit
 * loslegen kann. Broadcastet "voice_ready" wenn fertig (oder mit error).
 */
 async function handleVoicePreload(payload) {
  const voice = (payload && payload.voice) || "";
  const source = (payload && payload.source) || "unknown";
  const requestId = (payload && payload.requestId) || "";
  log(`Voice-Preload angefordert: "${voice}" (source=${source})`);
  try {
    let speakerName = "";
    if (voice) {
      const voiceFilePath = path.join(VOICES_DIR, `${voice}.wav`);
      if (!fs.existsSync(voiceFilePath)) {
        sendToRVS({
          type: "voice_ready",
          payload: { voice, requestId, error: "voice-file-not-found" },
          timestamp: Date.now(),
        });
        log(`Preload abgebrochen: ${voiceFilePath} existiert nicht`);
        return;
      }
      speakerName = voice;
    }
    // Dummy-Request via Queue — damit sich Preload nicht mit echtem TTS ueberholt.
    const t0 = Date.now();
    await new Promise((resolve, reject) => {
      ttsQueue = ttsQueue.then(async () => {
        try {
          await streamXTTSAsPCM("ja.", "de", speakerName, () => {});
          resolve();
        } catch (err) {
          reject(err);
        }
      }).catch(reject);
    });
    const ms = Date.now() - t0;
    log(`Voice "${voice || "default"}" geladen in ${ms}ms`);
    sendToRVS({
      type: "voice_ready",
      payload: { voice, requestId, loadMs: ms },
      timestamp: Date.now(),
    });
  } catch (err) {
    log(`Voice-Preload Fehler: ${err.message}`);
    sendToRVS({
      type: "voice_ready",
      payload: { voice, requestId, error: err.message.slice(0, 200) },
      timestamp: Date.now(),
    });
  }
 }
 async function handleListVoices() {
  try {
    const files = fs.existsSync(VOICES_DIR)
@@ -33,6 +33,12 @@ services:
      - ./voices:/voices                        # Custom Voice Samples
    environment:
      - COQUI_TOS_AGREED=1
      # Local-Modus statt default "apiManual": Modell bleibt im GPU-VRAM,
      # Render startet sofort, /tts_stream funktioniert.
      # Default-CMD des Images liest diese ENV: -ms ${MODEL_SOURCE:-"apiManual"}
      - MODEL_SOURCE=local
      # Speaker-Folder auf unsere gemounteten voices zeigen lassen
      - EXAMPLE_FOLDER=/voices
    restart: unless-stopped
  # ─── XTTS Bridge (verbindet zu RVS) ───────────
Author	SHA1	Message	Date
duffyduck	97a1a3089a	release: bump version to 0.0.5.1	2026-04-23 22:02:17 +02:00
duffyduck	64f18e97a0	release: bump version to 0.0.5.0	2026-04-23 15:31:18 +02:00
duffyduck	9cbea27455	feat: voice_preload/voice_ready — Feedback wenn neue Stimme geladen ist XTTS-Bridge: - empfaengt neuen voice_preload Type, rendert stumm "ja." fuer die Stimme via TTS-Queue (damit kein Konflikt mit echtem TTS) - horcht zusaetzlich auf config-Broadcasts: wenn Diagnostic global die Stimme wechselt, wird auto-preloaded - broadcastet voice_ready mit Dauer (loadMs) oder error RVS: voice_preload + voice_ready zur ALLOWED_TYPES-Liste. App (SettingsScreen): beim Wechsel senden wir voice_preload, zeigen einen Spinner in der Voice-Row und einen Toast mit "Stimme X bereit (Ns)". App (ChatScreen): Toast auch hier — falls User gerade nicht in Settings ist. Diagnostic (server+UI): voice_ready wird an Browser durchgereicht, ein Status-Text unter dem Voice-Dropdown zeigt "wird geladen" → "bereit". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 10:24:08 +02:00
duffyduck	c8881f9e4d	release: bump version to 0.0.4.9	2026-04-22 23:02:28 +02:00
duffyduck	028e3b2240	fix: Voice-Auswahl funktioniert endlich + Diagnostic setzt alle Apps zurueck XTTS-Bridge: im daswer123 local-Mode erwartet der Server speaker_wav als Basename (z.B. "Maia"), nicht als Pfad. Wir haben bisher "/voices/Maia.wav" geschickt, was der Server stumm verwirft und Default nimmt. Jetzt: speaker name pur senden + Warnlog wenn File fehlt. App: ChatScreen + SettingsScreen horchen auf type "config" vom RVS — wenn in Diagnostic die globale XTTS-Voice gewechselt wird, werden alle Apps auf den neuen Wert zurueckgesetzt (wie vom User gewuenscht). Lokale App-Wahl bleibt sonst intakt und gewinnt pro Request. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:32:40 +02:00
duffyduck	c042f27106	feat: generisches Buchstabieren fuer unbekannte Akronyme Nach der expliziten _UNIT_WORDS-Liste greift eine Fallback-Regel: alle verbleibenden 2-5-Zeichen-Grossbuchstaben-Woerter werden buchstabiert. XTTS → X T T S, USB → U S B, DNS → D N S, JSON → J S O N. Spezielle Faelle (WLAN, NATO — als Wort gesprochen) koennen bei Bedarf in _UNIT_WORDS explizit ueberschrieben werden. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:17:04 +02:00
duffyduck	4ceadf8be5	release: bump version to 0.0.4.8	2026-04-22 19:08:00 +02:00
duffyduck	ddd30b3059	feat: Pre-Roll-Buffer fuer TTS einstellbar in App-Settings - Kotlin start() nimmt jetzt prerollSeconds als dritten Parameter (1.0-6.0s geclampt, Fallback 3.5s bei ungueltigem Wert) - audio.ts liest Wert aus AsyncStorage vor jedem Stream-Start, exportiert Default/Min/Max/Key als Konstanten - SettingsScreen: +/- Buttons direkt unter dem TTS-Toggle, Default auf 3.5s (von 2.5s) angehoben Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:06:55 +02:00
duffyduck	6c8ba5fe2d	fix: Fade-In auf ersten PCM-Chunk — maskiert XTTS-Warmup-Glitches XTTS daswer123 hat am Anfang jedes Renders Warmup-Artefakte — die ersten autoregressiv generierten Tokens haben wenig Kontext und klingen verzerrt. Ein 120ms Linear-Fade-In auf den ersten ausgehenden PCM-Chunk blendet das sanft auf und versteckt die Glitches, ohne dass das echte Audio danach leiser klingt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:01:36 +02:00
duffyduck	32ddac002f	fix: stream_chunk_size auf 250 erhoeht — weniger Render-Artefakte XTTS daswer123 erzeugt an Chunk-Grenzen oft Glitches in den Worten die ueber die Grenze gehen. 100 → 250 = weniger Grenzen pro Satz = sauberere Sprachausgabe. Erste-Audio-Latenz steigt um ein paar Sekunden, was aber OK ist seit die App Pre-Roll gepuffert ist. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:56:00 +02:00
duffyduck	bbbe69d928	release: bump version to 0.0.4.7	2026-04-22 18:46:25 +02:00
duffyduck	23c39d5bba	feat: Dezimalzahlen fuer TTS ausschreiben + Leading-Silence im Stream - aria_bridge clean_text_for_tts: "0.1" / "0,5" / "1,25" wird jetzt als "null komma eins" / "null komma fuenf" / "eins komma zwei fuenf" ausgeschrieben. Lookahead verhindert Match auf IP-artige Strings. - PcmStreamPlayer: 200ms Stille am Stream-Anfang, damit AudioTrack sauber anfaehrt und die ersten Worte nicht verschluckt werden. (XTTS-Warmup + play()-Startup-Latenz) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:44:38 +02:00
duffyduck	5328dc8595	release: bump version to 0.0.4.6	2026-04-22 18:32:31 +02:00
duffyduck	0c03b4f161	fix: Stream-Ende wartet auf playbackHeadPosition vor release() AudioTrack.stop() + release() direkt nach dem letzten write() killt die letzten Sekunden Audio — die Samples sind zwar im Buffer, aber noch nicht durch die Hardware rausgespielt. Deshalb brach die Sprachausgabe mitten im Satz ab (z.B. bei "diesmal"). Fix: Writer-Thread wartet im finally-Block bis playbackHeadPosition die Anzahl geschriebener Frames erreicht, dann erst stop()/release(). Safety: 2s Stall-Detection, falls AudioTrack haengen bleibt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:31:12 +02:00
duffyduck	31fe70bab5	release: bump version to 0.0.4.5	2026-04-22 18:18:20 +02:00
duffyduck	39251b3d32	feat: AudioTrack Pre-Roll — Playback startet erst nach 2.5s Vorrat User-Diagnose: Erneutes Abspielen aus Cache funktioniert komplett, aber Live-Stream bricht ab. Bedeutet: PCM kommt an, Cache ist okay — Problem ist Buffer-Underrun im AudioTrack wenn XTTS (RTF 1.48 auf RTX 3060) langsamer rendert als Echtzeit-Playback konsumiert. Fix: AudioTrack.play() wird NICHT mehr sofort beim start() aufgerufen. Stattdessen: - start() baut AudioTrack, Writer-Thread startet, spielt aber noch nicht - writeChunk() fuellt queue, Writer schreibt in AudioTrack-internen Buffer (blocked wenn der voll ist) - Sobald bytesBuffered >= 2.5s Audio im Buffer: play() aufrufen - Falls end() kommt bevor Pre-Roll erreicht (kurze Texte): trotzdem play() Das gibt dem Stream Zeit Vorrat aufzubauen. XTTS kann dann pausieren zwischen Text-Chunks ohne dass Playback stottert. Pre-Roll 2.5s reicht fuer typische Render-Pausen zwischen Chunks. Buffer groesse = 2x Pre-Roll damit wir auch extrem bursty Delivery puffern koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:16:02 +02:00
duffyduck	0623de32a0	tune: stream_chunk_size 200 -> 100 gegen 6s Initial-Latenz Mit RTF 1.48 (RTX 3060) rechnet XTTS fuer 200 chars ca. 6s bis erster PCM-Chunk rauskommt — User wartet nach ARIA-Antwort 6s auf Sprachausgabe. stream_chunk_size=100: Erster Chunk in ~3s bereit, reduziert Initial-Latenz um ~50%. 100 chars sind auch noch gross genug dass der AudioTrack-Buffer (128KB ≈ 2.7s Audio) zwischen Render-Chunks nicht leerlaeuft → kein mid-sentence Abbruch wie bei 40. Falls bei bestimmten Texten doch Gaps: stream_chunk_size zurueck auf 150, oder pre-roll im Android PcmStreamPlayer einbauen (nur starten wenn X ms gepuffert sind). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:08:10 +02:00
duffyduck	cd5e6e7ee6	fix: stream_chunk_size 40 -> 200 gegen Audio-Abbrueche mid-sentence Bei stream_chunk_size=40 teilte XTTS Text in ~40-char Batches. Zwischen Batches pausiert XTTS (RTF 1.48 auf RTX 3060 → langsamer als Realtime-Wiedergabe). AudioTrack-Buffer lief leer, Track stoppte, nachkommender PCM kam zu spaet → Audio bricht mid-sentence ab (User-Bug: bei 73-char Text Abbruch nach Wort 'diesmal' was genau an der 40-char Grenze lag). stream_chunk_size=200: - Kurze Saetze (<200 chars) komplett in einem Render → kein Abbruch - Laengere Texte: groessere Chunks, laenger Audio pro Chunk als Render-Pause → Buffer bleibt gefuellt - Kompromiss: first-audio-latency etwas hoeher, aber keine Abbrueche Wenn spaeter Audio-Abbrueche bei langen Texten: stream_chunk_size noch groesser setzen ODER einen "pre-roll" Buffer in der App. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:06:25 +02:00
duffyduck	ee3e0a0af6	fix: XTTS local-Mode per ENV statt command-Override Das Image-Default-CMD liest Konfig aus ENV Variablen: CMD: ... -ms \${MODEL_SOURCE:-"apiManual"} Also reicht MODEL_SOURCE=local — command bleibt Image-Default und wir sparen uns den brueckigen Override der schief ging (python nicht da, flag-Namen raten, etc.). Zusaetzlich: EXAMPLE_FOLDER=/voices damit der Speaker-Folder auf unser gemountetes /voices zeigt (sonst /app/example was nur die Demo-Voices enthaelt). Kein command override mehr noetig — das Image macht alles wie vorher, nur mit local-Mode. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:59:39 +02:00
duffyduck	0783b1b99d	fix: XTTS command nutzt python3 statt python Image hat nur /usr/bin/python3, kein 'python'-Symlink. Vorher ging's weil kein command override — das Image-Default CMD lief durch. Wir ueberschreiben nur damit wir -ms local setzen koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:58:29 +02:00
duffyduck	5492c7a46f	fix: XTTS command braucht 'python -m xtts_api_server' als erstes Arg NVIDIA-Entrypoint fuehrt 'exec \$@' aus — erstes Arg muss ein ausfuehrbares sein. Nur Flags zu geben ('--listen') fuehrt zu 'exec: --: invalid option'. Fix: command=['python','-m','xtts_api_server','-ms','local',...] Damit wird der xtts_api_server Python-Modul gestartet und im local-Mode konfiguriert. Ob die Flag-Namen exakt stimmen (-hs/-p/-ms/-o/-mf/-sf) — falls nicht, poppt ein klarer Python-Fehler im Log. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:49:29 +02:00
duffyduck	4cbe184faa	feat: XTTS auf local-Mode (dauerhaft im VRAM) + /tts_stream + Fallback Root cause der langen Render-Zeiten und /tts_stream 400-Errors: daswer123 default ist apiManual/api-Mode — Modell wird pro Request gefetched/reloaded, Streaming unsupported. Fix in xtts/docker-compose.yml: command: ['--listen', '-p', '8020', '-t', 'http://0.0.0.0:8020', '-ms', 'local', '-o', '/app/output', '-mf', '/app/xtts_models', '-sf', '/voices'] -ms local: - Modell dauerhaft im GPU-VRAM (~2GB, passt auf RTX 3060 mit 12GB) - Render startet sofort, kein per-Request-Load mehr - /tts_stream unterstuetzt → echtes progressive streaming - time-to-first-audio ~500ms statt 8-11s xtts/bridge.js: /tts_stream primary, /tts_to_audio/ als Fallback wenn Stream fehlt. Robust: wenn User spaeter den Mode wieder umstellt, fallback greift. Erste Ladung nach dem Wechsel dauert einmalig laenger (Modell ins VRAM laden). Danach: schnell + streaming. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:38:53 +02:00
duffyduck	647a1cb726	fix: XTTS nutzt direkt /tts_to_audio/ — /tts_stream nicht verfuegbar XTTS-Server (daswer123) im API-Modus antwortet auf /tts_stream mit: HTTP 400: "HTTP Streaming is only supported for local models" Das Feature braucht MODE=local in der XTTS-Config (Modell direkt im Server-Prozess). Userbetreibt im Remote-Modus → kein Streaming. Der try /tts_stream + fallback /tts_to_audio Ansatz war reine Ver- schwendung: jeder Request wartete 6ms auf 400, bevor der Fallback griff. Jetzt geht's direkt an /tts_to_audio/. Kein echtes Streaming, aber: - Queue sorgt fuer sequentielle Verarbeitung (kein Overlap mehr) - 32x AudioTrack-Buffer faengt den bursty Response ab - aria-bridge spiegelt audio_pcm nicht mehr (kein Doppel-Audio) Wenn User spaeter /tts_stream haben will: XTTS-Server mit MODE=local oder --streaming-mode starten, dann kann man /tts_stream als primary einfuehren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:23:55 +02:00
duffyduck	73263b69a6	fix: /tts_stream — speaker_wav muss IMMER als query-param gesetzt sein XTTS-Server (daswer123) markiert speaker_wav als required Pydantic-Feld. Mein 'if (speakerWav) qs.set(...)' hat den Key bei default-voice weggelassen → HTTP 422 'Field required, input: null' → Fallback auf /tts_to_audio/ hat gegriffen, aber Streaming nie gefunden. Log-Beweis vom User: XTTS /tts_stream 422: {"detail":[{"type":"missing","loc":["query", "speaker_wav"],"msg":"Field required","input":null}]} Fix: Key immer setzen, leerer String bei default-voice. POST-Variante (/tts_to_audio/ JSON-Body) hat das auch so akzeptiert — GET-Query nun gleiches Verhalten. Ab jetzt sollte /tts_stream endlich greifen und echte Streaming-Latenz (~300-500ms) zeigen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 16:47:28 +02:00
duffyduck	c62ceafdc2	fix: XTTS-Endpoint mit Fallback-Chain + Diagnose-Logs Problem: /tts_stream hat bei User nicht funktioniert → keine Sprachausgabe mehr. Server hatte vorher 405 fuer POST geantwortet, meine Umstellung auf GET scheint aber einen anderen Fehler zu produzieren der nicht geloggt wurde. Fix: - streamXTTSAsPCM() = /tts_stream (GET, Streaming) mit ausfuehrlichem Error-Logging bei non-200 Response - streamXTTSBatch() = /tts_to_audio/ (POST, Batch) als Fallback - handleTTSRequest versucht Stream zuerst, bei Exception Fallback auf Batch — so gibt's IMMER Audio, auch wenn /tts_stream kaputt ist - Log zeigt welcher Pfad benutzt wurde Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 15:53:10 +02:00
duffyduck	9b5a35cb4a	fix: /tts_stream als GET mit Query-Params (war 405 Method Not Allowed) daswer123 xtts-api-server hat /tts_stream nur als GET: allow: GET → POST gab 405 → Request hing. Umstellung: - method: 'GET' - text/language/speaker_wav/stream_chunk_size als URLSearchParams im Query-String - kein body mehr (kein req.write, kein Content-Length) Ab jetzt echter streaming-Flow: Samples kommen waehrend XTTS noch rendert, time-to-first-audio ~300-500ms. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:52:16 +02:00
duffyduck	5ac1a0a522	revert: XTTS-Endpoint zurueck auf /tts_to_audio/ /tts_stream war bei der aktiven daswer123-Version nicht erreichbar — Requests hingen stille, App bekam kein Audio. Zurueck auf /tts_to_audio/ + Queue + 32x AudioTrack-Buffer. Das ist zwar nicht echt-streaming aber stabil. Ueberlappung sollte durch die Queue weg sein, Buffer toleriert den bursty Delivery. Echt-Streaming-Migration spaeter mit verifizierter Server-Version oder anderem Endpoint. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:48:27 +02:00
duffyduck	a28b46a809	release: bump version to 0.0.4.4	2026-04-20 16:42:19 +02:00
duffyduck	59c8d36a3d	fix: Streaming TTS nutzt jetzt echt den /tts_stream Endpoint von XTTS Vorher: /tts_to_audio/ — XTTS rendert kompletten WAV BEVOR es antwortet. Mein "streaming" war nur fake-chunking des fertigen WAV. Time-to-first-audio = komplette Render-Zeit (2-4s), dann Burst, dann Stille. Plus bei langen Antworten: Queue blockiert. Jetzt: /tts_stream — daswer123's chunked-transfer endpoint. Samples flutschen waehrend der Generierung durch die Response raus. Parameter: - stream_chunk_size=40 → XTTS rendert in ~40-char Haeppchen intern, time-to-first-audio ~300-500ms statt 2-4s - WAV-Header kommt wie gewohnt am Anfang (44 Bytes), danach raw PCM → mein existierender Header-Parser + 8KB-Chunker passen weiter Voraussetzung: daswer123/xtts-api-server hat diesen Endpoint (ab Version ~0.8.x). Sollte bei der aktuellen Version drin sein. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:35:55 +02:00
duffyduck	79ba7b8487	release: bump version to 0.0.4.3	2026-04-20 08:01:46 +02:00
duffyduck	ba62cec78c	fix: Disk-Banner — Safe-Cleanup als Default + Aggressiv hinter Expander Safe-Variante (Default): docker builder prune -a -f && docker image prune -a -f → Build-Cache + ungenutzte Images, KEINE Volumes angefasst. → 90% des Platzproblems geloest, Null Datenverlust-Risiko. Aggressive Variante (nur auf Wunsch, hinter 'Mehr'-Button): docker system prune -a --volumes -f → Zusaetzlich ungenutzte Volumes. → Nur sicher wenn alle ARIA-Container LAUFEN (sonst werden openclaw-config/claude-config/aria-shared als "ungenutzt" behandelt und zerstoert — Sessions weg). → Hinweistext orange hervorgehoben mit Warnung. Banner-Button 'Sicher aufraeumen' kopiert die sichere Variante. 'Mehr' klappt die Erklaerung der aggressiven Variante aus. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:39:22 +02:00
duffyduck	f15b3f583f	feat: Disk-Space Banner im Diagnostic mit Cleanup-Command zum Kopieren Server: - checkDiskSpace() prueft alle 30s 'df -B1 /shared' (zeigt Host-Disk da /shared ein Volume auf dem Docker-FS ist) - 4 Stufen: ok (<70%), info (70%), warn (85%), critical (95%) - Broadcastet disk_status nur bei Aenderung (Level oder Prozent) - currentDiskStatus wird gecached → neu verbundene Clients bekommen den aktuellen Stand sofort beim 'init' UI: - Sticky Banner ganz oben, versteckt wenn Disk ok - Farbe nach Level: gelb (info), orange (warn), rot (critical) - Zeigt Prozent, Used/Total/Avail in GB, konkrete Situation - Cleanup-Command als monospace Code mit Copy-Button ('docker system prune -a --volumes -f') — Click auf Code oder Button kopiert ins Clipboard, Fallback auf Range-Selektion - 'Schliessen' Button fuer temporaeres Ausblenden (kommt aber wieder bei naechster Aenderung) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:36:36 +02:00
duffyduck	402bddc18a	fix: Streaming TTS — Queue in XTTS-Bridge + groesserer Android-Buffer 1) Ueberlappende Streams Wenn zwei xtts_requests schnell hintereinander kamen, rannten sie parallel durch handleTTSRequest. Beide HTTP-Requests an XTTS liefen gleichzeitig, beide streamen PCM an App → Chunks aus BEIDEN Renders landeten interleaved in der AudioTrack-Queue → Chaos. Fix: ttsQueue als Promise-Chain — handleTTSRequest() haengt sich ans Ende der Kette an. Requests werden sequenziell abgearbeitet. 2) AudioTrack-Buffer zu klein fuer bursty Delivery XTTS /tts_to_audio/ ist NICHT echt streaming — der Server rendert intern den kompletten WAV und schickt ihn dann burst-weise. Der alte 8x-MinBuffer (ca 200-400ms) war zu klein um das abzufangen. Fix: Buffer auf 32x MinSize / mind. 128KB = ca. 2.7s bei 24kHz. Das toleriert typische XTTS-Render-Latenz. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:27:16 +02:00
duffyduck	350069d371	fix: Streaming TTS — doppeltes Audio + Gaps zwischen Saetzen Zwei Probleme gefunden: 1) DOPPELTES AUDIO (Kern-Ursache der Artefakte) aria-bridge hat audio_pcm von XTTS-Bridge empfangen und per _send_to_rvs rebroadcastet. RVS broadcast geht an ALLE Clients ausser Sender — die App bekam jeden Chunk also zwei mal: XTTS-Bridge → RVS → App + aria-bridge aria-bridge → RVS → App (nochmal!) + XTTS-Bridge Zwei ueberlagerte PCM-Streams klingen wie Doubled/Artefakte. Fix: aria-bridge ignoriert audio_pcm jetzt. messageId schickt XTTS-Bridge selbst im Payload (via xtts_request -> messageId). 2) GAPS ZWISCHEN SAETZEN (abgehackt) xtts/bridge.js teilte Text in ~150-char Chunks und rief pro Chunk einen eigenen /tts_to_audio/ Request. Zwischen Chunks lag die XTTS-Render-Zeit (1-3s) → hoerbare Pausen. Fix: cleanText geht JETZT in einem Request komplett an XTTS. Ein zusammenhaengender Stream → keine Satz-Gaps mehr. Kompromiss: Erste Samples kommen spaeter (ganze Text-Render dauert laenger als der erste Satz alleine), aber dann kontinuierlich ohne Unterbrechung. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:15:57 +02:00