ARIA-AGENT

Author	SHA1	Message	Date
duffyduck	6ce9880bc0	fix: HF-Modell-Cache als Bind-Mount statt Docker Volume Beide Bridges teilen sich jetzt einen Bind-Mount ./hf-cache:/root/.cache/ huggingface. Vorher waren das zwei getrennte Named Volumes (f5tts-models + whisper-models), die unter Docker Desktop / Windows in der docker-desktop-data.vhdx gelandet sind und die VHDX nie wieder freigegeben haben — auch nach docker volume rm bleibt der belegte Platz in der VHDX bis zum Factory Reset. Bind-Mount loest beides: - Files direkt im xtts/hf-cache/ sichtbar, einfach im Explorer zu loeschen - Kein VHDX-Bloat mehr - Beide Container teilen sich den Cache (HF-Struktur identisch, keine Konflikte da andere Modelle) Cleanup von vorhandenen 50GB: docker compose down docker volume rm xtts_f5tts-models xtts_whisper-models (oder via Docker Desktop UI) Anschliessend in Docker Desktop: Settings -> Resources -> Disk image location -> Disk usage -> "Clean up" / Reset wenn die VHDX nicht schrumpft. xtts/.gitignore: hf-cache/ + voices/ + .env Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:47:18 +02:00
duffyduck	187ffad7ee	feat: F5-TTS Tuning ueber Diagnostic statt .env Folgt der "keine neuen Settings in .env" Regel. f5tts/bridge.py: - F5TTS_MODEL/CKPT_FILE/VOCAB_FILE/CFG_STRENGTH/NFE_STEP ENV-Vars raus - Hard-coded Defaults im Code (DEFAULT_F5TTS_) - F5Runner besitzt Live-Settings als Instance-Vars + update_config() - config-Broadcast triggert Modell-Reload nur wenn Modell-relevantes sich aendert (cfg_strength/nfe_step ohne Reload) - F5TTS_DEVICE bleibt ENV (Hardware-Bootstrap) xtts/docker-compose.yml: F5TTS_ ENV-Vars rausgenommen, Kommentar verweist auf Diagnostic-Config. aria-bridge: nimmt f5tts*-Felder im config-Handler entgegen, persistiert sie in voice_config.json. Beim RVS-Connect broadcastet die Bridge die persistierte Config einmalig — damit die f5tts-bridge nach Container- Restart automatisch die zuletzt gewaehlten Settings bekommt, ohne dass der User in Diagnostic was klicken muss. Diagnostic UI: - Neuer aufklappbarer "F5-TTS Modell-Tuning (advanced)" Bereich - Felder: Modell-ID, Custom-Checkpoint, Vocab, cfg_strength, nfe_step - voice_config beim Laden: Felder werden zurueck in die UI gesetzt - sendVoiceConfig schickt die neuen Felder mit - Server: send_voice_config persistiert die Felder, leere Strings werden geloescht damit die Hard-Defaults greifen Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:44:58 +02:00
duffyduck	467f95424e	fix: F5-TTS Voice-Referenztext + Standard-Eintrag raus Bug-Root: voice_upload schrieb "Das ist ein Referenz Audio." als Platzhalter wenn die whisper-bridge nicht erreichbar war. F5-TTS bekam dann diesen Text als Sprach-Anker, sah aber im WAV ganz andere Worte → verwirrtes Modell, halluziniert in beliebiger Sprache (z.B. Spanisch). Fixes: - handle_voice_upload: schreibt KEINE Platzhalter-.txt mehr. Bei Failure bleibt die .txt weg → naechste TTS-Nutzung zieht via on-the-fly retry nach. - _do_tts: Legacy-Platzhalter wird beim Render erkannt und geloescht, Transkription on-the-fly neu angezogen. Bestehende kaputte voices reparieren sich automatisch beim ersten Render. UI-Aufraeumung: F5-TTS hat keine "Standard"-Stimme — der Eintrag ist raus in App SettingsScreen + Diagnostic. Diagnostic-Dropdown hat jetzt einen disabled-Hinweis "(keine Stimme gewaehlt)". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:33:53 +02:00
duffyduck	c1a5518fb7	fix(f5tts): cfg_strength hochgezogen damit Deutsch nicht ins Spanische rutscht F5TTS_v1_Base ist hauptsaechlich auf Englisch+Chinesisch trainiert; bei Deutsch (oder anderen Romance/Germanic-Sprachen) schwimmt der Generator ohne starkes Conditioning gerne in eine andere Sprache. - cfg_strength 2.0 → 2.5 (per ENV F5TTS_CFG_STRENGTH ueberschreibbar) - nfe_step bleibt 32 (per ENV ueberschreibbar) - F5TTS_CKPT_FILE / F5TTS_VOCAB_FILE als ENV — damit man eine Community- German-Checkpoint einhaengen kann ohne Code-Aenderung Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:30:08 +02:00
duffyduck	576ae925dd	feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox Neuer aria-f5tts-bridge Container: - Python-Service, laedt F5TTS_v1_Base beim Start - Empfaengt xtts_request via RVS, synthetisiert mit Voice-Cloning, streamt PCM-Chunks (audio_pcm, 16-bit s16le) wie zuvor die XTTS-Bridge - Teilt lange Texte an Satzgrenzen, streamt satzweise - Fade-In auf erstem Chunk, Queue gegen parallel-Render Voice-Management: - Speicherort weiterhin /voices/, aber jetzt als Paar {name}.wav + {name}.txt (F5-TTS braucht Referenz-Transkription) - voice_upload: WAV speichern, intern stt_request an whisper-bridge senden, Transkription als .txt ablegen → user muss nichts eintippen - On-the-fly Transkribierung: wenn eine WAV ohne .txt liegt, wird bei erstem Render/Preload nachgezogen - Bestehende RVS-Messages (voice_upload/xtts_list_voices/... etc.) bleiben unveraendert → keine App/Diagnostic-Aenderung noetig Gaming-PC docker-compose: - xtts + xtts-bridge Services entfernt - f5tts-bridge + whisper-bridge bleiben/kommen rein - Volume xtts-models → f5tts-models Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:34:11 +02:00
duffyduck	a1343ee18f	debug: Logs beim stt_request-Roundtrip — aria-bridge loggt beim Senden, whisper-bridge loggt eingehende stt_request (id + Audio-Groesse). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:13:41 +02:00
duffyduck	b2d3c935d8	fix(whisper): requests explizit als Dependency — faster-whisper 1.0.3 zieht sie selber nicht rein, Container crashed sonst beim Import. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 13:59:59 +02:00
duffyduck	e544992c9f	feat(phase1): Whisper STT auf die Gamebox ausgelagert Neuer Container aria-whisper-bridge auf der Gamebox — faster-whisper CUDA mit float16. Der Container verbindet sich per WebSocket an den RVS, nimmt stt_request entgegen, laeuft ffmpeg+Whisper, antwortet mit stt_response. Hoert zusaetzlich auf config-Broadcasts und lädt das Modell hot-swap bei Diagnostic-Wechsel. aria-bridge ruft jetzt primaer die Gamebox an; nur wenn die nicht binnen 45s antwortet, faellt auf lokales Whisper (CPU) zurueck. Das lokale Modell wird lazy geladen, spart RAM auf der VM. RVS: stt_request/stt_response zur ALLOWED_TYPES-Liste. Diagnostic-Voice-Config (whisperModel-Feld) bleibt unveraendert — die Auswahl wird an die Gamebox durchgereicht. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 13:42:07 +02:00
duffyduck	9cbea27455	feat: voice_preload/voice_ready — Feedback wenn neue Stimme geladen ist XTTS-Bridge: - empfaengt neuen voice_preload Type, rendert stumm "ja." fuer die Stimme via TTS-Queue (damit kein Konflikt mit echtem TTS) - horcht zusaetzlich auf config-Broadcasts: wenn Diagnostic global die Stimme wechselt, wird auto-preloaded - broadcastet voice_ready mit Dauer (loadMs) oder error RVS: voice_preload + voice_ready zur ALLOWED_TYPES-Liste. App (SettingsScreen): beim Wechsel senden wir voice_preload, zeigen einen Spinner in der Voice-Row und einen Toast mit "Stimme X bereit (Ns)". App (ChatScreen): Toast auch hier — falls User gerade nicht in Settings ist. Diagnostic (server+UI): voice_ready wird an Browser durchgereicht, ein Status-Text unter dem Voice-Dropdown zeigt "wird geladen" → "bereit". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 10:24:08 +02:00
duffyduck	028e3b2240	fix: Voice-Auswahl funktioniert endlich + Diagnostic setzt alle Apps zurueck XTTS-Bridge: im daswer123 local-Mode erwartet der Server speaker_wav als Basename (z.B. "Maia"), nicht als Pfad. Wir haben bisher "/voices/Maia.wav" geschickt, was der Server stumm verwirft und Default nimmt. Jetzt: speaker name pur senden + Warnlog wenn File fehlt. App: ChatScreen + SettingsScreen horchen auf type "config" vom RVS — wenn in Diagnostic die globale XTTS-Voice gewechselt wird, werden alle Apps auf den neuen Wert zurueckgesetzt (wie vom User gewuenscht). Lokale App-Wahl bleibt sonst intakt und gewinnt pro Request. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:32:40 +02:00
duffyduck	6c8ba5fe2d	fix: Fade-In auf ersten PCM-Chunk — maskiert XTTS-Warmup-Glitches XTTS daswer123 hat am Anfang jedes Renders Warmup-Artefakte — die ersten autoregressiv generierten Tokens haben wenig Kontext und klingen verzerrt. Ein 120ms Linear-Fade-In auf den ersten ausgehenden PCM-Chunk blendet das sanft auf und versteckt die Glitches, ohne dass das echte Audio danach leiser klingt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:01:36 +02:00
duffyduck	32ddac002f	fix: stream_chunk_size auf 250 erhoeht — weniger Render-Artefakte XTTS daswer123 erzeugt an Chunk-Grenzen oft Glitches in den Worten die ueber die Grenze gehen. 100 → 250 = weniger Grenzen pro Satz = sauberere Sprachausgabe. Erste-Audio-Latenz steigt um ein paar Sekunden, was aber OK ist seit die App Pre-Roll gepuffert ist. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:56:00 +02:00
duffyduck	0623de32a0	tune: stream_chunk_size 200 -> 100 gegen 6s Initial-Latenz Mit RTF 1.48 (RTX 3060) rechnet XTTS fuer 200 chars ca. 6s bis erster PCM-Chunk rauskommt — User wartet nach ARIA-Antwort 6s auf Sprachausgabe. stream_chunk_size=100: Erster Chunk in ~3s bereit, reduziert Initial-Latenz um ~50%. 100 chars sind auch noch gross genug dass der AudioTrack-Buffer (128KB ≈ 2.7s Audio) zwischen Render-Chunks nicht leerlaeuft → kein mid-sentence Abbruch wie bei 40. Falls bei bestimmten Texten doch Gaps: stream_chunk_size zurueck auf 150, oder pre-roll im Android PcmStreamPlayer einbauen (nur starten wenn X ms gepuffert sind). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:08:10 +02:00
duffyduck	cd5e6e7ee6	fix: stream_chunk_size 40 -> 200 gegen Audio-Abbrueche mid-sentence Bei stream_chunk_size=40 teilte XTTS Text in ~40-char Batches. Zwischen Batches pausiert XTTS (RTF 1.48 auf RTX 3060 → langsamer als Realtime-Wiedergabe). AudioTrack-Buffer lief leer, Track stoppte, nachkommender PCM kam zu spaet → Audio bricht mid-sentence ab (User-Bug: bei 73-char Text Abbruch nach Wort 'diesmal' was genau an der 40-char Grenze lag). stream_chunk_size=200: - Kurze Saetze (<200 chars) komplett in einem Render → kein Abbruch - Laengere Texte: groessere Chunks, laenger Audio pro Chunk als Render-Pause → Buffer bleibt gefuellt - Kompromiss: first-audio-latency etwas hoeher, aber keine Abbrueche Wenn spaeter Audio-Abbrueche bei langen Texten: stream_chunk_size noch groesser setzen ODER einen "pre-roll" Buffer in der App. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:06:25 +02:00
duffyduck	ee3e0a0af6	fix: XTTS local-Mode per ENV statt command-Override Das Image-Default-CMD liest Konfig aus ENV Variablen: CMD: ... -ms \${MODEL_SOURCE:-"apiManual"} Also reicht MODEL_SOURCE=local — command bleibt Image-Default und wir sparen uns den brueckigen Override der schief ging (python nicht da, flag-Namen raten, etc.). Zusaetzlich: EXAMPLE_FOLDER=/voices damit der Speaker-Folder auf unser gemountetes /voices zeigt (sonst /app/example was nur die Demo-Voices enthaelt). Kein command override mehr noetig — das Image macht alles wie vorher, nur mit local-Mode. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:59:39 +02:00
duffyduck	0783b1b99d	fix: XTTS command nutzt python3 statt python Image hat nur /usr/bin/python3, kein 'python'-Symlink. Vorher ging's weil kein command override — das Image-Default CMD lief durch. Wir ueberschreiben nur damit wir -ms local setzen koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:58:29 +02:00
duffyduck	5492c7a46f	fix: XTTS command braucht 'python -m xtts_api_server' als erstes Arg NVIDIA-Entrypoint fuehrt 'exec \$@' aus — erstes Arg muss ein ausfuehrbares sein. Nur Flags zu geben ('--listen') fuehrt zu 'exec: --: invalid option'. Fix: command=['python','-m','xtts_api_server','-ms','local',...] Damit wird der xtts_api_server Python-Modul gestartet und im local-Mode konfiguriert. Ob die Flag-Namen exakt stimmen (-hs/-p/-ms/-o/-mf/-sf) — falls nicht, poppt ein klarer Python-Fehler im Log. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:49:29 +02:00
duffyduck	4cbe184faa	feat: XTTS auf local-Mode (dauerhaft im VRAM) + /tts_stream + Fallback Root cause der langen Render-Zeiten und /tts_stream 400-Errors: daswer123 default ist apiManual/api-Mode — Modell wird pro Request gefetched/reloaded, Streaming unsupported. Fix in xtts/docker-compose.yml: command: ['--listen', '-p', '8020', '-t', 'http://0.0.0.0:8020', '-ms', 'local', '-o', '/app/output', '-mf', '/app/xtts_models', '-sf', '/voices'] -ms local: - Modell dauerhaft im GPU-VRAM (~2GB, passt auf RTX 3060 mit 12GB) - Render startet sofort, kein per-Request-Load mehr - /tts_stream unterstuetzt → echtes progressive streaming - time-to-first-audio ~500ms statt 8-11s xtts/bridge.js: /tts_stream primary, /tts_to_audio/ als Fallback wenn Stream fehlt. Robust: wenn User spaeter den Mode wieder umstellt, fallback greift. Erste Ladung nach dem Wechsel dauert einmalig laenger (Modell ins VRAM laden). Danach: schnell + streaming. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:38:53 +02:00
duffyduck	647a1cb726	fix: XTTS nutzt direkt /tts_to_audio/ — /tts_stream nicht verfuegbar XTTS-Server (daswer123) im API-Modus antwortet auf /tts_stream mit: HTTP 400: "HTTP Streaming is only supported for local models" Das Feature braucht MODE=local in der XTTS-Config (Modell direkt im Server-Prozess). Userbetreibt im Remote-Modus → kein Streaming. Der try /tts_stream + fallback /tts_to_audio Ansatz war reine Ver- schwendung: jeder Request wartete 6ms auf 400, bevor der Fallback griff. Jetzt geht's direkt an /tts_to_audio/. Kein echtes Streaming, aber: - Queue sorgt fuer sequentielle Verarbeitung (kein Overlap mehr) - 32x AudioTrack-Buffer faengt den bursty Response ab - aria-bridge spiegelt audio_pcm nicht mehr (kein Doppel-Audio) Wenn User spaeter /tts_stream haben will: XTTS-Server mit MODE=local oder --streaming-mode starten, dann kann man /tts_stream als primary einfuehren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 17:23:55 +02:00
duffyduck	73263b69a6	fix: /tts_stream — speaker_wav muss IMMER als query-param gesetzt sein XTTS-Server (daswer123) markiert speaker_wav als required Pydantic-Feld. Mein 'if (speakerWav) qs.set(...)' hat den Key bei default-voice weggelassen → HTTP 422 'Field required, input: null' → Fallback auf /tts_to_audio/ hat gegriffen, aber Streaming nie gefunden. Log-Beweis vom User: XTTS /tts_stream 422: {"detail":[{"type":"missing","loc":["query", "speaker_wav"],"msg":"Field required","input":null}]} Fix: Key immer setzen, leerer String bei default-voice. POST-Variante (/tts_to_audio/ JSON-Body) hat das auch so akzeptiert — GET-Query nun gleiches Verhalten. Ab jetzt sollte /tts_stream endlich greifen und echte Streaming-Latenz (~300-500ms) zeigen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 16:47:28 +02:00
duffyduck	c62ceafdc2	fix: XTTS-Endpoint mit Fallback-Chain + Diagnose-Logs Problem: /tts_stream hat bei User nicht funktioniert → keine Sprachausgabe mehr. Server hatte vorher 405 fuer POST geantwortet, meine Umstellung auf GET scheint aber einen anderen Fehler zu produzieren der nicht geloggt wurde. Fix: - streamXTTSAsPCM() = /tts_stream (GET, Streaming) mit ausfuehrlichem Error-Logging bei non-200 Response - streamXTTSBatch() = /tts_to_audio/ (POST, Batch) als Fallback - handleTTSRequest versucht Stream zuerst, bei Exception Fallback auf Batch — so gibt's IMMER Audio, auch wenn /tts_stream kaputt ist - Log zeigt welcher Pfad benutzt wurde Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 15:53:10 +02:00
duffyduck	9b5a35cb4a	fix: /tts_stream als GET mit Query-Params (war 405 Method Not Allowed) daswer123 xtts-api-server hat /tts_stream nur als GET: allow: GET → POST gab 405 → Request hing. Umstellung: - method: 'GET' - text/language/speaker_wav/stream_chunk_size als URLSearchParams im Query-String - kein body mehr (kein req.write, kein Content-Length) Ab jetzt echter streaming-Flow: Samples kommen waehrend XTTS noch rendert, time-to-first-audio ~300-500ms. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:52:16 +02:00
duffyduck	5ac1a0a522	revert: XTTS-Endpoint zurueck auf /tts_to_audio/ /tts_stream war bei der aktiven daswer123-Version nicht erreichbar — Requests hingen stille, App bekam kein Audio. Zurueck auf /tts_to_audio/ + Queue + 32x AudioTrack-Buffer. Das ist zwar nicht echt-streaming aber stabil. Ueberlappung sollte durch die Queue weg sein, Buffer toleriert den bursty Delivery. Echt-Streaming-Migration spaeter mit verifizierter Server-Version oder anderem Endpoint. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:48:27 +02:00
duffyduck	59c8d36a3d	fix: Streaming TTS nutzt jetzt echt den /tts_stream Endpoint von XTTS Vorher: /tts_to_audio/ — XTTS rendert kompletten WAV BEVOR es antwortet. Mein "streaming" war nur fake-chunking des fertigen WAV. Time-to-first-audio = komplette Render-Zeit (2-4s), dann Burst, dann Stille. Plus bei langen Antworten: Queue blockiert. Jetzt: /tts_stream — daswer123's chunked-transfer endpoint. Samples flutschen waehrend der Generierung durch die Response raus. Parameter: - stream_chunk_size=40 → XTTS rendert in ~40-char Haeppchen intern, time-to-first-audio ~300-500ms statt 2-4s - WAV-Header kommt wie gewohnt am Anfang (44 Bytes), danach raw PCM → mein existierender Header-Parser + 8KB-Chunker passen weiter Voraussetzung: daswer123/xtts-api-server hat diesen Endpoint (ab Version ~0.8.x). Sollte bei der aktuellen Version drin sein. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-20 16:35:55 +02:00
duffyduck	402bddc18a	fix: Streaming TTS — Queue in XTTS-Bridge + groesserer Android-Buffer 1) Ueberlappende Streams Wenn zwei xtts_requests schnell hintereinander kamen, rannten sie parallel durch handleTTSRequest. Beide HTTP-Requests an XTTS liefen gleichzeitig, beide streamen PCM an App → Chunks aus BEIDEN Renders landeten interleaved in der AudioTrack-Queue → Chaos. Fix: ttsQueue als Promise-Chain — handleTTSRequest() haengt sich ans Ende der Kette an. Requests werden sequenziell abgearbeitet. 2) AudioTrack-Buffer zu klein fuer bursty Delivery XTTS /tts_to_audio/ ist NICHT echt streaming — der Server rendert intern den kompletten WAV und schickt ihn dann burst-weise. Der alte 8x-MinBuffer (ca 200-400ms) war zu klein um das abzufangen. Fix: Buffer auf 32x MinSize / mind. 128KB = ca. 2.7s bei 24kHz. Das toleriert typische XTTS-Render-Latenz. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:27:16 +02:00
duffyduck	350069d371	fix: Streaming TTS — doppeltes Audio + Gaps zwischen Saetzen Zwei Probleme gefunden: 1) DOPPELTES AUDIO (Kern-Ursache der Artefakte) aria-bridge hat audio_pcm von XTTS-Bridge empfangen und per _send_to_rvs rebroadcastet. RVS broadcast geht an ALLE Clients ausser Sender — die App bekam jeden Chunk also zwei mal: XTTS-Bridge → RVS → App + aria-bridge aria-bridge → RVS → App (nochmal!) + XTTS-Bridge Zwei ueberlagerte PCM-Streams klingen wie Doubled/Artefakte. Fix: aria-bridge ignoriert audio_pcm jetzt. messageId schickt XTTS-Bridge selbst im Payload (via xtts_request -> messageId). 2) GAPS ZWISCHEN SAETZEN (abgehackt) xtts/bridge.js teilte Text in ~150-char Chunks und rief pro Chunk einen eigenen /tts_to_audio/ Request. Zwischen Chunks lag die XTTS-Render-Zeit (1-3s) → hoerbare Pausen. Fix: cleanText geht JETZT in einem Request komplett an XTTS. Ein zusammenhaengender Stream → keine Satz-Gaps mehr. Kompromiss: Erste Samples kommen spaeter (ganze Text-Render dauert laenger als der erste Satz alleine), aber dann kontinuierlich ohne Unterbrechung. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:15:57 +02:00
duffyduck	fc2438be2d	fix/feat: XTTS-Voice korrekt persistiert, Loeschen + Voice-per-Request Bug-Fix: Voice-Auswahl verschwand nach Page-Load - xtts_voices_list Handler rebuildet das Dropdown — vorheriger select.value ging dabei verloren. Jetzt wird der Wert gemerkt und nach Rebuild wiederhergestellt (falls die Stimme noch existiert). Feature: Stimmen loeschen (Diagnostic) - XTTS-Bridge: neuer handleDeleteVoice — entfernt /voices/<name>.wav und schickt aktualisierte Liste per xtts_voices_list - RVS: xtts_delete_voice in ALLOWED_TYPES - Diagnostic Server: Action xtts_delete_voice forwarded via RVS - Diagnostic UI: renderVoiceList zeigt alle Custom-Voices mit X-Button Bei Loeschen der gerade aktiven Stimme: auf Default zuruecksetzen Feature: Voice-per-Request in Bridge - App kann mit jedem Chat ein voice-Feld mitschicken - Bridge merkt sich _next_voice_override, nutzt es fuer die NAECHSTE ARIA-Antwort (einmalig, dann reset) - tts_request (Play-Button) akzeptiert voice im Payload als Override - Fallback: globale xtts_voice aus voice_config.json - So kann jedes Geraet seine eigene Stimme haben ohne den globalen Default zu aendern Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:43:26 +02:00
duffyduck	6ab6196739	feat: Streaming TTS — PCM-Stream statt WAV-Chunks (Weg A) Pipeline: XTTS-Server → xtts-bridge → aria-bridge → RVS → App AudioTrack XTTS-Bridge (Gaming-PC): - streamXTTSAsPCM(): liest /tts_to_audio/ Response inkrementell, parst WAV-Header (samplerate/channels), teilt PCM in 8KB-Chunks (~170ms bei 24kHz s16 mono) und sendet jeden als audio_pcm. - Finaler Chunk mit final=true nach letztem Text-Chunk aria-bridge: - audio_pcm Handler leitet payload 1:1 weiter, filled messageId aus requestId → messageId Map falls XTTS-Bridge messageId nicht hatte - Alter xtts_response Pfad bleibt als Legacy-Fallback (WAV) RVS: audio_pcm in ALLOWED_TYPES Android Native: - PcmStreamPlayerModule (Kotlin): AudioTrack MODE_STREAM mit Writer-Thread und BlockingQueue. start(rate, ch) / writeChunk(b64) / end() / stop() - 8x MinBufferSize grosszuegig dimensioniert, glatt auch bei Netz-Aussetzern - Registered im MainApplication via PcmStreamPlayerPackage App JS: - audioService.handlePcmChunk(): erkennt neue Session (messageId-Wechsel), started nativen Stream, cached PCM-Bytes pro Message. Bei final=true Stream sauber schliessen + _savePcmBufferAsWav → WAV-File im tts_cache/<messageId>.wav - _savePcmBufferAsWav: baut 44-byte WAV-Header (PCM s16le, korrekte samplerate/channels), haengt alle gesammelten base64-PCM-Chunks an - stopPlayback beendet auch aktiven PCM-Stream - ChatScreen routet type=audio_pcm an handlePcmChunk, bei final setzt audioPath in der Message Play-Button: falls messageId einen audioPath hat → WAV aus Cache (Sound-basiert), egal ob Original-TTS Piper oder XTTS war. Audio-Focus: - requestDuck() beim Stream-Start, release() bei Stream-Ende - Andere Apps (Spotify etc.) werden leiser waehrend ARIA spricht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:01:27 +02:00
duffyduck	764619f076	fix: Comprehensive markdown/formatting cleanup for TTS (Piper + XTTS) - Remove bold, italic, `code`, code blocks, links, headers, quotes, lists - Replace newlines with natural pauses (period/comma) - Remove quotation marks, empty brackets - Fixes text being swallowed/garbled by TTS engines Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-11 11:47:04 +02:00
duffyduck	949c573c49	fix: XTTS chunk size 150 chars (faster render, preload overlaps playback) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:52:56 +02:00
duffyduck	f7f450a09d	fix: XTTS streaming mode - send each chunk immediately, comma between sentences - Back to streaming: render chunk → send immediately → next chunk - App plays with preloading queue (no waiting for all chunks) - Comma instead of dot between sentences in chunk (no "Punkt" read aloud) - Sentence-ending dots already removed Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:48:50 +02:00
duffyduck	81f7c38383	fix: XTTS splits concatenated audio into ~8s parts (seamless with preload) - All chunks rendered and PCM concatenated (consistent voice) - Split into ~8 second WAV parts (not per-sentence) - 8s is long enough for preload overlap, small enough for WebSocket - Parts include part/totalParts metadata Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:41:14 +02:00
duffyduck	2c785cb37a	feat: XTTS concatenates chunks into seamless WAV (no stuttering) - All chunks rendered sequentially, PCM data concatenated - Single WAV with proper header sent back (no queue needed in app) - If total > 800KB, split into parts (WebSocket limit) - Eliminates stuttering between sentences Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:40:16 +02:00
duffyduck	8929bc99bb	fix: XTTS groups sentences into ~250 char chunks for consistent voice quality - 2-3 sentences per chunk (more context = stable voice/volume) - Max 250 chars per chunk (keeps WebSocket packets manageable) - Dots re-added between sentences within a chunk (natural pauses) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:23:29 +02:00
duffyduck	0428c06612	fix: Audio preloading to prevent stuttering, remove trailing dots for XTTS - Preload next audio while current plays (eliminates gap between sentences) - Remove trailing dots from sentences (XTTS reads them aloud) - stopPlayback cleans up preloaded audio Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:21:19 +02:00
duffyduck	b3d3b8b6bc	fix: XTTS bridge splits text into sentences sequentially - XTTS-Bridge does sentence splitting (not ARIA-Bridge) - Sequential rendering: correct order guaranteed - Each sentence sent as separate xtts_response - Markdown removal before splitting - App starts playback after first sentence (faster UX) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:03:29 +02:00
duffyduck	a17d4acc13	fix: XTTS bridge shares /voices volume with XTTS server Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 01:40:41 +02:00
duffyduck	16847ce6f7	fix: TTS toggle global above engine selector, health check /docs Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 00:27:55 +02:00
duffyduck	6300829317	fix: XTTS model cache volume path /app/xtts_models Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 23:44:29 +02:00
duffyduck	a1e1ee31bd	fix: XTTS bridge port 8020, longer startup wait - XTTS API runs on port 8020 (not 8000) - Bridge waits up to 5min for model download (30x10s) - Health check uses / instead of /docs Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 23:39:45 +02:00
duffyduck	7ed70b876d	updated image public path	2026-04-07 23:06:26 +02:00
duffyduck	a242693751	feat: XTTS v2 integration, auto-update system, TTS engine abstraction - XTTS v2: Docker setup for Gaming-PC (GPU), bridge via RVS relay - XTTS: Voice cloning UI in Diagnostic (multi-file upload) - XTTS: Engine selectable (Piper local vs XTTS remote) with fallback - Auto-Update: RVS serves APK over WebSocket (no HTTP needed) - Auto-Update: App checks version on start, prompts install - Auto-Update: release.sh copies APK to RVS via scp - Bridge: TTS engine abstraction (piper/xtts), config persistent - Bridge: xtts_response handler, tts_request on-demand - Diagnostic: TTS engine dropdown, XTTS voice panel, voice cloning - App: Play button on ARIA messages, chat search, update service - Wake word: Disabled LiveAudioStream (crash fix), Phase 1 placeholder - Watchdog: Container restart after 8min stuck - Chat backup: on-the-fly to /shared/config/chat_backup.jsonl Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 19:42:10 +02:00

42 Commits