ARIA-AGENT

Commit Graph

Author	SHA1	Message	Date
duffyduck	190352820c	feat: Bug-Runde + 5 App/Diagnostic-Features Bugs: - App Mute-/Auto-Playback: onMessage-Closure hielt stale ttsDeviceEnabled/ ttsMuted → Mute wurde ignoriert + AsyncStorage-Load kam nicht durch. Fix via ttsCanPlayRef (live gespiegelt) statt Closure-Variablen. - App Zombie-Recording: toggleWakeWord hat die laufende Aufnahme nicht gestoppt → audioService.recordingState blieb 'recording' → normaler Aufnahme-Button wirkungslos. Fix: await stopRecording() vor stop(). - Porcupine robuster: BuiltInKeywords-Enum Mapping mit String-Fallback, errorCallback fuer Runtime-Crashes (state zurueck auf off statt App-Crash), mehr Logging damit man beim naechsten Issue debuggen kann. App-Features: - MessageText Komponente: Text ist durchgehend selektierbar, erkennt URLs (http/https), E-Mails, Telefonnummern und macht sie anklickbar (oeffnet Browser / Mail-App / Android-Dialer via Linking). - TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (Settings -> "Sprechgeschwindigkeit", 0.5-2.0 in 0.1-Schritten, Default 1.0). Wird als speed-Param an die F5-TTS-Bridge durchgereicht. Bridge-Durchreichen: - ChatScreen: speed aus AsyncStorage via ttsSpeedRef, an chat/audio/ tts_request mitgeschickt - aria-bridge: _next_speed_override wie voice_override, an xtts_request weitergereicht - f5tts-bridge: speed-Param an F5TTS.infer() durchgereicht Diagnostic-Feature: - Voice-Preview-Button (Play-Icon) vor dem Delete-X in der Stimmen-Liste - Modal mit Textfeld (Default-Beispieltext wird bei jedem Oeffnen neu gesetzt) und Play-Button - Server sammelt audio_pcm Frames der Preview-Anfrage, baut WAV, schickt base64 zurueck, Browser spielt im <audio>-Tag ab - 60s Timeout-Safety-Net Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:24:02 +02:00
duffyduck	2264f4e3bc	fix: Leeres Feld im Diagnostic bedeutet jetzt wirklich "reset auf default" Bug: User leert "Custom Checkpoint" in Diagnostic, klickt Anwenden, aber die Bridge behielt den alten Wert weiter (z.B. BigVGAN-Pfad). Ursache: - Server loeschte den Key bei leerem String aus voice_config.json - Bridge's update_config sah key absent → "keep current" Semantik - Resultat: kein Reset, alter Pfad blieb aktiv, NaN-Output blieb Fix auf beiden Seiten: - diagnostic/server.js: Keys werden immer mit dem Wert gesetzt (auch "") statt geloescht. "" landet jetzt explizit in der config.json. - f5tts/bridge.py: update_config unterscheidet jetzt: * key fehlt in payload → current behalten (unveraendert) * key da + leer → RESET auf DEFAULT_F5TTS_* (User-Wunsch) * key da + Wert → neuen Wert nehmen Damit kann der User in Diagnostic ein Feld leeren + Anwenden und die Bridge schaltet wirklich auf Hard-Default zurueck. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 20:51:10 +02:00
duffyduck	58fd8721e3	fix: Voice-Transkription erzwingt kein "small" mehr — nutzt geladenes Modell f5tts/bridge.py: das hardcoded model="small" in request_transcription war ein Fehler — whisper-bridge hat dadurch stumm zwischen Modellen geswappt. Wenn User large-v3 in Diagnostic eingestellt hatte: - f5tts Voice-Transkribierung triggerte Swap zu "small" (+~500MB Laden) - Danach aria-bridge schickte naechsten stt_request mit large-v3 (+~3GB Laden weil small jetzt im RAM war) Doppelter Load, unnoetiger Traffic. Fix: - f5tts: kein model mehr im payload, whisper-bridge entscheidet - whisper: wenn kein payload.model UND bereits ein Modell geladen → das behalten. Nur wenn gar nichts da ist fallback auf WHISPER_MODEL env default. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 20:03:45 +02:00
duffyduck	958c8d6fc6	fix(f5tts): NaN/Inf in Modell-Output sauber abfangen vor int16-Cast F5-TTS generiert gelegentlich NaN/Inf samples — ohne sanitize lief der int16-Cast in undefined behavior (RuntimeWarning + kaputter Sound in den entsprechenden Stellen). Jetzt: nan_to_num vor clip, plus Warnung wie viele samples betroffen waren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 19:35:57 +02:00
duffyduck	b373f915b5	feat(f5tts): HF-URL Support fuer Custom Checkpoints (aihpi/F5-TTS-German) _resolve_hf_path wandelt hf://user/repo/path → lokaler Download via huggingface_hub.hf_hub_download. So kann man in Diagnostic einfach die HF-Pfade fuer custom Modelle reinschreiben, ohne erst manuell zu downloaden + zu mounten. Format: hf://aihpi/F5-TTS-German/F5TTS_Base/model_365000.safetensors hf://aihpi/F5-TTS-German/vocab.txt Diagnostic UI: Placeholders + Labels angepasst mit Beispiel-HF-Pfaden und Hinweis dass fuer Fine-Tunes "F5TTS_Base" statt "F5TTS_v1_Base" als Architektur-Name gesetzt werden muss. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 19:16:44 +02:00
duffyduck	7748834a0f	fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim F5-TTS reagiert empfindlich auf leise / verrauschte / zerhackte Referenzen — wir haben bisher nur auf 24kHz mono + 10s geclipped. Jetzt zusaetzlich: - silenceremove am Anfang (bis Speech einsetzt, <-50dB) - silenceremove am Ende (0.5s Stille nach letzter Speech = Cutoff) - loudnorm -16 LUFS (EBU R128) fuer konsistente Amplitude Damit sieht das Modell saubere, konstant laute Referenz-Audios statt kaputter Clips mit Ausklang oder leiser Aufnahme. Besonders bei Deutsch (wo F5TTS_v1_Base schwach ist) hilft jede Input-Konsistenz der Quali. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 19:07:58 +02:00
duffyduck	8b52f4c92b	fix(f5tts): Referenz-WAV auf 10s clippen + txt neu transkribieren F5-TTS hat ein Hard-Limit von 12s fuer das Referenz-Audio — laengere WAVs werden intern abgeschnitten, aber unser ref_text war das komplette Transkript. Text und Audio wurden dadurch unaligned, Render-Qualitaet leidet und der initial Warmup-Render dauerte 57s statt 5s. Fix: - normalize_ref_wav(max_seconds=10): ffmpeg schneidet auf 10s + 24kHz mono, gibt was_modified zurueck damit Caller den txt invalidieren kann - handle_voice_upload: clippt VOR der Transkription, Whisper sieht also nur die 10s → txt passt garantiert zum Audio - _do_tts: checkt vor jedem Render die WAV-Dauer. WAVs > 10.5s werden geclippt, .txt geloescht → on-the-fly Neu-Transkription beim Render Bestehende kaputte Voices (wie MAIA mit 600+ Worten txt zu einem 20s Audio) werden beim naechsten Render automatisch gefixt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 18:42:33 +02:00
duffyduck	dc20570f6d	debug: Initial-Handshake Logs damit man sieht was passiert Beim user kommt nach 'RVS verbunden' nichts mehr — Modell-Download startet nicht, banner aktualisiert sich nicht. Vermutung: alter Code laeuft noch (kein neu gebauter Container) ODER der Initial-Handshake crashed silent (asyncio.create_task ohne await schluckt Exceptions). - whisper + f5tts: Initial-Handshake mit logger.info Zeilen, damit man sieht ob er ueberhaupt ausgefuehrt wird - f5tts: zusaetzlich exception-Catch + fehler-broadcast falls der Modell-Load crashed Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 17:54:12 +02:00
duffyduck	744a27cfd1	fix: HF-Cache zurueck + Banner-Bug + config_request Pattern Vier Bugs in einem Aufwasch: 1. HF-Cache als Bind-Mount zurueck xtts/hf-cache:/root/.cache/huggingface fuer beide Bridges. War vorher raus, dadurch jedes Container-Restart = ~3GB Whisper-Download + ~1GB F5-TTS-Download. User dachte 5min ist einmalig — ist aber bei jedem Restart. Jetzt: einmal pro Maschine geladen, fertig. 2. Banner zeigte stale "ready" whisper-bridge sendete beim Connect nur dann Status wenn Modell schon geladen war. Sonst blieb der App/Diagnostic Banner auf dem alten "ready" State von vor dem Restart haengen — User sah "bereit" obwohl gerade gar nichts geladen war. Jetzt wird IMMER ein Status broadcast: ready oder loading. 3. config_request Pattern aria-bridge wusste nicht wann Gamebox-Bridges sich (re)connecten. Wenn die nach aria-bridge kamen, verpassten sie den Config-Broadcast und blieben mit Hard-Defaults stehen. Jetzt: whisper- und f5tts-bridge senden beim Connect ein config_request, aria-bridge antwortet mit der persistierten Config (whisperModel, xttsVoice, f5tts*-Felder). 4. RVS ALLOWED_TYPES um config_request erweitert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 17:46:47 +02:00
duffyduck	2f625572fc	feat: HF-Cache raus + service_status Banner in Diagnostic Stefan akzeptiert die ~5min Modell-Download-Zeit nach jedem Container- Start, dafuer keine 50GB Cache-Bloat mehr und kein Bind-Mount-Verzeichnis zu pflegen. - xtts/docker-compose.yml: hf-cache Bind-Mount entfernt fuer beide Bridges. Modelle werden im writable Container-Layer abgelegt und mit jedem `docker compose down` automatisch weggeraeumt. - xtts/.gitignore: hf-cache/ Eintrag raus - RVS ALLOWED_TYPES: service_status hinzu Bridges broadcasten Lade-Status: - f5tts-bridge: bei Connect 'loading' -> ensure_loaded -> 'ready'. Auch bei config-getriggertem Modell-Wechsel: erst 'loading' Broadcast, dann reload, dann 'ready'. - whisper-bridge: gleiches Pattern. Modell wird jetzt erst nach RVS-Connect geladen damit der loading-Broadcast tatsaechlich rausgeht. Diagnostic: - server.js: service_status wird an Browser durchgereicht - index.html: neues Banner unten rechts (fixed position) zeigt Status fuer beide Services. Aggregiert: Icon ist Lupe waehrend Loading, Check wenn alles ready, X bei Error. - Wenn alles ready: X-Button erscheint (manuell schliessen) + nach 8s automatisches Fade-Out. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:21:19 +02:00
duffyduck	187ffad7ee	feat: F5-TTS Tuning ueber Diagnostic statt .env Folgt der "keine neuen Settings in .env" Regel. f5tts/bridge.py: - F5TTS_MODEL/CKPT_FILE/VOCAB_FILE/CFG_STRENGTH/NFE_STEP ENV-Vars raus - Hard-coded Defaults im Code (DEFAULT_F5TTS_) - F5Runner besitzt Live-Settings als Instance-Vars + update_config() - config-Broadcast triggert Modell-Reload nur wenn Modell-relevantes sich aendert (cfg_strength/nfe_step ohne Reload) - F5TTS_DEVICE bleibt ENV (Hardware-Bootstrap) xtts/docker-compose.yml: F5TTS_ ENV-Vars rausgenommen, Kommentar verweist auf Diagnostic-Config. aria-bridge: nimmt f5tts*-Felder im config-Handler entgegen, persistiert sie in voice_config.json. Beim RVS-Connect broadcastet die Bridge die persistierte Config einmalig — damit die f5tts-bridge nach Container- Restart automatisch die zuletzt gewaehlten Settings bekommt, ohne dass der User in Diagnostic was klicken muss. Diagnostic UI: - Neuer aufklappbarer "F5-TTS Modell-Tuning (advanced)" Bereich - Felder: Modell-ID, Custom-Checkpoint, Vocab, cfg_strength, nfe_step - voice_config beim Laden: Felder werden zurueck in die UI gesetzt - sendVoiceConfig schickt die neuen Felder mit - Server: send_voice_config persistiert die Felder, leere Strings werden geloescht damit die Hard-Defaults greifen Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:44:58 +02:00
duffyduck	467f95424e	fix: F5-TTS Voice-Referenztext + Standard-Eintrag raus Bug-Root: voice_upload schrieb "Das ist ein Referenz Audio." als Platzhalter wenn die whisper-bridge nicht erreichbar war. F5-TTS bekam dann diesen Text als Sprach-Anker, sah aber im WAV ganz andere Worte → verwirrtes Modell, halluziniert in beliebiger Sprache (z.B. Spanisch). Fixes: - handle_voice_upload: schreibt KEINE Platzhalter-.txt mehr. Bei Failure bleibt die .txt weg → naechste TTS-Nutzung zieht via on-the-fly retry nach. - _do_tts: Legacy-Platzhalter wird beim Render erkannt und geloescht, Transkription on-the-fly neu angezogen. Bestehende kaputte voices reparieren sich automatisch beim ersten Render. UI-Aufraeumung: F5-TTS hat keine "Standard"-Stimme — der Eintrag ist raus in App SettingsScreen + Diagnostic. Diagnostic-Dropdown hat jetzt einen disabled-Hinweis "(keine Stimme gewaehlt)". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:33:53 +02:00
duffyduck	c1a5518fb7	fix(f5tts): cfg_strength hochgezogen damit Deutsch nicht ins Spanische rutscht F5TTS_v1_Base ist hauptsaechlich auf Englisch+Chinesisch trainiert; bei Deutsch (oder anderen Romance/Germanic-Sprachen) schwimmt der Generator ohne starkes Conditioning gerne in eine andere Sprache. - cfg_strength 2.0 → 2.5 (per ENV F5TTS_CFG_STRENGTH ueberschreibbar) - nfe_step bleibt 32 (per ENV ueberschreibbar) - F5TTS_CKPT_FILE / F5TTS_VOCAB_FILE als ENV — damit man eine Community- German-Checkpoint einhaengen kann ohne Code-Aenderung Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:30:08 +02:00
duffyduck	576ae925dd	feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox Neuer aria-f5tts-bridge Container: - Python-Service, laedt F5TTS_v1_Base beim Start - Empfaengt xtts_request via RVS, synthetisiert mit Voice-Cloning, streamt PCM-Chunks (audio_pcm, 16-bit s16le) wie zuvor die XTTS-Bridge - Teilt lange Texte an Satzgrenzen, streamt satzweise - Fade-In auf erstem Chunk, Queue gegen parallel-Render Voice-Management: - Speicherort weiterhin /voices/, aber jetzt als Paar {name}.wav + {name}.txt (F5-TTS braucht Referenz-Transkription) - voice_upload: WAV speichern, intern stt_request an whisper-bridge senden, Transkription als .txt ablegen → user muss nichts eintippen - On-the-fly Transkribierung: wenn eine WAV ohne .txt liegt, wird bei erstem Render/Preload nachgezogen - Bestehende RVS-Messages (voice_upload/xtts_list_voices/... etc.) bleiben unveraendert → keine App/Diagnostic-Aenderung noetig Gaming-PC docker-compose: - xtts + xtts-bridge Services entfernt - f5tts-bridge + whisper-bridge bleiben/kommen rein - Volume xtts-models → f5tts-models Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:34:11 +02:00

14 Commits