ARIA-AGENT

Commit Graph

Author	SHA1	Message	Date
duffyduck	187ffad7ee	feat: F5-TTS Tuning ueber Diagnostic statt .env Folgt der "keine neuen Settings in .env" Regel. f5tts/bridge.py: - F5TTS_MODEL/CKPT_FILE/VOCAB_FILE/CFG_STRENGTH/NFE_STEP ENV-Vars raus - Hard-coded Defaults im Code (DEFAULT_F5TTS_) - F5Runner besitzt Live-Settings als Instance-Vars + update_config() - config-Broadcast triggert Modell-Reload nur wenn Modell-relevantes sich aendert (cfg_strength/nfe_step ohne Reload) - F5TTS_DEVICE bleibt ENV (Hardware-Bootstrap) xtts/docker-compose.yml: F5TTS_ ENV-Vars rausgenommen, Kommentar verweist auf Diagnostic-Config. aria-bridge: nimmt f5tts*-Felder im config-Handler entgegen, persistiert sie in voice_config.json. Beim RVS-Connect broadcastet die Bridge die persistierte Config einmalig — damit die f5tts-bridge nach Container- Restart automatisch die zuletzt gewaehlten Settings bekommt, ohne dass der User in Diagnostic was klicken muss. Diagnostic UI: - Neuer aufklappbarer "F5-TTS Modell-Tuning (advanced)" Bereich - Felder: Modell-ID, Custom-Checkpoint, Vocab, cfg_strength, nfe_step - voice_config beim Laden: Felder werden zurueck in die UI gesetzt - sendVoiceConfig schickt die neuen Felder mit - Server: send_voice_config persistiert die Felder, leere Strings werden geloescht damit die Hard-Defaults greifen Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:44:58 +02:00
duffyduck	467f95424e	fix: F5-TTS Voice-Referenztext + Standard-Eintrag raus Bug-Root: voice_upload schrieb "Das ist ein Referenz Audio." als Platzhalter wenn die whisper-bridge nicht erreichbar war. F5-TTS bekam dann diesen Text als Sprach-Anker, sah aber im WAV ganz andere Worte → verwirrtes Modell, halluziniert in beliebiger Sprache (z.B. Spanisch). Fixes: - handle_voice_upload: schreibt KEINE Platzhalter-.txt mehr. Bei Failure bleibt die .txt weg → naechste TTS-Nutzung zieht via on-the-fly retry nach. - _do_tts: Legacy-Platzhalter wird beim Render erkannt und geloescht, Transkription on-the-fly neu angezogen. Bestehende kaputte voices reparieren sich automatisch beim ersten Render. UI-Aufraeumung: F5-TTS hat keine "Standard"-Stimme — der Eintrag ist raus in App SettingsScreen + Diagnostic. Diagnostic-Dropdown hat jetzt einen disabled-Hinweis "(keine Stimme gewaehlt)". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:33:53 +02:00
duffyduck	c1a5518fb7	fix(f5tts): cfg_strength hochgezogen damit Deutsch nicht ins Spanische rutscht F5TTS_v1_Base ist hauptsaechlich auf Englisch+Chinesisch trainiert; bei Deutsch (oder anderen Romance/Germanic-Sprachen) schwimmt der Generator ohne starkes Conditioning gerne in eine andere Sprache. - cfg_strength 2.0 → 2.5 (per ENV F5TTS_CFG_STRENGTH ueberschreibbar) - nfe_step bleibt 32 (per ENV ueberschreibbar) - F5TTS_CKPT_FILE / F5TTS_VOCAB_FILE als ENV — damit man eine Community- German-Checkpoint einhaengen kann ohne Code-Aenderung Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:30:08 +02:00
duffyduck	576ae925dd	feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox Neuer aria-f5tts-bridge Container: - Python-Service, laedt F5TTS_v1_Base beim Start - Empfaengt xtts_request via RVS, synthetisiert mit Voice-Cloning, streamt PCM-Chunks (audio_pcm, 16-bit s16le) wie zuvor die XTTS-Bridge - Teilt lange Texte an Satzgrenzen, streamt satzweise - Fade-In auf erstem Chunk, Queue gegen parallel-Render Voice-Management: - Speicherort weiterhin /voices/, aber jetzt als Paar {name}.wav + {name}.txt (F5-TTS braucht Referenz-Transkription) - voice_upload: WAV speichern, intern stt_request an whisper-bridge senden, Transkription als .txt ablegen → user muss nichts eintippen - On-the-fly Transkribierung: wenn eine WAV ohne .txt liegt, wird bei erstem Render/Preload nachgezogen - Bestehende RVS-Messages (voice_upload/xtts_list_voices/... etc.) bleiben unveraendert → keine App/Diagnostic-Aenderung noetig Gaming-PC docker-compose: - xtts + xtts-bridge Services entfernt - f5tts-bridge + whisper-bridge bleiben/kommen rein - Volume xtts-models → f5tts-models Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:34:11 +02:00

4 Commits