ARIA-AGENT/xtts/f5tts
duffyduck 7748834a0f fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim
F5-TTS reagiert empfindlich auf leise / verrauschte / zerhackte
Referenzen — wir haben bisher nur auf 24kHz mono + 10s geclipped.
Jetzt zusaetzlich:
  - silenceremove am Anfang (bis Speech einsetzt, <-50dB)
  - silenceremove am Ende (0.5s Stille nach letzter Speech = Cutoff)
  - loudnorm -16 LUFS (EBU R128) fuer konsistente Amplitude

Damit sieht das Modell saubere, konstant laute Referenz-Audios statt
kaputter Clips mit Ausklang oder leiser Aufnahme. Besonders bei Deutsch
(wo F5TTS_v1_Base schwach ist) hilft jede Input-Konsistenz der Quali.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 19:07:58 +02:00
..
Dockerfile feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox 2026-04-24 14:34:11 +02:00
bridge.py fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim 2026-04-24 19:07:58 +02:00
requirements.txt feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox 2026-04-24 14:34:11 +02:00