F5-TTS reagiert empfindlich auf leise / verrauschte / zerhackte Referenzen — wir haben bisher nur auf 24kHz mono + 10s geclipped. Jetzt zusaetzlich: - silenceremove am Anfang (bis Speech einsetzt, <-50dB) - silenceremove am Ende (0.5s Stille nach letzter Speech = Cutoff) - loudnorm -16 LUFS (EBU R128) fuer konsistente Amplitude Damit sieht das Modell saubere, konstant laute Referenz-Audios statt kaputter Clips mit Ausklang oder leiser Aufnahme. Besonders bei Deutsch (wo F5TTS_v1_Base schwach ist) hilft jede Input-Konsistenz der Quali. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| Dockerfile | ||
| bridge.py | ||
| requirements.txt | ||