ARIA-AGENT/xtts
duffyduck 7748834a0f fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim
F5-TTS reagiert empfindlich auf leise / verrauschte / zerhackte
Referenzen — wir haben bisher nur auf 24kHz mono + 10s geclipped.
Jetzt zusaetzlich:
  - silenceremove am Anfang (bis Speech einsetzt, <-50dB)
  - silenceremove am Ende (0.5s Stille nach letzter Speech = Cutoff)
  - loudnorm -16 LUFS (EBU R128) fuer konsistente Amplitude

Damit sieht das Modell saubere, konstant laute Referenz-Audios statt
kaputter Clips mit Ausklang oder leiser Aufnahme. Besonders bei Deutsch
(wo F5TTS_v1_Base schwach ist) hilft jede Input-Konsistenz der Quali.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 19:07:58 +02:00
..
f5tts fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim 2026-04-24 19:07:58 +02:00
whisper debug: Initial-Handshake Logs damit man sieht was passiert 2026-04-24 17:54:12 +02:00
.env.example feat: XTTS v2 integration, auto-update system, TTS engine abstraction 2026-04-05 19:42:10 +02:00
.gitignore fix: HF-Cache zurueck + Banner-Bug + config_request Pattern 2026-04-24 17:46:47 +02:00
docker-compose.yml fix: HF-Cache zurueck + Banner-Bug + config_request Pattern 2026-04-24 17:46:47 +02:00