ARIA-AGENT

Files

T

duffyduck 7748834a0f fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim

F5-TTS reagiert empfindlich auf leise / verrauschte / zerhackte
Referenzen — wir haben bisher nur auf 24kHz mono + 10s geclipped.
Jetzt zusaetzlich:
  - silenceremove am Anfang (bis Speech einsetzt, <-50dB)
  - silenceremove am Ende (0.5s Stille nach letzter Speech = Cutoff)
  - loudnorm -16 LUFS (EBU R128) fuer konsistente Amplitude

Damit sieht das Modell saubere, konstant laute Referenz-Audios statt
kaputter Clips mit Ausklang oder leiser Aufnahme. Besonders bei Deutsch
(wo F5TTS_v1_Base schwach ist) hilft jede Input-Konsistenz der Quali.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-24 19:07:58 +02:00

bridge.py

fix(f5tts): Ref-WAV Preprocessing — Loudness + Silence-Trim

2026-04-24 19:07:58 +02:00

Dockerfile

feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox

2026-04-24 14:34:11 +02:00

requirements.txt

feat(phase2): XTTS durch F5-TTS ersetzt — Voice Cloning auf der Gamebox

2026-04-24 14:34:11 +02:00