ARIA-AGENT/xtts
duffyduck 8b52f4c92b fix(f5tts): Referenz-WAV auf 10s clippen + txt neu transkribieren
F5-TTS hat ein Hard-Limit von 12s fuer das Referenz-Audio — laengere
WAVs werden intern abgeschnitten, aber unser ref_text war das komplette
Transkript. Text und Audio wurden dadurch unaligned, Render-Qualitaet
leidet und der initial Warmup-Render dauerte 57s statt 5s.

Fix:
  - normalize_ref_wav(max_seconds=10): ffmpeg schneidet auf 10s + 24kHz
    mono, gibt was_modified zurueck damit Caller den txt invalidieren kann
  - handle_voice_upload: clippt VOR der Transkription, Whisper sieht also
    nur die 10s → txt passt garantiert zum Audio
  - _do_tts: checkt vor jedem Render die WAV-Dauer. WAVs > 10.5s werden
    geclippt, .txt geloescht → on-the-fly Neu-Transkription beim Render

Bestehende kaputte Voices (wie MAIA mit 600+ Worten txt zu einem 20s
Audio) werden beim naechsten Render automatisch gefixt.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 18:42:33 +02:00
..
f5tts fix(f5tts): Referenz-WAV auf 10s clippen + txt neu transkribieren 2026-04-24 18:42:33 +02:00
whisper debug: Initial-Handshake Logs damit man sieht was passiert 2026-04-24 17:54:12 +02:00
.env.example feat: XTTS v2 integration, auto-update system, TTS engine abstraction 2026-04-05 19:42:10 +02:00
.gitignore fix: HF-Cache zurueck + Banner-Bug + config_request Pattern 2026-04-24 17:46:47 +02:00
docker-compose.yml fix: HF-Cache zurueck + Banner-Bug + config_request Pattern 2026-04-24 17:46:47 +02:00