ARIA-AGENT

Files

T

duffyduck 8b52f4c92b fix(f5tts): Referenz-WAV auf 10s clippen + txt neu transkribieren

F5-TTS hat ein Hard-Limit von 12s fuer das Referenz-Audio — laengere
WAVs werden intern abgeschnitten, aber unser ref_text war das komplette
Transkript. Text und Audio wurden dadurch unaligned, Render-Qualitaet
leidet und der initial Warmup-Render dauerte 57s statt 5s.

Fix:
  - normalize_ref_wav(max_seconds=10): ffmpeg schneidet auf 10s + 24kHz
    mono, gibt was_modified zurueck damit Caller den txt invalidieren kann
  - handle_voice_upload: clippt VOR der Transkription, Whisper sieht also
    nur die 10s → txt passt garantiert zum Audio
  - _do_tts: checkt vor jedem Render die WAV-Dauer. WAVs > 10.5s werden
    geclippt, .txt geloescht → on-the-fly Neu-Transkription beim Render

Bestehende kaputte Voices (wie MAIA mit 600+ Worten txt zu einem 20s
Audio) werden beim naechsten Render automatisch gefixt.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-24 18:42:33 +02:00

f5tts

fix(f5tts): Referenz-WAV auf 10s clippen + txt neu transkribieren

2026-04-24 18:42:33 +02:00

whisper

debug: Initial-Handshake Logs damit man sieht was passiert

2026-04-24 17:54:12 +02:00

.env.example

feat: XTTS v2 integration, auto-update system, TTS engine abstraction

2026-04-05 19:42:10 +02:00

.gitignore

fix: HF-Cache zurueck + Banner-Bug + config_request Pattern

2026-04-24 17:46:47 +02:00

docker-compose.yml

fix: HF-Cache zurueck + Banner-Bug + config_request Pattern

2026-04-24 17:46:47 +02:00