Bei stream_chunk_size=40 teilte XTTS Text in ~40-char Batches. Zwischen Batches pausiert XTTS (RTF 1.48 auf RTX 3060 → langsamer als Realtime-Wiedergabe). AudioTrack-Buffer lief leer, Track stoppte, nachkommender PCM kam zu spaet → Audio bricht mid-sentence ab (User-Bug: bei 73-char Text Abbruch nach Wort 'diesmal' was genau an der 40-char Grenze lag). stream_chunk_size=200: - Kurze Saetze (<200 chars) komplett in einem Render → kein Abbruch - Laengere Texte: groessere Chunks, laenger Audio pro Chunk als Render-Pause → Buffer bleibt gefuellt - Kompromiss: first-audio-latency etwas hoeher, aber keine Abbrueche Wenn spaeter Audio-Abbrueche bei langen Texten: stream_chunk_size noch groesser setzen ODER einen "pre-roll" Buffer in der App. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| .env.example | ||
| Dockerfile | ||
| bridge.js | ||
| docker-compose.yml | ||
| package.json | ||