Mit RTF 1.48 (RTX 3060) rechnet XTTS fuer 200 chars ca. 6s bis erster PCM-Chunk rauskommt — User wartet nach ARIA-Antwort 6s auf Sprachausgabe. stream_chunk_size=100: Erster Chunk in ~3s bereit, reduziert Initial-Latenz um ~50%. 100 chars sind auch noch gross genug dass der AudioTrack-Buffer (128KB ≈ 2.7s Audio) zwischen Render-Chunks nicht leerlaeuft → kein mid-sentence Abbruch wie bei 40. Falls bei bestimmten Texten doch Gaps: stream_chunk_size zurueck auf 150, oder pre-roll im Android PcmStreamPlayer einbauen (nur starten wenn X ms gepuffert sind). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| .env.example | ||
| Dockerfile | ||
| bridge.js | ||
| docker-compose.yml | ||
| package.json | ||