feat: App XTTS-Voice-Auswahl + Aufnahme + Loeschen (geraetelokal)

App Settings: Voice-Sektion (nur wenn TTS an) - Liste aller XTTS-Server-Stimmen mit Auswahl-Radio + X zum Loeschen - 'Standard' fuer Diagnostic-Default-Voice (keine lokale Ueberschreibung) - 'Aktualisieren' Button laedt Liste neu (xtts_list_voices via RVS) - 'Eigene Stimme aufnehmen' oeffnet VoiceCloneModal VoiceCloneModal: 30s Aufnahme + Upload - Vorlese-Text (>30s Lesedauer, thematisch passend) - Rot-pulsierender Stop-Button, live Timer + Progressbar - Auto-Stop bei 30s, Hinweise ab 15s ('genug fuer gute Clonung') - Nach Stop: Namenseingabe (a-Z, 0-9, _, -), Upload via voice_upload - Nach Upload: Modal schliesst, Settings bekommt xtts_voice_saved und setzt automatisch die neue Stimme als gewaehlt Voice-Flow App → Bridge → XTTS (geraetelokal): - Jeder chat/audio/tts_request schickt aria_xtts_voice (AsyncStorage) mit der Message mit - Bridge speichert _next_voice_override bei chat/audio Empfang, nutzt es fuer die naechste ARIA-Antwort und resettet dann - Fallback: globale xtts_voice aus voice_config.json (Diagnostic) Ergebnis: - Gerat A hat 'stefan' geclont → ARIA antwortet Geraet A mit stefan - Gerat B hat nichts gewaehlt → ARIA antwortet Geraet B mit Default - Diagnostic-Einstellung wirkt als fallback-default fuer neue Geraete Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-19 22:48:24 +02:00
parent fc2438be2d
commit 99cb83202e
4 changed files with 543 additions and 3 deletions
@@ -1291,6 +1291,11 @@ class ARIABridge:
            if not audio_b64:
                logger.warning("[rvs] Audio ohne Daten empfangen")
                return
+            # Voice-Override fuer die kommende ARIA-Antwort (App-lokal gewaehlt)
+            voice_override = payload.get("voice", "")
+            if voice_override:
+                self._next_voice_override = voice_override
+                logger.info("[rvs] Voice-Override (via Audio): %s", voice_override)
            logger.info("[rvs] Audio empfangen: %s, %dms, %dKB",
                        mime_type, duration_ms, len(audio_b64) // 1365)
            asyncio.create_task(self._process_app_audio(audio_b64, mime_type))