feat: App XTTS-Voice-Auswahl + Aufnahme + Loeschen (geraetelokal)

App Settings: Voice-Sektion (nur wenn TTS an) - Liste aller XTTS-Server-Stimmen mit Auswahl-Radio + X zum Loeschen - 'Standard' fuer Diagnostic-Default-Voice (keine lokale Ueberschreibung) - 'Aktualisieren' Button laedt Liste neu (xtts_list_voices via RVS) - 'Eigene Stimme aufnehmen' oeffnet VoiceCloneModal VoiceCloneModal: 30s Aufnahme + Upload - Vorlese-Text (>30s Lesedauer, thematisch passend) - Rot-pulsierender Stop-Button, live Timer + Progressbar - Auto-Stop bei 30s, Hinweise ab 15s ('genug fuer gute Clonung') - Nach Stop: Namenseingabe (a-Z, 0-9, _, -), Upload via voice_upload - Nach Upload: Modal schliesst, Settings bekommt xtts_voice_saved und setzt automatisch die neue Stimme als gewaehlt Voice-Flow App → Bridge → XTTS (geraetelokal): - Jeder chat/audio/tts_request schickt aria_xtts_voice (AsyncStorage) mit der Message mit - Bridge speichert _next_voice_override bei chat/audio Empfang, nutzt es fuer die naechste ARIA-Antwort und resettet dann - Fallback: globale xtts_voice aus voice_config.json (Diagnostic) Ergebnis: - Gerat A hat 'stefan' geclont → ARIA antwortet Geraet A mit stefan - Gerat B hat nichts gewaehlt → ARIA antwortet Geraet B mit Default - Diagnostic-Einstellung wirkt als fallback-default fuer neue Geraete Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-19 22:48:24 +02:00
parent fc2438be2d
commit 99cb83202e
4 changed files with 543 additions and 3 deletions
@@ -110,6 +110,8 @@ const ChatScreen: React.FC = () => {
  // Gerätelokale TTS-Config: globaler Toggle (aus Settings) + temporäres Muten (Mund-Button)
  const [ttsDeviceEnabled, setTtsDeviceEnabled] = useState(true);
  const [ttsMuted, setTtsMuted] = useState(false);
+  // Gerätelokale XTTS-Voice-Wahl (bevorzugt gegenueber dem globalen Default)
+  const localXttsVoiceRef = useRef<string>('');

  const flatListRef = useRef<FlatList>(null);
  const messageIdCounter = useRef(0);
@@ -127,6 +129,8 @@ const ChatScreen: React.FC = () => {
      setTtsDeviceEnabled(enabled !== 'false'); // default true
      const muted = await AsyncStorage.getItem('aria_tts_muted');
      setTtsMuted(muted === 'true'); // default false
+      const voice = await AsyncStorage.getItem('aria_xtts_voice');
+      localXttsVoiceRef.current = voice || '';
    };
    loadTtsSettings();
    // Poll alle 2s um Settings-Aenderung mitzubekommen (einfache Loesung ohne Context)
@@ -386,6 +390,7 @@ const ChatScreen: React.FC = () => {
          base64: result.base64,
          durationMs: result.durationMs,
          mimeType: result.mimeType,
+          voice: localXttsVoiceRef.current,
          ...(location && { location }),
        });
      }
@@ -488,9 +493,10 @@ const ChatScreen: React.FC = () => {
    };
    setMessages(prev => capMessages([...prev, userMsg]));

-    // An RVS senden
+    // An RVS senden — mit geraetelokaler Voice (Bridge nutzt sie fuer die Antwort)
    rvs.send('chat', {
      text,
+      voice: localXttsVoiceRef.current,
      ...(location && { location }),
    });
  }, [inputText, getCurrentLocation, pendingAttachments, sendPendingAttachments]);
@@ -599,6 +605,7 @@ const ChatScreen: React.FC = () => {
    if (messageText) {
      rvs.send('chat', {
        text: messageText,
+        voice: localXttsVoiceRef.current,
        ...(location && { location }),
      });
    }
@@ -689,7 +696,7 @@ const ChatScreen: React.FC = () => {
                // wieder mit der Nachricht verknuepft (fuer den naechsten Replay aus Cache)
                rvs.send('tts_request' as any, {
                  text: item.text,
-                  voice: '',
+                  voice: localXttsVoiceRef.current,
                  messageId: item.messageId || '',
                });
              }