feat(speaker-id): Phase 5 — Passive-Listen-Window nach jeder Konversation

Neuer State 'listening' im WakeWordService. Nach endConversation faellt ARIA nicht direkt zu armed zurueck, sondern ins passive Lauschen fuer PASSIVE_LISTEN_DEFAULT_MS (Default 30s, in AsyncStorage konfigurierbar). In dem Fenster braucht Stefan kein Wake-Word mehr — er kann einfach weitersprechen, Speaker-ID-Gating in der Whisper-Bridge filtert fremde Stimmen (TV, Frau, Hintergrundgespraeche). Flow: armed → wake → conversing → TTS → resume → (Nichts gesagt) → endConversation → enterPassiveListening('listening' + Timer) → startPassiveStreamingRecording (kein User-Bubble, kein wake-ready-Sound) → Speaker-ID-Gating in Bridge → Speech detected: exitPassiveListening('speech') → 'conversing' → normaler Flow → Nichts in N Sek: Timer feuert → exitPassiveListening('timeout') → 'armed' (Wake an) Implementation: - wakeword.ts: WakeWordState += 'listening'. enterPassiveListening + exitPassiveListening + onPassiveListen-Callback + Cancel-Timer-Hooks in stop(). PASSIVE_LISTEN_DEFAULT_MS/STORAGE_KEY + load/save Helpers. - ChatScreen.tsx: state-Type um 'listening' erweitert. State-Listener schliesst Conversation-Focus auch in 'listening' (Spotify bleibt pausiert). onPassiveListen → startPassiveStreamingRecording mit noSpeechTimeoutMs=passiveMs. STT-Endpoint-Handler: bei text != '' und state=='listening' → exitPassiveListening('speech'); bei text == '' und state=='listening' → naechste passive Aufnahme. Beim Wechsel listening→armed/off: laufende streaming-Aufnahme cancellen damit OpenWakeWord beim Re-Arm das Mic kriegt. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-06 20:51:07 +02:00
parent ac53af5c24
commit a0dc0cf20e
2 changed files with 180 additions and 9 deletions
@@ -35,7 +35,7 @@ import MemoryBrowser from '../components/MemoryBrowser';
 import ErrorBoundary from '../components/ErrorBoundary';
 import rvs, { RVSMessage, ConnectionState } from '../services/rvs';
 import audioService from '../services/audio';
-import wakeWordService from '../services/wakeword';
+import wakeWordService, { loadPassiveListenMs } from '../services/wakeword';
 import phoneCallService from '../services/phoneCall';
 import { playWakeReadySound } from '../services/wakeReadySound';
 import {
@@ -273,7 +273,7 @@ const ChatScreen: React.FC = () => {
  const [gpsEnabled, setGpsEnabled] = useState(false);
  const [wakeWordActive, setWakeWordActive] = useState(false);
  // Genauer State (off/armed/conversing) fuer UI-Feedback am Button
-  const [wakeWordState, setWakeWordState] = useState<'off' | 'armed' | 'conversing'>('off');
+  const [wakeWordState, setWakeWordState] = useState<'off' | 'armed' | 'conversing' | 'listening'>('off');
  const [fullscreenImage, setFullscreenImage] = useState<string | null>(null);
  const [memoryDetailId, setMemoryDetailId] = useState<string | null>(null);
  const [inboxVisible, setInboxVisible] = useState(false);
@@ -487,9 +487,16 @@ const ChatScreen: React.FC = () => {
      // Conversation-Focus an Wake-Word-State koppeln: solange wir aktiv im
      // Dialog sind, soll Spotify dauerhaft gepaust bleiben (auch ueber
      // Render-Pausen + zwischen Antworten hinweg). Sobald wir zurueck nach
-      // 'armed' oder 'off' fallen, darf Spotify wieder.
-      if (s === 'conversing') audioService.acquireConversationFocus();
+      // 'armed' oder 'off' fallen, darf Spotify wieder. 'listening' soll
+      // Spotify ebenfalls leise halten (User darf jederzeit weitersprechen).
+      if (s === 'conversing' || s === 'listening') audioService.acquireConversationFocus();
      else audioService.releaseConversationFocus();
+      // Beim Verlassen von 'listening' (Timer abgelaufen) eine ggf. noch
+      // laufende passive Streaming-Aufnahme killen, sonst hat OpenWakeWord
+      // keinen Zugriff aufs Mic beim Re-Arm.
+      if ((s === 'armed' || s === 'off') && audioService.isStreamingRecording()) {
+        audioService.cancelStreamingRecording('wakeword-state-' + s);
+      }
      // Foreground-Service-Slot 'wake' — solange das Ohr ueberhaupt aktiv ist
      // (armed oder conversing), soll der App-Prozess im Hintergrund am Leben
      // bleiben damit Mikro-Lauschen + Aufnahme weiterlaufen.
@@ -1346,12 +1353,18 @@ const ChatScreen: React.FC = () => {
    //   - text != ''  → Whisper-Bridge hat ML-Endpoint erkannt, Text liegt vor.
    //                   aria-bridge bekommt das gleiche Event und triggert Brain
    //                   direkt. App muss nix mehr senden.
-    //   - text == ''  → cancelStreamingRecording (no-speech / hardcap / error).
-    //                   Konversation beenden wie frueher der "kein Speech"-Fall.
+    //   - text == ''  → cancelStreamingRecording (no-speech / hardcap / error /
+    //                   speaker_mismatch). Konversation beenden, oder bei
+    //                   passive-listening: nochmal lauschen.
    const unsubEndpoint = audioService.onSttEndpoint((ev) => {
      if (ev.text && ev.text.trim()) {
        console.log('[Chat] STT-Endpoint: %r (reason=%s, %dms, %.1fs Audio)',
                    ev.text.slice(0, 80), ev.reason, ev.sttMs, ev.durationS);
+        // Wenn passive lauschend: User hat tatsaechlich was gesagt → uebergang
+        // zu 'conversing' damit der normale Flow greift (TTS, resume, etc.)
+        if (wakeWordService.getState() === 'listening') {
+          wakeWordService.exitPassiveListening('speech').catch(() => {});
+        }
        // Brain laeuft via aria-bridge — wir warten auf chat(sender=stt) +
        // chat(sender=aria) wie im Legacy-Pfad.
      } else {
@@ -1361,11 +1374,28 @@ const ChatScreen: React.FC = () => {
        if (ev.audioRequestId) {
          setMessages(prev => prev.filter(m => m.audioRequestId !== ev.audioRequestId));
        }
-        wakeWordService.endConversation();
-        if (!wakeWordService.isActive()) setWakeWordActive(false);
+        // Bei Passive-Listen + speaker_mismatch oder no-speech: erneut passiv
+        // lauschen (Timer im wakeword-service laeuft weiter, regelt das Ende).
+        // Sonst endConversation wie bisher.
+        if (wakeWordService.getState() === 'listening') {
+          console.log('[Chat] Passive-Listen: leeres Endpoint — naechste passive Aufnahme');
+          startPassiveStreamingRecording();
+        } else {
+          wakeWordService.endConversation();
+          if (!wakeWordService.isActive()) setWakeWordActive(false);
+        }
      }
    });

+    // Passive-Listen-Callback: Wake-Word-Service hat in den passiven Modus
+    // geschaltet (nach endConversation). Wir starten eine streaming-Aufnahme
+    // OHNE User-Bubble + ohne wake-ready-Sound. Speaker-ID-Gating in der
+    // Whisper-Bridge filtert fremde Stimmen weg.
+    const unsubPassive = wakeWordService.onPassiveListen(() => {
+      console.log('[Chat] Passive-Listen aktiviert — starte stille Streaming-Aufnahme');
+      startPassiveStreamingRecording();
+    });
+
    // Barge-In via Wake-Word: User sagt "Computer" waehrend ARIA spricht.
    // Wake-Word-Service hat bei TTS-Start parallel zu lauschen begonnen
    // (mit AcousticEchoCanceler damit ARIAs eigene Stimme nicht triggert).
@@ -1430,11 +1460,38 @@ const ChatScreen: React.FC = () => {
      unsubWake();
      unsubEndpoint();
      unsubBarge();
+      unsubPassive();
      unsubTtsStart();
      unsubTtsEnd();
    };
  }, [wakeWordActive]);

+  // Passive-Listen-Aufnahme: ohne User-Bubble, ohne Wake-Sound, Speaker-ID-
+  // Gating in der Whisper-Bridge entscheidet ob Stefan spricht oder z.B.
+  // die Frau / TV. Bei text != '' → wakeWordService.exitPassiveListening('speech')
+  // schaltet auf conversing, Brain antwortet, TTS spielt, resume → endConv →
+  // ... und passive listening startet von vorne (mit frischem Timer).
+  // useCallback damit der useEffect oben die Funktion stabil capturen kann.
+  const startPassiveStreamingRecording = useCallback(async () => {
+    const audioRequestId = `audio_passive_${Date.now()}_${Math.floor(Math.random() * 100000)}`;
+    const location = await getCurrentLocation();
+    const passiveMs = await loadPassiveListenMs();
+    const { ok } = await audioService.startStreamingRecording({
+      audioRequestId,
+      voice: localXttsVoiceRef.current,
+      speed: ttsSpeedRef.current,
+      interrupted: false,
+      location: location || null,
+      noSpeechTimeoutMs: Math.min(passiveMs, 30000),
+      endpointMs: 1500,
+      hardCapMs: Math.max(passiveMs + 5000, 35000),
+    });
+    if (!ok) {
+      console.warn('[Chat] passive streaming start failed — exit passive listening');
+      wakeWordService.exitPassiveListening('manual').catch(() => {});
+    }
+  }, []);
+
  // Wake Word Toggle Handler
  const toggleWakeWord = useCallback(async () => {
    if (wakeWordActive) {