feat(app): Streaming-STT-Pipeline — Phase 1+2 verdrahtet

audio.ts: - neue Methoden startStreamingRecording / stopStreamingRecording / cancelStreamingRecording mit PcmStreamRecorder als AudioRecord-Source - permanenter RVS-Listener fuer stt_partial / stt_endpoint / stt_stream_done, Filterung ueber streamRequestId-Match - Callbacks onSttEndpoint(SttEndpointEvent) + onSttPartial(text) - No-Speech-Watchdog + App-seitiger Hard-Cap (+2s Toleranz gegen Bridge) - cancelStreamingRecording feuert onSttEndpoint mit text='' damit ChatScreen den No-Speech-Fall behandeln kann (wie frueher onSilenceDetected -> stopRecording() -> null) - Legacy startRecording / stopRecording / onSilenceDetected unangetastet -- VoiceButton (manuelle Aufnahme) nutzt das weiterhin ChatScreen.tsx: - Wake-Callback: startRecording -> startStreamingRecording - Bubble wird sofort gebaut, audioRequestId landet via stt_endpoint -> chat(sender=stt) im chat-Handler-Update-Pfad wie bisher - onSilenceDetected entfernt, ersetzt durch onSttEndpoint: text != '' -> log, aria-bridge triggert Brain selbst (Phase-2-Shortcut) text == '' -> endConversation (No-Speech-Fall) - Barge-In via Wake-Word: ebenfalls auf Streaming umgestellt - AppState-resume + toggleWakeWord-off pruefen jetzt isStreamingRecording() und nutzen passenden Cancel Damit: kein dB/VAD mehr im Hot-Path. Whisper hoert auf semantische Stille (kein neuer Text), Brain bekommt den Text direkt von aria-bridge, Audio-Roundtrip App->aria->whisper->aria->App entfaellt komplett.
2026-05-30 21:42:02 +02:00
parent 199297a3a1
commit be1d2e950a
2 changed files with 444 additions and 55 deletions
@@ -531,7 +531,14 @@ const ChatScreen: React.FC = () => {
        if (bgDur > 30_000) {
          wakeWordService.discardIfFreshlyTriggered(15_000).then(discarded => {
            if (discarded) {
-              try { audioService.cancelRecording(); } catch {}
+              // Sowohl legacy als auch Streaming-Pfad abdecken
+              try {
+                if (audioService.isStreamingRecording()) {
+                  audioService.cancelStreamingRecording('wake-discarded');
+                } else {
+                  audioService.cancelRecording();
+                }
+              } catch {}
            }
          }).catch(() => {});
        }
@@ -1266,64 +1273,75 @@ const ChatScreen: React.FC = () => {
    return () => unsubPlayback();
  }, []);

-  // Wake Word / Gespraechsmodus: Auto-Aufnahme starten
+  // Wake Word / Gespraechsmodus: Auto-Aufnahme starten (Streaming-Modus)
  useEffect(() => {
    const unsubWake = wakeWordService.onWakeWord(async () => {
-      console.log('[Chat] Gespraechsmodus — starte Auto-Aufnahme');
-      import('../services/logger').then(m => m.reportAppDebug('wake.cb', 'callback fired, calling startRecording')).catch(()=>{});
-      // Conversation-Window: User hat X Sekunden um anzufangen, sonst Konversation aus
+      console.log('[Chat] Gespraechsmodus — starte Streaming-Aufnahme');
+      import('../services/logger').then(m => m.reportAppDebug('wake.cb', 'callback fired, calling startStreamingRecording')).catch(()=>{});
+
+      // Bubble SOFORT bauen — bevor Whisper-Bridge antwortet — damit der User
+      // sieht "Es passiert was". stt_endpoint kommt typisch <1s spaeter mit
+      // dem finalen Text, dann wird die Bubble ueber audioRequestId-Match
+      // aktualisiert (siehe chat-Handler oben).
+      const audioRequestId = `audio_${Date.now()}_${Math.floor(Math.random() * 100000)}`;
+      const wasInterrupted = interruptAriaIfBusy();
+      const location = await getCurrentLocation();
      const windowMs = await loadConvWindowMs();
-      const started = await audioService.startRecording(true, windowMs);
-      import('../services/logger').then(m => m.reportAppDebug('wake.cb', `startRecording returned ${started}`)).catch(()=>{});
-      if (started) {
-        // Erst JETZT signalisieren dass das Mikro wirklich offen ist —
-        // vorher war's noch in der Init-Phase. So weiss der User exakt
-        // ab wann er reden kann. "Bereit"-Sound (Ding-Dong) ist optional
-        // ueber Settings → Wake-Word abschaltbar.
+
+      const userMsg: ChatMessage = {
+        id: nextId(),
+        sender: 'user',
+        text: '🎙 Spracheingabe wird verarbeitet...',
+        timestamp: Date.now(),
+        attachments: [{ type: 'audio', name: 'Sprachaufnahme' }],
+        audioRequestId,
+      };
+      setMessages(prev => capMessages([...prev, userMsg]));
+
+      const { ok } = await audioService.startStreamingRecording({
+        audioRequestId,
+        voice: localXttsVoiceRef.current,
+        speed: ttsSpeedRef.current,
+        interrupted: wasInterrupted,
+        location: location || null,
+        noSpeechTimeoutMs: windowMs,
+        endpointMs: 1500,
+        hardCapMs: 60000,
+      });
+      import('../services/logger').then(m => m.reportAppDebug('wake.cb', `startStreamingRecording returned ok=${ok}`)).catch(()=>{});
+      if (ok) {
        ToastAndroid.show('🎤 Mikro offen — sprich jetzt', ToastAndroid.SHORT);
        playWakeReadySound().catch(() => {});
-        import('../services/logger').then(m => m.reportAppDebug('wake.cb', 'gong played + recording started')).catch(()=>{});
+        scheduleStaleAudioCleanup(audioRequestId, 60000);
+        import('../services/logger').then(m => m.reportAppDebug('wake.cb', 'gong played + streaming started')).catch(()=>{});
      } else {
-        // Mikrofon nicht verfuegbar, naechsten Versuch
+        // Mikrofon nicht verfuegbar → Bubble wieder weg, naechster Versuch
+        setMessages(prev => prev.filter(m => m.audioRequestId !== audioRequestId));
        wakeWordService.resume();
      }
    });

-    // Auto-Stop Callback: wenn Stille erkannt → Aufnahme senden + Wake Word wieder starten
-    const unsubSilence = audioService.onSilenceDetected(async () => {
-      const result = await audioService.stopRecording();
-      if (result && result.durationMs > 500) {
-        // User hat im Fenster gesprochen → Sprachnachricht senden
-        // Barge-In: laufende ARIA-Aktivitaet abbrechen wenn welche da ist.
-        const wasInterrupted = interruptAriaIfBusy();
-        const location = await getCurrentLocation();
-        const audioRequestId = `audio_${Date.now()}_${Math.floor(Math.random() * 100000)}`;
-        const userMsg: ChatMessage = {
-          id: nextId(),
-          sender: 'user',
-          text: '🎙 Spracheingabe wird verarbeitet...',
-          timestamp: Date.now(),
-          attachments: [{ type: 'audio', name: 'Sprachaufnahme' }],
-          audioRequestId,
-        };
-        setMessages(prev => capMessages([...prev, userMsg]));
-        rvs.send('audio', {
-          base64: result.base64,
-          durationMs: result.durationMs,
-          mimeType: result.mimeType,
-          voice: localXttsVoiceRef.current,
-          speed: ttsSpeedRef.current,
-          interrupted: wasInterrupted,
-          audioRequestId,
-          ...(location && { location }),
-        });
-        scheduleStaleAudioCleanup(audioRequestId, result.durationMs);
-        // resume() wird durch onPlaybackFinished nach ARIAs Antwort getriggert.
+    // STT-Endpoint-Callback ersetzt den alten onSilenceDetected.
+    // Feuert in 2 Faellen:
+    //   - text != ''  → Whisper-Bridge hat ML-Endpoint erkannt, Text liegt vor.
+    //                   aria-bridge bekommt das gleiche Event und triggert Brain
+    //                   direkt. App muss nix mehr senden.
+    //   - text == ''  → cancelStreamingRecording (no-speech / hardcap / error).
+    //                   Konversation beenden wie frueher der "kein Speech"-Fall.
+    const unsubEndpoint = audioService.onSttEndpoint((ev) => {
+      if (ev.text && ev.text.trim()) {
+        console.log('[Chat] STT-Endpoint: %r (reason=%s, %dms, %.1fs Audio)',
+                    ev.text.slice(0, 80), ev.reason, ev.sttMs, ev.durationS);
+        // Brain laeuft via aria-bridge — wir warten auf chat(sender=stt) +
+        // chat(sender=aria) wie im Legacy-Pfad.
      } else {
-        // Kein Speech im Window → Konversation beenden (Ohr geht aus oder
-        // bleibt armed wenn Wake Word verfuegbar)
+        // Kein Speech im Window → Konversation beenden
+        console.log('[Chat] STT-Endpoint ohne Text (reason=%s) — endConversation', ev.reason);
+        // Placeholder-Bubble wieder weg
+        if (ev.audioRequestId) {
+          setMessages(prev => prev.filter(m => m.audioRequestId !== ev.audioRequestId));
+        }
        wakeWordService.endConversation();
-        // UI-State synchron halten
        if (!wakeWordService.isActive()) setWakeWordActive(false);
      }
    });
@@ -1332,17 +1350,42 @@ const ChatScreen: React.FC = () => {
    // Wake-Word-Service hat bei TTS-Start parallel zu lauschen begonnen
    // (mit AcousticEchoCanceler damit ARIAs eigene Stimme nicht triggert).
    const unsubBarge = wakeWordService.onBargeIn(async () => {
-      console.log('[Chat] Barge-In via Wake-Word — TTS abbrechen + neue Aufnahme');
+      console.log('[Chat] Barge-In via Wake-Word — TTS abbrechen + neue Streaming-Aufnahme');
      audioService.haltAllPlayback('barge-in via wake-word');
      setAgentActivity({ activity: 'idle', tool: '' });
      rvs.send('cancel_request' as any, {});
      // Kurze Pause damit halt durchgreift, dann neue Aufnahme starten
      await new Promise(r => setTimeout(r, 150));
+      const audioRequestId = `audio_${Date.now()}_${Math.floor(Math.random() * 100000)}`;
+      const location = await getCurrentLocation();
      const windowMs = await loadConvWindowMs();
-      const started = await audioService.startRecording(true, windowMs);
-      if (started) {
+
+      const userMsg: ChatMessage = {
+        id: nextId(),
+        sender: 'user',
+        text: '🎙 Spracheingabe wird verarbeitet...',
+        timestamp: Date.now(),
+        attachments: [{ type: 'audio', name: 'Sprachaufnahme' }],
+        audioRequestId,
+      };
+      setMessages(prev => capMessages([...prev, userMsg]));
+
+      const { ok } = await audioService.startStreamingRecording({
+        audioRequestId,
+        voice: localXttsVoiceRef.current,
+        speed: ttsSpeedRef.current,
+        interrupted: true,   // Barge-In → Brain weiss "User hat unterbrochen"
+        location: location || null,
+        noSpeechTimeoutMs: windowMs,
+        endpointMs: 1500,
+        hardCapMs: 60000,
+      });
+      if (ok) {
        ToastAndroid.show('🎤 Mikro offen — sprich jetzt', ToastAndroid.SHORT);
        playWakeReadySound().catch(() => {});
+        scheduleStaleAudioCleanup(audioRequestId, 60000);
+      } else {
+        setMessages(prev => prev.filter(m => m.audioRequestId !== audioRequestId));
      }
    });

@@ -1365,7 +1408,7 @@ const ChatScreen: React.FC = () => {

    return () => {
      unsubWake();
-      unsubSilence();
+      unsubEndpoint();
      unsubBarge();
      unsubTtsStart();
      unsubTtsEnd();
@@ -1375,11 +1418,18 @@ const ChatScreen: React.FC = () => {
  // Wake Word Toggle Handler
  const toggleWakeWord = useCallback(async () => {
    if (wakeWordActive) {
-      // Vor Porcupine-Stop: eventuelle laufende Aufnahme abbrechen. Sonst
+      // Vor Wake-Word-Stop: eventuelle laufende Aufnahme abbrechen. Sonst
      // bleibt audioService.recordingState=='recording' haengen und der
      // normale Aufnahme-Button wirkt nicht mehr (startRecording lehnt
-      // ab weil "Aufnahme laeuft bereits").
-      try { await audioService.stopRecording(); } catch {}
+      // ab weil "Aufnahme laeuft bereits"). Beide Pfade abdecken — legacy
+      // file-Aufnahme + neue Streaming-Aufnahme.
+      try {
+        if (audioService.isStreamingRecording()) {
+          await audioService.cancelStreamingRecording('wake-toggle-off');
+        } else {
+          await audioService.stopRecording();
+        }
+      } catch {}
      await wakeWordService.stop();
      setWakeWordActive(false);
    } else {