feat: Conversation-Window — Gespraech endet nach Stille statt Endlos-Loop

Der Gespraechsmodus war bisher ein Endless-Loop: Mikro hat sich nach jeder ARIA-Antwort wieder geoeffnet bis MAX_RECORDING_MS, danach Speech- Gate verworfen und neu starten. Das Ohr blieb ewig an. Neue Logik: audio.ts: startRecording(autoStop, noSpeechTimeoutMs?) — wenn der User innerhalb des Timeouts nicht anfaengt zu sprechen, wird Stille gemeldet → stopRecording → Speech-Gate verwirft → result=null. wakeword.ts: drei States off/armed/conversing. start() geht direkt in 'conversing' (kein Wake-Word verfuegbar; Stub fuer spaetere Porcupine- Integration). endConversation() bei No-Speech. ChatScreen: Aufnahme bekommt das Window aus AsyncStorage durchgereicht. Bei null-Result → endConversation, UI-State synchron. Settings: neuer +/- Block "Konversations-Fenster" 3-20s (Default 8). Mit dem Stub ist die Architektur bereit fuer Porcupine: dann geht endConversation auf 'armed' statt 'off' und der Wake-Word-Detector laeuft passiv weiter. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 15:14:01 +02:00
parent 578ade3544
commit 1b8a51aad0
4 changed files with 166 additions and 32 deletions
@@ -84,6 +84,27 @@ export const VAD_SILENCE_MIN_SEC = 1.0;
 export const VAD_SILENCE_MAX_SEC = 8.0;
 export const VAD_SILENCE_STORAGE_KEY = 'aria_vad_silence_sec';

+// Konversations-Fenster (in Sekunden) — nach ARIA's Antwort hat der User so
+// lange Zeit, im Gespraechsmodus weiter zu sprechen, ohne dass die Konversation
+// beendet wird. Sprichst du im Fenster nichts → Konversation aus.
+export const CONV_WINDOW_DEFAULT_SEC = 8.0;
+export const CONV_WINDOW_MIN_SEC = 3.0;
+export const CONV_WINDOW_MAX_SEC = 20.0;
+export const CONV_WINDOW_STORAGE_KEY = 'aria_conv_window_sec';
+
+export async function loadConvWindowMs(): Promise<number> {
+  try {
+    const raw = await AsyncStorage.getItem(CONV_WINDOW_STORAGE_KEY);
+    if (raw != null) {
+      const n = parseFloat(raw);
+      if (isFinite(n) && n >= CONV_WINDOW_MIN_SEC && n <= CONV_WINDOW_MAX_SEC) {
+        return Math.round(n * 1000);
+      }
+    }
+  } catch {}
+  return Math.round(CONV_WINDOW_DEFAULT_SEC * 1000);
+}
+
 async function loadVadSilenceMs(): Promise<number> {
  try {
    const raw = await AsyncStorage.getItem(VAD_SILENCE_STORAGE_KEY);
@@ -157,6 +178,7 @@ class AudioService {
  private lastSpeechTime: number = 0;
  private vadTimer: ReturnType<typeof setInterval> | null = null;
  private maxDurationTimer: ReturnType<typeof setTimeout> | null = null;
+  private noSpeechTimer: ReturnType<typeof setTimeout> | null = null;

  constructor() {
    this.recorder = new AudioRecorderPlayer();
@@ -189,8 +211,16 @@ class AudioService {

  // --- Aufnahme ---

-  /** Mikrofon-Aufnahme starten */
-  async startRecording(autoStop: boolean = false): Promise<boolean> {
+  /** Mikrofon-Aufnahme starten.
+   *
+   *  @param autoStop          VAD aktivieren — Auto-Stop bei Stille
+   *  @param noSpeechTimeoutMs Wenn der User innerhalb dieser Zeit nichts sagt,
+   *                           wird Stille gemeldet (Recording wird verworfen).
+   *                           Fuer Conversation-Window: nach ARIA's Antwort
+   *                           hast du nur N Sekunden um anzufangen, sonst
+   *                           Gespraech zu Ende.
+   */
+  async startRecording(autoStop: boolean = false, noSpeechTimeoutMs: number = 0): Promise<boolean> {
    if (this.recordingState !== 'idle') {
      console.warn('[Audio] Aufnahme laeuft bereits');
      return false;
@@ -276,6 +306,18 @@ class AudioService {
        }, MAX_RECORDING_MS);
      }

+      // Conversation-Window: Wenn der User innerhalb noSpeechTimeoutMs nicht
+      // anfaengt zu sprechen → Aufnahme abbrechen (Speech-Gate verwirft sie),
+      // ChatScreen erkennt das und beendet die Konversation.
+      if (noSpeechTimeoutMs > 0) {
+        this.noSpeechTimer = setTimeout(() => {
+          if (!this.speechDetected && this.recordingState === 'recording') {
+            console.log(`[Audio] Conversation-Window ${noSpeechTimeoutMs}ms ohne Sprache — Stop`);
+            this.silenceListeners.forEach(cb => cb());
+          }
+        }, noSpeechTimeoutMs);
+      }
+
      console.log('[Audio] Aufnahme gestartet (autoStop: %s)', autoStop);
      return true;
    } catch (err) {
@@ -302,6 +344,10 @@ class AudioService {
      clearTimeout(this.maxDurationTimer);
      this.maxDurationTimer = null;
    }
+    if (this.noSpeechTimer) {
+      clearTimeout(this.noSpeechTimer);
+      this.noSpeechTimer = null;
+    }

    try {
      await this.recorder.stopRecorder();
@@ -1,56 +1,92 @@
 /**
- * Gespraechsmodus — "Ohr-Button"
+ * Gespraechsmodus / Wake Word Service
 *
- * Wenn aktiv: Nach jeder ARIA-Antwort (TTS fertig) startet automatisch die Aufnahme.
- * Wie ein Walkie-Talkie / natuerliches Gespraech:
- *   ARIA spricht → Aufnahme startet → User spricht → VAD stoppt → ARIA antwortet → ...
+ * Drei Zustaende:
+ *   off        — Ohr aus, nichts laeuft
+ *   armed      — Ohr aktiv, wartet auf Wake Word ("ARIA"). Mikro IST AUS.
+ *                (Sobald Porcupine integriert ist, hoert hier der Wake-Word-
+ *                Detektor passiv mit. Aktuell ist das gleichbedeutend mit "off"
+ *                bis der User wieder tippt — Stub fuer spaeter.)
+ *   conversing — Wake Word getriggert / Ohr-Tap ohne Wake Word: aktive Konvers-
+ *                ation mit ARIA. Mikro oeffnet nach jeder ARIA-Antwort fuer X
+ *                Sekunden (Conversation-Window). Spricht der User nichts in dem
+ *                Fenster → zurueck auf armed (kein erneuter Tap noetig sobald
+ *                Porcupine drin ist).
 *
- * Phase 2 (geplant): Porcupine "ARIA" Wake Word fuer passives Lauschen.
+ * Aktuell ohne Porcupine: armed wird nur als Lifecycle-State gefuehrt; bei
+ * Conversation-Ende geht's direkt auf 'off' damit User klares Feedback bekommt.
 */

 type WakeWordCallback = () => void;
 type StateCallback = (state: WakeWordState) => void;

-export type WakeWordState = 'off' | 'listening' | 'detected';
+export type WakeWordState = 'off' | 'armed' | 'conversing';

 class WakeWordService {
  private state: WakeWordState = 'off';
  private wakeCallbacks: WakeWordCallback[] = [];
  private stateCallbacks: StateCallback[] = [];
+  private wakeWordSupported: boolean = false; // wird gesetzt wenn Porcupine spaeter integriert ist

-  /** Gespraechsmodus starten */
+  /** Ohr-Button gedrueckt — startet Konversation (oder armed wenn Wake-Word verfuegbar) */
  async start(): Promise<boolean> {
-    if (this.state === 'listening') return true;
-    console.log('[WakeWord] Gespraechsmodus aktiviert — starte sofort Aufnahme');
-    this.setState('listening');
-    // Sofort erste Aufnahme starten
-    setTimeout(() => {
-      if (this.state === 'listening') {
-        this.wakeCallbacks.forEach(cb => cb());
-      }
-    }, 500);
+    if (this.state !== 'off') return true;
+    if (this.wakeWordSupported) {
+      // Spaeter: Porcupine starten und auf "ARIA" warten
+      console.log('[WakeWord] armed — warte auf Wake Word');
+      this.setState('armed');
+    } else {
+      // Heute: direkt in die Konversation
+      console.log('[WakeWord] Konversation startet sofort (kein Wake-Word)');
+      this.setState('conversing');
+      setTimeout(() => {
+        if (this.state === 'conversing') {
+          this.wakeCallbacks.forEach(cb => cb());
+        }
+      }, 500);
+    }
    return true;
  }

-  /** Gespraechsmodus stoppen */
+  /** Komplett ausschalten (Ohr abschalten) */
  stop(): void {
-    console.log('[WakeWord] Gespraechsmodus deaktiviert');
+    console.log('[WakeWord] Ohr deaktiviert');
    this.setState('off');
  }

-  /** Nach ARIA-Antwort (TTS fertig): Aufnahme automatisch starten */
+  /** Konversation beenden — User hat im Window nichts gesagt.
+   *  Mit Porcupine: zurueck zu 'armed'. Ohne: zurueck zu 'off'.
+   */
+  endConversation(): void {
+    if (this.state !== 'conversing') return;
+    if (this.wakeWordSupported) {
+      console.log('[WakeWord] Konversation zu Ende — zurueck zu armed (warte auf Wake Word)');
+      this.setState('armed');
+    } else {
+      console.log('[WakeWord] Konversation zu Ende — Ohr aus (kein Wake Word verfuegbar)');
+      this.setState('off');
+    }
+  }
+
+  /** Nach ARIA-Antwort (TTS fertig): naechste Aufnahme im Conversation-Window starten */
  async resume(): Promise<void> {
-    if (this.state !== 'listening') return;
+    if (this.state !== 'conversing') return;
    // Kurze Pause damit TTS-Audio nicht ins Mikrofon geht
    await new Promise(resolve => setTimeout(resolve, 800));
-    if (this.state === 'listening') {
-      console.log('[WakeWord] TTS fertig — starte automatisch Aufnahme');
+    if (this.state === 'conversing') {
+      console.log('[WakeWord] TTS fertig — naechste Aufnahme im Conversation-Window');
      this.wakeCallbacks.forEach(cb => cb());
    }
  }

+  /** True solange das Ohr aktiv ist (armed ODER conversing). */
  isActive(): boolean {
-    return this.state === 'listening';
+    return this.state !== 'off';
+  }
+
+  /** True wenn gerade aktiv aufgenommen / mit ARIA gesprochen wird. */
+  isConversing(): boolean {
+    return this.state === 'conversing';
  }

  // --- Callbacks ---