fix: Textauswahl, adaptive VAD-Schwelle + Barge-In bei Sprachaufnahme

Bug 1 — Textauswahl in Bubbles ging nicht mehr: MessageText hatte verschachtelte <Text onPress={...}> fuer Custom-Link- Styling. Das fing die Long-Press-Geste ab, daher kein Markieren+Kopieren mehr. Jetzt nur noch ein einzelnes <Text selectable dataDetectorType="all">, Android macht URLs/Telefonnummern/Emails per System-Detection klickbar. Bug 2 — VAD erkannte Stille nicht zuverlaessig (Aufnahme lief endlos): Festwerte (-45dB Stille / -28dB Sprache) passten nicht zu jeder Umgebung. In lauteren Raeumen lag der Hintergrundpegel ueber der Stille-Schwelle, lastSpeechTime wurde dauerhaft aktualisiert → VAD feuerte nie, Aufnahme lief bis 120s Max-Duration. Jetzt adaptiv: erste 5 Mic-Samples (~500ms) bilden die Baseline; Stille- Schwelle = baseline+6dB, Sprache-Schwelle = baseline+12dB. Toast zeigt die kalibrierten Werte beim Aufnahmestart. Fallback auf -38dB/-22dB falls das Mikro keine Metering-Updates liefert. Bug 3 — Barge-In ("ach vergiss es"): Wenn waehrend ARIAs Antwort eine neue Sprachnachricht aufgenommen wird, wird ARIAs aktuelle Aktivitaet (TTS + thinking/tool) sofort abgebrochen bevor die neue Message gesendet wird — wie in einem echten Gespraech wo man den anderen unterbrechen darf. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-06 21:49:48 +02:00
parent fa0667088a
commit 406f4cb3cc
3 changed files with 83 additions and 94 deletions
@@ -6,7 +6,7 @@
 * Nutzt react-native-audio-recorder-player fuer Aufnahme.
 */

-import { Platform, PermissionsAndroid, NativeModules } from 'react-native';
+import { Platform, PermissionsAndroid, NativeModules, ToastAndroid } from 'react-native';
 import Sound from 'react-native-sound';
 import RNFS from 'react-native-fs';
 import AsyncStorage from '@react-native-async-storage/async-storage';
@@ -72,9 +72,16 @@ const AUDIO_SAMPLE_RATE = 16000;
 const AUDIO_CHANNELS = 1;
 const AUDIO_ENCODING = 'audio/wav';

-// VAD (Voice Activity Detection) — Stille-Erkennung
-const VAD_SILENCE_THRESHOLD_DB = -45;  // dB unter dem als "Stille" gilt
-const VAD_SPEECH_THRESHOLD_DB = -28;   // dB ueber dem als "Sprache" gilt (Sprach-Gate) — hoeher = weniger Umgebungsgeraeusche
+// VAD (Voice Activity Detection) — Stille-Erkennung.
+// Fallback-Werte falls die adaptive Baseline-Messung fehlschlaegt (z.B. weil
+// das Mikro keine metering-Updates liefert). Adaptive Werte werden zur
+// Laufzeit aus den ersten BASELINE_SAMPLES gemessen und auf baseline+offset
+// gesetzt — funktioniert in lauten wie leisen Umgebungen.
+const VAD_SILENCE_FALLBACK_DB = -38;   // Fallback Stille-Schwelle
+const VAD_SPEECH_FALLBACK_DB = -22;    // Fallback Sprach-Schwelle
+const VAD_SILENCE_OFFSET_DB = 6;       // Sprache = Baseline + 6dB
+const VAD_SPEECH_OFFSET_DB = 12;       // sicheres Speech = Baseline + 12dB
+const VAD_BASELINE_SAMPLES = 5;        // 5 × 100ms = 500ms Baseline
 const VAD_SPEECH_MIN_MS = 500;         // ms Sprache bevor Aufnahme zaehlt — laenger = keine Huestler/Klopfer mehr

 // VAD-Stille (in Sekunden) — wie lange Sprechpause toleriert wird, bevor
@@ -212,6 +219,14 @@ class AudioService {
  // Latch damit der Silence-Callback pro Aufnahme genau einmal feuert
  private silenceFired: boolean = false;
  private noSpeechTimer: ReturnType<typeof setTimeout> | null = null;
+  // Adaptive Schwellen — werden in den ersten 500ms aus dem Mikro-Pegel
+  // gemessen. baseline = avg dB der ersten 5 Samples, dann:
+  //   silence  = baseline + VAD_SILENCE_OFFSET_DB  (6dB ueber ambient)
+  //   speech   = baseline + VAD_SPEECH_OFFSET_DB   (12dB ueber ambient = klares Reden)
+  // Funktioniert sowohl im stillen Buero als auch im lauten Cafe.
+  private vadBaselineSamples: number[] = [];
+  private vadAdaptiveSilenceDb: number = VAD_SILENCE_FALLBACK_DB;
+  private vadAdaptiveSpeechDb: number = VAD_SPEECH_FALLBACK_DB;

  constructor() {
    this.recorder = new AudioRecorderPlayer();
@@ -270,6 +285,14 @@ class AudioService {
    this.stopPlayback();
  }

+  /** True wenn ARIA gerade was abspielt — egal ob WAV-Queue oder PCM-Stream.
+   *  Nuetzlich fuer "Barge-In": wenn der User spricht waehrend ARIA spricht,
+   *  soll die ARIA-Wiedergabe abgebrochen + die neue User-Message verarbeitet
+   *  werden ("ach vergiss es, mach lieber X"). */
+  isPlayingAudio(): boolean {
+    return this.isPlaying || this.pcmStreamActive;
+  }
+
  // --- Berechtigungen ---

  async requestMicrophonePermission(): Promise<boolean> {
@@ -341,8 +364,25 @@ class AudioService {
        const db = e.currentMetering ?? -160;
        this.meterListeners.forEach(cb => cb(db));

+        // Adaptive Baseline: erste 5 Samples (~500ms) sammeln, dann Schwellen
+        // anpassen. -160 (kein Metering) ignorieren — sonst wird die Baseline
+        // sinnlos niedrig.
+        if (this.vadBaselineSamples.length < VAD_BASELINE_SAMPLES) {
+          if (db > -100) {
+            this.vadBaselineSamples.push(db);
+            if (this.vadBaselineSamples.length === VAD_BASELINE_SAMPLES) {
+              const avg = this.vadBaselineSamples.reduce((a, b) => a + b, 0) / VAD_BASELINE_SAMPLES;
+              this.vadAdaptiveSilenceDb = avg + VAD_SILENCE_OFFSET_DB;
+              this.vadAdaptiveSpeechDb = avg + VAD_SPEECH_OFFSET_DB;
+              const msg = `VAD: ambient=${avg.toFixed(0)}dB stille>${this.vadAdaptiveSilenceDb.toFixed(0)}dB`;
+              console.log('[Audio] %s speech>%s', msg, this.vadAdaptiveSpeechDb.toFixed(1));
+              try { ToastAndroid.show(msg, ToastAndroid.SHORT); } catch {}
+            }
+          }
+        }
+
        // Sprach-Gate: Erkennen ob tatsaechlich gesprochen wird
-        if (db > VAD_SPEECH_THRESHOLD_DB) {
+        if (db > this.vadAdaptiveSpeechDb) {
          if (!this.speechDetected && this.speechStartTime === 0) {
            this.speechStartTime = Date.now();
          }
@@ -357,7 +397,7 @@ class AudioService {

        // VAD: Stille erkennen (nur wenn Sprache erkannt wurde)
        if (this.vadEnabled) {
-          if (db > VAD_SILENCE_THRESHOLD_DB) {
+          if (db > this.vadAdaptiveSilenceDb) {
            this.lastSpeechTime = Date.now();
          }
        }
@@ -367,6 +407,12 @@ class AudioService {
      this.lastSpeechTime = Date.now();
      this.speechDetected = false;
      this.speechStartTime = 0;
+      // VAD-Adaptive zurueckgesetzt: Baseline wird in den ersten 500ms neu
+      // gemessen. Bis dahin gelten die Fallback-Schwellen — die sind etwas
+      // empfindlicher als die alten Werte (-38 statt -45 fuer Stille).
+      this.vadBaselineSamples = [];
+      this.vadAdaptiveSilenceDb = VAD_SILENCE_FALLBACK_DB;
+      this.vadAdaptiveSpeechDb = VAD_SPEECH_FALLBACK_DB;
      this.setState('recording');

      // Andere Apps waehrend der Aufnahme pausieren (Musik, Videos etc.)