release: bump version to 0.0.8.0

fix(vad): adaptive Baseline robuster — minimum + Cap-Bereich
Bug: Wenn beim Aufnahmestart sofort gesprochen wurde (z.B. Wake-Word- Echo noch im Mikro) ODER der Hintergrund vorruebergehend laut war, verschob die avg-basierte Baseline die Stille-Schwelle so weit nach oben, dass normale Hintergrundgeraeusche dauerhaft als "Sprache" zaehlten — VAD feuerte nie, Aufnahme lief unendlich. Fix: - Baseline = MINIMUM der 5 Samples statt Mittelwert (ruhigster Moment) - Cap auf sinnvollen Bereich: - Silence-Schwelle: -50dB bis -28dB (vorher unbegrenzt) - Speech-Schwelle: -40dB bis -18dB - Erweitertes Log: zeigt sowohl raw als auch geclamp-te Werte Damit gibt's keine "tote" VAD-Konfiguration mehr — selbst wenn die Baseline-Messung Schrott ist, bleiben die Schwellen praktikabel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-06 23:06:22 +02:00 · 2026-05-06 23:05:08 +02:00 · 2026-05-06 23:00:32 +02:00 · 2026-05-06 22:59:20 +02:00
4 changed files with 31 additions and 16 deletions
@@ -79,8 +79,8 @@ android {
        applicationId "com.ariacockpit"
        minSdkVersion rootProject.ext.minSdkVersion
        targetSdkVersion rootProject.ext.targetSdkVersion
-        versionCode 708
-        versionName "0.0.7.8"
+        versionCode 800
+        versionName "0.0.8.0"
        // Fallback fuer Libraries mit Product Flavors
        missingDimensionStrategy 'react-native-camera', 'general'
    }
@@ -1,6 +1,6 @@
 {
  "name": "aria-cockpit",
-  "version": "0.0.7.8",
+  "version": "0.0.8.0",
  "private": true,
  "scripts": {
    "android": "react-native run-android",
@@ -535,7 +535,7 @@ const ChatScreen: React.FC = () => {
          audioRequestId,
          ...(location && { location }),
        });
-        scheduleStaleAudioCleanup(audioRequestId);
+        scheduleStaleAudioCleanup(audioRequestId, result.durationMs);
        // resume() wird durch onPlaybackFinished nach ARIAs Antwort getriggert.
      } else {
        // Kein Speech im Window → Konversation beenden (Ohr geht aus oder
@@ -658,10 +658,13 @@ const ChatScreen: React.FC = () => {
  // --- Nachricht senden ---

  // Aufraeumen von "verarbeitet"-Placeholder die nie ein STT-Result bekommen
-  // haben (leere Aufnahme, Wake-Word-Echo, STT-Fehler etc). Nach 30s werden
-  // sie automatisch entfernt damit nicht-erkannte Aufnahmen nicht den State
-  // verstopfen + naechste echte Aufnahmen die richtige Bubble ersetzen koennen.
-  const scheduleStaleAudioCleanup = useCallback((audioRequestId: string) => {
+  // haben (leere Aufnahme, Wake-Word-Echo, STT-Fehler etc). Timeout skaliert
+  // mit der Aufnahmedauer — Whisper braucht auf der Gamebox grob real-time/5,
+  // plus Bridge-Roundtrip + Network. Formel: 60s Buffer + 1x Aufnahmedauer.
+  // Bei 5min Aufnahme = 6 min Wait, bei 5s Aufnahme = 65s. Sicher genug damit
+  // langsame STTs nicht versehentlich aufgeraeumt werden.
+  const scheduleStaleAudioCleanup = useCallback((audioRequestId: string, recordingMs: number) => {
+    const timeoutMs = 60000 + recordingMs;
    setTimeout(() => {
      setMessages(prev => {
        const idx = prev.findIndex(m =>
@@ -669,11 +672,12 @@ const ChatScreen: React.FC = () => {
          m.text.includes('Spracheingabe wird verarbeitet')
        );
        if (idx < 0) return prev;
-        console.log('[Chat] Sprachnachricht ohne STT-Result entfernt: %s', audioRequestId);
+        console.log('[Chat] Sprachnachricht ohne STT-Result nach %dms entfernt: %s',
+                    timeoutMs, audioRequestId);
        ToastAndroid.show('Sprachnachricht nicht erkannt — entfernt', ToastAndroid.SHORT);
        return prev.filter((_, i) => i !== idx);
      });
-    }, 30000);
+    }, timeoutMs);
  }, []);

  const sendTextMessage = useCallback(async () => {
@@ -763,7 +767,7 @@ const ChatScreen: React.FC = () => {
      audioRequestId,
      ...(location && { location }),
    });
-    scheduleStaleAudioCleanup(audioRequestId);
+    scheduleStaleAudioCleanup(audioRequestId, result.durationMs);
  }, [getCurrentLocation, interruptAriaIfBusy, scheduleStaleAudioCleanup]);

  // Datei auswaehlen → zur Pending-Liste hinzufuegen
@@ -388,11 +388,22 @@ class AudioService {
          if (db > -100) {
            this.vadBaselineSamples.push(db);
            if (this.vadBaselineSamples.length === VAD_BASELINE_SAMPLES) {
-              const avg = this.vadBaselineSamples.reduce((a, b) => a + b, 0) / VAD_BASELINE_SAMPLES;
-              this.vadAdaptiveSilenceDb = avg + VAD_SILENCE_OFFSET_DB;
-              this.vadAdaptiveSpeechDb = avg + VAD_SPEECH_OFFSET_DB;
-              const msg = `VAD: ambient=${avg.toFixed(0)}dB stille>${this.vadAdaptiveSilenceDb.toFixed(0)}dB`;
-              console.log('[Audio] %s speech>%s', msg, this.vadAdaptiveSpeechDb.toFixed(1));
+              // Minimum statt Mittelwert: robust gegen Spike-Samples (z.B. wenn
+              // der User direkt nach Wake-Word sofort spricht oder das Wake-Word-
+              // Echo noch im Mikro ist). Min ist der ruhigste Moment.
+              const lowest = Math.min(...this.vadBaselineSamples);
+              const rawSilence = lowest + VAD_SILENCE_OFFSET_DB;
+              const rawSpeech = lowest + VAD_SPEECH_OFFSET_DB;
+              // Cap auf einen vernuenftigen Bereich:
+              // - Silence-Schwelle nicht ueber -28dB (sonst zaehlt Hintergrund-
+              //   geraeusch dauerhaft als "Sprache" → VAD feuert nie)
+              // - Silence-Schwelle nicht unter -50dB (sonst zu strikt)
+              this.vadAdaptiveSilenceDb = Math.max(-50, Math.min(rawSilence, -28));
+              this.vadAdaptiveSpeechDb = Math.max(-40, Math.min(rawSpeech, -18));
+              const msg = `VAD: ambient=${lowest.toFixed(0)}dB stille>${this.vadAdaptiveSilenceDb.toFixed(0)}dB`;
+              console.log('[Audio] %s speech>%s (raw silence=%s speech=%s)',
+                          msg, this.vadAdaptiveSpeechDb.toFixed(1),
+                          rawSilence.toFixed(1), rawSpeech.toFixed(1));
              try { ToastAndroid.show(msg, ToastAndroid.SHORT); } catch {}
            }
          }
Author	SHA1	Message	Date
duffyduck	a648dad96d	release: bump version to 0.0.8.0	2026-05-06 23:06:22 +02:00
duffyduck	da5579038e	fix(vad): adaptive Baseline robuster — minimum + Cap-Bereich Bug: Wenn beim Aufnahmestart sofort gesprochen wurde (z.B. Wake-Word- Echo noch im Mikro) ODER der Hintergrund vorruebergehend laut war, verschob die avg-basierte Baseline die Stille-Schwelle so weit nach oben, dass normale Hintergrundgeraeusche dauerhaft als "Sprache" zaehlten — VAD feuerte nie, Aufnahme lief unendlich. Fix: - Baseline = MINIMUM der 5 Samples statt Mittelwert (ruhigster Moment) - Cap auf sinnvollen Bereich: - Silence-Schwelle: -50dB bis -28dB (vorher unbegrenzt) - Speech-Schwelle: -40dB bis -18dB - Erweitertes Log: zeigt sowohl raw als auch geclamp-te Werte Damit gibt's keine "tote" VAD-Konfiguration mehr — selbst wenn die Baseline-Messung Schrott ist, bleiben die Schwellen praktikabel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:05:08 +02:00
duffyduck	4ba48940b9	release: bump version to 0.0.7.9	2026-05-06 23:00:32 +02:00
duffyduck	568ef9ed10	fix(audio): STT-Cleanup-Timeout skaliert mit Aufnahmedauer Der pauschale 30s-Timeout vom Vorgaenger-Commit haette bei einer 5-Minuten-Aufnahme schon getriggert waehrend Whisper noch transkribiert (Whisper braucht auf der Gamebox-GPU grob real-time/5, plus Bridge- Roundtrip). Neue Formel: 60s Buffer + 1x Aufnahmedauer. - 5s Aufnahme → 65s Wait - 5min Aufnahme → 6 min Wait - 30min Aufnahme → 31 min Wait Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:59:20 +02:00