release: bump version to 0.0.6.8

fix(wake-word): Embedding-Output ist rank-4, nicht rank-2 — Trigger funktioniert jetzt
Hauptursache warum kein Wake-Word je triggerte: das Google-Speech- Embedding-Modell liefert (1,1,1,96), nicht (1,96). Der Cast `as Array<FloatArray>` warf eine ClassCastException, die vom try/catch geschluckt wurde — Pipeline lief still ins Leere. Zusaetzlich: - WW-Input-Frame-Count wird jetzt aus den Modell-Metadaten gelesen (variiert pro Keyword; hey_jarvis=16, computer_v2evtl. anders) - "Computer" als Wake-Word erweitert (Community-Modell aus fwartner/home-assistant-wakewords-collection) "ARIA" als Wake-Word: gibt's nicht fertig trainiert. Muesste ueber das openWakeWord Colab-Notebook trainiert werden (~1h auf gratis-GPU). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-26 13:26:00 +02:00 · 2026-04-26 13:24:47 +02:00 · 2026-04-26 13:18:25 +02:00 · 2026-04-26 13:08:13 +02:00 · 2026-04-26 13:04:32 +02:00
8 changed files with 95 additions and 18 deletions
@@ -406,10 +406,11 @@ mit ONNX Runtime — kein API-Key, kein Cloud-Roundtrip, kein Cent Lizenzgebuehr
 und das Audio verlaesst das Geraet nie.

 **Mitgelieferte Wake-Words** (ONNX-Dateien in `android/android/app/src/main/assets/openwakeword/`):
- `Hey Jarvis` (Default)
- `Alexa`
- `Hey Mycroft`
- `Hey Rhasspy`
+- `Hey Jarvis` (Default, openWakeWord-Original)
+- `Computer` (Star-Trek-Style, Community-Modell)
+- `Alexa`, `Hey Mycroft`, `Hey Rhasspy` (openWakeWord-Originale)
+
+Community-Modelle stammen aus [fwartner/home-assistant-wakewords-collection](https://github.com/fwartner/home-assistant-wakewords-collection).

 **Bedienung:**
 - App → **Einstellungen** → **Wake-Word** → gewuenschtes Keyword waehlen → **Speichern + Aktivieren**
@@ -79,8 +79,8 @@ android {
        applicationId "com.ariacockpit"
        minSdkVersion rootProject.ext.minSdkVersion
        targetSdkVersion rootProject.ext.targetSdkVersion
-        versionCode 606
-        versionName "0.0.6.6"
+        versionCode 608
+        versionName "0.0.6.8"
        // Fallback fuer Libraries mit Product Flavors
        missingDimensionStrategy 'react-native-camera', 'general'
    }
@@ -104,6 +104,19 @@ android {
            proguardFiles getDefaultProguardFile("proguard-android.txt"), "proguard-rules.pro"
        }
    }
+
+    // ABI-Split: nur arm64-v8a (jedes Android-Phone seit ~2017). Bringt die
+    // APK von ~136 MB auf ~35 MB — relevant weil ONNX Runtime + die anderen
+    // Native-Libs sonst pro Architektur dazukommen. Wer 32-bit oder Emulator
+    // braucht, kann hier "armeabi-v7a", "x86_64" etc. ergaenzen.
+    splits {
+        abi {
+            enable true
+            reset()
+            include "arm64-v8a"
+            universalApk false
+        }
+    }
 }

 dependencies {
@@ -42,8 +42,8 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
        private const val MEL_FRAMES_PER_EMBEDDING = 76      // Embedding-Fenster
        private const val EMBEDDING_STRIDE = 8               // Slide um 8 Mel-Frames
        private const val EMBEDDING_DIM = 96
-        private const val WW_INPUT_FRAMES = 16               // 16 Embeddings = ~1.28s
        private const val MEL_BINS = 32
+        private const val DEFAULT_WW_INPUT_FRAMES = 16       // Fallback wenn Modell-Metadata fehlt
    }

    private val env: OrtEnvironment = OrtEnvironment.getEnvironment()
@@ -54,6 +54,10 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
    private var melInputName: String = "input"
    private var embInputName: String = "input_1"
    private var wwInputName: String = "input"
+    // Anzahl Embedding-Frames die der Wake-Word-Klassifikator pro Inferenz erwartet —
+    // hey_jarvis hat 16, andere Community-Modelle koennen abweichen (z.B. 28).
+    // Wird beim init() aus den Modell-Metadaten gelesen.
+    private var wwInputFrames: Int = DEFAULT_WW_INPUT_FRAMES

    // Konfiguration
    private var threshold: Float = 0.5f
@@ -100,7 +104,13 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
            embInputName = embSession!!.inputNames.first()
            wwInputName = wwSession!!.inputNames.first()

-            Log.i(TAG, "Init OK: model=$modelName threshold=$threshold patience=$patience " +
+            // WW-Input-Frame-Count aus dem Modell lesen — variiert pro Keyword.
+            // Erwartete Form: (1, N, 96), N steht in der Modell-Metadaten.
+            val wwInputInfo = wwSession!!.inputInfo[wwInputName]
+            val wwShape = (wwInputInfo?.info as? ai.onnxruntime.TensorInfo)?.shape
+            wwInputFrames = wwShape?.getOrNull(1)?.toInt()?.takeIf { it > 0 } ?: DEFAULT_WW_INPUT_FRAMES
+
+            Log.i(TAG, "Init OK: model=$modelName wwFrames=$wwInputFrames threshold=$threshold patience=$patience " +
                    "debounce=${debounceMs}ms (inputs: mel=$melInputName emb=$embInputName ww=$wwInputName)")
            promise.resolve(true)
        } catch (e: Exception) {
@@ -299,11 +309,12 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
            val embRes = embSession!!.run(mapOf(embInputName to embIn))
            val embOut = embRes.get(0).value
            embIn.close()
-            // Erwartete Output-Form: (1, 96) → Array<FloatArray>
+            // Erwartete Output-Form: (1, 1, 1, 96) — rank-4, NICHT (1, 96).
+            // Die Google-Embedding-Pipeline behaelt extra Dimensionen.
            @Suppress("UNCHECKED_CAST")
-            val embArr = embOut as Array<FloatArray>
-            embBuffer.addLast(embArr[0].copyOf())
-            while (embBuffer.size > WW_INPUT_FRAMES) embBuffer.removeFirst()
+            val embArr = embOut as Array<Array<Array<FloatArray>>>
+            embBuffer.addLast(embArr[0][0][0].copyOf())
+            while (embBuffer.size > wwInputFrames) embBuffer.removeFirst()
            embRes.close()

            melProcessedIdx += EMBEDDING_STRIDE
@@ -319,9 +330,10 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
        }

        // 3) Klassifikation — sobald wir 16 Embeddings haben
-        if (embBuffer.size < WW_INPUT_FRAMES) return
-        val flatEmb = FloatArray(WW_INPUT_FRAMES * EMBEDDING_DIM)
+        if (embBuffer.size < wwInputFrames) return
+        val flatEmb = FloatArray(wwInputFrames * EMBEDDING_DIM)
        var p = 0
+        // Letzte wwInputFrames Embeddings nehmen (embBuffer ist auf wwInputFrames begrenzt)
        for (e in embBuffer) {
            System.arraycopy(e, 0, flatEmb, p, EMBEDDING_DIM)
            p += EMBEDDING_DIM
@@ -329,7 +341,7 @@ class OpenWakeWordModule(reactContext: ReactApplicationContext) : ReactContextBa
        val wwIn = OnnxTensor.createTensor(
            env,
            FloatBuffer.wrap(flatEmb),
-            longArrayOf(1L, WW_INPUT_FRAMES.toLong(), EMBEDDING_DIM.toLong()),
+            longArrayOf(1L, wwInputFrames.toLong(), EMBEDDING_DIM.toLong()),
        )
        val wwRes = wwSession!!.run(mapOf(wwInputName to wwIn))
        val wwOut = wwRes.get(0).value
@@ -137,6 +137,17 @@ class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContex
                            Log.w(TAG, "play() sofort failed: ${e.message}")
                        }
                    }
+                    // Idle-Cutoff: wenn endRequested NICHT kam aber 30s nichts mehr
+                    // reinkommt, brechen wir ab (Bridge-Crash, verlorener final).
+                    var idleMs = 0L
+                    val maxIdleMs = 30_000L
+                    // Zielpufferfuellung — unter diesem Wasserstand fuettern wir
+                    // Stille rein damit AudioTrack nicht underrunt waehrend die
+                    // Bridge den naechsten Satz rendert. Spotify/YouTube reagieren
+                    // sonst mit eigenmaechtiger Wiederaufnahme nach ~10s Stille.
+                    val underrunGuardFrames = sampleRate / 10  // ~100ms
+                    val silenceFillFrames = sampleRate / 20    // ~50ms pro Refill
+
                    mainLoop@ while (!writerShouldStop) {
                        val data = queue.poll(50, java.util.concurrent.TimeUnit.MILLISECONDS)
                        if (data == null) {
@@ -153,8 +164,33 @@ class PcmStreamPlayerModule(reactContext: ReactApplicationContext) : ReactContex
                                }
                                break@mainLoop
                            }
+                            // Underrun-Schutz: Stille reinfuettern wenn der AudioTrack-
+                            // Puffer leerzulaufen droht. Spotify resumed sonst nach
+                            // ~10s Pause auf eigene Faust, obwohl wir den Fokus halten.
+                            if (playbackStarted) {
+                                val framesWritten = bytesBuffered / streamBytesPerFrame
+                                val framesPlayed = t.playbackHeadPosition.toLong()
+                                val framesInBuffer = framesWritten - framesPlayed
+                                if (framesInBuffer < underrunGuardFrames) {
+                                    val fillBytes = silenceFillFrames * streamBytesPerFrame
+                                    val silence = ByteArray(fillBytes)
+                                    var silOff = 0
+                                    while (silOff < silence.size && !writerShouldStop) {
+                                        val w = t.write(silence, silOff, silence.size - silOff)
+                                        if (w <= 0) break
+                                        silOff += w
+                                    }
+                                    bytesBuffered += silence.size
+                                }
+                            }
+                            idleMs += 50L
+                            if (idleMs >= maxIdleMs) {
+                                Log.w(TAG, "Idle-Cutoff: ${maxIdleMs}ms keine Daten — Stream wird beendet")
+                                break@mainLoop
+                            }
                            continue@mainLoop
                        }
+                        idleMs = 0L

                        // Pre-Roll Check: play() erst wenn genug gepuffert
                        if (!playbackStarted && bytesBuffered + data.size >= prerollBytes) {
@@ -167,10 +167,23 @@ export CI=true

 if [ "$MODE" = "debug" ]; then
    ./gradlew assembleDebug
-    APK_PATH="app/build/outputs/apk/debug/app-debug.apk"
+    OUT_DIR="app/build/outputs/apk/debug"
 else
    ./gradlew assembleRelease
-    APK_PATH="app/build/outputs/apk/release/app-release.apk"
+    OUT_DIR="app/build/outputs/apk/release"
+fi
+
+# Mit ABI-Splits heisst die APK z.B. app-arm64-v8a-release.apk statt
+# app-release.apk. arm64-v8a-Variante zuerst probieren (das ist unser
+# Standard), Universal-APK als Fallback falls Splits deaktiviert sind.
+if [ -f "$OUT_DIR/app-arm64-v8a-${MODE}.apk" ]; then
+    APK_PATH="$OUT_DIR/app-arm64-v8a-${MODE}.apk"
+elif [ -f "$OUT_DIR/app-${MODE}.apk" ]; then
+    APK_PATH="$OUT_DIR/app-${MODE}.apk"
+else
+    echo -e "${RED}Keine passende APK in $OUT_DIR gefunden${NC}"
+    cd ..
+    exit 1
 fi

 cd ..
@@ -1,6 +1,6 @@
 {
  "name": "aria-cockpit",
-  "version": "0.0.6.6",
+  "version": "0.0.6.8",
  "private": true,
  "scripts": {
    "android": "react-native run-android",
@@ -36,6 +36,7 @@ export const WAKE_KEYWORD_STORAGE = 'aria_wake_keyword';
 *  werden — Diagnostic-Upload ist Phase 2. */
 export const WAKE_KEYWORDS = [
  'hey_jarvis',
+  'computer',
  'alexa',
  'hey_mycroft',
  'hey_rhasspy',
@@ -46,6 +47,7 @@ export const DEFAULT_KEYWORD: WakeKeyword = 'hey_jarvis';
 /** Hilfs-Mapping fuer die Anzeige im UI. */
 export const KEYWORD_LABELS: Record<WakeKeyword, string> = {
  hey_jarvis: 'Hey Jarvis',
+  computer: 'Computer',
  alexa: 'Alexa',
  hey_mycroft: 'Hey Mycroft',
  hey_rhasspy: 'Hey Rhasspy',
Author	SHA1	Message	Date
duffyduck	b588dd7e3b	release: bump version to 0.0.6.8	2026-04-26 13:26:00 +02:00
duffyduck	309df9d851	fix(wake-word): Embedding-Output ist rank-4, nicht rank-2 — Trigger funktioniert jetzt Hauptursache warum kein Wake-Word je triggerte: das Google-Speech- Embedding-Modell liefert (1,1,1,96), nicht (1,96). Der Cast `as Array<FloatArray>` warf eine ClassCastException, die vom try/catch geschluckt wurde — Pipeline lief still ins Leere. Zusaetzlich: - WW-Input-Frame-Count wird jetzt aus den Modell-Metadaten gelesen (variiert pro Keyword; hey_jarvis=16, computer_v2evtl. anders) - "Computer" als Wake-Word erweitert (Community-Modell aus fwartner/home-assistant-wakewords-collection) "ARIA" als Wake-Word: gibt's nicht fertig trainiert. Muesste ueber das openWakeWord Colab-Notebook trainiert werden (~1h auf gratis-GPU). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 13:24:47 +02:00
duffyduck	f2e643d1fb	fix(app): Underrun-Schutz im PcmStreamPlayer — Spotify resumed nicht mehr nach 10s Wenn die Bridge zwischen zwei Saetzen rendert (1-2s pro Satz auf der Gamebox-RTX 3060), kommen keine neuen PCM-Chunks rein und der AudioTrack- Buffer laeuft leer. Spotify hat eine eigene Heuristik die nach ~10s "stummer Lücke" eigenmaechtig die Wiedergabe wiederaufnimmt — auch wenn wir den AudioFocus formal noch halten. Fix: Writer-Thread fuettert Stille rein wenn der Puffer unter ~100ms faellt (~50ms pro Refill-Tick alle 50ms). AudioTrack bleibt damit durchgehend aktiv, andere Apps respektieren weiterhin den Fokus. Bonus: 30s-Idle-Cutoff falls die Bridge crashed und kein final-Marker mehr kommt — sonst wuerde der Writer-Thread ewig Stille fuettern. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 13:18:25 +02:00
duffyduck	6ac374621c	release: bump version to 0.0.6.7	2026-04-26 13:08:13 +02:00
duffyduck	efbd306597	build(android): ABI-Split auf arm64-v8a — APK von 136 MB auf ~35 MB Mit ONNX Runtime fuer das Wake-Word kommen Native-Libs fuer alle 4 Architekturen rein (arm64-v8a, armeabi-v7a, x86, x86_64). Das sprengt sowohl den Gitea-Upload (nginx-Limit) als auch unnoetig die Auto-Update-Downloads aufs Phone. Per ABI-Split jetzt nur noch arm64-v8a — deckt jedes Android-Phone seit 2017 ab. build.sh greift den neuen APK-Pfad (app-arm64-v8a-release.apk), faellt auf app-release.apk zurueck falls die Splits in build.gradle deaktiviert werden. versionCode 606 / versionName 0.0.6.6 (vom Linter mitgehoben). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 13:04:32 +02:00