ARIA-AGENT

Commit Graph

Author	SHA1	Message	Date
duffyduck	4454613a98	release: bump version to 0.0.6.6	2026-04-26 12:59:26 +02:00
duffyduck	55cfb752a2	feat(app): Wake-Word komplett on-device via openWakeWord (ONNX) Picovoice/Porcupine raus — neuer Stack ist openWakeWord (Apache 2.0, on-device, ONNX Runtime). Kein API-Key, keine Lizenzgebuehren, Audio verlaesst das Geraet nicht. Eigene Wake-Words sind via openWakeWord- Notebook gratis trainierbar. Pipeline (alles im OpenWakeWordModule.kt): 1. AudioRecord 16kHz mono int16 in 1280-Sample-Chunks (80ms) 2. melspectrogram.onnx → 32-mel Frames (mel/10 + 2 wie in Python) 3. embedding_model.onnx, 76-Frame Sliding Window (stride 8) → 96-dim 4. hey_jarvis.onnx (oder anderes Keyword) auf letzten 16 Embeddings 5. Sigmoid-Score, threshold/patience/debounce-Filter 6. RN-Event "WakeWordDetected" raus Mitgelieferte Modelle in assets/openwakeword/: hey_jarvis (Default), alexa, hey_mycroft, hey_rhasspy. Externe Service-API (start/stop/ configure/onWakeWord/...) bleibt identisch — ChatScreen unveraendert. build.gradle: com.microsoft.onnxruntime:onnxruntime-android:1.17.1 package.json: @picovoice/porcupine-react-native + voice-processor raus SettingsScreen: AccessKey-Feld weg, neue Keyword-Liste mit Labels README: Wake-Word-Sektion komplett umgeschrieben (kein Picovoice mehr) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 12:56:33 +02:00
duffyduck	a4d3449e3a	release: bump version to 0.0.6.5	2026-04-25 22:51:00 +02:00
duffyduck	44d2c6b4fe	fix(app): Spotify-Bounce zwischen ARIA-Antworten + Wake-Word-Doku AudioFocus wird jetzt mit 800ms Verzoegerung freigegeben — wenn ARIA direkt eine zweite Antwort hinterherschickt oder das Recording ins TTS uebergeht, wird das Release abgebrochen. Spotify/YouTube haben damit keine Mikro-Sekunden-Luecke mehr zum Hochkommen waehrend ARIA spricht. README: neue Sektion zur Wake-Word-Einrichtung mit Picovoice (7-Tage-Trial, Console-Link, Anleitung fuer eigene Keywords) und veraltete Wake-Word-Limitation entfernt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 22:49:45 +02:00
duffyduck	0309c95aa5	release: bump version to 0.0.6.4	2026-04-25 20:58:10 +02:00
duffyduck	9d0776c819	fix: Text-Auswahl in MessageText — selectable an alle nested Texts Android-Eigenheit: bei nested Text-Komponenten muss selectable=true auch an die Kinder; der Wert auf dem Parent erbt sich nicht zuverlaessig. Plus: dataDetectorType="all" als Fallback fuer System-Linkifizierung, falls unsere Regex einen Match verpasst. suppressHighlighting=false damit Long-Press auf den Link-Texten den Selection-Mode nicht blockt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:41:20 +02:00
duffyduck	f031fa159e	release: bump version to 0.0.6.3	2026-04-25 20:35:25 +02:00
duffyduck	be373466a3	fix: klares UI-Feedback fuer Wake-Word-State Stefan's Verwirrung: Ohr-Button + KEIN Porcupine = Direkt-Aufnahme, nicht passives Lauschen. Wenn er lange wartet, schnappt das Mikro Hintergrundgeraeusche/Sprache auf, sendet ab, Ohr aus. Sah aus wie "Wake-Word triggerte" — war aber stinknormales Recording. Fixes fuer klares Feedback: - Toast bei jedem State-Wechsel: * Direkt-Aufnahme (kein Porcupine): "Wake-Word nicht aktiv — direkte Aufnahme startet (Mikro hoert mit)" * armed: "Lausche auf X..." * Wake erkannt: "Wake-Word X erkannt — sprich jetzt" * endConversation: "Lausche wieder auf X" oder "Mikro aus" - Ohr-Button-Icon zeigt drei States: 🔇 off 👂 armed (Porcupine lauscht passiv) 🎙️ conversing (aktive Aufnahme laeuft) - ChatScreen subscribed wakeWordService.onStateChange fuer Live- Updates des Icons. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:34:07 +02:00
duffyduck	bbf9aed3ba	fix: 4 Bugs — STT-Mapping, Speed-Logging, VAD-Logs, Wake-Word-Toast Bug 2: STT-Result ueberschrieb beide noch unaufgeloeste Audio-Bubbles mit gleichem Text. Fix: nur die ERSTE matchende Bubble aktualisieren (findIndex + index-Update statt map). Reihenfolge ist FIFO weil Whisper sequenziell verarbeitet. Bug 3: Speed-Param wird nun in jedem Hop geloggt: - ChatScreen: "[Chat] sende mit voice=X speed=Y" - aria-bridge: "XTTS-Request gesendet (voice=X, speed=Y.YYx)" - f5tts-bridge: "F5-TTS: N Satz(e), voice=X, speed=Y.YYx" Damit kann man im logcat/docker-logs eindeutig sehen wo speed evtl. verloren geht oder ob die Stimme einfach von Natur aus schnell ist. Bug 4: VAD-Trigger-Reason mit Schwelle: "VAD NNN ms Stille (Schwelle=NNN ms)". Plus startRecording loggt jetzt VAD-Stille + MAX-Recording. Bug 1 (Porcupine): mehr Debug + Toast-Meldungen. - init failure: err.name/code/stack ins Log - start() ohne Porcupine: Toast "Access Key in Settings setzen" - start() Fehler: Toast mit Fehlermeldung - configure(): Toast wenn init scheitert - Erfolgreiches arming: Toast "Lausche auf X" Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:28:46 +02:00
duffyduck	745b4a07c0	release: bump version to 0.0.6.2	2026-04-25 20:20:25 +02:00
duffyduck	23ca815cb2	fix: handlePcmChunk serialisiert — fixes Race bei kurzen Streams Bei kurzen Saetzen (nur ein paar Chunks + sofort final) konnten die async handlePcmChunk-Calls parallel laufen. Der final-Chunk konnte native end() aufrufen BEVOR der vorherige Chunk seinen native start() abgeschlossen hatte. Der Writer-Thread startete dann mit endRequested bereits true, verarbeitete keine Chunks sauber → Audio ging verloren. Fix: Wrapper chaint alle Chunk-Calls an eine Promise-Queue: _pcmChunkQueue = Promise.resolve() handlePcmChunk → _pcmChunkQueue.then(() => _handlePcmChunkImpl(p)) So werden start/writeChunk/end garantiert in der richtigen Reihenfolge verarbeitet. Der API-Contract bleibt (gleiches return-Promise). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 11:58:27 +02:00
duffyduck	cc3fac8142	release: bump version to 0.0.6.1	2026-04-25 01:24:31 +02:00
duffyduck	cd89e36ec2	fix: alte APKs im Cache werden jetzt aufgeraeumt Die heruntergeladenen Update-APKs (~20-30MB pro Release) landeten in CachesDirectoryPath und wurden nie geloescht. Bei regelmaessigen Updates sammelt sich das auf mehrere 100MB an. Fix: cleanupOldApks() wird gerufen - einmal beim App-Start (Constructor) — alte APKs sind sowieso nicht mehr relevant, die aktuelle Version laeuft ja aus dem System - vor jedem neuen Download — falls jemand zwei Updates in einer Session zieht Loescht alle *.apk Dateien im CachesDirectoryPath und loggt die freigemachte Groesse pro Datei. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 01:22:22 +02:00
duffyduck	f5b4285d15	release: bump version to 0.0.6.0	2026-04-25 01:13:42 +02:00
duffyduck	248e7c9ae4	fix: preroll=0 wirklich sofort + Trailing-Silence gegen Wort-Cutoff Zwei Bugs die zusammen dafuer sorgen dass Worte "verschluckt" werden: 1) play() wurde bei preroll=0 erst beim ersten echten Chunk aufgerufen — nicht schon nach der Leading-Silence. Dadurch musste AudioTrack gleichzeitig Startup UND Audio abspielen, die Hardware-Anfahr-Latenz schluckt die ersten Samples. Fix: Bei prerollBytes==0 direkt nach dem silence-write play() rufen. AudioTrack haelt den Play-State und wartet auf mehr Samples — die naechsten Chunks kommen in den bereits laufenden Stream rein. 2) Nach letztem Chunk ging der Writer via return@Thread in den finally- Block. Der wartete zwar auf playbackHeadPosition >= totalFrames, aber Android's Hardware-Pipeline puffert oft noch ein paar Samples nach — stop() kam, Samples futsch. Fix: 300ms TRAILING_SILENCE am Ende schreiben. playbackHeadPosition erreicht echt bis zum Ende der echten Samples bevor die Stille abspielt. Loop umgeschrieben auf mainLoop-Label (break statt return@Thread) damit Trailing-Silence garantiert laeuft. LEADING_SILENCE auf 300ms erhoeht fuer bessere AudioTrack-Warmup-Toleranz. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 01:11:23 +02:00
duffyduck	7058cc8d8d	release: bump version to 0.0.5.9	2026-04-25 01:04:00 +02:00
duffyduck	7919489543	feat: Pre-Roll-Buffer kann jetzt auf 0 (sofort abspielen) F5-TTS ist schnell genug dass der Puffer bei kurzen Saetzen eher schadet als nuetzt — er verzoegert den play()-Start fuer Sekunden die dann als Wartezeit auffallen. Aenderungen: - audio.ts: TTS_PREROLL_MIN_SEC 1.0 → 0 (Einstellbar in Settings) - PcmStreamPlayerModule.kt: MIN_PREROLL_SECONDS auf 0.0, Fallback- Logic respektiert jetzt 0 als gueltigen Wert (vorher hat der .let { if (it > 0) it else DEFAULT } 0 zu 3.5s umgebogen). Bei preroll=0 greift der Leading-Silence von 200ms immer noch, d.h. AudioTrack-Startup bleibt sauber. play() wird dann beim allerersten echten PCM-Chunk aufgerufen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 01:02:48 +02:00
duffyduck	b80b813703	release: bump version to 0.0.5.8	2026-04-25 00:51:13 +02:00
duffyduck	e7bb6c37cb	feat: Sprechgeschwindigkeit-Range auf 0.1-5.0 erweitert TTS_SPEED_MIN 0.5 → 0.1, TTS_SPEED_MAX 2.0 → 5.0. Bridge-seitige Validierungen (aria_bridge.py + f5tts/bridge.py) mit- gezogen auf den gleichen Bereich. Hinweis: Extremwerte (unter 0.5 oder ueber 2.0) koennen bei F5-TTS verzerrte Ausgaben produzieren — Stefan bekommt die Freiheit zum Experimentieren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:49:05 +02:00
duffyduck	d146ca92c4	fix: Aufnahme-Crashes/Double-Tap durch VAD-Multi-Fire + stale closure Drei zusammenhaengende Bugs: 1. VAD-Timer feuerte im 200ms setInterval WEITER nachdem die Stille- Schwelle erreicht war — listeners wurden pro Aufnahme bis zu 5x getriggert. Parallel laufende stopRecording()-Calls lieferten audio-recorder-player's nativen Layer OOM / Crash. Fix: silenceFired-Latch + Timer-Clear SOFORT beim ersten Feuer (fireSilenceOnce-Helper). Gleiche Logik fuer Max-Dauer + Conv-Window. 2. VoiceButton silence-listener re-registrierte bei jedem isRecording- Flip (deps [isRecording, onRecordingComplete]). Closure-State war stale, und bei schnellen flips gabs register/unregister-Races. Fix: empty deps, state direkt vom audioService via getRecordingState() lesen. onRecordingComplete via Ref (damit der Callback aktuell bleibt ohne re-register). 3. handleTap las den Button-State aus React (isRecording), der bei schnellen Taps stale sein konnte — "erst zweiter Tap geht" Symptom. Fix: audioService.getRecordingState() als Source-of-Truth, plus tapBusy-Ref als Anti-Doppel-Tap-Guard waehrend asyncer start/stop. 'processing'-State wird korrekt ignoriert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:47:53 +02:00
duffyduck	fd95af2c40	debug: Log wenn Pre-Roll-Fallback bei kurzem Text greift Stefan hat aufgeklaert: Auto-Playback geht nur bei LANGEN Saetzen, bei kurzen nicht. Das passt zur Pre-Roll-Logik: wenn weniger als pre-roll Bytes gepuffert werden, soll eigentlich der Fallback in end() greifen, der nach queue-Timeout play() aufruft. Neuer Log-Eintrag zeigt ob der Fallback ausgeloest wurde: "Playback gestartet VOR Pre-Roll (kurzer Text, NNNNB gepuffert)" Beim naechsten Test mit adb logcat sehen wir direkt: * Fallback-Log kommt → play() wurde aufgerufen, Problem liegt woanders * Fallback-Log kommt NICHT → endRequested wird nicht rechtzeitig erkannt oder Race mit concurrent handlePcmChunk-Calls Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:42:28 +02:00
duffyduck	9e12e0001c	debug: Logs fuer Auto-Playback-Bug — canPlay + silent-state sichtbar Stefan berichtet dass Auto-Playback trotz Closure-Fix nicht greift. Zwei neue Log-Zeilen die beim naechsten Test direkt zeigen was schief laeuft: - ChatScreen: "[Chat] audio-msg canPlay=X (enabled=Y muted=Z)" - audio.ts: "[Audio] PCM-Stream start: silent=X messageId=Y ..." Ausreichend um zu unterscheiden: * canPlay=false trotz Mund-an → ttsMuted bleibt im State haengen * canPlay=true aber silent=true in audio.ts → Ref-Bug oder race * silent=false aber nichts hoerbar → native-module oder audio-routing Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:38:22 +02:00
duffyduck	1d34143be5	release: bump version to 0.0.5.7	2026-04-25 00:31:12 +02:00
duffyduck	190352820c	feat: Bug-Runde + 5 App/Diagnostic-Features Bugs: - App Mute-/Auto-Playback: onMessage-Closure hielt stale ttsDeviceEnabled/ ttsMuted → Mute wurde ignoriert + AsyncStorage-Load kam nicht durch. Fix via ttsCanPlayRef (live gespiegelt) statt Closure-Variablen. - App Zombie-Recording: toggleWakeWord hat die laufende Aufnahme nicht gestoppt → audioService.recordingState blieb 'recording' → normaler Aufnahme-Button wirkungslos. Fix: await stopRecording() vor stop(). - Porcupine robuster: BuiltInKeywords-Enum Mapping mit String-Fallback, errorCallback fuer Runtime-Crashes (state zurueck auf off statt App-Crash), mehr Logging damit man beim naechsten Issue debuggen kann. App-Features: - MessageText Komponente: Text ist durchgehend selektierbar, erkennt URLs (http/https), E-Mails, Telefonnummern und macht sie anklickbar (oeffnet Browser / Mail-App / Android-Dialer via Linking). - TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (Settings -> "Sprechgeschwindigkeit", 0.5-2.0 in 0.1-Schritten, Default 1.0). Wird als speed-Param an die F5-TTS-Bridge durchgereicht. Bridge-Durchreichen: - ChatScreen: speed aus AsyncStorage via ttsSpeedRef, an chat/audio/ tts_request mitgeschickt - aria-bridge: _next_speed_override wie voice_override, an xtts_request weitergereicht - f5tts-bridge: speed-Param an F5TTS.infer() durchgereicht Diagnostic-Feature: - Voice-Preview-Button (Play-Icon) vor dem Delete-X in der Stimmen-Liste - Modal mit Textfeld (Default-Beispieltext wird bei jedem Oeffnen neu gesetzt) und Play-Button - Server sammelt audio_pcm Frames der Preview-Anfrage, baut WAV, schickt base64 zurueck, Browser spielt im <audio>-Tag ab - 60s Timeout-Safety-Net Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:24:02 +02:00
duffyduck	a029267d9d	release: bump version to 0.0.5.6	2026-04-24 16:25:53 +02:00
duffyduck	8ba6a71a49	feat(app): service_status Banner oben in ChatScreen App-Pendant zum Diagnostic-Banner. Wenn die Gamebox-Bridges (F5-TTS / Whisper) ihren Lade-Status broadcasten, zeigt die App oben unter der Verbindungs-Statusleiste ein farbiges Banner: Gelb = irgendwas laedt (NICHT wegtippbar) Gruen = alles bereit (tippbar zum Schliessen) Rot = Fehler Banner aggregiert beide Services in einer Kachel. Dismiss-State wird zurueckgesetzt sobald irgendein Service wieder in 'loading' geht (z.B. Modell-Wechsel via Diagnostic). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:24:47 +02:00
duffyduck	ac56916eb0	fix(android): minSdkVersion 23 -> 24 (Porcupine erfordert Android 7+) @picovoice/porcupine-react-native deklariert minSdkVersion 24, dadurch schlug der Manifest-Merger fehl wenn die App weiter auf 23 stand. Android 7.0 ist eh das pragmatische Minimum (Geraete <7.0 sind <1% Markt). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:08:10 +02:00
duffyduck	ae08a5051c	fix(deps): porcupine-react-native 3.0.6 existiert nicht — auf 3.0.5 pinnen 3.0.6 war geraten und gibt's nicht im npm Registry. Aktuelle stabile 3.x ist 3.0.5; 4.0.0 hat Breaking Changes. Beide Picovoice-Packages auf exakte Version gepinnt damit keine Auto-Bumps fies werden. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:03:35 +02:00
duffyduck	d372cd638e	release: bump version to 0.0.5.5 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:02:37 +02:00
duffyduck	467f95424e	fix: F5-TTS Voice-Referenztext + Standard-Eintrag raus Bug-Root: voice_upload schrieb "Das ist ein Referenz Audio." als Platzhalter wenn die whisper-bridge nicht erreichbar war. F5-TTS bekam dann diesen Text als Sprach-Anker, sah aber im WAV ganz andere Worte → verwirrtes Modell, halluziniert in beliebiger Sprache (z.B. Spanisch). Fixes: - handle_voice_upload: schreibt KEINE Platzhalter-.txt mehr. Bei Failure bleibt die .txt weg → naechste TTS-Nutzung zieht via on-the-fly retry nach. - _do_tts: Legacy-Platzhalter wird beim Render erkannt und geloescht, Transkription on-the-fly neu angezogen. Bestehende kaputte voices reparieren sich automatisch beim ersten Render. UI-Aufraeumung: F5-TTS hat keine "Standard"-Stimme — der Eintrag ist raus in App SettingsScreen + Diagnostic. Diagnostic-Dropdown hat jetzt einen disabled-Hinweis "(keine Stimme gewaehlt)". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:33:53 +02:00
duffyduck	22fa4b3ccf	feat: Porcupine Wake-Word Integration (Built-In Keywords, "Jarvis" default) WakeWordService wrappt jetzt Picovoice Porcupine: - loadFromStorage(): Access Key + Keyword aus AsyncStorage, init Porcupine - configure(key, keyword): Settings-Wechsel, Re-Init - start(): wenn Porcupine bereit → 'armed' (passives Lauschen), sonst Fallback auf direktes 'conversing' (klassischer Modus) - onWakeDetected: Porcupine pausieren → 'conversing' → wakeCallback - endConversation: Porcupine wieder starten → 'armed' (Wake-Word weiter aktiv im Hintergrund, kein erneuter Tap noetig) - Pro Geraet eigene Wahl: jeder User kann sein eigenes Wake-Word haben Settings: neuer Bereich "Wake-Word" - Picovoice Access Key Input (mit Eye-Toggle), kostenlos auf console.picovoice.ai - Built-In Keyword Chips: jarvis, computer, picovoice, porcupine, bumblebee, terminator, alexa, hey google, ok google, hey siri - "Speichern + Aktivieren" Button mit Status-Feedback - Hinweis dass "ARIA" Custom-Keyword spaeter via Diagnostic kommt ChatScreen: ruft wakeWordService.loadFromStorage() beim Mount. package.json: @picovoice/porcupine-react-native + react-native-voice-processor hinzugefuegt — npm install + native rebuild noetig. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:23:51 +02:00
duffyduck	1b8a51aad0	feat: Conversation-Window — Gespraech endet nach Stille statt Endlos-Loop Der Gespraechsmodus war bisher ein Endless-Loop: Mikro hat sich nach jeder ARIA-Antwort wieder geoeffnet bis MAX_RECORDING_MS, danach Speech- Gate verworfen und neu starten. Das Ohr blieb ewig an. Neue Logik: audio.ts: startRecording(autoStop, noSpeechTimeoutMs?) — wenn der User innerhalb des Timeouts nicht anfaengt zu sprechen, wird Stille gemeldet → stopRecording → Speech-Gate verwirft → result=null. wakeword.ts: drei States off/armed/conversing. start() geht direkt in 'conversing' (kein Wake-Word verfuegbar; Stub fuer spaetere Porcupine- Integration). endConversation() bei No-Speech. ChatScreen: Aufnahme bekommt das Window aus AsyncStorage durchgereicht. Bei null-Result → endConversation, UI-State synchron. Settings: neuer +/- Block "Konversations-Fenster" 3-20s (Default 8). Mit dem Stub ist die Architektur bereit fuer Porcupine: dann geht endConversation auf 'armed' statt 'off' und der Wake-Word-Detector laeuft passiv weiter. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:14:01 +02:00
duffyduck	ed2f1bb5ee	release: bump version to 0.0.5.4	2026-04-24 14:45:17 +02:00
duffyduck	0a04972455	feat: Stille-Toleranz fuer Aufnahme einstellbar in App-Settings Neuer +/- Block in SettingsScreen → Spracheingabe → "Stille-Toleranz", 1.0-8.0s, Default 2.8s. Wert in AsyncStorage (aria_vad_silence_sec). audio.ts liest den Wert beim Aufnahme-Start und nutzt ihn fuer den VAD-Auto-Stop-Schwellwert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:44:17 +02:00
duffyduck	2a4379eb64	release: bump version to 0.0.5.3	2026-04-24 14:41:59 +02:00
duffyduck	e64df23bb7	fix: TTS pausiert andere Apps statt zu ducken + VAD/Mic laenger AudioFocus.requestDuck nutzt jetzt AUDIOFOCUS_GAIN_TRANSIENT (statt TRANSIENT_MAY_DUCK) — Spotify/YouTube pausieren komplett solange ARIA spricht und kommen nicht mitten drin wieder hoch. PcmStreamPlayer.end() resolved jetzt erst wenn der native Writer-Thread wirklich fertig ist (alle Samples aus dem Pre-Roll-Puffer ausgespielt). audio.ts wartet entsprechend, bevor AudioFocus.release() gerufen wird — behebt das "Musik dreht hoch waehrend Antwort noch laeuft"-Problem. Mic-Aufnahme: VAD_SILENCE_DURATION_MS 1800 → 2800ms (mehr Toleranz fuer Sprechpausen), MAX_RECORDING_MS 30s → 120s (laengere Erklaerungen moeglich, Notbremse bleibt). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:40:58 +02:00
duffyduck	49089eee4b	release: bump version to 0.0.5.2	2026-04-24 13:50:19 +02:00
duffyduck	97a1a3089a	release: bump version to 0.0.5.1	2026-04-23 22:02:17 +02:00
duffyduck	64f18e97a0	release: bump version to 0.0.5.0	2026-04-23 15:31:18 +02:00
duffyduck	9cbea27455	feat: voice_preload/voice_ready — Feedback wenn neue Stimme geladen ist XTTS-Bridge: - empfaengt neuen voice_preload Type, rendert stumm "ja." fuer die Stimme via TTS-Queue (damit kein Konflikt mit echtem TTS) - horcht zusaetzlich auf config-Broadcasts: wenn Diagnostic global die Stimme wechselt, wird auto-preloaded - broadcastet voice_ready mit Dauer (loadMs) oder error RVS: voice_preload + voice_ready zur ALLOWED_TYPES-Liste. App (SettingsScreen): beim Wechsel senden wir voice_preload, zeigen einen Spinner in der Voice-Row und einen Toast mit "Stimme X bereit (Ns)". App (ChatScreen): Toast auch hier — falls User gerade nicht in Settings ist. Diagnostic (server+UI): voice_ready wird an Browser durchgereicht, ein Status-Text unter dem Voice-Dropdown zeigt "wird geladen" → "bereit". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 10:24:08 +02:00
duffyduck	c8881f9e4d	release: bump version to 0.0.4.9	2026-04-22 23:02:28 +02:00
duffyduck	028e3b2240	fix: Voice-Auswahl funktioniert endlich + Diagnostic setzt alle Apps zurueck XTTS-Bridge: im daswer123 local-Mode erwartet der Server speaker_wav als Basename (z.B. "Maia"), nicht als Pfad. Wir haben bisher "/voices/Maia.wav" geschickt, was der Server stumm verwirft und Default nimmt. Jetzt: speaker name pur senden + Warnlog wenn File fehlt. App: ChatScreen + SettingsScreen horchen auf type "config" vom RVS — wenn in Diagnostic die globale XTTS-Voice gewechselt wird, werden alle Apps auf den neuen Wert zurueckgesetzt (wie vom User gewuenscht). Lokale App-Wahl bleibt sonst intakt und gewinnt pro Request. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:32:40 +02:00
duffyduck	4ceadf8be5	release: bump version to 0.0.4.8	2026-04-22 19:08:00 +02:00
duffyduck	ddd30b3059	feat: Pre-Roll-Buffer fuer TTS einstellbar in App-Settings - Kotlin start() nimmt jetzt prerollSeconds als dritten Parameter (1.0-6.0s geclampt, Fallback 3.5s bei ungueltigem Wert) - audio.ts liest Wert aus AsyncStorage vor jedem Stream-Start, exportiert Default/Min/Max/Key als Konstanten - SettingsScreen: +/- Buttons direkt unter dem TTS-Toggle, Default auf 3.5s (von 2.5s) angehoben Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:06:55 +02:00
duffyduck	bbbe69d928	release: bump version to 0.0.4.7	2026-04-22 18:46:25 +02:00
duffyduck	23c39d5bba	feat: Dezimalzahlen fuer TTS ausschreiben + Leading-Silence im Stream - aria_bridge clean_text_for_tts: "0.1" / "0,5" / "1,25" wird jetzt als "null komma eins" / "null komma fuenf" / "eins komma zwei fuenf" ausgeschrieben. Lookahead verhindert Match auf IP-artige Strings. - PcmStreamPlayer: 200ms Stille am Stream-Anfang, damit AudioTrack sauber anfaehrt und die ersten Worte nicht verschluckt werden. (XTTS-Warmup + play()-Startup-Latenz) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:44:38 +02:00
duffyduck	5328dc8595	release: bump version to 0.0.4.6	2026-04-22 18:32:31 +02:00
duffyduck	0c03b4f161	fix: Stream-Ende wartet auf playbackHeadPosition vor release() AudioTrack.stop() + release() direkt nach dem letzten write() killt die letzten Sekunden Audio — die Samples sind zwar im Buffer, aber noch nicht durch die Hardware rausgespielt. Deshalb brach die Sprachausgabe mitten im Satz ab (z.B. bei "diesmal"). Fix: Writer-Thread wartet im finally-Block bis playbackHeadPosition die Anzahl geschriebener Frames erreicht, dann erst stop()/release(). Safety: 2s Stall-Detection, falls AudioTrack haengen bleibt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:31:12 +02:00
duffyduck	31fe70bab5	release: bump version to 0.0.4.5	2026-04-22 18:18:20 +02:00
duffyduck	39251b3d32	feat: AudioTrack Pre-Roll — Playback startet erst nach 2.5s Vorrat User-Diagnose: Erneutes Abspielen aus Cache funktioniert komplett, aber Live-Stream bricht ab. Bedeutet: PCM kommt an, Cache ist okay — Problem ist Buffer-Underrun im AudioTrack wenn XTTS (RTF 1.48 auf RTX 3060) langsamer rendert als Echtzeit-Playback konsumiert. Fix: AudioTrack.play() wird NICHT mehr sofort beim start() aufgerufen. Stattdessen: - start() baut AudioTrack, Writer-Thread startet, spielt aber noch nicht - writeChunk() fuellt queue, Writer schreibt in AudioTrack-internen Buffer (blocked wenn der voll ist) - Sobald bytesBuffered >= 2.5s Audio im Buffer: play() aufrufen - Falls end() kommt bevor Pre-Roll erreicht (kurze Texte): trotzdem play() Das gibt dem Stream Zeit Vorrat aufzubauen. XTTS kann dann pausieren zwischen Text-Chunks ohne dass Playback stottert. Pre-Roll 2.5s reicht fuer typische Render-Pausen zwischen Chunks. Buffer groesse = 2x Pre-Roll damit wir auch extrem bursty Delivery puffern koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:16:02 +02:00

1 2 3

132 Commits