ARIA-AGENT

Author	SHA1	Message	Date
duffyduck	24a91887ef	fix(android): FileOpenerModule — kein '/' im Source (Kotlin-Lexer-Verwirrung) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 18:03:59 +02:00
duffyduck	3b19f05c5b	feat: ARIA kann Dateien an User zurueckgeben (PDFs, Bilder, Office-Docs, ...) ARIA setzt im Antworttext einen Marker `[FILE: /shared/uploads/aria_xxx.ext]`. Bridge extrahiert ihn (Marker wird aus dem TTS-Text entfernt) und sendet ein neues file_from_aria-Event ueber RVS an App + Diagnostic. Diagnostic: - Eigene Bubble mit Datei-Icon + Klick-Handler - PDF/Bild → neuer Browser-Tab via /shared/* HTTP-Route - Andere → Download via download-Attribut App: - Neues FileOpenerModule (Kotlin) — Intent.ACTION_VIEW mit FileProvider, Android-Picker waehlt App nach MIME-Type - file_paths.xml erweitert (cache + files + external) - file_response liefert jetzt mimeType mit - Klick auf ARIA-Anhang: lokal vorhanden → direkt oeffnen, sonst file_request mit autoOpen-Flag → bei Empfang persistAttachment + open Stefan muss noch im aria-core/OpenClaw System-Prompt einen Hinweis einbauen: "Wenn du dem User eine Datei erstellt hast (Pfad in /shared/uploads/), haenge am Ende deiner Antwort einmalig [FILE: /shared/uploads/aria_<name>.<ext>] an. Der Marker wird aus dem sichtbaren Text entfernt und als Anhang in App und Diagnostic angezeigt." Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 17:56:47 +02:00
duffyduck	a476afb311	fix(audio): kickReleaseMedia mit 250ms Pause zwischen request+abandon — Spotify kriegt den Focus-Wechsel sonst gar nicht mit Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 17:07:03 +02:00
duffyduck	b1eaf42fef	fix(audio): Spotify resumed nach Mute — RNSound's haengenden Focus loesen Logs zeigten: react-native-sound requestet beim Sound.play() einen EIGENEN AudioFocus mit USAGE_MEDIA, released den aber bei Sound.stop()/ release() NICHT (bekanntes RN-sound-Bug). Spotify sieht den haengenden Media-Focus → bleibt pausiert. Workaround: Native-Methode kickReleaseMedia() macht einen request+abandon- Cycle mit USAGE_MEDIA, das System raeumt damit den Focus-Stack auf und Spotify bekommt sauberen GAIN-Event. stopPlayback ruft das jetzt nach Sound.release() wenn vorher ein RNSound aktiv war. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 16:57:52 +02:00
duffyduck	b91ddc5bdf	fix(audio): AudioTrack-Start-Threshold auf 100ms — kurze TTS startet jetzt ENDLICH die Wurzel: AudioTrack hat seit API 31 setStartThresholdInFrames(), default ist bufferSize/2. Bei 4s-Buffer = 2s Threshold — Track wartet bis 2s im Buffer sind, sonst startet play() nie wirklich (pos bleibt 0). Bei 3 Worten (~1.4s) kommt's nie ueber die Schwelle. Threshold runter auf 100ms (2400 Frames @ 24kHz) — Track laeuft sofort mit erstem Chunk an. Erklaert auch warum genau ab 9 Worten (~3s+) der Pre-Roll-Pfad lief: dann wurde die 2s-Schwelle ueberschritten. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:45:05 +02:00
duffyduck	b55b0e7c42	fix(audio): play() beim 1. Chunk — kurze Texte stallen nicht mehr Logs zeigten: Pre-Roll-Pfad (play() WAEHREND chunks reinkommen) lief immer sauber, Kurz-Text-Pfad (play() NACHDEM Buffer komplett gefuellt ist) stallte immer — egal mit wie viel Daten oder welchem USAGE-Tag. Fix: play() beim allerersten data-chunk callen, kein Pre-Roll-Threshold mehr. AudioTrack ist sofort im PLAYING-State, weitere chunks/trailing fliessen parallel ab. Padding-Block nach mainLoop entfaellt komplett. USAGE_MEDIA wieder auf USAGE_ASSISTANT zurueck — war nicht die Ursache. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:38:02 +02:00
duffyduck	0773d9496d	fix(audio): AudioTrack auf USAGE_MEDIA — USAGE_ASSISTANT stallt auf OnePlus A12 Letzter Test zeigte: 163456B im Buffer mit play()-nach-Padding stallt (pos=0), aber 170048B im Pre-Roll-Pfad startet einwandfrei. Differenz nur 4% Daten — kein Buffer-Threshold-Problem, sondern AudioTrack-Quirk mit USAGE_ASSISTANT bei "voller Buffer, dann play()". USAGE_MEDIA ist robuster, AudioFocus laeuft eh separat ueber das AudioFocusModule. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:31:23 +02:00
duffyduck	962d814318	fix(audio): kurze TTS — Padding auf 3s erhoeht (OnePlus A12 Hard-Threshold) Test mit 96000B (2s) Padding zeigte: AudioTrack stallt immer noch mit pos=0/48000. Ab 8 Worten (~2.5s) geht's — der Hard-Threshold liegt also zwischen 2s und 3s. Padding auf 3s, Buffer auf 4s. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:25:43 +02:00
duffyduck	d16896c4b4	fix(audio): kurze TTS-Texte — play() erst NACH Buffer-Fuellung mit Padding Auf OnePlus A12 startet AudioTrack nicht zuverlaessig wenn play() bei duennem Buffer gerufen wird (pos blieb 0/34112 trotz 71KB Daten + Retry). Neue Reihenfolge bei kurzem Stream: 1. Daten in Buffer schreiben (mainLoop) 2. Trailing-Silence (0.3s) 3. Padding bis min. 2s gepuffert 4. DANN erst play() Buffer auf 3s erhoeht damit blockingem write() noch Headroom bleibt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:19:45 +02:00
duffyduck	79760d1b2e	fix(audio): kurze TTS-Texte spielen wieder ab — AudioTrack-Buffer entkoppelt von Preroll OnePlus A12 stallte bei kurzem Text mit pos=0/34112: 336KB Buffer fuer 3.5s Preroll, aber nur 68KB Daten drin → AudioTrack faehrt nicht an. Fix: Buffer fest auf ~2s, plus play()-Retry bei pos=0 nach 500ms. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:11:53 +02:00
duffyduck	33185de42b	fix(audio): AudioFocus erst beim NATIVEN Playback-Finished-Event released Logcat-Befund: 12:22:54.860 — final-Chunk + Cache geschrieben 12:22:55.402 — abandonAudioFocus (~0.5s spaeter) 12:22:55 — Spotify resumed (Atlas: TotalTime 93s) 12:23:27.064 — Playback fertig (32s spaeter!) → ARIA spricht 32s parallel zu Spotify weil end() viel zu frueh returnt. Stefans 'Spotify resumed obwohl ARIA noch redet'. Fix: - PcmStreamPlayerModule emittiert 'PcmPlaybackFinished' RN-Event nach dem finally{}-Block im Writer-Thread (= AudioTrack hat alle Samples wirklich durchgespielt) - audioService subscribed im constructor → ruft erst dann _releaseFocusDeferred() - _handlePcmChunkImpl bei isFinal triggert NICHT mehr direkt das Release — nur die playbackFinished-Listener (UI-Logic) So bleibt Spotify pausiert bis ARIA tatsaechlich fertig ist, egal wie viel Audio im AudioTrack-Buffer wartet. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 12:29:55 +02:00
duffyduck	dbebfd44ff	fix(tts): Idle-Cutoff im PCM-Writer von 30s auf 120s Bug-Vermutung: lange F5-TTS-Antworten reissen ab wenn die Gamebox zwischen Saetzen >30s braucht (Modell-Wechsel, kalte GPU, ungewoehnlich schwerer Satz). Writer-Thread brach dann mit 'Idle-Cutoff' ab und ARIA verstummte mitten im Text. 120s deckt auch lange GPU-Pausen ab. Bei echtem Bridge-Crash brauchen wir trotzdem irgendwann einen Cutoff damit der Foreground-Service nicht ewig haengt. Stefan kann ADB-Logs gerade nicht ziehen (telefoniert) — bei Bug 3 (Spotify) muessen wir noch die Native-Logs sehen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 10:37:59 +02:00
duffyduck	4d0b9e0d78	fix: dB-Range -85, Mute haert auch laufende TTS, VoIP-Anrufe + Bild-Bubble Bug 1 — dB-Range erweitert: VAD_SILENCE_DB_MIN von -55 auf -85 dB. Damit hat Stefan einen weiten Regler-Spielraum wenn die adaptive Auto-Erkennung in seiner Umgebung nicht zuverlaessig greift. Bug 5 — Mute-Button stoppt laufende TTS nicht: audioService bekommt jetzt einen internen _muted-Flag. handlePcmChunk setzt silent automatisch wenn _muted true ist, playAudio kehrt frueh zurueck. Verhindert Race zwischen User-Klick auf Mute und einem TTS-Chunk der im selben JS-Tick ankommt (vorher: Ref-Update via useEffect erst nach dem Re-Render → Chunks "rutschten durch"). Plus ttsCanPlayRef wird im toggleMute-Handler synchron aktualisiert. Bug 4 — VoIP/Messenger-Anrufe erkennen: AudioFocusModule emittiert jetzt "AudioFocusChanged" Events mit type "loss"/"loss_transient"/"gain". WhatsApp/Signal/Discord/etc. requestn AudioFocus_GAIN_TRANSIENT_EXCLUSIVE wenn ein Anruf reinkommt — wir fangen das in phoneCall.ts ab und rufen halt + pauseForCall genau wie beim klassischen Anruf. Plus getMode() Polling-Fallback (alle 3s) weil GAIN nicht zuverlaessig kommt wenn wir den Focus selbst released haben — sobald AudioMode wieder NORMAL ist, resumeFromCall. Bug 6 — Bilder als "Strich": attachmentImage hatte width: '100%' in einer Bubble mit maxWidth: '80%' ohne explizite Parent-Breite → RN rendert auf 0px Breite. Neue ChatImage- Komponente nutzt Image.getSize um die echte aspectRatio zu messen + setzt sie dynamisch. Bubble passt sich dem Bild an. Bugs 2 (lange Texte mid-cutoff) + 3 (Spotify resumed) — brauchen ADB-Logs. ADB-WLAN ueber 192.168.177.22:5555 schlaegt fehl (refused) — bei Android 11+ braucht's Wireless-Debugging-Pairing-Code. Stefan kann den nennen sobald er soweit ist. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 10:28:52 +02:00
duffyduck	d6b54d3247	feat(audio): Background-Service auch fuer Wake-Word + Aufnahme + Doku-Split Erweitert den Foreground-Service um den microphone-Type damit nicht nur TTS, sondern auch Wake-Word-Lauschen und aktive Aufnahmen weiterlaufen wenn die App im Hintergrund ist. Slot-System (backgroundAudio.ts): - 'tts' : ARIA spricht - 'rec' : Aufnahme laeuft - 'wake' : Wake-Word lauscht passiv (Ohr aktiv) Mehrere Slots koennen unabhaengig acquired/released werden, der Service laeuft solange mindestens einer aktiv ist. Notification-Text passt sich dynamisch an den hoechstprioren Slot an (tts > rec > wake). Wiring (ChatScreen): - onPlaybackStarted/Finished → 'tts' Slot - audioService.onStateChange (recording) → 'rec' Slot - wakeWordService.onStateChange (off→armed/conversing) → 'wake' Slot AndroidManifest: - foregroundServiceType="mediaPlayback\|microphone" (Pflicht ab Android 14 fuer Background-Mic-Zugriff) - FOREGROUND_SERVICE_MICROPHONE Permission Doku: - issue.md Erledigt-Sektion in "Bugs / Fixes", "App Features" und "Infrastruktur" gesplittet - README: Background-Service-Beschreibung erweitert Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:43:24 +02:00
duffyduck	ead28cf09a	feat(audio): Foreground-Service haelt TTS am Leben bei minimierter App ARIAs Antwort wird jetzt auch dann fertig vorgelesen wenn der User die App im Hintergrund schickt. Vorher hat Android den Prozess kurz nach dem Minimieren eingefroren — TTS verstummte mitten im Satz. Native: - AriaPlaybackService.kt: Service mit foregroundServiceType=mediaPlayback, zeigt persistente Notification "ARIA spricht — antippen oeffnet die App" (channel low-priority, ongoing, tap → MainActivity) - BackgroundAudioModule.kt: RN-Bridge mit start()/stop() - AndroidManifest: FOREGROUND_SERVICE + FOREGROUND_SERVICE_MEDIA_PLAYBACK + POST_NOTIFICATIONS Permissions, Service deklariert JS: - backgroundAudio.ts: idempotenter Wrapper (active-Flag verhindert doppelte start/stop calls) - ChatScreen onPlaybackStarted → startBackgroundAudio - ChatScreen onPlaybackFinished → stopBackgroundAudio - audio.ts stopPlayback ruft auch stopBackgroundAudio damit die Notification bei Cancel/Barge-In/Anruf nicht haengen bleibt Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:37:46 +02:00
duffyduck	6651f5937d	feat(audio): Wake-Word parallel zu TTS mit AcousticEchoCanceler Du kannst jetzt "Computer" sagen waehrend ARIA noch redet — TTS verstummt, neue Aufnahme startet. Vorher musste man warten oder manuell den Voice-Button tappen. Native (OpenWakeWordModule.kt): - AudioRecord-Source von MIC auf VOICE_COMMUNICATION (aktiviert auf den meisten Geraeten Echo-Cancellation + Noise-Suppression) - Zusaetzlich AcousticEchoCanceler/NoiseSuppressor/AutomaticGainControl explizit aktiviert wenn vorhanden — robuster auf Geraeten wo die VOICE_COMMUNICATION-Source die Effects nicht automatisch mitbringt - releaseAudioEffects() im stop/dispose JS (wakeword.ts): - Neue API: startBargeListening / stopBargeListening — Wake-Word parallel aktivieren, ohne den State 'conversing' zu verlassen - onWakeDetected unterscheidet jetzt: in 'conversing' → barge-in- Callback (nicht der normale wake-callback). Sonst Standard-Pfad. - onBargeIn-Subscriber-API + isBargeListening-Getter Lifecycle-Wiring (audio.ts + ChatScreen): - audioService.onPlaybackStarted callback (neu) - ChatScreen: Bei TTS-Start → wakeWord.startBargeListening - ChatScreen: Bei TTS-Ende → wakeWord.stopBargeListening (sonst kein AudioRecord fuer die naechste Aufnahme) - ChatScreen: Bei BargeIn → haltAllPlayback + cancel_request + 150ms-Pause + neue Aufnahme starten issue.md + README aktualisiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:50:09 +02:00
duffyduck	fec8aa977b	feat(audio): TTS pausiert bei Anruf + Conversation-Focus haelt Spotify durchgehend gepaust Bug 1a — Anruf-Pause: Neues PhoneCallModule.kt nutzt TelephonyCallback (API 31+) bzw. PhoneStateListener (Pre-12) um auf RINGING/OFFHOOK/IDLE zu reagieren. Bei Klingeln/Gespraech ruft phoneCall.ts → audioService.haltAllPlayback, ARIA verstummt sofort. READ_PHONE_STATE Permission wird beim ersten Start angefragt; ohne Permission failt der Listener leise. Bug 1b — Spotify-Resume: AudioFocus wird jetzt an den Conversation-Lifecycle gekoppelt statt an einzelne Streams. Solange wakeWordState 'conversing' ist, blockt acquireConversationFocus() jeden per-Stream-Release. Erst beim Wechsel auf 'armed'/'off' darf der Focus tatsaechlich freigegeben werden. Verhindert das "Spotify kommt nach 10s wieder hoch"-Phaenomen auch ueber Render-Pausen + zwischen mehreren ARIA-Antworten hinweg. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-03 21:44:58 +02:00
duffyduck	309df9d851	fix(wake-word): Embedding-Output ist rank-4, nicht rank-2 — Trigger funktioniert jetzt Hauptursache warum kein Wake-Word je triggerte: das Google-Speech- Embedding-Modell liefert (1,1,1,96), nicht (1,96). Der Cast `as Array<FloatArray>` warf eine ClassCastException, die vom try/catch geschluckt wurde — Pipeline lief still ins Leere. Zusaetzlich: - WW-Input-Frame-Count wird jetzt aus den Modell-Metadaten gelesen (variiert pro Keyword; hey_jarvis=16, computer_v2evtl. anders) - "Computer" als Wake-Word erweitert (Community-Modell aus fwartner/home-assistant-wakewords-collection) "ARIA" als Wake-Word: gibt's nicht fertig trainiert. Muesste ueber das openWakeWord Colab-Notebook trainiert werden (~1h auf gratis-GPU). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 13:24:47 +02:00
duffyduck	f2e643d1fb	fix(app): Underrun-Schutz im PcmStreamPlayer — Spotify resumed nicht mehr nach 10s Wenn die Bridge zwischen zwei Saetzen rendert (1-2s pro Satz auf der Gamebox-RTX 3060), kommen keine neuen PCM-Chunks rein und der AudioTrack- Buffer laeuft leer. Spotify hat eine eigene Heuristik die nach ~10s "stummer Lücke" eigenmaechtig die Wiedergabe wiederaufnimmt — auch wenn wir den AudioFocus formal noch halten. Fix: Writer-Thread fuettert Stille rein wenn der Puffer unter ~100ms faellt (~50ms pro Refill-Tick alle 50ms). AudioTrack bleibt damit durchgehend aktiv, andere Apps respektieren weiterhin den Fokus. Bonus: 30s-Idle-Cutoff falls die Bridge crashed und kein final-Marker mehr kommt — sonst wuerde der Writer-Thread ewig Stille fuettern. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 13:18:25 +02:00
duffyduck	55cfb752a2	feat(app): Wake-Word komplett on-device via openWakeWord (ONNX) Picovoice/Porcupine raus — neuer Stack ist openWakeWord (Apache 2.0, on-device, ONNX Runtime). Kein API-Key, keine Lizenzgebuehren, Audio verlaesst das Geraet nicht. Eigene Wake-Words sind via openWakeWord- Notebook gratis trainierbar. Pipeline (alles im OpenWakeWordModule.kt): 1. AudioRecord 16kHz mono int16 in 1280-Sample-Chunks (80ms) 2. melspectrogram.onnx → 32-mel Frames (mel/10 + 2 wie in Python) 3. embedding_model.onnx, 76-Frame Sliding Window (stride 8) → 96-dim 4. hey_jarvis.onnx (oder anderes Keyword) auf letzten 16 Embeddings 5. Sigmoid-Score, threshold/patience/debounce-Filter 6. RN-Event "WakeWordDetected" raus Mitgelieferte Modelle in assets/openwakeword/: hey_jarvis (Default), alexa, hey_mycroft, hey_rhasspy. Externe Service-API (start/stop/ configure/onWakeWord/...) bleibt identisch — ChatScreen unveraendert. build.gradle: com.microsoft.onnxruntime:onnxruntime-android:1.17.1 package.json: @picovoice/porcupine-react-native + voice-processor raus SettingsScreen: AccessKey-Feld weg, neue Keyword-Liste mit Labels README: Wake-Word-Sektion komplett umgeschrieben (kein Picovoice mehr) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 12:56:33 +02:00
duffyduck	248e7c9ae4	fix: preroll=0 wirklich sofort + Trailing-Silence gegen Wort-Cutoff Zwei Bugs die zusammen dafuer sorgen dass Worte "verschluckt" werden: 1) play() wurde bei preroll=0 erst beim ersten echten Chunk aufgerufen — nicht schon nach der Leading-Silence. Dadurch musste AudioTrack gleichzeitig Startup UND Audio abspielen, die Hardware-Anfahr-Latenz schluckt die ersten Samples. Fix: Bei prerollBytes==0 direkt nach dem silence-write play() rufen. AudioTrack haelt den Play-State und wartet auf mehr Samples — die naechsten Chunks kommen in den bereits laufenden Stream rein. 2) Nach letztem Chunk ging der Writer via return@Thread in den finally- Block. Der wartete zwar auf playbackHeadPosition >= totalFrames, aber Android's Hardware-Pipeline puffert oft noch ein paar Samples nach — stop() kam, Samples futsch. Fix: 300ms TRAILING_SILENCE am Ende schreiben. playbackHeadPosition erreicht echt bis zum Ende der echten Samples bevor die Stille abspielt. Loop umgeschrieben auf mainLoop-Label (break statt return@Thread) damit Trailing-Silence garantiert laeuft. LEADING_SILENCE auf 300ms erhoeht fuer bessere AudioTrack-Warmup-Toleranz. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 01:11:23 +02:00
duffyduck	7919489543	feat: Pre-Roll-Buffer kann jetzt auf 0 (sofort abspielen) F5-TTS ist schnell genug dass der Puffer bei kurzen Saetzen eher schadet als nuetzt — er verzoegert den play()-Start fuer Sekunden die dann als Wartezeit auffallen. Aenderungen: - audio.ts: TTS_PREROLL_MIN_SEC 1.0 → 0 (Einstellbar in Settings) - PcmStreamPlayerModule.kt: MIN_PREROLL_SECONDS auf 0.0, Fallback- Logic respektiert jetzt 0 als gueltigen Wert (vorher hat der .let { if (it > 0) it else DEFAULT } 0 zu 3.5s umgebogen). Bei preroll=0 greift der Leading-Silence von 200ms immer noch, d.h. AudioTrack-Startup bleibt sauber. play() wird dann beim allerersten echten PCM-Chunk aufgerufen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 01:02:48 +02:00
duffyduck	fd95af2c40	debug: Log wenn Pre-Roll-Fallback bei kurzem Text greift Stefan hat aufgeklaert: Auto-Playback geht nur bei LANGEN Saetzen, bei kurzen nicht. Das passt zur Pre-Roll-Logik: wenn weniger als pre-roll Bytes gepuffert werden, soll eigentlich der Fallback in end() greifen, der nach queue-Timeout play() aufruft. Neuer Log-Eintrag zeigt ob der Fallback ausgeloest wurde: "Playback gestartet VOR Pre-Roll (kurzer Text, NNNNB gepuffert)" Beim naechsten Test mit adb logcat sehen wir direkt: * Fallback-Log kommt → play() wurde aufgerufen, Problem liegt woanders * Fallback-Log kommt NICHT → endRequested wird nicht rechtzeitig erkannt oder Race mit concurrent handlePcmChunk-Calls Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:42:28 +02:00
duffyduck	e64df23bb7	fix: TTS pausiert andere Apps statt zu ducken + VAD/Mic laenger AudioFocus.requestDuck nutzt jetzt AUDIOFOCUS_GAIN_TRANSIENT (statt TRANSIENT_MAY_DUCK) — Spotify/YouTube pausieren komplett solange ARIA spricht und kommen nicht mitten drin wieder hoch. PcmStreamPlayer.end() resolved jetzt erst wenn der native Writer-Thread wirklich fertig ist (alle Samples aus dem Pre-Roll-Puffer ausgespielt). audio.ts wartet entsprechend, bevor AudioFocus.release() gerufen wird — behebt das "Musik dreht hoch waehrend Antwort noch laeuft"-Problem. Mic-Aufnahme: VAD_SILENCE_DURATION_MS 1800 → 2800ms (mehr Toleranz fuer Sprechpausen), MAX_RECORDING_MS 30s → 120s (laengere Erklaerungen moeglich, Notbremse bleibt). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:40:58 +02:00
duffyduck	ddd30b3059	feat: Pre-Roll-Buffer fuer TTS einstellbar in App-Settings - Kotlin start() nimmt jetzt prerollSeconds als dritten Parameter (1.0-6.0s geclampt, Fallback 3.5s bei ungueltigem Wert) - audio.ts liest Wert aus AsyncStorage vor jedem Stream-Start, exportiert Default/Min/Max/Key als Konstanten - SettingsScreen: +/- Buttons direkt unter dem TTS-Toggle, Default auf 3.5s (von 2.5s) angehoben Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:06:55 +02:00
duffyduck	23c39d5bba	feat: Dezimalzahlen fuer TTS ausschreiben + Leading-Silence im Stream - aria_bridge clean_text_for_tts: "0.1" / "0,5" / "1,25" wird jetzt als "null komma eins" / "null komma fuenf" / "eins komma zwei fuenf" ausgeschrieben. Lookahead verhindert Match auf IP-artige Strings. - PcmStreamPlayer: 200ms Stille am Stream-Anfang, damit AudioTrack sauber anfaehrt und die ersten Worte nicht verschluckt werden. (XTTS-Warmup + play()-Startup-Latenz) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:44:38 +02:00
duffyduck	0c03b4f161	fix: Stream-Ende wartet auf playbackHeadPosition vor release() AudioTrack.stop() + release() direkt nach dem letzten write() killt die letzten Sekunden Audio — die Samples sind zwar im Buffer, aber noch nicht durch die Hardware rausgespielt. Deshalb brach die Sprachausgabe mitten im Satz ab (z.B. bei "diesmal"). Fix: Writer-Thread wartet im finally-Block bis playbackHeadPosition die Anzahl geschriebener Frames erreicht, dann erst stop()/release(). Safety: 2s Stall-Detection, falls AudioTrack haengen bleibt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:31:12 +02:00
duffyduck	39251b3d32	feat: AudioTrack Pre-Roll — Playback startet erst nach 2.5s Vorrat User-Diagnose: Erneutes Abspielen aus Cache funktioniert komplett, aber Live-Stream bricht ab. Bedeutet: PCM kommt an, Cache ist okay — Problem ist Buffer-Underrun im AudioTrack wenn XTTS (RTF 1.48 auf RTX 3060) langsamer rendert als Echtzeit-Playback konsumiert. Fix: AudioTrack.play() wird NICHT mehr sofort beim start() aufgerufen. Stattdessen: - start() baut AudioTrack, Writer-Thread startet, spielt aber noch nicht - writeChunk() fuellt queue, Writer schreibt in AudioTrack-internen Buffer (blocked wenn der voll ist) - Sobald bytesBuffered >= 2.5s Audio im Buffer: play() aufrufen - Falls end() kommt bevor Pre-Roll erreicht (kurze Texte): trotzdem play() Das gibt dem Stream Zeit Vorrat aufzubauen. XTTS kann dann pausieren zwischen Text-Chunks ohne dass Playback stottert. Pre-Roll 2.5s reicht fuer typische Render-Pausen zwischen Chunks. Buffer groesse = 2x Pre-Roll damit wir auch extrem bursty Delivery puffern koennen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:16:02 +02:00
duffyduck	402bddc18a	fix: Streaming TTS — Queue in XTTS-Bridge + groesserer Android-Buffer 1) Ueberlappende Streams Wenn zwei xtts_requests schnell hintereinander kamen, rannten sie parallel durch handleTTSRequest. Beide HTTP-Requests an XTTS liefen gleichzeitig, beide streamen PCM an App → Chunks aus BEIDEN Renders landeten interleaved in der AudioTrack-Queue → Chaos. Fix: ttsQueue als Promise-Chain — handleTTSRequest() haengt sich ans Ende der Kette an. Requests werden sequenziell abgearbeitet. 2) AudioTrack-Buffer zu klein fuer bursty Delivery XTTS /tts_to_audio/ ist NICHT echt streaming — der Server rendert intern den kompletten WAV und schickt ihn dann burst-weise. Der alte 8x-MinBuffer (ca 200-400ms) war zu klein um das abzufangen. Fix: Buffer auf 32x MinSize / mind. 128KB = ca. 2.7s bei 24kHz. Das toleriert typische XTTS-Render-Latenz. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:27:16 +02:00
duffyduck	6ab6196739	feat: Streaming TTS — PCM-Stream statt WAV-Chunks (Weg A) Pipeline: XTTS-Server → xtts-bridge → aria-bridge → RVS → App AudioTrack XTTS-Bridge (Gaming-PC): - streamXTTSAsPCM(): liest /tts_to_audio/ Response inkrementell, parst WAV-Header (samplerate/channels), teilt PCM in 8KB-Chunks (~170ms bei 24kHz s16 mono) und sendet jeden als audio_pcm. - Finaler Chunk mit final=true nach letztem Text-Chunk aria-bridge: - audio_pcm Handler leitet payload 1:1 weiter, filled messageId aus requestId → messageId Map falls XTTS-Bridge messageId nicht hatte - Alter xtts_response Pfad bleibt als Legacy-Fallback (WAV) RVS: audio_pcm in ALLOWED_TYPES Android Native: - PcmStreamPlayerModule (Kotlin): AudioTrack MODE_STREAM mit Writer-Thread und BlockingQueue. start(rate, ch) / writeChunk(b64) / end() / stop() - 8x MinBufferSize grosszuegig dimensioniert, glatt auch bei Netz-Aussetzern - Registered im MainApplication via PcmStreamPlayerPackage App JS: - audioService.handlePcmChunk(): erkennt neue Session (messageId-Wechsel), started nativen Stream, cached PCM-Bytes pro Message. Bei final=true Stream sauber schliessen + _savePcmBufferAsWav → WAV-File im tts_cache/<messageId>.wav - _savePcmBufferAsWav: baut 44-byte WAV-Header (PCM s16le, korrekte samplerate/channels), haengt alle gesammelten base64-PCM-Chunks an - stopPlayback beendet auch aktiven PCM-Stream - ChatScreen routet type=audio_pcm an handlePcmChunk, bei final setzt audioPath in der Message Play-Button: falls messageId einen audioPath hat → WAV aus Cache (Sound-basiert), egal ob Original-TTS Piper oder XTTS war. Audio-Focus: - requestDuck() beim Stream-Start, release() bei Stream-Ende - Andere Apps (Spotify etc.) werden leiser waehrend ARIA spricht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:01:27 +02:00
duffyduck	8b0a72dc9b	feat: NO_REPLY-Filter + Audio-Ducking + TTS-Cleanup 1) NO_REPLY Token wird in Bridge und Diagnostic erkannt und still verworfen. Toleranz fuer Variationen (Whitespace, Punkt, Quotes). Kein Chat-Eintrag, kein TTS. 2) AudioFocusModule (Kotlin) mit requestDuck / requestExclusive / release. AudioService ruft: - requestExclusive() bei Aufnahme-Start → andere Apps pausieren - requestDuck() bei TTS-Playback-Start → andere Apps leiser - release() bei Stop/Queue-Ende MainApplication registriert AudioFocusPackage. 3) clean_text_for_tts() in Bridge — zentrale Aufbereitung: - <voice>...</voice> Tag wird bevorzugt (falls ARIA es schreibt) - Code-Bloecke (``` und `) komplett raus - Markdown (Fett/Kursiv/Links/Headings/Listen) geschleift - Einheiten ausgeschrieben: 22GB → 22 Gigabyte, 85% → 85 Prozent - Abkuerzungen buchstabiert: CPU → C P U, API → A P I - URLs durch "ein Link" ersetzt Genutzt in VoiceEngine.synthesize und im XTTS-Request — Chat-Text an die App bleibt unveraendert (original Markdown), nur TTS kriegt die aufbereitete Version. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 16:10:54 +02:00
duffyduck	773c976822	fix: Auto-update APK install via FileProvider + dynamic version - Native ApkInstallerModule: FileProvider content:// URI for Android 7+ - REQUEST_INSTALL_PACKAGES permission in AndroidManifest - file_paths.xml for FileProvider cache access - APP_VERSION reads from package.json (not hardcoded) - "Auf Updates pruefen" button in Settings - Version display reads from package.json dynamically Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:59:52 +02:00
duffyduck	5eb3ebf199	first release 0.0.0.2	2026-03-08 23:31:46 +01:00

33 Commits