ARIA-AGENT

Author	SHA1	Message	Date
duffyduck	31aa86a2a9	feat(brain+ui+app): Triggers — passive Aufweck-Quellen fuer ARIA ARIA hatte bisher nur ein "User fragt → Brain antwortet"-Modell. Neu: Trigger laufen passiv im Hintergrund (kein LLM-Call) und wecken ARIA nur dann auf wenn ein Event tatsaechlich passiert. Drei Typen, zwei aktuell implementiert: timer — einmalig zu festem ISO-Timestamp ("erinner mich in 10min") watcher — Polling alle N Sek einer Condition, feuert bei True mit Throttle (z.B. "disk_free_gb < 5", max 1x/h) cron — Platzhalter fuer spaeter aria-brain/triggers.py CRUD auf /data/triggers/<name>.json + /data/triggers/logs/<name>.jsonl. create_timer, create_watcher, mark_fired, list_logs, etc. aria-brain/watcher.py Built-in Condition-Variablen: disk_free_gb, disk_free_pct, uptime_sec, hour_of_day, day_of_week, rvs_connected, memory_count. Sicherer Condition-Parser via ast — Whitelist auf Vergleich + BoolOp + Name + Const. Kein eval, kein exec, keine Builtins. aria-brain/background.py Async Loop laeuft alle 30s, sammelt einmalig Variables, geht durch Trigger-Liste, _should_fire-Check (Timer: fires_at vergangen / Watcher: check_interval + throttle respektiert + condition true). Fire ruft agent.chat(prompt, source="trigger") — ARIA bekommt das wie eine Push-Nachricht und antwortet via Bridge → RVS → App. aria-brain/main.py /triggers/list, /{name}, /{name}/logs, /timer, /watcher, PATCH, DELETE, /triggers/conditions (Variablen + aktuelle Werte). Lifespan-Handler startet den Background-Loop beim Container-Start, stoppt beim Shutdown. aria-brain/agent.py Meta-Tools fuer ARIA: trigger_timer, trigger_watcher, trigger_cancel, trigger_list. ARIA legt Trigger via Tool-Call selbst an wenn Stefan das wuenscht. Side-Channel-Event 'trigger_created' wird in chat-Response mitgeschickt damit App + Diagnostic eine Bubble zeigen. aria-brain/prompts.py Neue System-Prompt-Section: Liste aktiver Triggers + verfuegbare Condition-Variablen mit aktuellen Werten + Operatoren-Erklaerung. ARIA weiss damit immer was es schon gibt und welche Vars sie nutzen kann. bridge/aria_bridge.py + rvs/server.js trigger_created als neuer RVS-Message-Type, Bridge forwarded das aus data.events analog zu skill_created. diagnostic/index.html Neuer Top-Tab "Trigger". Liste mit Type-Badges (⏱ TIMER / 👁 WATCHER), Status, Fire-Count, last_fired. Aktivieren/Deaktivieren + Löschen pro Trigger. "+ Neu"-Modal mit Type-Dropdown, Timer-Minuten oder Watcher-Condition + Vars-Anzeige + Throttle. Info-Modal-Eintrag mit Erklaerung. Live-Bubble im Chat wenn ARIA selbst einen anlegt. android/src/screens/ChatScreen.tsx trigger_created RVS-Handler → eigene Bubble (gelber Border, "⏰ ARIA hat einen Trigger angelegt", Type/Detail/Message/Zeit). ChatMessage bekam triggerCreated-Feld. Lokal-only-Schutz beim Server-Sync analog zu skill_created. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-12 00:38:58 +02:00
duffyduck	eb4059a887	fix: 3 Bugs — agent_activity haengt, Such-Scroll, STT-Bubble-Timing Bug 1: "ARIA denkt..." in der App bleibt stehen _process_core_response setzte am Ende kein idle — die alten Aufrufe waren in der OpenClaw-WS-Loop, in der Brain-HTTP-Variante fehlten sie. Plus send_to_core schickte agent_activity direkt via _send_to_rvs ohne den _last_activity_state-Cache zu pflegen → _emit_activity("idle") wurde spaeter dedupliziert. Fix: - _emit_activity statt direktem _send_to_rvs fuer thinking - _emit_activity("idle") am Ende von _process_core_response - _last_chat_final_at bewusst NICHT setzen — die 3s-Cooldown war fuer trailing OpenClaw-Events, wuerde bei Voice die naechste thinking-Welle unterdruecken Bug 2: App Chat-Suche scrollt nicht zur Stelle scrollToIndex wurde zu fruh aufgerufen (Layout noch nicht fertig) und viewPosition: 0.4 in inverted-FlatList war ungenau. Fix: - requestAnimationFrame um den Scroll-Aufruf - viewPosition: 0.5 (mittig) - onScrollToIndexFailed: erst grob scrollen via averageItemLength, dann nach 250ms praeziser nachfassen Bug 3: Voice-Bubble bekommt STT-Text erst mit ARIA-Antwort _process_app_audio rief erst send_to_core (blockt synchron auf Brain, kann 300s dauern), DANN STT-Broadcast. App sah den eigenen Text erst wenn ARIA fertig war. Fix: Reihenfolge getauscht — STT-Broadcast zuerst, dann send_to_core. Voice-Bubble bekommt jetzt den erkannten Text sofort. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-12 00:17:10 +02:00
duffyduck	3497aa23f8	fix(app): kompletter Server-Sync bei Reconnect — Server ist Source of Truth Symptom: Diagnostic-Server hat leere Chat-History (z.B. nach "Konversation zuruecksetzen" oder Wipe), App zeigt aber weiterhin ihren alten lokalen Stand. Wer das Wipe-Event verpasst hat (App offline), bleibt veraltet. Ursache: App schickte beim Reconnect chat_history_request {since: lastSync} und ignorierte leere Antworten. Wenn der Server ueberhaupt nichts mehr hat liefert er korrekt [] zurueck — App behielt aber lokalen State. Fix: - App schickt jetzt {since: 0, limit: 200} → KOMPLETTER Server-Stand - Handler ersetzt die persistierte Chat-History mit dem Server-Stand (statt zu mergen) - Lokal-only Bubbles bleiben erhalten: * Skill-Created-Notifications (skillCreated gesetzt) * Laufende Sprachnachrichten ohne STT-Result (audioRequestId gesetzt und text leer/Placeholder) - Wenn Server leer: lastSync ebenfalls geloescht (sauberer Restart-State) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 23:55:25 +02:00
duffyduck	5cf8cab5bd	feat: App-Chat-Suche mit Next/Prev + Diagnostic Sprachausgabe-Layout App Chat-Suche umgebaut von Filter zu Highlight+Navigation Vorher: searchQuery filtert die FlatList, zeigt nur Treffer. Jetzt: Suche filtert NICHT mehr, alle Nachrichten bleiben sichtbar. Treffer wird gelb (FFD60A) umrandet, FlatList scrollt automatisch dorthin. - Suchleiste: Input + Counter "N/M" + ▲ + ▼ + ✕ - ▲ / ▼ navigieren chronologisch durch alle Matches (zyklisch) - searchMatchIds via useMemo, searchIndex separates State - scrollToIndex mit viewPosition: 0.4 (Treffer landet im oberen Drittel) - onScrollToIndexFailed Fallback nach 200ms (Layout noch nicht fertig) Diagnostic Sprachausgabe-Layout Export/Import-Buttons wandern aus dem Section-Header in den Details-Block neben "Anwenden" (Stefan's Wunsch). Header zeigt nur noch den Titel. File-Input bleibt versteckt im Section-Top, wird vom neuen Button-Block unten ueber click() getriggert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 23:35:02 +02:00
duffyduck	0ec4b00879	feat: App-Chat-Sync — verpasste Nachrichten + chat_cleared Live-Update Zwei zusammenhaengende Bugs: 1. App aktualisierte nicht wenn die Diagnostic "Konversation komplett zuruecksetzen" gedrueckt hat — die App hatte den lokalen Stand weiter 2. Nachrichten die kamen waehrend die App offline/geschlossen war, wurden nicht nachgeladen Loesung: chat_backup.jsonl wird wieder geschrieben (Bridge statt Diagnostic, weil OpenClaw-Code-Pfad tot ist) und dient als Server-Truth fuer App+Diagnostic. bridge/aria_bridge.py _append_chat_backup() schreibt jeden Turn (User + ARIA) als JSONL-Zeile in /shared/config/chat_backup.jsonl. Trigger: send_to_core (User) + _process_core_response (Assistant, inkl. file-Attachments). _read_chat_backup_since(since_ms, limit) liest die Datei, filtert auf ts > since_ms, gibt max limit neueste zurueck. Honoriert file_deleted-Marker. Neuer RVS-Handler chat_history_request {since, limit?} → antwortet mit chat_history_response {messages: [...], since}. diagnostic/server.js /api/chat-history-clear broadcastet jetzt zusaetzlich chat_cleared via RVS (sendToRVS_raw), damit App ihre lokale Liste auch leert. Vorher nur Browser-Clients via broadcast() — App war aussen vor. rvs/server.js ALLOWED_TYPES um chat_history_request, chat_history_response, chat_cleared. android/src/screens/ChatScreen.tsx - Bei (re)connect: AsyncStorage 'aria_chat_last_sync' lesen → send chat_history_request {since} - Handler chat_history_response: incoming → ChatMessage[] mappen, Attachments aus 'files'-Array rekonstruieren, mergen (Dedup via timestamp), lastSync hochziehen - Handler chat_cleared: setMessages([]) + AsyncStorage 'chat_messages' + 'last_sync' weg - Bei jeder eingehenden chat-Message: 'aria_chat_last_sync' updaten damit Reconnect nicht doppelt nachzieht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 23:24:52 +02:00
duffyduck	dc2f4eb6d2	feat(app): Datei-Manager, Skill-Created-Bubble, Zoom rewriten, Repair-Cleanup Drei groessere Aenderungen in der Android-App. Datei-Manager (Settings → Dateien) - Neuer Eintrag im Settings-Menue → Modal mit Liste - Suche + Filter (Alle / Von ARIA / Vom User) - Per Eintrag: ARIA/USER-Badge, Groesse, Datum, Loeschen-Button - file_list_request via RVS → Bridge → Diagnostic-HTTP → response - file_delete_request loescht serverseitig, file_deleted-Event aktualisiert ALLE Chat-Bubbles (Attachment.deleted = true mit Strikethrough-Name + 🗑️-Icon) Skill-Created-Bubble - Neuer ChatMessage.skillCreated Typ — eigenes Render mit gelbem Border, Skill-Name, Beschreibung, Execution-Mode, Active-Status - Falls Skill-Setup fehlschlug: ⚠ Setup-Fehler-Zeile direkt in der Bubble - Stefan sieht in der Chat-History immer wenn ARIA selbst einen Skill angelegt hat — Transparenz statt schweigend im Hintergrund Pinch-Zoom rewriten (ZoomableImage.tsx) - Multi-Touch-Race-Bugs in der alten Variante geloest: * Touch-Count jetzt aus e.nativeEvent.touches.length statt gestureState.numberActiveTouches (war nicht zuverlaessig) * Re-Snapshot bei JEDEM Finger-Wechsel (1↔2) → keine Spruenge mehr * Doppel-Tap via onPanResponderRelease + Bewegungs-Cap * pointerEvents="none" auf Image-Wrapper → Touches gehen garantiert an PanResponder-View * collapsable={false} verhindert Android-View-Flattening - 2-Finger-Pinch 1x..5x, simultaner Pan via Focal, 1-Finger-Pan nur wenn gezoomt (>1.02x), Doppel-Tap toggelt 1x↔2.5x App SettingsScreen Repair-Section - aria-core-spezifische Buttons raus: 🔧 Reparieren, 🚨 ARIA hart neu, 🧹 Konversation komprimieren (OpenClaw ist abgerissen) - Stattdessen generischer container_restart fuer aria-bridge/brain/qdrant - Repair-Buttons aus der "ARIA denkt..."-Bubble entfernt (nur Abbrechen) ChatScreen - skill_created und file_deleted Handler im RVS-Message-Switch - file_list_response (Modal-State liegt in SettingsScreen) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 22:24:06 +02:00
duffyduck	e438bb11ff	feat(app): Pinch-Zoom + Pan im Vollbild-Modal Neue ZoomableImage-Komponente — reine RN-Implementation mit PanResponder + Animated, ohne extra Dependency. - 2-Finger-Pinch: Zoom 1x..5x, Focal-Point folgt der Geste - 1-Finger-Pan: nur aktiv wenn gezoomt, mit Bounds-Clamping - Doppel-Tap: Toggle 1x ↔ 2.5x Vollbild-Modal ersetzt das simple <Image> durch ZoomableImage fuer JPEG/PNG/etc. SVGs bleiben non-zoomable (SvgUri-Limitation), Tap schliesst sie. Plus dedicated ✕-Close-Button oben rechts da Tap-to- Close mit PanResponder kollidiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 19:15:58 +02:00
duffyduck	2dd4d38dce	feat: "ARIA hart neu starten"-Button (docker restart aria-core) Zweiter Eskalations-Button neben dem Reparieren-Button — fuer Faelle wo doctor --fix nicht reicht (Run alive aber haengt im Tool-Call). Mit Confirmation-Dialog damit's nicht versehentlich gedrueckt wird. Wege: - App-Settings: Reparatur-Sektion, zwei Buttons (Reparieren + Hart neu) - App-Thinking-Bubble: 🔧 + 🚨 + Abbrechen - Diagnostic-Thinking-Indicator: 🔧 + 🚨 + Abbrechen - Diagnostic-Server: POST /api/aria-restart → child_process exec `docker restart aria-core` - Bridge: rvs aria_restart → HTTP zu Diagnostic Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 01:58:44 +02:00
duffyduck	528fe97b59	feat: "ARIA reparieren"-Button in App + Diagnostic Bei stuck OpenClaw-Runs (ARIA antwortet nicht mehr / "Antwort ohne Text" auf jede Anfrage) kann der User jetzt selbst openclaw doctor --fix anstossen — ohne SSH/docker exec. Pfad: - App-Button → rvs.send('doctor_fix') → Bridge → HTTP POST an Diagnostic /api/doctor-fix → dockerExec aria-core - Diagnostic-Button → direkt HTTP POST /api/doctor-fix Zwei Plaetze in der App: oben in der Thinking-Bubble (wenn ARIA denkt aber haengt) und in Settings → Reparatur (immer erreichbar). In Diagnostic neben dem Abbrechen-Button im Thinking-Indicator. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-11 01:46:35 +02:00
duffyduck	158423c155	fix(app): SVG im Vollbild via SvgUri rendern (statt Image) — preserveAspectRatio damit nicht gestreckt Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 18:46:13 +02:00
duffyduck	2de4cbc00f	fix(app): SVG-Anhaenge mit SvgUri rendern statt Image Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 18:42:53 +02:00
duffyduck	3b19f05c5b	feat: ARIA kann Dateien an User zurueckgeben (PDFs, Bilder, Office-Docs, ...) ARIA setzt im Antworttext einen Marker `[FILE: /shared/uploads/aria_xxx.ext]`. Bridge extrahiert ihn (Marker wird aus dem TTS-Text entfernt) und sendet ein neues file_from_aria-Event ueber RVS an App + Diagnostic. Diagnostic: - Eigene Bubble mit Datei-Icon + Klick-Handler - PDF/Bild → neuer Browser-Tab via /shared/* HTTP-Route - Andere → Download via download-Attribut App: - Neues FileOpenerModule (Kotlin) — Intent.ACTION_VIEW mit FileProvider, Android-Picker waehlt App nach MIME-Type - file_paths.xml erweitert (cache + files + external) - file_response liefert jetzt mimeType mit - Klick auf ARIA-Anhang: lokal vorhanden → direkt oeffnen, sonst file_request mit autoOpen-Flag → bei Empfang persistAttachment + open Stefan muss noch im aria-core/OpenClaw System-Prompt einen Hinweis einbauen: "Wenn du dem User eine Datei erstellt hast (Pfad in /shared/uploads/), haenge am Ende deiner Antwort einmalig [FILE: /shared/uploads/aria_<name>.<ext>] an. Der Marker wird aus dem sichtbaren Text entfernt und als Anhang in App und Diagnostic angezeigt." Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 17:56:47 +02:00
duffyduck	1088bff43d	fix(chat): Play-Button rendert neu wenn Cache-Datei weg Vorher: Button checkte nur ob audioPath gesetzt ist — auf eine geloeschte Cache-Datei hat aber nichts geprueft. playFromPath warntete nur und returnte stumm. Jetzt wird VOR playFromPath die Existenz geprueft, sonst geht's ueber tts_request an die Bridge zum Neu-Rendern. Plus: Logs in Sound.play-Callback und _releaseFocusDeferred fuer den "Spotify resumed nicht nach Replay"-Bug. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 16:42:38 +02:00
duffyduck	f6424add6c	debug(chat): Logs fuer Anhang-Send-Pipeline Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 15:27:24 +02:00
duffyduck	a6638c0108	debug(gps): Logs fuer Standort-Abfrage und Permission-Fehler Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 14:53:32 +02:00
duffyduck	1a6f633836	fix(audio): rollback agentActivity-Conversation-Focus, Spotify pausiert NUR bei TTS Der vorige Commit (acquireConversationFocus bei agentActivity != idle) war zu aggressiv — Spotify pausierte schon waehrend 'ARIA denkt/schreibt' und das zugehoerige release greift nicht zuverlaessig (Race mit nachfolgenden agent_activity-Events). Stefan: 'spotify resumet nicht mehr, hoert schon beim ARIA-denkt-Passus auf zu spielen'. Erwartetes Verhalten: - Aufnahme: AudioFocus → Spotify pausiert (~5s) - ARIA denkt/schreibt (~20s): kein Focus → Spotify spielt weiter - TTS: AudioFocus per requestDuck → Spotify pausiert - TTS-Ende: deferred release nach 800ms → Spotify resumed Underrun-Schutz im PcmStreamPlayer haelt Spotify durchgehend gepaust solange TTS rendert (auch in den GPU-Pausen zwischen Saetzen). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 11:59:13 +02:00
duffyduck	d646e9d58e	fix(audio): Spotify spielt nicht mehr in der ARIA-Verarbeitungspause Logcat-Befund: zwischen User-Aufnahme-Ende und TTS-Start liegt eine ~20s-Pause (Whisper STT + Claude + F5-TTS). In dieser Zeit hatte ARIA keinen AudioFocus → Spotify lief munter weiter, dann pausierte beim TTS-Start. Stefan hoerte das als 'Spotify kommt nach 20s wieder'. Fix: ChatScreen ruft acquireConversationFocus sobald ein agent_activity- Event mit activity != 'idle' kommt. Solange ARIA arbeitet (thinking/ tool/responding) bleibt der Focus gehalten, Spotify bleibt pausiert. Bei onPlaybackFinished oder cancelRequest wird releaseConversationFocus gerufen — sonst bliebe Spotify ewig stumm. Funktioniert auch fuer reine Text-Chats (kein Wake-Word noetig). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 11:52:07 +02:00
duffyduck	4d0b9e0d78	fix: dB-Range -85, Mute haert auch laufende TTS, VoIP-Anrufe + Bild-Bubble Bug 1 — dB-Range erweitert: VAD_SILENCE_DB_MIN von -55 auf -85 dB. Damit hat Stefan einen weiten Regler-Spielraum wenn die adaptive Auto-Erkennung in seiner Umgebung nicht zuverlaessig greift. Bug 5 — Mute-Button stoppt laufende TTS nicht: audioService bekommt jetzt einen internen _muted-Flag. handlePcmChunk setzt silent automatisch wenn _muted true ist, playAudio kehrt frueh zurueck. Verhindert Race zwischen User-Klick auf Mute und einem TTS-Chunk der im selben JS-Tick ankommt (vorher: Ref-Update via useEffect erst nach dem Re-Render → Chunks "rutschten durch"). Plus ttsCanPlayRef wird im toggleMute-Handler synchron aktualisiert. Bug 4 — VoIP/Messenger-Anrufe erkennen: AudioFocusModule emittiert jetzt "AudioFocusChanged" Events mit type "loss"/"loss_transient"/"gain". WhatsApp/Signal/Discord/etc. requestn AudioFocus_GAIN_TRANSIENT_EXCLUSIVE wenn ein Anruf reinkommt — wir fangen das in phoneCall.ts ab und rufen halt + pauseForCall genau wie beim klassischen Anruf. Plus getMode() Polling-Fallback (alle 3s) weil GAIN nicht zuverlaessig kommt wenn wir den Focus selbst released haben — sobald AudioMode wieder NORMAL ist, resumeFromCall. Bug 6 — Bilder als "Strich": attachmentImage hatte width: '100%' in einer Bubble mit maxWidth: '80%' ohne explizite Parent-Breite → RN rendert auf 0px Breite. Neue ChatImage- Komponente nutzt Image.getSize um die echte aspectRatio zu messen + setzt sie dynamisch. Bubble passt sich dem Bild an. Bugs 2 (lange Texte mid-cutoff) + 3 (Spotify resumed) — brauchen ADB-Logs. ADB-WLAN ueber 192.168.177.22:5555 schlaegt fehl (refused) — bei Android 11+ braucht's Wireless-Debugging-Pairing-Code. Stefan kann den nennen sobald er soweit ist. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-10 10:28:52 +02:00
duffyduck	52795530f9	fix(audio): Wake-Word-Anruf-Pause + Resume-Cooldown + Background-Mic-Order Bug 4 — Wake-Word laeuft bei Anruf weiter: phoneCall ruft jetzt wakeWordService.pauseForCall bei RINGING/OFFHOOK und resumeFromCall bei IDLE. Telefonie-App belegt das Mikro waehrend des Anrufs, openWakeWord muss daher pausieren. Pre-Call-State wird gemerkt — armed bleibt armed, conversing degraded zu armed (sonst landet der User nach Auflegen in einem halben Dialog). Bug 3 — App-Resume triggert faelschlich Wake-Word: Beim Wechsel von Background nach Foreground gibt's Audio-Pegel-Spikes (AudioFocus-Switch, AudioTrack re-route), die openWakeWord als Wake- Word interpretiert. Neuer Cooldown-Mechanismus: AppState-Listener im ChatScreen ruft wakeWordService.setResumeCooldown(1500) — Detections in der Phase werden in onWakeDetected verworfen. Bug 1 — Background-Aufnahme klappt nicht: acquireBackgroundAudio('rec') wird jetzt VOR audioService.startRecorder gerufen, acquireBackgroundAudio('wake') VOR OpenWakeWord.start. Sonst greifen Androids Background-Mic-Restrictions (ab 11+) — der Service mit foregroundServiceType=microphone muss zum Zeitpunkt des AudioRecord- Starts schon aktiv sein, nicht erst per state-change-Listener asynchron danach. Bug 2 (VAD manchmal nicht): nicht in diesem Commit, vermutlich umgebungsabhaengig. Toast zeigt die kalibrierten Schwellen — wenn das nochmal auftritt, schick mir die Werte. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 07:49:02 +02:00
duffyduck	d6b54d3247	feat(audio): Background-Service auch fuer Wake-Word + Aufnahme + Doku-Split Erweitert den Foreground-Service um den microphone-Type damit nicht nur TTS, sondern auch Wake-Word-Lauschen und aktive Aufnahmen weiterlaufen wenn die App im Hintergrund ist. Slot-System (backgroundAudio.ts): - 'tts' : ARIA spricht - 'rec' : Aufnahme laeuft - 'wake' : Wake-Word lauscht passiv (Ohr aktiv) Mehrere Slots koennen unabhaengig acquired/released werden, der Service laeuft solange mindestens einer aktiv ist. Notification-Text passt sich dynamisch an den hoechstprioren Slot an (tts > rec > wake). Wiring (ChatScreen): - onPlaybackStarted/Finished → 'tts' Slot - audioService.onStateChange (recording) → 'rec' Slot - wakeWordService.onStateChange (off→armed/conversing) → 'wake' Slot AndroidManifest: - foregroundServiceType="mediaPlayback\|microphone" (Pflicht ab Android 14 fuer Background-Mic-Zugriff) - FOREGROUND_SERVICE_MICROPHONE Permission Doku: - issue.md Erledigt-Sektion in "Bugs / Fixes", "App Features" und "Infrastruktur" gesplittet - README: Background-Service-Beschreibung erweitert Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:43:24 +02:00
duffyduck	ead28cf09a	feat(audio): Foreground-Service haelt TTS am Leben bei minimierter App ARIAs Antwort wird jetzt auch dann fertig vorgelesen wenn der User die App im Hintergrund schickt. Vorher hat Android den Prozess kurz nach dem Minimieren eingefroren — TTS verstummte mitten im Satz. Native: - AriaPlaybackService.kt: Service mit foregroundServiceType=mediaPlayback, zeigt persistente Notification "ARIA spricht — antippen oeffnet die App" (channel low-priority, ongoing, tap → MainActivity) - BackgroundAudioModule.kt: RN-Bridge mit start()/stop() - AndroidManifest: FOREGROUND_SERVICE + FOREGROUND_SERVICE_MEDIA_PLAYBACK + POST_NOTIFICATIONS Permissions, Service deklariert JS: - backgroundAudio.ts: idempotenter Wrapper (active-Flag verhindert doppelte start/stop calls) - ChatScreen onPlaybackStarted → startBackgroundAudio - ChatScreen onPlaybackFinished → stopBackgroundAudio - audio.ts stopPlayback ruft auch stopBackgroundAudio damit die Notification bei Cancel/Barge-In/Anruf nicht haengen bleibt Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:37:46 +02:00
duffyduck	f682aad4ff	fix(wake-word): manueller Mikro-Stop beendet Konversation, zurueck zu armed Bug: Nach Wake-Word "Computer" → conversing → User drueckt manuell den Mikro-Button um zu stoppen → Audio wird gesendet, aber state bleibt 'conversing'. Nach ARIAs Antwort oeffnet sich automatisch wieder das Mikro fuer Multi-Turn — obwohl der User explizit den Knopf gedrueckt hat um zu signalisieren "ich bin fertig". Fix: Im handleVoiceRecording (= manueller Stop ueber VoiceButton) wird nach dem Send wakeWordService.endConversation() gerufen wenn aktuell in conversing-State. Das setzt zurueck auf 'armed' und startet openWakeWord wieder fuer passives Lauschen. ARIAs Antwort kommt durch, TTS spielt, aber resume() ist dann no-op weil state schon 'armed'. Bei VAD-Auto-Stop (silence-callback im Wake-Word-Pfad) bleibt das Multi-Turn-Verhalten unveraendert — das ist die "natuerliche" Pause und passt zum Konversations-Modus. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:33:31 +02:00
duffyduck	e0c1a4bcd5	feat: GPS-Position bei jeder Nachricht an aria-core (still, nur bei Bedarf) App: GPS-Toggle in Settings → Allgemein → Standort wird jetzt korrekt in AsyncStorage persistiert (key: aria_gps_enabled). ChatScreen pollt den Wert mit den anderen Settings im 2s-Intervall. Bridge: chat/audio-Handler nutzen jetzt einen gemeinsamen _build_core_text Helper, der je nach Kontext einen Hint vorschaltet: - Barge-In ("[Hinweis: Stefan hat dich unterbrochen ...]") - GPS ("[Stefans aktuelle GPS-Position: lat, lon. Nutze die nur wenn die Frage sich auf seinen Standort bezieht. Erwaehne sie nicht von dir aus, ausser er fragt explizit danach.]") ARIA weiss bei "wo bin ich?" / "Wetter hier?" automatisch was zu tun ist — bei normalen Fragen kommt die Position aber nicht ungefragt vor. Der User sieht im Chat-Verlauf nichts von der GPS-Info, nur ARIAs Antwort kann darauf eingehen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 23:29:34 +02:00
duffyduck	568ef9ed10	fix(audio): STT-Cleanup-Timeout skaliert mit Aufnahmedauer Der pauschale 30s-Timeout vom Vorgaenger-Commit haette bei einer 5-Minuten-Aufnahme schon getriggert waehrend Whisper noch transkribiert (Whisper braucht auf der Gamebox-GPU grob real-time/5, plus Bridge- Roundtrip). Neue Formel: 60s Buffer + 1x Aufnahmedauer. - 5s Aufnahme → 65s Wait - 5min Aufnahme → 6 min Wait - 30min Aufnahme → 31 min Wait Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:59:20 +02:00
duffyduck	3ca834e633	fix(audio): Auto-Removal von Sprachnachrichten ohne STT-Result nach 30s Bug: Wenn eine Aufnahme leer war, nur Wake-Word-Echo enthielt oder STT sonstwie nichts erkannt hat, sendet die Bridge KEIN stt-Event zurueck — die Placeholder-Bubble "Spracheingabe wird verarbeitet" blieb fuer immer im Chat. Folge-Aufnahmen matchten dann via Substring-Fallback die ALTE Placeholder, der echte Text landete in der falschen Bubble. Fix: nach jedem audio-send einen 30s-Timer starten. Wenn nach Ablauf die Bubble (per audioRequestId identifiziert) immer noch "verarbeitet" ist, wird sie entfernt + Toast "nicht erkannt" zeigt das dem User. So bleibt der State sauber + audioRequestId-Match auf zukuenftige Aufnahmen findet die richtige Bubble (statt die hinterbliebene Placeholder). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:57:20 +02:00
duffyduck	6651f5937d	feat(audio): Wake-Word parallel zu TTS mit AcousticEchoCanceler Du kannst jetzt "Computer" sagen waehrend ARIA noch redet — TTS verstummt, neue Aufnahme startet. Vorher musste man warten oder manuell den Voice-Button tappen. Native (OpenWakeWordModule.kt): - AudioRecord-Source von MIC auf VOICE_COMMUNICATION (aktiviert auf den meisten Geraeten Echo-Cancellation + Noise-Suppression) - Zusaetzlich AcousticEchoCanceler/NoiseSuppressor/AutomaticGainControl explizit aktiviert wenn vorhanden — robuster auf Geraeten wo die VOICE_COMMUNICATION-Source die Effects nicht automatisch mitbringt - releaseAudioEffects() im stop/dispose JS (wakeword.ts): - Neue API: startBargeListening / stopBargeListening — Wake-Word parallel aktivieren, ohne den State 'conversing' zu verlassen - onWakeDetected unterscheidet jetzt: in 'conversing' → barge-in- Callback (nicht der normale wake-callback). Sonst Standard-Pfad. - onBargeIn-Subscriber-API + isBargeListening-Getter Lifecycle-Wiring (audio.ts + ChatScreen): - audioService.onPlaybackStarted callback (neu) - ChatScreen: Bei TTS-Start → wakeWord.startBargeListening - ChatScreen: Bei TTS-Ende → wakeWord.stopBargeListening (sonst kein AudioRecord fuer die naechste Aufnahme) - ChatScreen: Bei BargeIn → haltAllPlayback + cancel_request + 150ms-Pause + neue Aufnahme starten issue.md + README aktualisiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:50:09 +02:00
duffyduck	97cb7be313	feat(audio): "Bereit"-Sound (Ding-Dong) wenn Mikro nach Wake-Word offen ist Kurzer akustischer Hinweis (Airplane Ding-Dong, 20KB MP3) bei audioService.startRecording-Erfolg im Wake-Word-Pfad — User weiss exakt ab wann er reden darf, statt das Toast nur zu sehen. Quelldatei: android/sounds/Airplane-ding-dong.mp2 → ffmpeg-konvertiert zu MP3 64kbps, abgelegt in android/app/src/main/res/raw/ damit Android sie als Resource laden kann. Toggle in App-Settings → Wake-Word, default aktiv. Bei Aktivierung spielt direkt eine Vorschau ab damit man weiss wie's klingt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:40:45 +02:00
duffyduck	77e927ffcd	fix(audio): Placeholder-Race per audioRequestId + Mikro-Offen-Toast erst nach Start Bug: Bei zwei Sprachnachrichten kurz hintereinander wurde der STT-Text der zweiten in die Bubble der ersten geschrieben. Ursache: findIndex matchte ueber Substring "Spracheingabe wird verarbeitet" → bei zwei offenen Placeholders nahm er immer die ERSTE, egal welches STT-Result gerade kam. Fix: jede Aufnahme bekommt eine eindeutige audioRequestId, App pusht sie in die Placeholder-Bubble + ans audio-Event. Bridge gibt sie unveraendert ans STT-Result zurueck. App matcht primaer per ID, fallback auf Substring (Kompatibilitaet zu alten Bridge-Versionen). Bonus: Toast "Wake-Word erkannt" entfernt, dafuer "🎤 Mikro offen — sprich jetzt" erst wenn audioService.startRecording wirklich erfolgreich war. So weiss der User exakt ab wann er reden darf — vorher war der Toast schon ~400ms vorher da. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 22:33:26 +02:00
duffyduck	31ff20c846	feat: Max-Aufnahmedauer konfigurierbar + Barge-In gibt aria-core Kontext Max-Aufnahme: Default rauf von 2 auf 5 Minuten, in den App-Settings konfigurierbar zwischen 1 und 30 Minuten (loadMaxRecordingMs aus AsyncStorage, Storage-Key aria_max_recording_sec). Notbremse-Verhalten bleibt: nach Ablauf wird die Aufnahme automatisch beendet und gesendet. Barge-In Kontext: Wenn der User waehrend ARIA noch redet/arbeitet eine neue Sprach- oder Text-Nachricht sendet, geht jetzt ein 'interrupted: true' Flag mit. Bridge praefixed den Text fuer aria-core dann mit: "[Hinweis: Stefan hat dich gerade unterbrochen waehrend du noch gesprochen oder gearbeitet hast. Folgendes ist eine Korrektur, Ergaenzung oder ein Themenwechsel zu deiner letzten Antwort.]" So weiss ARIA dass die neue Message KEINE eigenstaendige Folgefrage ist sondern auf den abgebrochenen Run bezogen. Der User sieht in seinem Chat nur den reinen Text — der Hint geht nur an aria-core. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 21:58:11 +02:00
duffyduck	406f4cb3cc	fix: Textauswahl, adaptive VAD-Schwelle + Barge-In bei Sprachaufnahme Bug 1 — Textauswahl in Bubbles ging nicht mehr: MessageText hatte verschachtelte <Text onPress={...}> fuer Custom-Link- Styling. Das fing die Long-Press-Geste ab, daher kein Markieren+Kopieren mehr. Jetzt nur noch ein einzelnes <Text selectable dataDetectorType="all">, Android macht URLs/Telefonnummern/Emails per System-Detection klickbar. Bug 2 — VAD erkannte Stille nicht zuverlaessig (Aufnahme lief endlos): Festwerte (-45dB Stille / -28dB Sprache) passten nicht zu jeder Umgebung. In lauteren Raeumen lag der Hintergrundpegel ueber der Stille-Schwelle, lastSpeechTime wurde dauerhaft aktualisiert → VAD feuerte nie, Aufnahme lief bis 120s Max-Duration. Jetzt adaptiv: erste 5 Mic-Samples (~500ms) bilden die Baseline; Stille- Schwelle = baseline+6dB, Sprache-Schwelle = baseline+12dB. Toast zeigt die kalibrierten Werte beim Aufnahmestart. Fallback auf -38dB/-22dB falls das Mikro keine Metering-Updates liefert. Bug 3 — Barge-In ("ach vergiss es"): Wenn waehrend ARIAs Antwort eine neue Sprachnachricht aufgenommen wird, wird ARIAs aktuelle Aktivitaet (TTS + thinking/tool) sofort abgebrochen bevor die neue Message gesendet wird — wie in einem echten Gespraech wo man den anderen unterbrechen darf. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 21:49:48 +02:00
duffyduck	f55329706e	debug(stt): Toasts in App + Bridge-Log fuer STT-Broadcast-Erfolg Da kein adb-Zugriff: visuelle Debug-Pfade direkt in der App + im Diagnostic-Bridge-Tab. App: zwei Toasts beim Empfang eines stt-events - "STT empfangen: ..." sobald das chat-event mit sender=stt reinkommt - "Bubble #X ersetzt" oder "keine Placeholder → neue Bubble" Bridge: explizites Info-Log "STT-Text an RVS broadcastet (sender=stt)" nach erfolgreichem _send_to_rvs, "NICHT broadcastet" wenn die Methode False lieferte (Ping fehlgeschlagen / Verbindung tot). Naechster Test: - Sprachnachricht aufnehmen - Toast erscheint? → STT-Event kommt in App an, Bug ist im findIndex - Toast erscheint nicht? → Diagnostic Bridge-Tab pruefen ob das Log "STT-Text an RVS broadcastet" steht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 20:29:26 +02:00
duffyduck	69c1c49a7d	fix(diagnostic+app): Chat-UI bubblig, mehrzeilig + persistente RVS + STT-Logs Diagnostic-UI: - chat-msg ist jetzt eine richtige Bubble (border-radius 14px, Schatten, flex-Layout statt margin-Hack, Tail-Radius zur Sender-Seite hin). - Eingabefelder (haupt + Vollbild) jetzt textarea mit Auto-Resize. Enter sendet, Shift+Enter macht neue Zeile. - white-space: pre-wrap behaelt Zeilenumbrueche aus dem Text bei. Diagnostic-Server: - sendToRVS_raw nutzt jetzt die persistente rvsWs statt fuer jedes Send eine frische Verbindung aufzubauen. Der frische-WS-Pfad hatte Race- Probleme (WS schloss bevor RVS broadcasten konnte → User-Nachrichten von Diagnostic kamen nicht in der App an). Frische WS bleibt als Fallback wenn die persistente gerade tot ist. App: - console.log am Anfang des chat-handlers + im STT-Result-Handler mit findIndex-Result und Placeholder-Count. Bei nicht-erkanntem STT-Text liefert `adb logcat -s ReactNativeJS:V` jetzt direkt den Befund: kommt das Event ueberhaupt an, findet er die Placeholder? Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 14:19:16 +02:00
duffyduck	fec8aa977b	feat(audio): TTS pausiert bei Anruf + Conversation-Focus haelt Spotify durchgehend gepaust Bug 1a — Anruf-Pause: Neues PhoneCallModule.kt nutzt TelephonyCallback (API 31+) bzw. PhoneStateListener (Pre-12) um auf RINGING/OFFHOOK/IDLE zu reagieren. Bei Klingeln/Gespraech ruft phoneCall.ts → audioService.haltAllPlayback, ARIA verstummt sofort. READ_PHONE_STATE Permission wird beim ersten Start angefragt; ohne Permission failt der Listener leise. Bug 1b — Spotify-Resume: AudioFocus wird jetzt an den Conversation-Lifecycle gekoppelt statt an einzelne Streams. Solange wakeWordState 'conversing' ist, blockt acquireConversationFocus() jeden per-Stream-Release. Erst beim Wechsel auf 'armed'/'off' darf der Focus tatsaechlich freigegeben werden. Verhindert das "Spotify kommt nach 10s wieder hoch"-Phaenomen auch ueber Render-Pausen + zwischen mehreren ARIA-Antworten hinweg. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-03 21:44:58 +02:00
duffyduck	20123de827	fix: Sprachnachricht-Bubble defensiv + Bild+Text als eine Anfrage Bug 2: STT-Result schreibt jetzt eine neue User-Bubble wenn keine Placeholder im State gefunden wird (statt das Update zu verwerfen). Schuetzt vor Race-Conditions zwischen audio-send und State-Updates, damit der gesprochene Text immer im Chat erscheint. Bug 3: Bild + Text wurden als zwei getrennte Events ('file' + 'chat') gesendet, jeder triggerte einen eigenen send_to_core. ARIA antwortete zweimal — einmal "warte auf Anweisung" beim Bild, dann nochmal auf den Text. Bridge buffert jetzt eingehende file-Events 800ms; kommt in dem Fenster ein chat, werden alle Files + Text zu einer einzigen aria-core-Nachricht gemerged. Kein chat → Files alleine wie bisher. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-03 21:40:15 +02:00
duffyduck	abc5b971f4	fix(voice): Stimmen-Wechsel greift wieder — Override bleibt bis naechster Chat-Event Bug: Voice-Override wurde nach der ersten ARIA-Antwort konsumiert. Eine ARIA-Antwort triggert aber oft mehrere TTS-Calls (Tool-Use → Zwischenmeldung → finale Antwort). Der erste nutzte die neue Stimme, alle folgenden fielen auf self.xtts_voice (= alte Voice aus voice_config.json) zurueck. Die App schickt nie ein config-Update, daher blieb voice_config.json fuer immer auf der alten Stimme. Neue Semantik: - chat-/audio-Event mit voice="X" → Override="X", gilt fuer alle folgenden TTS-Calls bis zum naechsten chat-Event - chat-Event mit voice="" → Override geloescht, fallback auf Default-Voice (voice_config.json / Diagnostic) - chat-Event ohne voice-Field → Override unveraendert Audio-Send in ChatScreen.tsx (Push-to-Talk-Pfad) gab voice/speed gar nicht mit; jetzt konsistent mit dem Tap-to-Talk-Pfad. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 20:04:19 +02:00
duffyduck	be373466a3	fix: klares UI-Feedback fuer Wake-Word-State Stefan's Verwirrung: Ohr-Button + KEIN Porcupine = Direkt-Aufnahme, nicht passives Lauschen. Wenn er lange wartet, schnappt das Mikro Hintergrundgeraeusche/Sprache auf, sendet ab, Ohr aus. Sah aus wie "Wake-Word triggerte" — war aber stinknormales Recording. Fixes fuer klares Feedback: - Toast bei jedem State-Wechsel: * Direkt-Aufnahme (kein Porcupine): "Wake-Word nicht aktiv — direkte Aufnahme startet (Mikro hoert mit)" * armed: "Lausche auf X..." * Wake erkannt: "Wake-Word X erkannt — sprich jetzt" * endConversation: "Lausche wieder auf X" oder "Mikro aus" - Ohr-Button-Icon zeigt drei States: 🔇 off 👂 armed (Porcupine lauscht passiv) 🎙️ conversing (aktive Aufnahme laeuft) - ChatScreen subscribed wakeWordService.onStateChange fuer Live- Updates des Icons. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:34:07 +02:00
duffyduck	bbf9aed3ba	fix: 4 Bugs — STT-Mapping, Speed-Logging, VAD-Logs, Wake-Word-Toast Bug 2: STT-Result ueberschrieb beide noch unaufgeloeste Audio-Bubbles mit gleichem Text. Fix: nur die ERSTE matchende Bubble aktualisieren (findIndex + index-Update statt map). Reihenfolge ist FIFO weil Whisper sequenziell verarbeitet. Bug 3: Speed-Param wird nun in jedem Hop geloggt: - ChatScreen: "[Chat] sende mit voice=X speed=Y" - aria-bridge: "XTTS-Request gesendet (voice=X, speed=Y.YYx)" - f5tts-bridge: "F5-TTS: N Satz(e), voice=X, speed=Y.YYx" Damit kann man im logcat/docker-logs eindeutig sehen wo speed evtl. verloren geht oder ob die Stimme einfach von Natur aus schnell ist. Bug 4: VAD-Trigger-Reason mit Schwelle: "VAD NNN ms Stille (Schwelle=NNN ms)". Plus startRecording loggt jetzt VAD-Stille + MAX-Recording. Bug 1 (Porcupine): mehr Debug + Toast-Meldungen. - init failure: err.name/code/stack ins Log - start() ohne Porcupine: Toast "Access Key in Settings setzen" - start() Fehler: Toast mit Fehlermeldung - configure(): Toast wenn init scheitert - Erfolgreiches arming: Toast "Lausche auf X" Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:28:46 +02:00
duffyduck	9e12e0001c	debug: Logs fuer Auto-Playback-Bug — canPlay + silent-state sichtbar Stefan berichtet dass Auto-Playback trotz Closure-Fix nicht greift. Zwei neue Log-Zeilen die beim naechsten Test direkt zeigen was schief laeuft: - ChatScreen: "[Chat] audio-msg canPlay=X (enabled=Y muted=Z)" - audio.ts: "[Audio] PCM-Stream start: silent=X messageId=Y ..." Ausreichend um zu unterscheiden: * canPlay=false trotz Mund-an → ttsMuted bleibt im State haengen * canPlay=true aber silent=true in audio.ts → Ref-Bug oder race * silent=false aber nichts hoerbar → native-module oder audio-routing Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:38:22 +02:00
duffyduck	190352820c	feat: Bug-Runde + 5 App/Diagnostic-Features Bugs: - App Mute-/Auto-Playback: onMessage-Closure hielt stale ttsDeviceEnabled/ ttsMuted → Mute wurde ignoriert + AsyncStorage-Load kam nicht durch. Fix via ttsCanPlayRef (live gespiegelt) statt Closure-Variablen. - App Zombie-Recording: toggleWakeWord hat die laufende Aufnahme nicht gestoppt → audioService.recordingState blieb 'recording' → normaler Aufnahme-Button wirkungslos. Fix: await stopRecording() vor stop(). - Porcupine robuster: BuiltInKeywords-Enum Mapping mit String-Fallback, errorCallback fuer Runtime-Crashes (state zurueck auf off statt App-Crash), mehr Logging damit man beim naechsten Issue debuggen kann. App-Features: - MessageText Komponente: Text ist durchgehend selektierbar, erkennt URLs (http/https), E-Mails, Telefonnummern und macht sie anklickbar (oeffnet Browser / Mail-App / Android-Dialer via Linking). - TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (Settings -> "Sprechgeschwindigkeit", 0.5-2.0 in 0.1-Schritten, Default 1.0). Wird als speed-Param an die F5-TTS-Bridge durchgereicht. Bridge-Durchreichen: - ChatScreen: speed aus AsyncStorage via ttsSpeedRef, an chat/audio/ tts_request mitgeschickt - aria-bridge: _next_speed_override wie voice_override, an xtts_request weitergereicht - f5tts-bridge: speed-Param an F5TTS.infer() durchgereicht Diagnostic-Feature: - Voice-Preview-Button (Play-Icon) vor dem Delete-X in der Stimmen-Liste - Modal mit Textfeld (Default-Beispieltext wird bei jedem Oeffnen neu gesetzt) und Play-Button - Server sammelt audio_pcm Frames der Preview-Anfrage, baut WAV, schickt base64 zurueck, Browser spielt im <audio>-Tag ab - 60s Timeout-Safety-Net Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:24:02 +02:00
duffyduck	8ba6a71a49	feat(app): service_status Banner oben in ChatScreen App-Pendant zum Diagnostic-Banner. Wenn die Gamebox-Bridges (F5-TTS / Whisper) ihren Lade-Status broadcasten, zeigt die App oben unter der Verbindungs-Statusleiste ein farbiges Banner: Gelb = irgendwas laedt (NICHT wegtippbar) Gruen = alles bereit (tippbar zum Schliessen) Rot = Fehler Banner aggregiert beide Services in einer Kachel. Dismiss-State wird zurueckgesetzt sobald irgendein Service wieder in 'loading' geht (z.B. Modell-Wechsel via Diagnostic). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 16:24:47 +02:00
duffyduck	22fa4b3ccf	feat: Porcupine Wake-Word Integration (Built-In Keywords, "Jarvis" default) WakeWordService wrappt jetzt Picovoice Porcupine: - loadFromStorage(): Access Key + Keyword aus AsyncStorage, init Porcupine - configure(key, keyword): Settings-Wechsel, Re-Init - start(): wenn Porcupine bereit → 'armed' (passives Lauschen), sonst Fallback auf direktes 'conversing' (klassischer Modus) - onWakeDetected: Porcupine pausieren → 'conversing' → wakeCallback - endConversation: Porcupine wieder starten → 'armed' (Wake-Word weiter aktiv im Hintergrund, kein erneuter Tap noetig) - Pro Geraet eigene Wahl: jeder User kann sein eigenes Wake-Word haben Settings: neuer Bereich "Wake-Word" - Picovoice Access Key Input (mit Eye-Toggle), kostenlos auf console.picovoice.ai - Built-In Keyword Chips: jarvis, computer, picovoice, porcupine, bumblebee, terminator, alexa, hey google, ok google, hey siri - "Speichern + Aktivieren" Button mit Status-Feedback - Hinweis dass "ARIA" Custom-Keyword spaeter via Diagnostic kommt ChatScreen: ruft wakeWordService.loadFromStorage() beim Mount. package.json: @picovoice/porcupine-react-native + react-native-voice-processor hinzugefuegt — npm install + native rebuild noetig. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:23:51 +02:00
duffyduck	1b8a51aad0	feat: Conversation-Window — Gespraech endet nach Stille statt Endlos-Loop Der Gespraechsmodus war bisher ein Endless-Loop: Mikro hat sich nach jeder ARIA-Antwort wieder geoeffnet bis MAX_RECORDING_MS, danach Speech- Gate verworfen und neu starten. Das Ohr blieb ewig an. Neue Logik: audio.ts: startRecording(autoStop, noSpeechTimeoutMs?) — wenn der User innerhalb des Timeouts nicht anfaengt zu sprechen, wird Stille gemeldet → stopRecording → Speech-Gate verwirft → result=null. wakeword.ts: drei States off/armed/conversing. start() geht direkt in 'conversing' (kein Wake-Word verfuegbar; Stub fuer spaetere Porcupine- Integration). endConversation() bei No-Speech. ChatScreen: Aufnahme bekommt das Window aus AsyncStorage durchgereicht. Bei null-Result → endConversation, UI-State synchron. Settings: neuer +/- Block "Konversations-Fenster" 3-20s (Default 8). Mit dem Stub ist die Architektur bereit fuer Porcupine: dann geht endConversation auf 'armed' statt 'off' und der Wake-Word-Detector laeuft passiv weiter. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:14:01 +02:00
duffyduck	9cbea27455	feat: voice_preload/voice_ready — Feedback wenn neue Stimme geladen ist XTTS-Bridge: - empfaengt neuen voice_preload Type, rendert stumm "ja." fuer die Stimme via TTS-Queue (damit kein Konflikt mit echtem TTS) - horcht zusaetzlich auf config-Broadcasts: wenn Diagnostic global die Stimme wechselt, wird auto-preloaded - broadcastet voice_ready mit Dauer (loadMs) oder error RVS: voice_preload + voice_ready zur ALLOWED_TYPES-Liste. App (SettingsScreen): beim Wechsel senden wir voice_preload, zeigen einen Spinner in der Voice-Row und einen Toast mit "Stimme X bereit (Ns)". App (ChatScreen): Toast auch hier — falls User gerade nicht in Settings ist. Diagnostic (server+UI): voice_ready wird an Browser durchgereicht, ein Status-Text unter dem Voice-Dropdown zeigt "wird geladen" → "bereit". Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-23 10:24:08 +02:00
duffyduck	028e3b2240	fix: Voice-Auswahl funktioniert endlich + Diagnostic setzt alle Apps zurueck XTTS-Bridge: im daswer123 local-Mode erwartet der Server speaker_wav als Basename (z.B. "Maia"), nicht als Pfad. Wir haben bisher "/voices/Maia.wav" geschickt, was der Server stumm verwirft und Default nimmt. Jetzt: speaker name pur senden + Warnlog wenn File fehlt. App: ChatScreen + SettingsScreen horchen auf type "config" vom RVS — wenn in Diagnostic die globale XTTS-Voice gewechselt wird, werden alle Apps auf den neuen Wert zurueckgesetzt (wie vom User gewuenscht). Lokale App-Wahl bleibt sonst intakt und gewinnt pro Request. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:32:40 +02:00
duffyduck	99cb83202e	feat: App XTTS-Voice-Auswahl + Aufnahme + Loeschen (geraetelokal) App Settings: Voice-Sektion (nur wenn TTS an) - Liste aller XTTS-Server-Stimmen mit Auswahl-Radio + X zum Loeschen - 'Standard' fuer Diagnostic-Default-Voice (keine lokale Ueberschreibung) - 'Aktualisieren' Button laedt Liste neu (xtts_list_voices via RVS) - 'Eigene Stimme aufnehmen' oeffnet VoiceCloneModal VoiceCloneModal: 30s Aufnahme + Upload - Vorlese-Text (>30s Lesedauer, thematisch passend) - Rot-pulsierender Stop-Button, live Timer + Progressbar - Auto-Stop bei 30s, Hinweise ab 15s ('genug fuer gute Clonung') - Nach Stop: Namenseingabe (a-Z, 0-9, _, -), Upload via voice_upload - Nach Upload: Modal schliesst, Settings bekommt xtts_voice_saved und setzt automatisch die neue Stimme als gewaehlt Voice-Flow App → Bridge → XTTS (geraetelokal): - Jeder chat/audio/tts_request schickt aria_xtts_voice (AsyncStorage) mit der Message mit - Bridge speichert _next_voice_override bei chat/audio Empfang, nutzt es fuer die naechste ARIA-Antwort und resettet dann - Fallback: globale xtts_voice aus voice_config.json (Diagnostic) Ergebnis: - Gerat A hat 'stefan' geclont → ARIA antwortet Geraet A mit stefan - Gerat B hat nichts gewaehlt → ARIA antwortet Geraet B mit Default - Diagnostic-Einstellung wirkt als fallback-default fuer neue Geraete Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:48:24 +02:00
duffyduck	40e48b046b	feat: App TTS-Einstellungen vereinfacht + Mund-Button fuer lokales Muten SettingsScreen: - Piper-Reste entfernt (defaultVoice, highlightVoice, Speed-Slider, Highlight-Trigger-Info) - Nur noch EIN Toggle 'Sprachausgabe auf diesem Geraet' — geraetelokal, persistent in aria_tts_enabled (AsyncStorage) - Keine Config-Propagation mehr via RVS (das waere ja global gewesen) - Hinweis dass Stimme + Voice-Cloning zentral in der Diagnose sind ChatScreen: Mund-Button (👄 / 🤐) - Neben Ohr-Button im Eingabebereich, NUR sichtbar wenn TTS im Setting grundsaetzlich aktiv ist - Tap toggelt Mute: 👄 an / 🤐 rot gemutet - Persistent in aria_tts_muted (AsyncStorage) - Stoppt bei Muten sofort laufende Wiedergabe (stopPlayback) - Settings-Toggle wird alle 2s gepollt damit Aenderungen greifen (einfache Loesung ohne globalen State-Context) Audio-Handling respektiert lokalen Zustand - Incoming audio/audio_pcm: nur abspielen wenn ttsDeviceEnabled && !ttsMuted - Cache wird TROTZDEM immer geschrieben — Play-Button funktioniert spaeter aus Cache, auch waehrend Mute - audioService.handlePcmChunk akzeptiert silent-Flag: skipt AudioTrack aber baut weiterhin den WAV-Cache pro messageId Jedes Android-Geraet mit der App hat seinen eigenen Mute-Zustand. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:33:36 +02:00
duffyduck	6ab6196739	feat: Streaming TTS — PCM-Stream statt WAV-Chunks (Weg A) Pipeline: XTTS-Server → xtts-bridge → aria-bridge → RVS → App AudioTrack XTTS-Bridge (Gaming-PC): - streamXTTSAsPCM(): liest /tts_to_audio/ Response inkrementell, parst WAV-Header (samplerate/channels), teilt PCM in 8KB-Chunks (~170ms bei 24kHz s16 mono) und sendet jeden als audio_pcm. - Finaler Chunk mit final=true nach letztem Text-Chunk aria-bridge: - audio_pcm Handler leitet payload 1:1 weiter, filled messageId aus requestId → messageId Map falls XTTS-Bridge messageId nicht hatte - Alter xtts_response Pfad bleibt als Legacy-Fallback (WAV) RVS: audio_pcm in ALLOWED_TYPES Android Native: - PcmStreamPlayerModule (Kotlin): AudioTrack MODE_STREAM mit Writer-Thread und BlockingQueue. start(rate, ch) / writeChunk(b64) / end() / stop() - 8x MinBufferSize grosszuegig dimensioniert, glatt auch bei Netz-Aussetzern - Registered im MainApplication via PcmStreamPlayerPackage App JS: - audioService.handlePcmChunk(): erkennt neue Session (messageId-Wechsel), started nativen Stream, cached PCM-Bytes pro Message. Bei final=true Stream sauber schliessen + _savePcmBufferAsWav → WAV-File im tts_cache/<messageId>.wav - _savePcmBufferAsWav: baut 44-byte WAV-Header (PCM s16le, korrekte samplerate/channels), haengt alle gesammelten base64-PCM-Chunks an - stopPlayback beendet auch aktiven PCM-Stream - ChatScreen routet type=audio_pcm an handlePcmChunk, bei final setzt audioPath in der Message Play-Button: falls messageId einen audioPath hat → WAV aus Cache (Sound-basiert), egal ob Original-TTS Piper oder XTTS war. Audio-Focus: - requestDuck() beim Stream-Start, release() bei Stream-Ende - Andere Apps (Spotify etc.) werden leiser waehrend ARIA spricht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:01:27 +02:00
duffyduck	eb12281dfc	feat: TTS-Zeitbereiche + Diagnostic-Debug-Toggle + Play-Button respektiert Engine TTS-Cleanup erweitert: - Zeitbereiche: '8:00-9:00 Uhr' / '8-9 Uhr' → 'acht bis neun Uhr' - Uhrzeiten: '8:30 Uhr' → 'acht Uhr dreissig', '15 Uhr' → 'fuenfzehn Uhr' - Kleine Zahlen-Bereiche: '5-6' → 'fuenf bis sechs' (nur ≤24) - Zahlen 0-59 als deutsche Woerter (inkl. 'einundzwanzig', 'fuenfundvierzig') Diagnostic: TTS-Debug Einblenden - Checkbox 'TTS-Text einblenden' in der Chat-Test Kopfzeile - Unter ARIA-Nachrichten erscheint die aufbereitete Variante (blauer Border + Label 'TTS:') - Nur in Diagnostic, nicht in der App - LocalStorage persistiert den Toggle-Zustand - Minimaler JS-Port von clean_text_for_tts als Fallback Play-Button respektiert Engine: - Bridge: tts_request nutzt jetzt die aktive TTS-Engine (Piper/XTTS), Text wird durch clean_text_for_tts aufbereitet - messageId wird vom Play-Button mitgeschickt → Bridge verknuepft generiertes Audio mit der urspruenglichen Message - XTTS-Chunks: requestId → messageId Map (LRU 100 Eintraege), beim xtts_response wird die Basis-UUID extrahiert und die messageId dem audio-Frame angehaengt - App cached auch XTTS-Audio jetzt (letzter Satz pro Message — echte Chunk-Konkatenation bleibt TODO) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 21:48:32 +02:00
duffyduck	b203503fd8	feat: QR-Code Onboarding + TTS-Audio-Cache im Filesystem QR-Code Onboarding - Diagnostic: GET /api/onboarding gibt RVS-Credentials zurueck - Einstellungen-UI: neue Sektion mit QR-Code (qrcode-generator via CDN) - Format kompatibel mit bestehendem QRScanner.parseQRData (host/port/tls/token) - App-SettingsScreen hatte QR-Scanner bereits — funktioniert out of the box - Warnhinweis zu Token im Klartext TTS-Audio-Cache - Bridge: jede ARIA-Chat-Nachricht bekommt eine messageId (UUID) Audio-Payload wird mit messageId verknuepft (Piper-Pfade) - ChatScreen: messageId + audioPath in ChatMessage Interface - audioService.cacheAudio(): speichert Base64 in DocumentDirectory/tts_cache/<id>.wav - audioService.playFromPath(): spielt aus Cache ohne Regenerierung - Play-Button: wenn audioPath gesetzt → aus Cache, sonst tts_request - cleanupOldTTSCache(): alte unreferenzierte WAVs (>30 Tage) weg - Persistiert via AsyncStorage — ueberlebt App-Restart Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 16:16:25 +02:00
duffyduck	6fec8588c1	fix: Gespraechsmodus - strenger Speech-Gate + Crash-Prevention Probleme: - Hintergrundgeraeusche wurden als Sprache erkannt und an Whisper geschickt - App stuerzte nach laengerem Zuhoeren ab (OOM / Cache-Ueberlauf) Aenderungen: - VAD_SPEECH_THRESHOLD_DB -35 -> -28 (filtert Raum-Ambient) - VAD_SPEECH_MIN_MS 300 -> 500 (keine Huestler/Klopfer mehr) - Max-Aufnahmedauer 30s (Notbremse gegen Runaway-Loops) - _cleanupStaleCacheFiles(): alte aria_recording_/aria_tts_ Files (>30s) werden vor jeder neuen Aufnahme geloescht - ChatScreen: capMessages() begrenzt Messages-Array auf 500 Eintraege (OOM-Schutz in langen Gespraechen) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-18 12:05:15 +02:00

1 2

76 Commits