ARIA-AGENT

Author	SHA1	Message	Date
duffyduck	bbf9aed3ba	fix: 4 Bugs — STT-Mapping, Speed-Logging, VAD-Logs, Wake-Word-Toast Bug 2: STT-Result ueberschrieb beide noch unaufgeloeste Audio-Bubbles mit gleichem Text. Fix: nur die ERSTE matchende Bubble aktualisieren (findIndex + index-Update statt map). Reihenfolge ist FIFO weil Whisper sequenziell verarbeitet. Bug 3: Speed-Param wird nun in jedem Hop geloggt: - ChatScreen: "[Chat] sende mit voice=X speed=Y" - aria-bridge: "XTTS-Request gesendet (voice=X, speed=Y.YYx)" - f5tts-bridge: "F5-TTS: N Satz(e), voice=X, speed=Y.YYx" Damit kann man im logcat/docker-logs eindeutig sehen wo speed evtl. verloren geht oder ob die Stimme einfach von Natur aus schnell ist. Bug 4: VAD-Trigger-Reason mit Schwelle: "VAD NNN ms Stille (Schwelle=NNN ms)". Plus startRecording loggt jetzt VAD-Stille + MAX-Recording. Bug 1 (Porcupine): mehr Debug + Toast-Meldungen. - init failure: err.name/code/stack ins Log - start() ohne Porcupine: Toast "Access Key in Settings setzen" - start() Fehler: Toast mit Fehlermeldung - configure(): Toast wenn init scheitert - Erfolgreiches arming: Toast "Lausche auf X" Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 20:28:46 +02:00
duffyduck	e7bb6c37cb	feat: Sprechgeschwindigkeit-Range auf 0.1-5.0 erweitert TTS_SPEED_MIN 0.5 → 0.1, TTS_SPEED_MAX 2.0 → 5.0. Bridge-seitige Validierungen (aria_bridge.py + f5tts/bridge.py) mit- gezogen auf den gleichen Bereich. Hinweis: Extremwerte (unter 0.5 oder ueber 2.0) koennen bei F5-TTS verzerrte Ausgaben produzieren — Stefan bekommt die Freiheit zum Experimentieren. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:49:05 +02:00
duffyduck	190352820c	feat: Bug-Runde + 5 App/Diagnostic-Features Bugs: - App Mute-/Auto-Playback: onMessage-Closure hielt stale ttsDeviceEnabled/ ttsMuted → Mute wurde ignoriert + AsyncStorage-Load kam nicht durch. Fix via ttsCanPlayRef (live gespiegelt) statt Closure-Variablen. - App Zombie-Recording: toggleWakeWord hat die laufende Aufnahme nicht gestoppt → audioService.recordingState blieb 'recording' → normaler Aufnahme-Button wirkungslos. Fix: await stopRecording() vor stop(). - Porcupine robuster: BuiltInKeywords-Enum Mapping mit String-Fallback, errorCallback fuer Runtime-Crashes (state zurueck auf off statt App-Crash), mehr Logging damit man beim naechsten Issue debuggen kann. App-Features: - MessageText Komponente: Text ist durchgehend selektierbar, erkennt URLs (http/https), E-Mails, Telefonnummern und macht sie anklickbar (oeffnet Browser / Mail-App / Android-Dialer via Linking). - TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (Settings -> "Sprechgeschwindigkeit", 0.5-2.0 in 0.1-Schritten, Default 1.0). Wird als speed-Param an die F5-TTS-Bridge durchgereicht. Bridge-Durchreichen: - ChatScreen: speed aus AsyncStorage via ttsSpeedRef, an chat/audio/ tts_request mitgeschickt - aria-bridge: _next_speed_override wie voice_override, an xtts_request weitergereicht - f5tts-bridge: speed-Param an F5TTS.infer() durchgereicht Diagnostic-Feature: - Voice-Preview-Button (Play-Icon) vor dem Delete-X in der Stimmen-Liste - Modal mit Textfeld (Default-Beispieltext wird bei jedem Oeffnen neu gesetzt) und Play-Button - Server sammelt audio_pcm Frames der Preview-Anfrage, baut WAV, schickt base64 zurueck, Browser spielt im <audio>-Tag ab - 60s Timeout-Safety-Net Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 00:24:02 +02:00
duffyduck	744a27cfd1	fix: HF-Cache zurueck + Banner-Bug + config_request Pattern Vier Bugs in einem Aufwasch: 1. HF-Cache als Bind-Mount zurueck xtts/hf-cache:/root/.cache/huggingface fuer beide Bridges. War vorher raus, dadurch jedes Container-Restart = ~3GB Whisper-Download + ~1GB F5-TTS-Download. User dachte 5min ist einmalig — ist aber bei jedem Restart. Jetzt: einmal pro Maschine geladen, fertig. 2. Banner zeigte stale "ready" whisper-bridge sendete beim Connect nur dann Status wenn Modell schon geladen war. Sonst blieb der App/Diagnostic Banner auf dem alten "ready" State von vor dem Restart haengen — User sah "bereit" obwohl gerade gar nichts geladen war. Jetzt wird IMMER ein Status broadcast: ready oder loading. 3. config_request Pattern aria-bridge wusste nicht wann Gamebox-Bridges sich (re)connecten. Wenn die nach aria-bridge kamen, verpassten sie den Config-Broadcast und blieben mit Hard-Defaults stehen. Jetzt: whisper- und f5tts-bridge senden beim Connect ein config_request, aria-bridge antwortet mit der persistierten Config (whisperModel, xttsVoice, f5tts*-Felder). 4. RVS ALLOWED_TYPES um config_request erweitert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 17:46:47 +02:00
duffyduck	37c5f6c368	fix: dynamischer STT-Timeout — whisper Modell-Download nicht abkappen aria-bridge horcht jetzt auf service_status fuer den Service 'whisper'. Solange whisper-bridge im 'loading' steckt (Erst-Download large-v3 kann 1-2 Min dauern), gilt fuer stt_request ein Timeout von 300s statt 45s. Sobald 'ready', zurueck auf 45s — reicht selbst fuer lange Audios. Symptom vorher: Beim ersten Sprechen nach Container-Restart hat aria- bridge nach 45s aufgegeben und lokal gefallback waehrend whisper-bridge noch fleissig den Download laufen hatte. Damit wurde der Sinn der Auslagerung kaputt gemacht. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 17:06:04 +02:00
duffyduck	187ffad7ee	feat: F5-TTS Tuning ueber Diagnostic statt .env Folgt der "keine neuen Settings in .env" Regel. f5tts/bridge.py: - F5TTS_MODEL/CKPT_FILE/VOCAB_FILE/CFG_STRENGTH/NFE_STEP ENV-Vars raus - Hard-coded Defaults im Code (DEFAULT_F5TTS_) - F5Runner besitzt Live-Settings als Instance-Vars + update_config() - config-Broadcast triggert Modell-Reload nur wenn Modell-relevantes sich aendert (cfg_strength/nfe_step ohne Reload) - F5TTS_DEVICE bleibt ENV (Hardware-Bootstrap) xtts/docker-compose.yml: F5TTS_ ENV-Vars rausgenommen, Kommentar verweist auf Diagnostic-Config. aria-bridge: nimmt f5tts*-Felder im config-Handler entgegen, persistiert sie in voice_config.json. Beim RVS-Connect broadcastet die Bridge die persistierte Config einmalig — damit die f5tts-bridge nach Container- Restart automatisch die zuletzt gewaehlten Settings bekommt, ohne dass der User in Diagnostic was klicken muss. Diagnostic UI: - Neuer aufklappbarer "F5-TTS Modell-Tuning (advanced)" Bereich - Felder: Modell-ID, Custom-Checkpoint, Vocab, cfg_strength, nfe_step - voice_config beim Laden: Felder werden zurueck in die UI gesetzt - sendVoiceConfig schickt die neuen Felder mit - Server: send_voice_config persistiert die Felder, leere Strings werden geloescht damit die Hard-Defaults greifen Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:44:58 +02:00
duffyduck	e170991222	fix: _send_to_rvs gibt Success-Bool zurueck, _stt_remote bricht bei Send-Fehler sofort ab statt in den 45s-Timeout zu laufen. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:16:08 +02:00
duffyduck	a1343ee18f	debug: Logs beim stt_request-Roundtrip — aria-bridge loggt beim Senden, whisper-bridge loggt eingehende stt_request (id + Audio-Groesse). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 14:13:41 +02:00
duffyduck	e544992c9f	feat(phase1): Whisper STT auf die Gamebox ausgelagert Neuer Container aria-whisper-bridge auf der Gamebox — faster-whisper CUDA mit float16. Der Container verbindet sich per WebSocket an den RVS, nimmt stt_request entgegen, laeuft ffmpeg+Whisper, antwortet mit stt_response. Hoert zusaetzlich auf config-Broadcasts und lädt das Modell hot-swap bei Diagnostic-Wechsel. aria-bridge ruft jetzt primaer die Gamebox an; nur wenn die nicht binnen 45s antwortet, faellt auf lokales Whisper (CPU) zurueck. Das lokale Modell wird lazy geladen, spart RAM auf der VM. RVS: stt_request/stt_response zur ALLOWED_TYPES-Liste. Diagnostic-Voice-Config (whisperModel-Feld) bleibt unveraendert — die Auswahl wird an die Gamebox durchgereicht. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 13:42:07 +02:00
duffyduck	c042f27106	feat: generisches Buchstabieren fuer unbekannte Akronyme Nach der expliziten _UNIT_WORDS-Liste greift eine Fallback-Regel: alle verbleibenden 2-5-Zeichen-Grossbuchstaben-Woerter werden buchstabiert. XTTS → X T T S, USB → U S B, DNS → D N S, JSON → J S O N. Spezielle Faelle (WLAN, NATO — als Wort gesprochen) koennen bei Bedarf in _UNIT_WORDS explizit ueberschrieben werden. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 19:17:04 +02:00
duffyduck	23c39d5bba	feat: Dezimalzahlen fuer TTS ausschreiben + Leading-Silence im Stream - aria_bridge clean_text_for_tts: "0.1" / "0,5" / "1,25" wird jetzt als "null komma eins" / "null komma fuenf" / "eins komma zwei fuenf" ausgeschrieben. Lookahead verhindert Match auf IP-artige Strings. - PcmStreamPlayer: 200ms Stille am Stream-Anfang, damit AudioTrack sauber anfaehrt und die ersten Worte nicht verschluckt werden. (XTTS-Warmup + play()-Startup-Latenz) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-22 18:44:38 +02:00
duffyduck	350069d371	fix: Streaming TTS — doppeltes Audio + Gaps zwischen Saetzen Zwei Probleme gefunden: 1) DOPPELTES AUDIO (Kern-Ursache der Artefakte) aria-bridge hat audio_pcm von XTTS-Bridge empfangen und per _send_to_rvs rebroadcastet. RVS broadcast geht an ALLE Clients ausser Sender — die App bekam jeden Chunk also zwei mal: XTTS-Bridge → RVS → App + aria-bridge aria-bridge → RVS → App (nochmal!) + XTTS-Bridge Zwei ueberlagerte PCM-Streams klingen wie Doubled/Artefakte. Fix: aria-bridge ignoriert audio_pcm jetzt. messageId schickt XTTS-Bridge selbst im Payload (via xtts_request -> messageId). 2) GAPS ZWISCHEN SAETZEN (abgehackt) xtts/bridge.js teilte Text in ~150-char Chunks und rief pro Chunk einen eigenen /tts_to_audio/ Request. Zwischen Chunks lag die XTTS-Render-Zeit (1-3s) → hoerbare Pausen. Fix: cleanText geht JETZT in einem Request komplett an XTTS. Ein zusammenhaengender Stream → keine Satz-Gaps mehr. Kompromiss: Erste Samples kommen spaeter (ganze Text-Render dauert laenger als der erste Satz alleine), aber dann kontinuierlich ohne Unterbrechung. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 23:15:57 +02:00
duffyduck	d411df4074	feat: Mode-Wechsel auch aus Diagnostic global syncronisiert Vorher: Diagnostic's setMode sendete einen faked chat mit der Aktivierungsphrase ('ARIA, Hangar-Modus') — das wurde erst in _process_core_response auf dem ARIA-Antwort-Text detected, war unzuverlaessig und nutzte nicht den sauberen mode-Message-Path. Nachher: sauberer set_mode-Pfad mit Live-Sync. diagnostic/server.js: - Neue action 'set_mode' → sendet type=mode an RVS direkt - RVS-Message-Handler: type=mode Broadcast von Bridge wird an Browser-Clients durchgereicht diagnostic/index.html: - setMode() nutzt jetzt action=set_mode (keine Phrase mehr) - updateModeUI separat — wird bei Broadcast auch aufgerufen - Mode-Broadcast vom Server syncs UI live (andere Diagnostic/App hat gewechselt → unser UI aktualisiert sofort) - Button data-mode + MODE_LABELS auf kanonische IDs umgestellt (nicht_stoeren, fluester statt dnd, whisper) bridge/modes.py: - canonical_id() liefert die IDs die App + Diagnostic kennen (nicht_stoeren, fluester, ...) — damit Broadcast-ID zur UI-ID passt bridge/aria_bridge.py: - _broadcast_current_mode nutzt canonical_id statt enum.name.lower() Flow jetzt: Diagnostic wechselt Mode → set_mode → Bridge → persist + broadcast → alle Apps + alle Diagnostic-Browser-Tabs aktualisieren sofort Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:57:41 +02:00
duffyduck	763e0d79ab	feat: Betriebsmodus global + persistent + Live-Sync Vorher: - Modus war nur in-memory in der Bridge, Restart = zurueck auf NORMAL - App-Wechsel wurde zwar empfangen, aber nicht an andere Geraete gebroadcastet (nur Bestaetigung an den Sender) - Neue App-Verbindung wusste nicht welcher Modus gerade aktiv ist Jetzt: - Persistiert in /shared/config/mode.json beim Wechsel - Beim Bridge-Start: _load_persisted_mode() holt letzten aktiven Modus - _broadcast_current_mode() sendet an ALLE Clients (Broadcast) — jedes verbundene Geraet bekommt live den Wechsel mit - Bei RVS-Reconnect: sofortiger Broadcast damit neu verbundene Apps/ Diagnostic ihre UI syncen koennen - Loop-Schutz: payload.sender=="bridge" wird im mode-Handler ignoriert (sonst echo → Broadcast-Storm bei verbundenem RVS) Beispiel-Flow: Geraet A aktiviert 'Hangar' → Bridge empfaengt mode-msg → persist in mode.json → broadcast an alle Clients (mit sender="bridge") → Geraet B/C/Diagnostic empfangen → UI updated sofort → Bridge-Restart spaeter: HANGAR wird wieder geladen Anmerkung zu echten OS-Push bei geschlossener App: Das braucht FCM/Firebase + BackgroundService — deutlich mehr Arbeit, ist separat als Feature fuer spaeter zu sehen. Live-Sync bei geoeffneter App (WebSocket verbunden) funktioniert jetzt zuverlaessig. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:53:47 +02:00
duffyduck	47fe4ad655	fix: Modus-Wechsel via App/ID funktioniert jetzt Bug: App ModeSelector sendet rvs.send('mode', { mode: 'normal' }) mit ID, Bridge's detect_mode_switch() sucht aber nach Aktivierungs- phrasen wie 'aria, normal-modus' → kein Match → Modus-Wechsel wurde ignoriert, TTS-Verhalten blieb auf NORMAL haengen. Fix: - modes.py: mode_from_id() mappt IDs zu Mode-Enum ('normal', 'dnd', 'nicht_stoeren', 'fluester', 'whisper', 'hangar', 'gaming' — flexibel) - aria_bridge.py: mode-Handler versucht erst ID-Mapping, dann Phrasen-Erkennung als Fallback - Unbekannte Modi werden geloggt - Bestaetigung wird an alle Clients zurueckgesendet damit App-UI synchron bleibt Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:51:18 +02:00
duffyduck	99cb83202e	feat: App XTTS-Voice-Auswahl + Aufnahme + Loeschen (geraetelokal) App Settings: Voice-Sektion (nur wenn TTS an) - Liste aller XTTS-Server-Stimmen mit Auswahl-Radio + X zum Loeschen - 'Standard' fuer Diagnostic-Default-Voice (keine lokale Ueberschreibung) - 'Aktualisieren' Button laedt Liste neu (xtts_list_voices via RVS) - 'Eigene Stimme aufnehmen' oeffnet VoiceCloneModal VoiceCloneModal: 30s Aufnahme + Upload - Vorlese-Text (>30s Lesedauer, thematisch passend) - Rot-pulsierender Stop-Button, live Timer + Progressbar - Auto-Stop bei 30s, Hinweise ab 15s ('genug fuer gute Clonung') - Nach Stop: Namenseingabe (a-Z, 0-9, _, -), Upload via voice_upload - Nach Upload: Modal schliesst, Settings bekommt xtts_voice_saved und setzt automatisch die neue Stimme als gewaehlt Voice-Flow App → Bridge → XTTS (geraetelokal): - Jeder chat/audio/tts_request schickt aria_xtts_voice (AsyncStorage) mit der Message mit - Bridge speichert _next_voice_override bei chat/audio Empfang, nutzt es fuer die naechste ARIA-Antwort und resettet dann - Fallback: globale xtts_voice aus voice_config.json (Diagnostic) Ergebnis: - Gerat A hat 'stefan' geclont → ARIA antwortet Geraet A mit stefan - Gerat B hat nichts gewaehlt → ARIA antwortet Geraet B mit Default - Diagnostic-Einstellung wirkt als fallback-default fuer neue Geraete Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:48:24 +02:00
duffyduck	fc2438be2d	fix/feat: XTTS-Voice korrekt persistiert, Loeschen + Voice-per-Request Bug-Fix: Voice-Auswahl verschwand nach Page-Load - xtts_voices_list Handler rebuildet das Dropdown — vorheriger select.value ging dabei verloren. Jetzt wird der Wert gemerkt und nach Rebuild wiederhergestellt (falls die Stimme noch existiert). Feature: Stimmen loeschen (Diagnostic) - XTTS-Bridge: neuer handleDeleteVoice — entfernt /voices/<name>.wav und schickt aktualisierte Liste per xtts_voices_list - RVS: xtts_delete_voice in ALLOWED_TYPES - Diagnostic Server: Action xtts_delete_voice forwarded via RVS - Diagnostic UI: renderVoiceList zeigt alle Custom-Voices mit X-Button Bei Loeschen der gerade aktiven Stimme: auf Default zuruecksetzen Feature: Voice-per-Request in Bridge - App kann mit jedem Chat ein voice-Feld mitschicken - Bridge merkt sich _next_voice_override, nutzt es fuer die NAECHSTE ARIA-Antwort (einmalig, dann reset) - tts_request (Play-Button) akzeptiert voice im Payload als Override - Fallback: globale xtts_voice aus voice_config.json - So kann jedes Geraet seine eigene Stimme haben ohne den globalen Default zu aendern Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:43:26 +02:00
duffyduck	f801d99748	feat: Piper komplett entfernt — nur noch XTTS v2 als TTS Breaking Change: wenn XTTS-Bridge (Gaming-PC) offline ist, bleibt ARIA stumm. Chat-Antworten kommen weiter an, aber kein Audio. Das ist bewusst akzeptiert — XTTS klingt einfach grauenhaft viel besser. Bridge (aria_bridge.py): - from piper import ... raus - VoiceEngine-Klasse komplett entfernt (synthesize, speak, select_voice) - EPIC_TRIGGERS + load_epic_triggers raus (Highlight-Voice-Feature ohne Piper sinnlos) - self.voice_engine, voice_name, requested_voice Aufrufe weg - _process_core_response: immer XTTS, kein Fallback - tts_request Handler: immer XTTS - config Handler: nur ttsEnabled + xttsVoice + whisperModel - import wave raus bridge/requirements.txt: piper-tts raus bridge/Dockerfile: Kommentar aktualisiert docker-compose.yml: ./aria-data/voices Mount raus aria-data/config/aria.env.example: PIPER_RAMONA/PIPER_THORSTEN raus get-voices.sh: komplett geloescht (war nur Piper-Downloader) Diagnostic UI (index.html): - Piper Panel (Standard-Stimme / Highlight-Stimme / Speed-Sliders) weg - TTS Engine Dropdown weg (immer XTTS) - TTS Diagnose Tab zeigt nur noch XTTS-Status + Test-Button - sendVoiceConfig sendet nur noch ttsEnabled/xttsVoice/whisperModel - toggleXTTSPanel als no-op Legacy-Stub (JS-Calls bleiben safe) Diagnostic Server (server.js): - handleSendVoiceConfig: nur noch ttsEnabled + xttsVoice + whisperModel - handleTestTTS: via xtts_request (nicht mehr Piper subprocess) - handleCheckTTS: via xtts_list_voices ueber RVS - handleGetVoiceConfig/Defaults bereinigt - Highlight-Trigger UI bleibt, wird aber von Bridge nicht mehr ausgewertet (dead-code im UI, spaeter ggf. fuer XTTS-Voice-Switch) README + issue.md aktualisiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:24:42 +02:00
duffyduck	6ab6196739	feat: Streaming TTS — PCM-Stream statt WAV-Chunks (Weg A) Pipeline: XTTS-Server → xtts-bridge → aria-bridge → RVS → App AudioTrack XTTS-Bridge (Gaming-PC): - streamXTTSAsPCM(): liest /tts_to_audio/ Response inkrementell, parst WAV-Header (samplerate/channels), teilt PCM in 8KB-Chunks (~170ms bei 24kHz s16 mono) und sendet jeden als audio_pcm. - Finaler Chunk mit final=true nach letztem Text-Chunk aria-bridge: - audio_pcm Handler leitet payload 1:1 weiter, filled messageId aus requestId → messageId Map falls XTTS-Bridge messageId nicht hatte - Alter xtts_response Pfad bleibt als Legacy-Fallback (WAV) RVS: audio_pcm in ALLOWED_TYPES Android Native: - PcmStreamPlayerModule (Kotlin): AudioTrack MODE_STREAM mit Writer-Thread und BlockingQueue. start(rate, ch) / writeChunk(b64) / end() / stop() - 8x MinBufferSize grosszuegig dimensioniert, glatt auch bei Netz-Aussetzern - Registered im MainApplication via PcmStreamPlayerPackage App JS: - audioService.handlePcmChunk(): erkennt neue Session (messageId-Wechsel), started nativen Stream, cached PCM-Bytes pro Message. Bei final=true Stream sauber schliessen + _savePcmBufferAsWav → WAV-File im tts_cache/<messageId>.wav - _savePcmBufferAsWav: baut 44-byte WAV-Header (PCM s16le, korrekte samplerate/channels), haengt alle gesammelten base64-PCM-Chunks an - stopPlayback beendet auch aktiven PCM-Stream - ChatScreen routet type=audio_pcm an handlePcmChunk, bei final setzt audioPath in der Message Play-Button: falls messageId einen audioPath hat → WAV aus Cache (Sound-basiert), egal ob Original-TTS Piper oder XTTS war. Audio-Focus: - requestDuck() beim Stream-Start, release() bei Stream-Ende - Andere Apps (Spotify etc.) werden leiser waehrend ARIA spricht Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 22:01:27 +02:00
duffyduck	eb12281dfc	feat: TTS-Zeitbereiche + Diagnostic-Debug-Toggle + Play-Button respektiert Engine TTS-Cleanup erweitert: - Zeitbereiche: '8:00-9:00 Uhr' / '8-9 Uhr' → 'acht bis neun Uhr' - Uhrzeiten: '8:30 Uhr' → 'acht Uhr dreissig', '15 Uhr' → 'fuenfzehn Uhr' - Kleine Zahlen-Bereiche: '5-6' → 'fuenf bis sechs' (nur ≤24) - Zahlen 0-59 als deutsche Woerter (inkl. 'einundzwanzig', 'fuenfundvierzig') Diagnostic: TTS-Debug Einblenden - Checkbox 'TTS-Text einblenden' in der Chat-Test Kopfzeile - Unter ARIA-Nachrichten erscheint die aufbereitete Variante (blauer Border + Label 'TTS:') - Nur in Diagnostic, nicht in der App - LocalStorage persistiert den Toggle-Zustand - Minimaler JS-Port von clean_text_for_tts als Fallback Play-Button respektiert Engine: - Bridge: tts_request nutzt jetzt die aktive TTS-Engine (Piper/XTTS), Text wird durch clean_text_for_tts aufbereitet - messageId wird vom Play-Button mitgeschickt → Bridge verknuepft generiertes Audio mit der urspruenglichen Message - XTTS-Chunks: requestId → messageId Map (LRU 100 Eintraege), beim xtts_response wird die Basis-UUID extrahiert und die messageId dem audio-Frame angehaengt - App cached auch XTTS-Audio jetzt (letzter Satz pro Message — echte Chunk-Konkatenation bleibt TODO) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 21:48:32 +02:00
duffyduck	fc3bee6d05	feat: Runtime-Config via Diagnostic UI — kein .env-Sync mehr Framework fuer zentrale Runtime-Konfiguration: - /api/runtime-config (GET/POST) persistiert in /shared/config/runtime.json - Werte haben Vorrang ueber die ENV-Variablen aus aria.env - Feldliste: RVS_HOST/PORT/TLS/TOKEN, ARIA_AUTH_TOKEN, WHISPER_MODEL/LANGUAGE - Atomic write (tmp + rename) fuer Konsistenz Bridge: - load_config() liest nach aria.env noch runtime.json und ueberschreibt die Werte. Aenderungen werden beim Neustart der Bridge uebernommen. Diagnostic UI: - Neue Sektion "Runtime-Konfiguration" in Einstellungen - Formular fuer RVS-Credentials + Aria-Auth-Token - "Speichern" persistiert, triggert auch QR-Code-Regenerierung - Hinweis: Diagnostic-Container selbst bleibt auf ENV (erstmal) issue.md konsolidiert — 6 groessere Tasks dieser Session als erledigt. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 16:18:37 +02:00
duffyduck	b203503fd8	feat: QR-Code Onboarding + TTS-Audio-Cache im Filesystem QR-Code Onboarding - Diagnostic: GET /api/onboarding gibt RVS-Credentials zurueck - Einstellungen-UI: neue Sektion mit QR-Code (qrcode-generator via CDN) - Format kompatibel mit bestehendem QRScanner.parseQRData (host/port/tls/token) - App-SettingsScreen hatte QR-Scanner bereits — funktioniert out of the box - Warnhinweis zu Token im Klartext TTS-Audio-Cache - Bridge: jede ARIA-Chat-Nachricht bekommt eine messageId (UUID) Audio-Payload wird mit messageId verknuepft (Piper-Pfade) - ChatScreen: messageId + audioPath in ChatMessage Interface - audioService.cacheAudio(): speichert Base64 in DocumentDirectory/tts_cache/<id>.wav - audioService.playFromPath(): spielt aus Cache ohne Regenerierung - Play-Button: wenn audioPath gesetzt → aus Cache, sonst tts_request - cleanupOldTTSCache(): alte unreferenzierte WAVs (>30 Tage) weg - Persistiert via AsyncStorage — ueberlebt App-Restart Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 16:16:25 +02:00
duffyduck	8b0a72dc9b	feat: NO_REPLY-Filter + Audio-Ducking + TTS-Cleanup 1) NO_REPLY Token wird in Bridge und Diagnostic erkannt und still verworfen. Toleranz fuer Variationen (Whitespace, Punkt, Quotes). Kein Chat-Eintrag, kein TTS. 2) AudioFocusModule (Kotlin) mit requestDuck / requestExclusive / release. AudioService ruft: - requestExclusive() bei Aufnahme-Start → andere Apps pausieren - requestDuck() bei TTS-Playback-Start → andere Apps leiser - release() bei Stop/Queue-Ende MainApplication registriert AudioFocusPackage. 3) clean_text_for_tts() in Bridge — zentrale Aufbereitung: - <voice>...</voice> Tag wird bevorzugt (falls ARIA es schreibt) - Code-Bloecke (``` und `) komplett raus - Markdown (Fett/Kursiv/Links/Headings/Listen) geschleift - Einheiten ausgeschrieben: 22GB → 22 Gigabyte, 85% → 85 Prozent - Abkuerzungen buchstabiert: CPU → C P U, API → A P I - URLs durch "ein Link" ersetzt Genutzt in VoiceEngine.synthesize und im XTTS-Request — Chat-Text an die App bleibt unveraendert (original Markdown), nur TTS kriegt die aufbereitete Version. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-19 16:10:54 +02:00
duffyduck	8c1014d281	fix: Thinking indicator respringt nach chat:final durch trailing events Nach chat:final kommen oft noch agent-Events rein (Core raeumt nach), die den Thinking-Indicator wieder anspringen liessen. - Diagnostic: 3s-Settled-Window nach chat:final, agent_activity-Broadcasts werden in dem Fenster unterdrueckt (idle kommt weiter durch). - Bridge: Gleiches Fenster in _emit_activity() — App bekommt keine trailing thinking/tool-Events mehr nach dem finalen Antwort. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-18 11:51:22 +02:00
duffyduck	a65ed579d2	feat: Whisper model selector + 16kHz mono recording - App: AudioSamplingRateAndroid 16000 + AudioChannelsAndroid 1 → Whisper bekommt direkt sein Ziel-Format, kein Resample mehr - Bridge: STTEngine.reload() laedt Modell zur Laufzeit neu (tiny/base/small/medium/large-v3) - Bridge: Config-Message triggert Hot-Reload wenn whisperModel sich aendert - Bridge: Default auf 'medium' (besser als 'small' bei aehnlicher Latenz) - Diagnostic: Neue Sektion "Whisper (Spracherkennung)" mit Dropdown, auto-save bei Auswahl, beim Laden wird der gespeicherte Wert gesetzt - Diagnostic/Server: send_voice_config merged whisperModel in voice_config.json - aria.env.example: WHISPER_MODEL + WHISPER_LANGUAGE dokumentiert Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-18 11:37:27 +02:00
duffyduck	2ad1f57382	feat: Thinking indicator + cancel button in the app - Bridge: _emit_activity() spiegelt OpenClaw agent events als agent_activity an RVS, dedupliziert State-Wechsel. chat:final/error senden idle. - Bridge: Neuer cancel_request-Handler ruft Diagnostic /api/cancel per HTTP. - Diagnostic: Neuer POST /api/cancel Endpoint (gleiche Logik wie WS-Cancel). - RVS: agent_activity + cancel_request in ALLOWED_TYPES. - App: Gelber Indicator ueber der Input-Bar mit Text je nach Activity, roter Abbrechen-Button. Cancel sendet cancel_request via RVS. - issue.md: Erledigte Bugfixes + Features konsolidiert. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-18 11:22:02 +02:00
duffyduck	764619f076	fix: Comprehensive markdown/formatting cleanup for TTS (Piper + XTTS) - Remove bold, italic, `code`, code blocks, links, headers, quotes, lists - Replace newlines with natural pauses (period/comma) - Remove quotation marks, empty brackets - Fixes text being swallowed/garbled by TTS engines Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-11 11:47:04 +02:00
duffyduck	d3ed3556eb	fix: Bridge chat handler was missing send_to_core (text messages ignored) The chat handler checked sender but never forwarded the text to aria-core. Only voice messages worked because they went through the audio→STT→send_to_core path. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 23:13:29 +02:00
duffyduck	b3d3b8b6bc	fix: XTTS bridge splits text into sentences sequentially - XTTS-Bridge does sentence splitting (not ARIA-Bridge) - Sequential rendering: correct order guaranteed - Each sentence sent as separate xtts_response - Markdown removal before splitting - App starts playback after first sentence (faster UX) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 02:03:29 +02:00
duffyduck	06bc456221	fix: XTTS splits long text into sentences before sending (WebSocket size limit) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 01:56:25 +02:00
duffyduck	b734593bf2	fix: Bridge _send_to_rvs ping-check before send, force reconnect on zombie Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 00:37:22 +02:00
duffyduck	a242693751	feat: XTTS v2 integration, auto-update system, TTS engine abstraction - XTTS v2: Docker setup for Gaming-PC (GPU), bridge via RVS relay - XTTS: Voice cloning UI in Diagnostic (multi-file upload) - XTTS: Engine selectable (Piper local vs XTTS remote) with fallback - Auto-Update: RVS serves APK over WebSocket (no HTTP needed) - Auto-Update: App checks version on start, prompts install - Auto-Update: release.sh copies APK to RVS via scp - Bridge: TTS engine abstraction (piper/xtts), config persistent - Bridge: xtts_response handler, tts_request on-demand - Diagnostic: TTS engine dropdown, XTTS voice panel, voice cloning - App: Play button on ARIA messages, chat search, update service - Wake word: Disabled LiveAudioStream (crash fix), Phase 1 placeholder - Watchdog: Container restart after 8min stuck - Chat backup: on-the-fly to /shared/config/chat_backup.jsonl Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 19:42:10 +02:00
duffyduck	81ca3cc7a7	Ohr-Button Absturz gefixt (LiveAudioStream entfernt, Phase 1 , Play-Button in ARIA-Nachrichten fuer Sprachwiedergabe - [x] Chat-Suche in der App (Lupe in Statusleiste) - [x] Watchdog mit Container-Restart (2min Warnung → 5min doctor --fix → 8min Restart),Abbrechen-Button im Diagnostic Chat - [x] Nachrichten Backup on-the-fly (/shared/config/chat_backup.jsonl) - [x] Grosse Nachrichten satzweise aufteilen fuer TTS - [x] RVS Nachrichten vom Smartphone gehen durch	2026-04-01 23:45:25 +02:00
duffyduck	fa4c32270b	sst immer	2026-03-29 19:18:41 +02:00
duffyduck	63560e290b	two speed	2026-03-29 19:03:40 +02:00
duffyduck	1ab8a6a2fe	addes speed config for voice	2026-03-29 18:50:09 +02:00
duffyduck	680f7a64e2	slpit setnteces	2026-03-29 18:42:24 +02:00
duffyduck	4893616a5a	playback issue	2026-03-29 18:36:00 +02:00
duffyduck	04e8c0245d	voiice settings permanent	2026-03-29 18:23:31 +02:00
duffyduck	10cefaf1cd	changed connection model	2026-03-29 18:12:26 +02:00
duffyduck	eb72b35e23	added voice settings in adroid app and diagnostic, higlight trigger in app und diagnostic change voicec	2026-03-29 17:41:28 +02:00
duffyduck	3d3c8ce973	fixed tts format, added trigger words settings	2026-03-29 17:27:43 +02:00
duffyduck	8281131432	tts fix big pictures	2026-03-29 17:02:02 +02:00
duffyduck	1b4df0565a	wait at an attachment for instructions, show picture in diagnostic chat	2026-03-29 16:42:56 +02:00
duffyduck	11de9a01b9	error through loops no message received, fixed	2026-03-29 16:08:37 +02:00
duffyduck	db20a07b27	fixed time out aria-core	2026-03-29 14:56:55 +02:00
duffyduck	fbdd4274ac	fixed auto download	2026-03-29 13:58:51 +02:00
duffyduck	867b03aa1e	fixed, message send in bridge und android app send file	2026-03-29 13:36:35 +02:00
duffyduck	457b469c96	added shared volume to diagnostic, added folder picker to android app, fixed bridge for attachment uploading, fixed hopefully chat history in android app	2026-03-29 13:20:58 +02:00
duffyduck	5c8d11824e	fixed, long chats not loading to end, saved attachments in local folder on android., if file missing redownload over shared folde via rvs server, andord app added settingss for local storage path, updated readme	2026-03-29 12:51:38 +02:00

1 2

68 Commits