ARIA-AGENT/issue.md at 6ab6196739cc35c026d7a2fef7a621bb33c4bc61

Bildupload funktioniert (Shared Volume /shared/uploads/)

Sprachnachrichten werden als Text angezeigt (STT → Chat-Bubble)

Cache leeren + Auto-Download von Anhaengen

ARIA liest Nachrichten vor (TTS via Piper)

Autoscroll zur letzten Nachricht (inverted FlatList)

Bilder im Chat groesser + Vollbild-Vorschau

Ohr-Button → Gespraechsmodus (Auto-Aufnahme nach ARIA-Antwort)

Play-Button in ARIA-Nachrichten fuer Sprachwiedergabe

Chat-Suche in der App (Lupe in Statusleiste)

Watchdog mit Container-Restart (2min Warnung → 5min doctor --fix → 8min Restart)

Abbrechen-Button im Diagnostic Chat

Nachrichten Backup on-the-fly (/shared/config/chat_backup.jsonl)

Grosse Nachrichten satzweise aufteilen fuer TTS

RVS Nachrichten vom Smartphone gehen durch

Stimmen-Einstellungen (Ramona/Thorsten, Speed pro Stimme)

Highlight-Trigger konfigurierbar in Diagnostic

XTTS v2 Integration (Gaming-PC, GPU, Voice Cloning)

XTTS Voice Cloning (Audio-Samples hochladen, eigene Stimme)

TTS Engine waehlbar (Piper/XTTS) in Diagnostic + App

Auto-Update System (APK via RVS WebSocket)

Auto-Update: APK-Installation via FileProvider

Auto-Update: "Auf Updates pruefen" Button in App-Einstellungen

Audio-Queue (sequentielle Wiedergabe, kein Ueberlappen)

Textnachrichten werden von ARIA beantwortet (Bridge chat handler fix)

Mehrere Anhaenge + Text vor dem Senden (Pending-Vorschau)

Paste-Support fuer Bilder in Diagnostic Chat

Markdown-Bereinigung fuer TTS (fett, kursiv, code, links, etc.)

SSH Volume read-write fuer Proxy (kein -F Workaround mehr)

Diagnostic: Sessions als Markdown exportieren (Download-Button)

Speech Gate: Aufnahme wird verworfen wenn keine Sprache erkannt (verhindert dass Umgebungsgeraeusche an Whisper gehen)

Session-Persistenz: Gewaehlte Session bleibt ueber Container-Restarts erhalten (sessionFromFile-Flag, atomic write)

Diagnostic: "ARIA denkt..." bleibt nicht mehr stehen (pipelineEnd broadcastet immer idle, auch bei Timeout/Fehler/Disconnect)

App: "ARIA denkt..." Indicator + Abbrechen-Button (Bridge spiegelt agent_activity via RVS)

Whisper STT: Model-Auswahl in Diagnostic (tiny/base/small/medium/large-v3), Hot-Reload in Bridge, Default auf medium

App: Audio-Aufnahme explizit 16kHz mono (spart Resample, optimal fuer Whisper)

Gespraechsmodus: Speech-Gate strenger (-28dB / 500ms) — keine Umgebungsgeraeusche mehr

Gespraechsmodus: Max-Dauer 30s pro Aufnahme, Cache-Cleanup alter Files, Messages-Array gekappt (500)

Diagnostic: Archivierte Session-Versionen (.reset.*) werden angezeigt + exportierbar — OpenClaw resettet Sessions bei erster Nutzung nach Container-Restart, Inhalt ist aber in .reset. Dateien gesichert

tools/export-jsonl-to-md.js: CLI-Konverter fuer beliebige Session-JSONL zu Markdown

NO_REPLY-Filter in Bridge + Diagnostic — still verworfen (kein Chat, kein TTS)

Audio-Ducking + Exklusiv-Focus (Kotlin AudioFocusModule): andere Apps leiser bei TTS, pausiert bei Aufnahme

TTS-Cleanup serverseitig: Code-Bloecke raus, Einheiten ausgeschrieben (22GB → Gigabyte), Abkuerzungen buchstabiert (CPU), URLs zu "ein Link". <voice></voice> Tag wird bevorzugt wenn ARIA ihn liefert.

QR-Code Onboarding: Diagnostic generiert QR, App scannt (bestehender QRScanner funktioniert out of the box)

TTS-Audio-Cache im Filesystem: Piper-Audio wird mit messageId verknuepft, als WAV in DocumentDirectory/tts_cache gespeichert, Play-Button spielt aus Cache statt regenerieren

Config via Diagnostic: RVS-Credentials + Aria-Auth-Token via /api/runtime-config, persistiert in /shared/config/runtime.json, Bridge liest beim Start (Overrides der ENV)

6.2 KiB

Raw Blame History

ARIA Issues & Features

Erledigt

Offen

Bugs (Prioritaet)

App Features

TTS / Audio

Architektur

6.2 KiB Raw Blame History