diff --git a/issue.md b/issue.md index c7ae7d5..7db3347 100644 --- a/issue.md +++ b/issue.md @@ -70,30 +70,34 @@ - [x] VAD-Stille einstellbar in App-Settings (1.0-8.0s, Default 2.8s) - [x] MAX_RECORDING auf 120s — laengere Erklaerungen moeglich - [x] App: Audioausgabe hoert nicht mehr mitten im Satz auf (playbackHeadPosition wait + Stop-Race fix) +- [x] F5-TTS: Referenz-WAV-Preprocessing — Loudness-Normalisierung -16 LUFS + Silence-Trim + 10s Clip fuer konsistente Cloning-Quali +- [x] F5-TTS: deutsches Fine-Tune (aihpi/F5-TTS-German, Vocos-Variante) via hf:// Pfad in Diagnostic konfigurierbar +- [x] Whisper transkribiert Voice-Uploads nicht mehr mit hardcoded "small" — aktuelles Modell wird behalten, kein unnoetiger Modell-Swap +- [x] RVS/WebSocket maxPayload 50MB: voice_upload mit WAV als base64 sprengt kein Frame-Limit mehr +- [x] Dynamischer STT-Timeout in aria-bridge: 300s waehrend whisper-bridge 'loading', 45s wenn 'ready' +- [x] service_status Broadcasts: f5tts/whisper melden Lade-Status, Banner in Diagnostic (unten rechts) + App (oben) +- [x] config_request Pattern: Bridges fragen beim Connect die aktuelle Voice-Config an, aria-bridge antwortet +- [x] F5-TTS Tuning via Diagnostic (Modell-ID, Checkpoint, cfg_strength, nfe_step) statt ENV-Vars — Hot-Reload bei Modell-Wechsel +- [x] Conversation-Window: Gespraechsmodus endet nach X Sekunden Stille (1.0-20.0s, Default 8s, einstellbar in Settings) +- [x] Porcupine Wake-Word-Integration in der App (Built-In Keywords + Custom spaeter, per Geraet einstellbar) +- [x] HF-Cache als Bind-Mount statt Docker Volume — kein .vhdx-Bloat auf Docker Desktop / Windows +- [x] cleanup-windows.ps1 / .bat: VHDX-Cleanup via diskpart (ohne Hyper-V) mit Self-Elevation +- [x] App Mute-/Auto-Playback-Bug: Closure-Bug geloest (ttsCanPlayRef live-gespiegelt, nicht mehr stale) +- [x] App Zombie-Recording: Ohr-aus kill laufende Aufnahme damit der Aufnahme-Button weiter funktioniert +- [x] App Text-Rendering: Nachrichten selektierbar + Autolink fuer URLs/E-Mails/Telefonnummern (Browser/Mail/Dialer) +- [x] TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (Settings → 0.5-2.0x in 0.1-Schritten, Default 1.0) +- [x] Diagnostic: Voice-Preview-Modal (Play-Icon vor Delete-X, Textfeld mit Default, WAV im Browser abspielen) ## Offen ### Bugs - [ ] NO_REPLY wird als "NO" im Chat angezeigt — sollte still verworfen werden (Token nicht gesaeubert) -- [ ] App: Auto-Playback der ARIA-Antwort greift nicht immer nach Erhalt — Play-Button funktioniert aber manuell -- [ ] App: Deaktivierter Mund-Button (Mute) — trotzdem kommt manchmal Sprachausgabe durch -- [ ] App: Wake-Word "jarvis" triggert nicht (Porcupine-Build mit Jarvis-Keyword haekelt) -- [ ] App: Nach Deaktivieren vom Ohr-Button funktioniert der Aufnahme-Button nicht mehr -- [ ] App: Stuerzt beim Lauschen ab, eventuell bei Nebengeraeuschen (Porcupine-Segfault-Verdacht) +- [ ] App: Wake-Word "jarvis" triggert nicht zuverlaessig (Porcupine-Debugging via ADB-Logcat ausstehend) +- [ ] App: Stuerzt beim Lauschen ab, eventuell bei Nebengeraeuschen (Porcupine + Mic-Race, errorCallback haelt's jetzt zurueck — Dauertest ausstehend) ### App Features - [ ] Chat-History zuverlaessiger laden (AsyncStorage Race Condition) - [ ] Background Audio Service (TTS auch bei minimierter App) -- [ ] Text-Auswahl in Chat-Nachrichten (Kopieren von ARIA-Antworten) -- [ ] Autolink: Telefonnummern → Telefon-Icon → Android-Dialer -- [ ] Autolink: HTTP(S)-URLs → anklickbar, oeffnet im Browser -- [ ] Autolink: E-Mail-Adressen → anklickbar, oeffnet Mail-App -- [ ] TTS-Wiedergabegeschwindigkeit pro Geraet einstellbar (0.1-Schritte, Default 1.0) - -### Diagnostic Features -- [ ] Voice-Preview-Button in der Stimmen-Liste (Play-Icon vor dem Loeschen-X): - oeffnet Modal mit Textfeld (Default-Beispieltext wird jedesmal neu gesetzt) - und Play-Button → Stimme rendert den Text und spielt im Browser ab ### Architektur - [ ] Bilder: Claude Vision direkt nutzen (aktuell nur Dateipfad an ARIA)