ARIA-AGENT

Files

T

duffyduck ac53af5c24 feat(speaker-id): Phase 3 — Speaker-Gating im Streaming-STT

Sobald eine Streaming-Session ~1.5s Audio im Buffer hat, wird einmal pro
Session der Speaker-ID-Check ausgefuehrt (im Executor, ~50-100ms auf GPU).
Bei Match → Session laeuft normal weiter. Bei Mismatch → synthetisches
stt_endpoint mit text='' reason='speaker_mismatch' + stt_stream_done →
App ruft endConversation. Kein Whisper-Transcribe fuer fremde Stimmen →
Token + Latenz gespart.

- StreamSession: 3 neue Felder (speaker_checked, speaker_match,
  speaker_similarity).
- SessionManager._check_speaker / _finalize_speaker_mismatch:
  Check + sauberes Beenden bei Mismatch.
- _tick_session: Check-Gate vor STREAM_MIN_AUDIO_MS-Check eingehaengt.
- speaker_id.verify: threshold=None statt =DEFAULT_THRESHOLD damit
  config-Broadcast-Updates zur Laufzeit greifen (Default-Arg wird sonst
  zur Def-Zeit gebunden).

Fail-open: ohne Fingerprint returnt verify() (True, 0.0) — keine
Auswirkung. Stefan kann ohne Enrollment weiter wie bisher arbeiten.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-06-06 20:41:49 +02:00

bridge.py

feat(speaker-id): Phase 3 — Speaker-Gating im Streaming-STT

2026-06-06 20:41:49 +02:00

Dockerfile

feat(speaker-id): Phase 1 — SpeechBrain ECAPA-TDNN Backend in whisper-bridge

2026-06-06 20:26:12 +02:00

requirements.txt

feat(speaker-id): Phase 1 — SpeechBrain ECAPA-TDNN Backend in whisper-bridge

2026-06-06 20:26:12 +02:00

speaker_id.py

feat(speaker-id): Phase 3 — Speaker-Gating im Streaming-STT

2026-06-06 20:41:49 +02:00