fix(whisper): Halluzinations-Filter — kein 'Untertitelung des ZDF' bei Stille

Stefan-Reproduktion: nach Wake-Word + ARIA-Antwort oeffnet das Conversation-Window automatisch das Mikro fuer Follow-Up. Wenn Stefan nichts sagt, ist das 4-8s Stille. Whisper halluziniert dann YouTube- Untertitel-Patterns aus seinem Trainings-Corpus — gemessen 'Untertitelung des ZDF, 2020' — und ARIA antwortet brav darauf. Endlos-Loop bis Stefan manuell stoppt. Fix in faster-whisper-transcribe: 1. Per-Segment no_speech_prob auswerten. Bei >= 0.6 (relativ konservativ: echte leise Sprache geht noch durch) → Segment verwerfen. Das eliminiert die offensichtlichen Halluzinationen schon zu 90%. 2. Bekannte Hallucination-Phrasen-Blacklist: - Untertitelung/Untertitel des ZDF (mit/ohne Jahr) - Amara.org community - Vielen Dank fuer's Zuschauen (mit allen Umlaut/Apostroph-Varianten) - Thanks for watching / Subs by ... Substring-Match (case-insensitive) auf normalisiertem Text (lowercase, Trailing-Punctuation und Jahres-Suffix '2020' weg). 3. Wenn ALLE Segmente einer Aufnahme rausgefiltert werden, ist text='' → App behandelt das via existierende no-speech-Pfad: Conversation- Window endet sauber, kein TTS-Echo-Loop. Tradeoff: echte Phrasen wie 'Vielen Dank' allein gehen durch (Pattern ist 'vielen dank fuer's zuschauen' — voller Match). Nur die bekannten Halluzinations-Phrasen werden weggefiltert. Falls in Zukunft neue Patterns auftauchen (Whispers Modell ändert sich): einfach _HALLUCINATION_PHRASES erweitern, kein Brain-Restart noetig (lebt in der Whisper-Bridge, die hot-reloaded werden kann).
2026-06-02 14:19:22 +02:00
parent ddfc4261e5
commit 05eb7ed144
1 changed files with 76 additions and 1 deletions
@@ -109,7 +109,27 @@ class WhisperRunner:
            segments, info = self.model.transcribe(
                audio, language=language, beam_size=beam_size, vad_filter=vad_filter,
            )
-            text = " ".join(seg.text.strip() for seg in segments)
+            # Per-segment no_speech_prob auswerten: faster-whisper liefert das
            # mit. Bei Stille/Rauschen halluziniert Whisper bekannte YouTube-
            # Untertitel-Patterns ("Untertitelung des ZDF", "Vielen Dank fuer's
            # Zuschauen", ...). Segmente mit hohem no_speech_prob filtern wir
            # raus. Plus: bekannte Hallucination-Patterns explizit blacklisten.
            kept = []
            for seg in segments:
                # no_speech_prob: 1.0 = sicher Stille; 0.0 = sicher Sprache.
                # Threshold 0.6 ist nicht zu strikt (echte leise Sprache geht
                # noch durch) und nicht zu locker (Halluzinationen werden
                # zuverlaessig erwischt).
                nsp = getattr(seg, "no_speech_prob", 0.0)
                if nsp is not None and nsp >= 0.6:
                    continue
                stext = (seg.text or "").strip()
                if not stext:
                    continue
                if _is_known_hallucination(stext):
                    continue
                kept.append(stext)
            text = " ".join(kept)
            return text, info.duration
        loop = asyncio.get_event_loop()
@@ -117,6 +137,61 @@ class WhisperRunner:
            return await loop.run_in_executor(None, _run)
 # Bekannte Whisper-Halluzinations-Patterns. Tritt typisch bei Stille oder
 # Rauschen auf — Whispers Trainings-Corpus enthaelt Stunden von YouTube-
 # Videos mit diesen Untertitel-Outros. Substring-Match (case-insensitive)
 # ueber gestrippten Text. Wenn ein Segment EXAKT (nach Normalisierung) so
 # aussieht, ist's mit ~99% Sicherheit eine Halluzination.
 _HALLUCINATION_PHRASES = (
    "untertitelung des zdf",
    "untertitel im auftrag des zdf",
    "untertitelung im auftrag des zdf",
    "untertitel der amara.org community",
    "untertitel von stephanie geiges",
    "amara.org",
    "untertitel: kerstin grass",
    "vielen dank fuers zuschauen",
    "vielen dank fürs zuschauen",
    "vielen dank für's zuschauen",
    "vielen dank fuer's zuschauen",
    "vielen dank für das zuschauen",
    "vielen dank fuer das zuschauen",
    "danke für's zuschauen",
    "danke fürs zuschauen",
    "danke fuers zuschauen",
    "subs by",
    "subtitle by",
    "subtitles by",
    "thanks for watching",
 )
 def _normalize_for_hallu(text: str) -> str:
    """Lowercase + trailing-Satzzeichen/Whitespace strippen. Jahreszahlen
    (4 Ziffern am Ende) auch entfernen — 'Untertitelung des ZDF, 2020'
    matcht damit auf 'untertitelung des zdf'."""
    t = text.lower().strip()
    # Entferne trailing punctuation incl. comma+digits
    while t and t[-1] in ".,!? \t\n":
        t = t[:-1]
    # 4-stellige Jahreszahl am Ende
    import re
    t = re.sub(r"[,\s]+\d{4}$", "", t).strip()
    while t and t[-1] in ".,!? \t\n":
        t = t[:-1]
    return t
 def _is_known_hallucination(text: str) -> bool:
    norm = _normalize_for_hallu(text)
    if not norm:
        return True
    for pat in _HALLUCINATION_PHRASES:
        if pat in norm:
            return True
    return False
 def ffmpeg_to_float32(audio_b64: str, mime_type: str) -> np.ndarray:
    """Dekodiert beliebiges Audio-Format → 16kHz mono float32 PCM."""
    if "mp4" in mime_type or "m4a" in mime_type or "aac" in mime_type: