docs: README-Abschnitt fuer deutsches F5-TTS Fine-Tune (aihpi)

Konfig-Tabelle mit den konkreten Diagnostic-Werten fuer das deutsche Fine-Tune von aihpi/F5-TTS-German — Modell-Architektur, hf:// Pfade, empfohlene cfg_strength / nfe_step. Plus Hinweis auf die BigVGAN- Variante als Alternative. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 19:34:36 +02:00
parent b373f915b5
commit 5ba89c7191
1 changed files with 25 additions and 0 deletions
@@ -650,6 +650,31 @@ In der Diagnostic unter Einstellungen → Sprachausgabe:
 > **Tipp:** Fuer beste Ergebnisse: saubere Aufnahme, eine Stimme, kein Hintergrund,
 > 10-30 Sekunden Gesamtlaenge. Mehrere kurze Dateien werden zusammengefuegt.
 ### Deutsches Fine-Tune (bessere Qualitaet auf Deutsch)
 Das Default-Modell `F5TTS_v1_Base` ist primaer auf Englisch + Chinesisch trainiert
 und liefert auf Deutsch merklich schwaechere Voice-Cloning-Qualitaet als XTTS es
 tat. Community-Fine-Tune von [aihpi](https://huggingface.co/aihpi/F5-TTS-German)
 auf dem Emilia-Dataset + Common Voice 19.0 funktioniert deutlich besser.
 **Konfiguration ueber Diagnostic → "F5-TTS Modell-Tuning (advanced)":**
 | Feld | Wert |
 |------|------|
 | Modell-Architektur | `F5TTS_Base` *(nicht v1_Base! Fine-Tune basiert auf der alten Architektur)* |
 | Custom Checkpoint | `hf://aihpi/F5-TTS-German/F5TTS_Base/model_365000.safetensors` |
 | Custom Vocab | `hf://aihpi/F5-TTS-German/vocab.txt` |
 | cfg_strength | `2.0` |
 | nfe_step | `32` |
 → "Anwenden" klicken. Die `hf://`-Pfade werden einmalig automatisch runter-
 geladen (~3-5GB, landet im `xtts/hf-cache/`) und bei Container-Restart aus
 dem Cache wiederverwendet.
 > **BigVGAN-Variante**: alternativ `hf://aihpi/F5-TTS-German/F5TTS_Base_bigvgan/model_295000.safetensors`.
 > Meist hoehere Audio-Qualitaet, aber groesser. Erst Vocos probieren, bei
 > Bedarf umstellen.
 ---
 ## Docker Volumes