diff --git a/README.md b/README.md index 64a269e..c4a6b06 100644 --- a/README.md +++ b/README.md @@ -650,6 +650,31 @@ In der Diagnostic unter Einstellungen → Sprachausgabe: > **Tipp:** Fuer beste Ergebnisse: saubere Aufnahme, eine Stimme, kein Hintergrund, > 10-30 Sekunden Gesamtlaenge. Mehrere kurze Dateien werden zusammengefuegt. +### Deutsches Fine-Tune (bessere Qualitaet auf Deutsch) + +Das Default-Modell `F5TTS_v1_Base` ist primaer auf Englisch + Chinesisch trainiert +und liefert auf Deutsch merklich schwaechere Voice-Cloning-Qualitaet als XTTS es +tat. Community-Fine-Tune von [aihpi](https://huggingface.co/aihpi/F5-TTS-German) +auf dem Emilia-Dataset + Common Voice 19.0 funktioniert deutlich besser. + +**Konfiguration ueber Diagnostic → "F5-TTS Modell-Tuning (advanced)":** + +| Feld | Wert | +|------|------| +| Modell-Architektur | `F5TTS_Base` *(nicht v1_Base! Fine-Tune basiert auf der alten Architektur)* | +| Custom Checkpoint | `hf://aihpi/F5-TTS-German/F5TTS_Base/model_365000.safetensors` | +| Custom Vocab | `hf://aihpi/F5-TTS-German/vocab.txt` | +| cfg_strength | `2.0` | +| nfe_step | `32` | + +→ "Anwenden" klicken. Die `hf://`-Pfade werden einmalig automatisch runter- +geladen (~3-5GB, landet im `xtts/hf-cache/`) und bei Container-Restart aus +dem Cache wiederverwendet. + +> **BigVGAN-Variante**: alternativ `hf://aihpi/F5-TTS-German/F5TTS_Base_bigvgan/model_295000.safetensors`. +> Meist hoehere Audio-Qualitaet, aber groesser. Erst Vocos probieren, bei +> Bedarf umstellen. + --- ## Docker Volumes