docs: README-Abschnitt fuer deutsches F5-TTS Fine-Tune (aihpi)
Konfig-Tabelle mit den konkreten Diagnostic-Werten fuer das deutsche Fine-Tune von aihpi/F5-TTS-German — Modell-Architektur, hf:// Pfade, empfohlene cfg_strength / nfe_step. Plus Hinweis auf die BigVGAN- Variante als Alternative. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
parent
b373f915b5
commit
5ba89c7191
25
README.md
25
README.md
|
|
@ -650,6 +650,31 @@ In der Diagnostic unter Einstellungen → Sprachausgabe:
|
||||||
> **Tipp:** Fuer beste Ergebnisse: saubere Aufnahme, eine Stimme, kein Hintergrund,
|
> **Tipp:** Fuer beste Ergebnisse: saubere Aufnahme, eine Stimme, kein Hintergrund,
|
||||||
> 10-30 Sekunden Gesamtlaenge. Mehrere kurze Dateien werden zusammengefuegt.
|
> 10-30 Sekunden Gesamtlaenge. Mehrere kurze Dateien werden zusammengefuegt.
|
||||||
|
|
||||||
|
### Deutsches Fine-Tune (bessere Qualitaet auf Deutsch)
|
||||||
|
|
||||||
|
Das Default-Modell `F5TTS_v1_Base` ist primaer auf Englisch + Chinesisch trainiert
|
||||||
|
und liefert auf Deutsch merklich schwaechere Voice-Cloning-Qualitaet als XTTS es
|
||||||
|
tat. Community-Fine-Tune von [aihpi](https://huggingface.co/aihpi/F5-TTS-German)
|
||||||
|
auf dem Emilia-Dataset + Common Voice 19.0 funktioniert deutlich besser.
|
||||||
|
|
||||||
|
**Konfiguration ueber Diagnostic → "F5-TTS Modell-Tuning (advanced)":**
|
||||||
|
|
||||||
|
| Feld | Wert |
|
||||||
|
|------|------|
|
||||||
|
| Modell-Architektur | `F5TTS_Base` *(nicht v1_Base! Fine-Tune basiert auf der alten Architektur)* |
|
||||||
|
| Custom Checkpoint | `hf://aihpi/F5-TTS-German/F5TTS_Base/model_365000.safetensors` |
|
||||||
|
| Custom Vocab | `hf://aihpi/F5-TTS-German/vocab.txt` |
|
||||||
|
| cfg_strength | `2.0` |
|
||||||
|
| nfe_step | `32` |
|
||||||
|
|
||||||
|
→ "Anwenden" klicken. Die `hf://`-Pfade werden einmalig automatisch runter-
|
||||||
|
geladen (~3-5GB, landet im `xtts/hf-cache/`) und bei Container-Restart aus
|
||||||
|
dem Cache wiederverwendet.
|
||||||
|
|
||||||
|
> **BigVGAN-Variante**: alternativ `hf://aihpi/F5-TTS-German/F5TTS_Base_bigvgan/model_295000.safetensors`.
|
||||||
|
> Meist hoehere Audio-Qualitaet, aber groesser. Erst Vocos probieren, bei
|
||||||
|
> Bedarf umstellen.
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## Docker Volumes
|
## Docker Volumes
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue