Ubuntu Suomen keskustelualueet
Ubuntun käyttö => Ohjelmointi, palvelimet ja muu edistyneempi käyttö => Aiheen aloitti: asmokosk - 25.12.24 - klo:13.17
-
Tein muutamia viikkoja sitten suomenkieliseen äänimallin F5-TTS -ohjelmistolle.
https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md (https://github.com/SWivid/F5-TTS/blob/main/src/f5_tts/infer/SHARED.md)
https://huggingface.co/AsmoKoskinen/F5-TTS_Finnish_Model (https://huggingface.co/AsmoKoskinen/F5-TTS_Finnish_Model)
Käytin vapaasti saatavilla olevia suomenkielisiä äänitiedostoja alkuperäisen mallin hienosäätämiseen: Common Voice, LibriVox ja Vox Populi.
Katso varsinainen asennus GitHubista:
https://github.com/SWivid/F5-TTS (https://github.com/SWivid/F5-TTS)
Ystävällisin terveisin Asmo Koskinen.
-
Piper-projektissa on jo Harri. Piper-ohjelmaa voi käyttää esimerkiksi Raspberry Pi:ssä.
Käytin omaa ääntäni (kloonaus) ja loin synteettisen datasetin Piperia varten.
Käytin tuota datasettiä luodakseni tyhjästä tarkistuspisteen (epoch=1999-step=288000.ckpt) ja sitten onnx-tiedoston (fi_FI-asmo-medium.onnx).
Voit lukea lisää täältä, kuuntele Piper-projektin äänitiedostot testausta varten:
https://huggingface.co/AsmoKoskinen/Piper_Finnish_Model
Suomalaisen F5-TTS-mallin osalta käytin Creative Commons Attribution Non Commercial 4.0 -lisenssiä. Ja siksi käytän Creative Commons Attribution Non Commercial 4.0 -lisenssiä myös tässä mallissa.
Katso varsinainen asennus GitHubista:
https://github.com/rhasspy/piper
Voit käyttää myös Piper Studiota oman datasetin äänittämiseen:
https://github.com/rhasspy/piper-recording-studio
Ystävällisin terveisin Asmo Koskinen.
-
Lisäsin kolmannen version (v1) Hugging Face-sivustolle.
"2025/03/12: 🔥 F5-TTS v1 base model with better training and inference performance."
Käytin tässäkin versiossa samoja äänitiedostoja kuin aikaisemmassa: Common Voice, LibriVox ja Vox Populi.
Ystävällisin terveisin Asmo Koskinen.