去年の12月に新しいTTSモデルが出たので、ファインチューニング(データセットはITA+MANAそれぞれ1セット分)してモデルを作成してみました。
日本語の精度は今まで触ってきた中だと一番抜群だと思います。モデルの大きさがLLMを内包している分とても大きいのと、安定して動かすにはVRAM16GB必要なのがちょっと重たいですが…。
ちなみに商用利用は不可です。私のように趣味で合成音声の動画を投稿している人にはそれでも問題はないですが…。こういうTTS技術は合成音声実況に普及出来るのか?(今までにも色々な技術は出てますが、技術関係の話からあまり外には出てない印象)
モデルだけでなく、使うための環境構築にもかなりの容量を使うため要注意です(PyTorch入れるだけで数GB使うし…)。
リポジトリ(作者:Aratakoさん)
https://github.com/Aratako/T5Gemma-TTS