📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
本当に素晴らしい
OSとMT5のアップデートに伴い、コード内の「ファイルパス」を変更するだけで、Windows11とMT5の最新バージョンでTTSを実装することができます。
5年も経てば、この話題は完全に時代遅れだ。今では、マイクロソフトのTTSではなく、自然な発音をする最新のAIモデルを使うべきです。確かに、それにはRAMやGPUが必要です。必要か?
私のMT5 EAにTTSを組み込む ことは、基本的な要件にすぎません。
プログラミングは独学です、
私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めればいいのかわかりません。実践的な事例を教えてください。
よろしくお願いします。
私のMT5 EAにTTSを統合する ことは、基本的な要件に過ぎません。
プログラミングは独学です、
私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めたらいいのかわかりません。実用的な例をいくつか教えてください。
大変助かります。
私はTTSモデルを導入したことがなく、LLMだけです。その品質については記事やレビューで知っています。ロシア語のサイトはとても有益な情報を持っていますが、あなたには使えないでしょう。英語のサイトは知りません。しかし、YouTubeで多くのことを見つけることができます。
その上、私はあなたのハードウェアの状況を知らない - CPU+RAM、GPU NVidiaまたはAMD、どのくらいのVRAM - モデルを実行することができます。それ次第です。
また、プロジェクトが商用であれば、オンライン音声モデル(Text2Speech、Speech2Text)への有料アクセスを使用することができます。たくさんあります。
huggingfaceで、ハードウェアに応じたサイズの音声モデルを探してください。LLMテキスト生成のために、最も一般的な定量化はGGUF 4_K_Mです。品質とサイズのバランス。
どのローカルプラットフォームが音声モデルをサポートしているかは、私にはわかりません。私はテキスト用にllama.cppや ollamaを使って いますが、これらはGGUF形式(重みの定量化付き)のモデルをサポートしています。
ONNX形式はMT5で直接サポートされていますが、CPUでのみサポートされているため、速度が遅く、多くのメモリを必要とします。
現在、PythonのローカルAI合成ソフトのベスト3が判明した:coqui TTS、Chatterbox TTS、Piper TTS。
まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。
現在、PythonのローカルAI合成ソフトのベスト3が判明した:coqui TTS、Chatterbox TTS、Piper TTS。
まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。
ありがとうございます。