ライブラリ: cIntSpeech - ページ 2

 
Gan Zhi Zhong #:

本当に素晴らしい

OSとMT5のアップデートに伴い、コード内の「ファイルパス」を変更するだけで、Windows11とMT5の最新バージョンでTTSを実装することができます。

5年も経てば、この話題は完全に時代遅れです。現在では、マイクロソフトの間抜けなTTSではなく、自然な発音をする最新のAIモデルを使うべきです。確かに、RAMやGPUが必要です。それは必要ですか?
 
Edgar Akhmadeev #:
5年も経てば、この話題は完全に時代遅れだ。今では、マイクロソフトのTTSではなく、自然な発音をする最新のAIモデルを使うべきです。確かに、それにはRAMやGPUが必要です。必要か?

私のMT5 EAにTTSを組み込む ことは、基本的な要件にすぎません。

プログラミングは独学です、

私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めればいいのかわかりません。実践的な事例を教えてください。

よろしくお願いします。

 
Gan Zhi Zhong #:

私のMT5 EAにTTSを統合する ことは、基本的な要件に過ぎません。

プログラミングは独学です、

私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めたらいいのかわかりません。実用的な例をいくつか教えてください。

大変助かります。

私はTTSモデルを導入したことがなく、LLMだけです。その品質については記事やレビューで知っています。ロシア語のサイトはとても有益な情報を持っていますが、あなたには使えないでしょう。英語のサイトは知りません。しかし、YouTubeで多くのことを見つけることができます。

その上、私はあなたのハードウェアの状況を知らない - CPU+RAM、GPU NVidiaまたはAMD、どのくらいのVRAM - モデルを実行することができます。それ次第です。

また、プロジェクトが商用であれば、オンライン音声モデル(Text2Speech、Speech2Text)への有料アクセスを使用することができます。たくさんあります。

huggingfaceで、ハードウェアに応じたサイズの音声モデルを探してください。LLMテキスト生成のために、最も一般的な定量化はGGUF 4_K_Mです。品質とサイズのバランス。

どのローカルプラットフォームが音声モデルをサポートしているかは、私にはわかりません。私はテキスト用にllama.cppや ollamaを使って いますが、これらはGGUF形式(重みの定量化付き)のモデルをサポートしています。

ONNX形式はMT5で直接サポートされていますが、CPUでのみサポートされているため、速度が遅く、多くのメモリを必要とします。

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

現在、PythonのローカルAI合成ソフトのベスト3が判明した:coqui TTSChatterbox TTSPiper TTS

まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
 
Edgar Akhmadeev #:

現在、PythonのローカルAI合成ソフトのベスト3が判明した:coqui TTSChatterbox TTSPiper TTS

まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。

ありがとうございます。