ライブラリ: cIntSpeech

Edgar Akhmadeev 2026.01.11 15:06 #11

Gan Zhi Zhong #:

本当に素晴らしい

OSとMT5のアップデートに伴い、コード内の「ファイルパス」を変更するだけで、Windows11とMT5の最新バージョンでTTSを実装することができます。

5年も経てば、この話題は完全に時代遅れです。現在では、マイクロソフトの間抜けなTTSではなく、自然な発音をする最新のAIモデルを使うべきです。確かに、RAMやGPUが必要です。それは必要ですか？

Gan Zhi Zhong 2026.01.11 15:36 #12

Edgar Akhmadeev #:
5年も経てば、この話題は完全に時代遅れだ。今では、マイクロソフトのTTSではなく、自然な発音をする最新のAIモデルを使うべきです。確かに、それにはRAMやGPUが必要です。必要か？

私のMT5 EAにTTSを組み込むことは、基本的な要件にすぎません。

プログラミングは独学です、

私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めればいいのかわかりません。実践的な事例を教えてください。

よろしくお願いします。

Edgar Akhmadeev 2026.01.11 16:15 #13

Gan Zhi Zhong #:

私のMT5 EAにTTSを統合することは、基本的な要件に過ぎません。

プログラミングは独学です、

私はプログラミングを独学で勉強しているので、あなたがおっしゃるAIモデルの利点にも非常に興味があるのですが、何から始めたらいいのかわかりません。実用的な例をいくつか教えてください。

大変助かります。

私はTTSモデルを導入したことがなく、LLMだけです。その品質については記事やレビューで知っています。ロシア語のサイトはとても有益な情報を持っていますが、あなたには使えないでしょう。英語のサイトは知りません。しかし、YouTubeで多くのことを見つけることができます。

その上、私はあなたのハードウェアの状況を知らない - CPU+RAM、GPU NVidiaまたはAMD、どのくらいのVRAM - モデルを実行することができます。それ次第です。

また、プロジェクトが商用であれば、オンライン音声モデル（Text2Speech、Speech2Text）への有料アクセスを使用することができます。たくさんあります。

huggingfaceで、ハードウェアに応じたサイズの音声モデルを探してください。LLMテキスト生成のために、最も一般的な定量化はGGUF 4_K_Mです。品質とサイズのバランス。

どのローカルプラットフォームが音声モデルをサポートしているかは、私にはわかりません。私はテキスト用にllama.cppや ollamaを使っていますが、これらはGGUF形式（重みの定量化付き）のモデルをサポートしています。

ONNX形式はMT5で直接サポートされていますが、CPUでのみサポートされているため、速度が遅く、多くのメモリを必要とします。

GitHub - ggml-org/llama.cpp: LLM inference in C/C++

ggml-org
github.com

LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

Edgar Akhmadeev 2026.01.11 19:37 #14

現在、PythonのローカルAI合成ソフトのベスト3が判明した：coqui TTS、Chatterbox TTS、Piper TTS。

まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production

coqui-ai
github.com

📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...

Gan Zhi Zhong 2026.01.12 06:13 #15

Edgar Akhmadeev #:

現在、PythonのローカルAI合成ソフトのベスト3が判明した：coqui TTS、Chatterbox TTS、Piper TTS。

まだ試していない。私はPythonに全く詳しくないので、「pip install ...」をインストールするときに、いつもPythonライブラリの解決に失敗していた。

ありがとうございます。

ライブラリ: cIntSpeech - ページ 2