Bibliothèque: cIntSpeech - page 2

 
Gan Zhi Zhong #:

Vraiment incroyable!

Il suffit de modifier le "chemin d'accès au fichier" dans le code, en raison de la mise à jour du système d'exploitation et de MT5, et vous pouvez alors mettre en œuvre TTS sur Windows 11 avec la dernière version de MT5.

Dans 5 ans, le sujet sera complètement dépassé. De nos jours, vous ne devriez pas utiliser le stupide TTS de Microsoft, mais des modèles d'IA modernes avec une prononciation naturelle. Il est vrai que cela nécessite de la RAM ou un GPU. Est-ce nécessaire ?
 
Edgar Akhmadeev #:
Dans 5 ans, le sujet sera complètement dépassé. Aujourd'hui, vous ne devriez pas utiliser le stupide TTS de Microsoft, mais des modèles d'IA modernes avec une prononciation naturelle. Il est vrai que cela nécessite de la RAM ou un GPU. Est-ce nécessaire ?

L'intégration du TTS dans mon EA MT5 n'est qu'une exigence de base.

Je suis autodidacte en programmation,

Je suis donc également très intéressé par les avantages des modèles d'IA que vous avez mentionnés, mais je ne sais pas par où commencer. Pourriez-vous me fournir quelques cas pratiques ?

Je vous en remercie vivement.

 
Gan Zhi Zhong #:

L'intégration de TTS dans mon EA MT5 n'est qu'une exigence de base.

Je suis autodidacte en matière de programmation,

Je suis donc également très intéressé par les avantages des modèles d'IA que vous avez mentionnés, mais je ne sais pas par où commencer. Pourriez-vous me donner quelques exemples pratiques ?

Je vous en serais très reconnaissant.

Je n'ai pas installé de modèles TTS, seulement des LLM, mais je connais leur qualité grâce à des articles et des critiques. Les sites en langue russe contiennent des informations très utiles, mais ne fonctionneront pas pour vous. Je ne connais pas les sites anglophones. Mais vous pouvez trouver beaucoup de choses sur YouTube.

En outre, je ne connais pas le contexte de votre matériel - où vous pouvez exécuter les modèles - CPU+RAM, GPU NVidia ou AMD, combien de VRAM. Beaucoup de choses dépendent de cela.

Par ailleurs, si le projet est commercial, vous pouvez utiliser un accès payant à des modèles vocaux en ligne (Text2Speech, Speech2Text). Il y en a beaucoup.

Cherchez des modèles vocaux sur huggingface, dont la taille dépend de votre matériel. Pour la génération de texte LLM, la quantification la plus populaire est GGUF 4_K_M. Trouvez un équilibre entre la qualité et la taille.

Je ne peux pas vous dire lesquelles des plates-formes locales prennent en charge les modèles vocaux. Je n'utilise que pour le texte - llama.cpp, ollama, ils prennent en charge les modèles au format GGUF (avec quantification des poids), ce qui permet d'économiser beaucoup de mémoire.

Choisissez peut-être le format ONNX, il est directement pris en charge par MT5, mais uniquement sur le processeur, il est donc lent et nécessite beaucoup de mémoire.

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

J'ai découvert que les 3 meilleurs synthétiseurs locaux d'IA sont en Python : coqui TTS, Chatterbox TTS et Piper TTS.

Je ne l'ai pas essayé. Je ne suis pas du tout familier avec Python, donc j'ai toujours échoué à résoudre les bibliothèques Python lors de l'installation "pip install ...".

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
 
Edgar Akhmadeev #:

J'ai découvert que les 3 meilleurs synthétiseurs locaux d'IA sont en Python : coqui TTS, Chatterbox TTS et Piper TTS.

Je ne l'ai pas essayé. Je ne suis pas du tout familier avec Python, donc j'ai toujours échoué à résoudre les bibliothèques Python lors de l'installation "pip install ...".

Merci beaucoup.