Bibliotecas: cIntSpeech - página 2

 
Gan Zhi Zhong #:

Realmente asombroso!

Sólo tiene que cambiar la "ruta del archivo" en el código, debido a OS y MT5 actualización, y entonces usted puede implementar TTS en Windows 11 con la última versión de MT5.

En 5 años, el tema está completamente obsoleto. Hoy en día no se debe utilizar tonto Microsoft TTS, pero los modelos modernos de IA con pronunciación natural. Es cierto que requiere RAM o GPU. ¿Es necesario?
 
Edgar Akhmadeev #:
Dentro de 5 años, el tema estará completamente desfasado. Hoy en día no hay que utilizar el TTS tonto de Microsoft, sino modelos modernos de IA con pronunciación natural. Es cierto que requiere RAM o GPU. ¿Es necesario?

La integración de TTS en mi EA MT5 es sólo un requisito básico.

Soy autodidacta en programación,

así que también estoy muy interesado en las ventajas de los modelos de IA que mencionas, pero no sé por dónde empezar. ¿Podrías proporcionarme algunos casos prácticos?

Te lo agradezco enormemente.

 
Gan Zhi Zhong #:

La integración de TTS en mi EA MT5 es sólo un requisito básico.

Soy autodidacta en programación,

así que también estoy muy interesado en las ventajas de los modelos de IA que mencionas, pero no sé por dónde empezar. ¿Podría darme algunos ejemplos prácticos?

Se lo agradecería mucho.

No he instalado modelos TTS, sólo LLM, sé de su calidad por artículos y reseñas. Sitios en ruso tienen información muy útil, pero no va a funcionar para usted. Y los de lengua inglesa no los conozco. Pero usted puede encontrar un montón de cosas en YouTube.

Además, no sé su contexto de hardware - donde se puede ejecutar modelos - CPU + RAM, GPU NVidia o AMD, la cantidad de VRAM. Mucho depende de eso.

Además, si el proyecto es comercial, puede utilizar el acceso de pago a los modelos de voz en línea (Text2Speech, Speech2Text). Hay un montón de ellos.

Busca modelos de voz en huggingface, con tamaños que dependen de tu hardware. Para la generación de texto LLM, la cuantificación más popular es GGUF 4_K_M. Equilibrio entre calidad y tamaño.

Cuál de las plataformas locales apoyan modelos de voz, no te puedo decir. Yo uso sólo para texto - llama.cpp, ollama, soportan modelos en formato GGUF (con cuantificación de peso), lo que ahorra mucha memoria.

Tal vez elegir el formato ONNX, se apoya directamente en MT5, pero sólo en la CPU, por lo que es lento y necesita mucha memoria.

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

Ahora he descubierto que los 3 mejores sintetizadores locales de IA están en Python: coqui TTS, Chatterbox TTS y Piper TTS.

No lo he probado. No soy nada amigable con Python, así que siempre fallaba en resolver cualquier librería Python al instalar "pip install ...".

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
 
Edgar Akhmadeev #:

Ahora he descubierto que los 3 mejores sintetizadores locales de IA están en Python: coqui TTS, Chatterbox TTS y Piper TTS.

No lo he probado. No soy nada amigable con Python, así que siempre fallaba en resolver cualquier librería Python al instalar "pip install ...".

Muchas gracias.