Bibliotecas: cIntSpeech - página 2

 
Gan Zhi Zhong #:

Realmente incrível!

Você só precisa alterar o "caminho do arquivo" no código, devido à atualização do sistema operacional e do MT5, e então poderá implementar o TTS no Windows 11 com a versão mais recente do MT5.

Em cinco anos, o tópico estará completamente desatualizado. Hoje em dia, você não deve usar o TTS burro da Microsoft, mas modelos modernos de IA com pronúncia natural. É verdade que isso requer RAM ou GPU. Isso é necessário?
 
Edgar Akhmadeev #:
Em cinco anos, esse tópico estará completamente desatualizado. Atualmente, você não deve usar o TTS da Microsoft, mas modelos modernos de IA com pronúncia natural. É verdade que isso requer RAM ou GPU. Isso é necessário?

A integração do TTS em meu EA MT5 é apenas um requisito básico.

Sou autodidata em programação,

portanto, também estou muito interessado nas vantagens dos modelos de IA que você mencionou, mas não sei por onde começar. Você poderia fornecer alguns casos práticos?

Agradeço imensamente.

 
Gan Zhi Zhong #:

A integração do TTS em meu EA MT5 é apenas um requisito básico.

Sou autodidata em programação,

portanto, também estou muito interessado nos benefícios dos modelos de IA que você mencionou, mas não sei por onde começar. Você poderia dar alguns exemplos práticos?

Ficaria muito grato.

Não instalei modelos TTS, apenas LLM, mas sei sobre sua qualidade por meio de artigos e análises. Os sites em russo têm informações muito úteis, mas não funcionarão para você. E os de língua inglesa eu não conheço. Mas você pode encontrar muitas coisas no YouTube.

Além disso, não conheço seu contexto de hardware - onde você pode executar modelos - CPU+RAM, GPU NVidia ou AMD, quanta VRAM. Muito depende disso.

Além disso, se o projeto for comercial, você poderá usar o acesso pago a modelos de voz on-line (Text2Speech, Speech2Text). Há muitos deles.

Procure modelos de voz no huggingface, com tamanhos que dependem de seu hardware. Para a geração de texto LLM, a quantificação mais popular é GGUF 4_K_M. Equilíbrio entre qualidade e tamanho.

Não sei lhe dizer quais plataformas locais suportam modelos de voz. Eu uso apenas para texto - llama.cpp, ollama, eles suportam modelos no formato GGUF (com quantificação de peso), o que economiza muita memória.

Talvez você escolha o formato ONNX, pois ele é suportado diretamente no MT5, mas somente na CPU, portanto, é lento e precisa de muita memória.

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

Agora descobri que os três melhores sintetizadores locais de IA estão em Python: coqui TTS, Chatterbox TTS e Piper TTS.

Ainda não experimentei. Não sou nem um pouco amigável com Python, então sempre falhei em resolver qualquer biblioteca Python ao instalar "pip install ...".

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
 
Edgar Akhmadeev #:

Agora descobrimos que os três melhores sintetizadores locais de IA estão em Python: coqui TTS, Chatterbox TTS e Piper TTS.

Ainda não experimentei. Não sou nem um pouco amigável com Python, então sempre falhei em resolver qualquer biblioteca Python ao instalar "pip install ...".

Legal. Muito obrigado.