Librerie: cIntSpeech - pagina 2

 
Gan Zhi Zhong #:

Davvero sorprendente!

È sufficiente modificare il "percorso del file" nel codice, a causa dell'aggiornamento del sistema operativo e di MT5, per poter implementare il TTS su Windows 11 con l'ultima versione di MT5.

In 5 anni, l'argomento è completamente superato. Al giorno d'oggi non si dovrebbe usare il TTS stupido di Microsoft, ma i moderni modelli AI con una pronuncia naturale. È vero che richiede RAM o GPU. È necessario?
 
Edgar Akhmadeev #:
In 5 anni, l'argomento è completamente superato. Al giorno d'oggi non si dovrebbe usare il TTS di Microsoft, ma i moderni modelli di intelligenza artificiale con una pronuncia naturale. È vero che richiede RAM o GPU. È necessario?

L'integrazione del TTS nel mio EA MT5 è solo un requisito di base.

Sono un autodidatta della programmazione,

quindi sono anche molto interessato ai vantaggi dei modelli di intelligenza artificiale che hai menzionato, ma non so da dove cominciare. Potresti fornire alcuni casi pratici?

Lo apprezzo molto.

 
Gan Zhi Zhong #:

L'integrazione del TTS nel mio EA MT5 è solo un requisito di base.

Sono un autodidatta della programmazione,

quindi sono anche molto interessato ai vantaggi dei modelli di intelligenza artificiale da lei citati, ma non so da dove cominciare. Potresti per favore fornire qualche esempio pratico?

Sarebbe molto apprezzato.

Non ho installato modelli TTS, solo LLM, ma conosco la loro qualità grazie ad articoli e recensioni. I siti in lingua russa contengono informazioni molto utili, ma non funzioneranno per voi. E quelli in lingua inglese non li conosco. Ma si possono trovare molte cose su YouTube.

Inoltre, non conosco il vostro contesto hardware - dove potete far girare i modelli - CPU+RAM, GPU NVidia o AMD, quanta VRAM. Molto dipende da questo.

Inoltre, se il progetto è commerciale, è possibile utilizzare l'accesso a pagamento ai modelli vocali online (Text2Speech, Speech2Text). Ce ne sono molti.

Cercate i modelli vocali su huggingface, con dimensioni che dipendono dal vostro hardware. Per la generazione di testo LLM, la quantizzazione più diffusa è GGUF 4_K_M. Equilibrio tra qualità e dimensioni.

Non so dirvi quali piattaforme locali supportino i modelli vocali. Io uso solo per il testo - llama.cpp, ollama, che supportano modelli in formato GGUF (con quantizzazione del peso), il che fa risparmiare molta memoria.

Forse è meglio scegliere il formato ONNX, che è direttamente supportato nella MT5, ma solo sulla CPU, quindi è lento e richiede molta memoria.

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

Ho scoperto che i 3 migliori sintetizzatori AI locali sono in Python: coqui TTS, Chatterbox TTS e Piper TTS.

Non li ho ancora provati. Non sono per niente pratico di Python, quindi non ho mai risolto alcun problema con le librerie Python quando ho installato "pip install ...".

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
 
Edgar Akhmadeev #:

Ora ho scoperto che i 3 migliori sintetizzatori AI locali sono in Python: coqui TTS, Chatterbox TTS e Piper TTS.

Non li ho ancora provati. Non sono per niente pratico di Python, quindi non ho mai risolto alcun problema con le librerie Python quando ho installato "pip install ...".

cool.Grazie mille.