Библиотеки: cIntSpeech - страница 2

 
Gan Zhi Zhong #:

Действительно потрясающе!

Вам просто нужно изменить "путь к файлу" в коде, из-за обновления ОС и MT5, и тогда вы сможете реализовать TTS на Windows 11 с последней версией MT5.

За 5 лет тема совершенно устарела. Сейчас надо использовать не тупой Microsoft TTS, а современные ИИ-модели с натуральным произношением. Правда, это требует RAM или GPU. Надо ли?
 
Edgar Akhmadeev #:
Через 5 лет эта тема полностью устарела. Сейчас нужно использовать не тупой Microsoft TTS, а современные AI-модели с естественным произношением. Правда, для этого требуется оперативная память или графический процессор. Но так ли это необходимо?

Интеграция TTS в мой советник MT5 - это просто базовое требование.

Я самоучка в программировании,

поэтому меня также очень интересуют преимущества моделей искусственного интеллекта, о которых вы упомянули, но я не знаю, с чего начать. Не могли бы вы привести несколько практических примеров?

Буду очень признателен.

 
Gan Zhi Zhong #:

Интеграция TTS в мой советник MT5 - это просто базовое требование.

Я самоучка в программировании,

поэтому меня также очень интересуют преимущества моделей искусственного интеллекта, о которых вы упомянули, но я не знаю, с чего начать. Не могли бы вы привести несколько практических примеров?

Буду очень признателен.

Я не устанавливал TTS-модели, только LLM, знаю об их качестве из статей и обзоров. Русско-язычные сайты имеют очень полезную информацию, но Вам не подойдут. А англо-язычные я не знаю. Но многое можете найти на Ютубе.

К тому же я не знаю Ваш контекст оборудования - где можете запускать модели - CPU+RAM, GPU NVidia или AMD, сколько VRAM. От этого многое зависит.

Кроме того, если проект коммерческий, можно использовать платный доступ к голосовым онлайн-моделям (Text2Speech, Speech2Text). Их много.

Голосовые модели поищите на huggingface, с размерами в зависимости от вашего оборудования. Для LLM text generation самая популярная квантизация GGUF 4_K_M. Баланс между качеством и размером.

Какие из локальных платформ поддерживают голосовые модели, не подскажу. Я использую только для текста - llama.cpp, ollama, они поддерживают модели в формате GGUF (с квантизацией весов), что позволяет сильно сэкономить память.

Возможно, выберете формат ONNX, он напрямую поддерживается в MT5, но только на CPU, а значит медленно, и нужно много памяти.

GitHub - ggml-org/llama.cpp: LLM inference in C/C++
GitHub - ggml-org/llama.cpp: LLM inference in C/C++
  • ggml-org
  • github.com
LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.
 

Сейчас выяснил, что 3 лучших локальных AI-синтезатора - на Питоне: coqui TTS, Chatterbox TTS и Piper TTS.

Не пробовал. Я совсем не дружу с Питоном, поэтому у меня при установке "pip install ..." всегда не ресолвились какие-нибудь Питон-библиотеки.

GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
GitHub - coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
  • coqui-ai
  • github.com
📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...