📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
真的太神奇了!......
由于操作系统和 MT5 的更新,您只需更改代码中的 "文件路径",即可在 Windows 11 操作系统和最新版本的 MT5 上实现 TTS。
再过 5 年,这个话题就完全过时了。如今,您不应该使用愚蠢的微软 TTS,而应该使用具有自然发音的现代人工智能模型。诚然,这需要 RAM 或 GPU。有必要吗?
将 TTS 集成到我的 MT5 EA 中 只是一个基本要求。
我是自学编程的、
所以我对您提到的人工智能模型的优势也非常感兴趣,但我不知道从何入手。您能提供一些实际案例吗?
非常感谢。
将 TTS 集成到我的 MT5 EA 中 只是一个基本要求。
我是自学编程的、
因此,我对您提到的人工智能模型的优势也非常感兴趣,但我不知道从何入手。能否请您举一些实际的例子?
不胜感激。
我没有安装过 TTS 模型,只安装过 LLM,我是从文章和评论中了解到它们的质量的。俄语网站上有非常有用的信息,但对您不适用。英语网站我不知道。但你可以在 YouTube 上找到很多东西。
此外,我不知道您的硬件情况--您可以在哪里运行模型--CPU+RAM、GPU 是 NVidia 还是 AMD、有多少 VRAM。这在很大程度上取决于此。
另外,如果项目是商业项目,您可以付费使用在线语音模型(Text2Speech、Speech2Text)。这些模型有很多。
在huggingface 上查找语音模型,大小取决于你的硬件。对于 LLM 文本生成,最常用的量化方法是 GGUF 4_K_M。在质量和大小之间取得平衡。
我不知道哪些本地平台支持语音模型。我只用于文本 -llama.cpp、olama,它们支持 GGUF 格式的模型(带权重量化),这样可以节省大量内存。
也许可以选择 ONNX 格式,MT5 直接支持这种格式,但只能在 CPU 上使用,因此速度较慢,需要大量内存。
现在发现 Python 中有三个最好的本地人工智能合成器:coqui TTS、Chatterbox TTS 和Piper TTS。
还没试过。我对 Python 完全不熟悉,所以在安装 "pip install ... "时总是无法解析任何 Python 库。
现在,我发现 Python 中有三个最好的本地人工智能合成器:coqui TTS、Chatterbox TTS 和Piper TTS。
还没试过。我对 Python 完全不熟悉,所以在安装 "pip install ... "时总是无法解析任何 Python 库。
非常感谢。