📣 ⓍTTSv2 is here with 16 languages and better performance across the board. 📣 ⓍTTS fine-tuning code is out. Check the example recipes. 📣 ⓍTTS can now stream with 📣 ⓍTTS, our production TTS model that can speak 13 languages, is released Blog Post, Demo, Docs 📣 🐶Bark is now available for inference with unconstrained voice cloning. Docs 📣...
정말 놀랍습니다!
OS 및 MT5 업데이트로 인해 코드의 "파일 경로"만 변경하면 최신 버전의 MT5로 Windows 11에서 TTS를 구현할 수 있습니다.
5년 만에 이 주제는 완전히 구식입니다. 요즘에는 멍청한 Microsoft TTS가 아니라 자연스러운 발음을 가진 최신 AI 모델을 사용해야 합니다. 사실, RAM 또는 GPU가 필요합니다. 꼭 필요한가요?
MT5 EA에 TTS를 통합하는 것은 기본 요구 사항일 뿐입니다.
저는 독학으로 프로그래밍을 배웠습니다,
말씀하신 AI 모델의 장점에 관심이 많지만 어디서부터 시작해야 할지 모르겠습니다. 몇 가지 실제 사례를 알려주실 수 있나요?
정말 감사합니다.
MT5 EA에 TTS를 통합하는 것은 기본 요구 사항일 뿐입니다.
저는 독학으로 프로그래밍을 배웠습니다,
그래서 말씀하신 AI 모델의 장점에 관심이 많지만 어디서부터 시작해야 할지 모르겠습니다. 몇 가지 실용적인 예를 들어주시겠습니까?
정말 감사하겠습니다.
저는 TTS 모델을 설치하지 않았고 LLM만 설치했으며 기사와 리뷰를 통해 그 품질에 대해 알고 있습니다. 러시아어 사이트에는 매우 유용한 정보가 있지만 작동하지 않습니다. 그리고 영어는 모르겠습니다. 하지만 YouTube에서 많은 것을 찾을 수 있습니다.
게다가 CPU + RAM, GPU NVidia 또는 AMD, 얼마나 많은 VRAM과 같은 모델을 실행할 수있는 하드웨어 컨텍스트를 모릅니다. 그것에 따라 많이 달라집니다.
또한 프로젝트가 상업용인 경우 온라인 음성 모델(Text2Speech, Speech2Text)에 대한 유료 액세스를 사용할 수 있습니다. 많은 것들이 있습니다.
하드웨어에 따라 크기가 다른 허깅페이스에서 음성 모델을 찾아보세요. LLM 텍스트 생성의 경우 가장 많이 사용되는 양자화는 GGUF 4_K_M입니다. 품질과 크기 사이의 균형.
어떤 로컬 플랫폼이 음성 모델을 지원하는지는 말씀드릴 수 없습니다. 저는 텍스트에만 사용합니다 - llama.cpp, ollama, GGUF 형식(가중치 정량화 포함)의 모델을 지원하므로 메모리를 많이 절약할 수 있습니다.
어쩌면 ONNX 형식을 선택하면 MT5에서 직접 지원되지만 CPU에서만 지원되므로 속도가 느리고 많은 메모리가 필요합니다.
이제 최고의 로컬 AI 합성기 3가지가 파이썬에 있다는 것을 알게 되었습니다: coqui TTS, Chatterbox TTS, Piper TTS.
아직 사용해 보지 않았습니다. 저는 파이썬에 전혀 익숙하지 않아서 "pip 설치 ..."를 설치할 때 항상 파이썬 라이브러리를 해결하지 못했습니다.
이제 최고의 로컬 AI 합성기 세 가지가 파이썬에 있다는 사실을 알게 되었습니다: coqui TTS, Chatterbox TTS, Piper TTS.
아직 사용해 보지 않았습니다. 저는 파이썬에 전혀 익숙하지 않아서 "pip 설치 ..."를 설치할 때 항상 파이썬 라이브러리를 해결하지 못했습니다.
멋지네요. 감사합니다.