Skip to content

Dica Hugging Face #3: Space XTTS v2 Customizado

Um dos primeiros modelos de IA que tive contato foi o XTTS. O XTTS é um modelo criado pela empresa Coqui AI. Apesar do projeto estar descontinuado, eu considero um dos melhores modelos de áudio OPEN SOURCE, principalmente na qualidade do português brasileiro.

O XTTS consegue converter texto para voz (TTS) e clonar vozes com uma amostra pequena. O TTS é de um qualidade muito boa e o clone nem tão boa (mas recentemente eu descobri mais coisas sobre o clone que talvez elevem a qualidade, quando eu tiver um tempo melhor, eu trago aqui para vocês).

Eu cheguei até gravar este vídeo, mostrando como subir um em docker na sua própria máquina. Desde esse vídeo, eu aprendi tanta coisa nova sobre Hugging Face, python, gradio (e IA), que eu resolvi subir um space usando o ZeroGPU do Hugging Face (o ZeroGPU é uma iniciativa do Hugging Face que disponibiliza GPU de graça pros spaces).

Você pode acessar o space aqui: Xtts – a Hugging Face Space by rrg92

Eu fiz algumas modificações bem legais, como por exemplo, a possibilidade de gerar vários arquivos de uma só vez. bem como de especificar pronúncias para palavras, assim você não precisa mexer no texto original.

É um projeto que me trouxe bastante conhecimento prático sobre vários aspectos da IA!

Um exemplo abaixo de como usar para gerar três áudios:

  • Você digita o texto a ser convertido nessa caixa. Se quiser gerar mais de um áudio, separe por três traços (—). O XTTS não é bom em gerar um áudio longo, portanto, recomendo que você quebre um texto longo em vários menores
  • Aqui você pode especificar pronúncias diferentes. Isso ajuda a substituir no texto original pelo valor que que você colocar. As vezes, o XTTS não gera corretamente a pronúncia, especialmente quando a palavra é diferente do idioma. Isso pode ajudar bastante.
  • Então é só clicar no botão TTS e acompanhar o progresso
  • Quando tiver ok, ele vai gerar essa opção com todos os áudios gerados, e você pode escolher qual quer ouvir. Logo abaixo, há um botão para baixar todos os áudios de uma vez com zip.

Lembrando que a licença do XTTS não permite uso comercial, então, não pode usar para produtos pagos da sua empresa. Mesmo assim, é um excelente modelo e por ser open source, te permite estudar livremente o código e quem sabe um dia, não fazer um!?

E, lembrando, o código fonte está disponível junto com o space (aba Files). Você consegue ver o código de tudo que eu fiz, bem como o original do XTTS. Have fun!

Leave a Reply

Your email address will not be published. Required fields are marked *