Get Even More Visitors To Your Blog, Upgrade To A Business Listing >>

Bark: um aplicativo de áudio generativo orientado a texto

Tags: conda bark texto

Um dos aplicativos de aprendizado de máquina de destaque é o Stable Diffusion, um modelo latente de difusão de Texto para imagem capaz de gerar imagens fotorrealistas a partir de qualquer entrada de texto. No entanto, estendendo este tema, mas de uma perspectiva de áudio, temos o Bark, um aplicativo de áudio generativo orientado a texto. Este é um modelo de texto para áudio baseado em transformador.

Bark

O software pode gerar fala multilíngue realista, bem como outros tipos de áudio, incluindo música, ruído de fundo e efeitos sonoros simples, a partir de texto. O modelo também gera comunicações não verbais como rir, suspirar, chorar e hesitar.

Bark segue uma arquitetura de estilo GPT. Não é um modelo convencional de texto para fala, mas sim um modelo totalmente generativo de texto para áudio capaz de se desviar de maneiras inesperadas de qualquer script.

Instalação

O pessoal do Linux Links testou o Bark com uma nova instalação da distribuição Arch. Para evitar poluir o sistema deles, eles usaram o Conda para instalar o Bark. Um ambiente conda é um diretório que contém uma coleção específica de pacotes conda que você instalou.

Se o seu sistema não tiver conda, instale Anaconda ou Miniconda, este último é um instalador mínimo para conda; uma pequena versão bootstrap do Anaconda que inclui apenas conda, Python, os pacotes dos quais eles dependem e um pequeno número de outros pacotes úteis, incluindo pip, zlib e alguns outros.

Existe um pacote para Miniconda no AUR que vamos instalar com o comando:

Terminal
$ yay -S miniconda3

Se o seu shell for Bash ou uma variante Bourne, habilite o conda para o usuário atual com:

Terminal
$ echo "[ -f /opt/miniconda3/etc/profile.d/conda.sh ] && source /opt/miniconda3/etc/profile.d/conda.sh" >> ~/.bashrc

Crie nosso ambiente conda com o comando:

Terminal
$ conda create --name bark

Ative esse ambiente com o comando:

Terminal
$ conda activate bark

Clone o repositório GitHub do projeto:

Terminal
$ git clone https://github.com/suno-ai/bark

Mude para o diretório recém-criado e instale com pip (lembre-se de que estamos instalando em nosso ambiente conda, sem poluir nosso sistema).

Terminal
cd bark && pip install

Existem alguns extras que você pode precisar fazer. A versão completa do Bark requer cerca de 12 GB de VRAM. Se sua GPU tiver menos de 12 GB de VRAM, você receberá erros como este: Oops, an error occurred: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 7.76 GiB total capacity; 6.29 GiB already allocated; 62.19 MiB free; 6.30 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC

Em vez disso, precisamos usar versões menores dos modelos. Para dizer ao Bark para usar os modelos menores, defina o sinalizador de ambiente SUNO_USE_SMALL_MODELS=True.

Terminal
$ export SUNO_USE_SMALL_MODELS=True

Também instalaremos o IPython, um terminal de linha de comando interativo para Python.

Terminal
$ pip install ipython

Novamente, use este comando apenas no ambiente conda.

O post Bark: um aplicativo de áudio generativo orientado a texto apareceu primeiro em SempreUpdate.



This post first appeared on Site SempreUpdate, please read the originial post: here

Share the post

Bark: um aplicativo de áudio generativo orientado a texto

×

Subscribe to Site Sempreupdate

Get updates delivered right to your inbox!

Thank you for your subscription

×