A Microsoft revelou recentemente seu mais recente modelo de IA de conversão de texto em fala chamado VALL-E, que pode replicar a voz de uma pessoa quase perfeitamente. O modelo só precisa de uma amostra de áudio de três segundos para treinar. Depois de aprender uma voz específica, ele pode sintetizar o áudio dessa pessoa dizendo qualquer coisa, preservando o tom emocional do falante e o ambiente.
Como funciona?
A técnica por trás do VALL-E é o EnCodec, que a Meta revelou em outubro de 2022. O EnCodec permite que o VALL-E produza códigos de codec de áudio discretos a partir de texto e dicas acústicas. Isso difere dos sistemas convencionais de conversão de texto em fala que geralmente sintetizam a fala modificando as formas de onda.
A Meta também construiu a biblioteca de áudio LibriLight que a equipe usou para treinar o VALL-E. Esta biblioteca inclui mais de 7.000 vozes diferentes entre as 60.000 horas de fala em inglês, extraídas principalmente dos audiolivros de domínio público LibriVox. Além disso, o VALL-E também pode imitar o “ambiente acústico” do áudio de amostra. Por exemplo, ele pode simular as características acústicas e de frequência de uma chamada telefônica em sua saída sintética, fazendo com que soe como uma chamada telefônica.
No entanto, com base no artigo publicado pelos pesquisadores, os resultados do modelo são mistos, com alguns soando como máquinas e outros sendo surpreendentemente realistas. Mas mantém o tom emocional das amostras originais tornando as que funcionam mais aceitáveis.
O potencial futuro do Microsoft VALL-E
Mesmo com suas limitações, o VALL-E tem um enorme potencial e pode ter usos práticos em diversos setores, como entretenimento, educação e até mesmo em assistentes de voz. No entanto, a equipe reconhece o potencial de uso indevido, e o trabalho de pesquisa observa que os malfeitores podem usá-lo para falsificar ou se passar por outra pessoa sem seu conhecimento.
A Microsoft não anunciou planos de lançar uma versão pública do VALL-E, mas o trabalho de pesquisa menciona que é possível construir um modelo que possa detectar a fala real gerada pelo VALL-E. “Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode apresentar riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação”, disse a Microsoft.