Voz Humana vs Voz de IA - Uma Análise Profunda

Amanda de Andrade audio engineer brazilian voice over studio and voice talent spectrogram of synthetic ai voice

Era uma quinta-feira de agosto de 2023 quando alguém me ligou da Itália. Não consegui atender o telefone imediatamente, então recebi um e-mail na sequência: a empresa multinacional estava estudando lançar um novo serviço e eles queriam me consultar sobre a viabilidade desse novo serviço em português brasileiro.

Descubra os insights e escute a história completa:

Artigo narrado por Amanda de Andrade: Voz Humana vs Voz de IA

Nomes de pessoas e empresas, ou qualquer outra informação que pudesse identificá-los ou não pudesse ser divulgada, foram omitidos.

Nós nos encontramos numa reunião 30 minutos depois e tivemos uma discussão interessante sobre esse novo serviço que eles estavam considerando explorar: Produção e pós-produção de voz de IA, também conhecido como Síntese e edição de voz por inteligência artificial.

Fui indicada por uma pessoa de dentro (pela qual tenho muito carinho) para ser a especialista em som e linguagem em Português Brasileiro para:

  • aconselhá-los sobre esse novo empreendimento,
  • testar as ferramentas e o gerador de voz por IA, que eles escolheram usar,
  • escrever um relatório,
  • e compôr um guia passo a passo para controlar a qualidade do resultado.

Em resumo, fui solicitado a combinar minha experiência e conhecimento como linguista e engenheira de som especialista em voz e locução em português brasileiro para avaliar a viabilidade e a qualidade do resultado deste novo serviço.

Foi uma proposta de negócio interessante da minha perspectiva como engenheira de áudio e linguista. Eu iria:

  • testar e manipular muitas vozes de IA em português brasileiro (diferentes versões de vozes femininas e masculinas),
  • ver como elas foram geradas por uma das principais empresas da indústria de voz sintética de IA,
  • descobrir os pontos fortes e fracos das vozes sintéticas,
  • ser capaz de interagir e trocar impressões com outros engenheiros de som de outros idiomas,
  • ver o que a edição de áudio poderia - ou não - fazer para melhorar uma locução de IA.

Então, neste ponto, você já deve ter percebido que este não é um artigo de uma locutora demonizando e criticando a era das vozes sintéticas de IA. É um artigo de uma engenheira de som especializada em voz e que tem uma mente aberta e um desejo verdadeiro de entender o atual estado da indústria de TTS e a real viabilidade, riscos, contras e prós do serviço de voz de IA.

Somente sendo aberta, técnica e honesta, eu poderia chegar a uma conclusão lúcida e imparcial (no final do artigo).

Projetos de voiceover de IA

Em setembro de 2023, a empresa preparou um projeto de teste - assim como um projeto de locução real, com o briefing, os requisitos e o roteiro do cliente prontos para serem gravados.

No final de setembro e durante outubro e novembro de 2023, tivemos nosso primeiro projeto real, e desta vez o cliente exigiu sincronização de locução de IA com os vídeos em inglês.

Amostras do relatório sobre Tecnologia de Voz IA

Grande falha em uma ampla gama de frequências em uma fala sintética - Narração de inteligência artificial
Tremolo indesejado em uma vogal de uma voz sintética - Narração de inteligência artificial
Sons estranhos em uma fala de TTS - Dublagem de inteligência artificial
Transientes mal pronunciados em Ms e Ns de uma fala sintética - Narração de inteligência artificial
Volume inconsistente em um discurso sintetizado de uma locução de Inteligência Artificial
Corrigindo a pronúncia de uma fala sintética - Voz de inteligência artificial
Prévia no. 1 do relatório sobre voz sintética - Locução de inteligência artificial
Prévia no. 2 do relatório sobre voz sintética - Locução de inteligência artificial
Prévia no. 3 do relatório sobre voz sintética - Locução de inteligência artificial

Exemplos de erros de Voz de IA

Transientes mal pronunciados da IA - Ms & Ns
Tremolo indesejado em uma vogal - Voz de IA
Frase oscilante e com falhas - Voz de IA

Por que eles escolheram a IA em vez de locutores profissionais?

Com base na experiência da fase de testes e do projeto real, eu me pergunto por que eles escolheram a voz de IA para tal projeto.

  • Você pode imaginar: "Talvez para ter uma voz neutra, distante, centrada e puramente descritiva...?"

Poderia ter sido a aspiração inicial do meu cliente, mas não foi o que eles receberam no final do projeto.

Atualmente, a narração de IA soa mais como um locutor estranho e desequilibrado com um microfone e ambiente ruins (com ruídos, glitches e falhas), do que uma voz robótica clara, descritiva e limpa.

Além disso, se o objetivo fosse ter uma narração da Voz de Deus (neutra, mas não robótica, é claro), um dublador ou locutor profissional seria o caminho mais curto - ou melhor, o único caminho.

A propósito, o timbre da voz de IA em português brasileiro não soou mal na maioria das vezes. Em alguns momentos (quando não havia falhas, tremolos e cadências estranhas), a voz poderia ter sido percebida como sendo de uma locutora humana. Parecia a voz de uma pessoa real (sem técnicas de locução, habilidades de comunicação e empatia) de São Paulo (sotaque neutro paulista) cuja gravação era de qualidade mediana a baixa.

Então veja, o timbre de uma voz de IA não é mais um problema técnico para empresas de Inteligência Artificial. Os timbres chegaram a um estágio de desenvolvimento etal que a voz da IA é bem parecido com o timbre de um humano.

O problema agora é com o tom, a consistência, a qualidade das vogais e das consoantes, e muitos outros aspectos da voz humana que as tornam tão únicas, envolventes, versáteis e desejáveis.

E, a propósito, as empresas de IA estão investindo intensivamente cada vez mais em um tom coloquial e natural para suas vozes sintéticas. Então não acho que o cliente final estava procurando uma voz distante e robótica. Não consigo ver como isso poderia tê-los beneficiado neste projeto. E uma voz robótica não era o que eles consideravam como resultado esperado, de qualquer forma.

  • "Para reduzir os custos?"

Não, porque a matemática não faz sentido. Se a voz da IA fosse gerada pelo próprio cliente final, certamente os custos teriam sido menores para eles. No entanto, por causa da empresa intermediária e do QA humano, eles estavam pagando grandes quantias para uma empresa renomada e profissionais qualificados em cada idioma para que pudéssemos consertar os erros e melhorar a qualidade percebida de algo que já era ruim em sua origem.

  • "Lidar com menos pessoas?"

Absolutamente não. Bem, a empresa intermediária teve que lidar com quase a mesma quantidade de pessoas do que se fosse um projeto simples de voiceover. Não haviam locutores ou profissionais de voiceover, mas sim engenheiros de áudio e linguistas.

  • "Experimentar?"

Possivelmente.

  • "Aproveitar o Hype, a moda de IA?"

Possivelmente.

  • "Soar diferente no mercado?"

Isso também é possível. No entanto, como as vozes da IA estão sendo usadas mais comumente em projetos amadores e de baixo orçamento, não há vantagem competitiva para empresas sérias estarem conectadas a essa estética vocal de baixa qualidade.

Voz de IA vale a pena?

  • Tempo: feito no do melhor jeito possível, a narração de IA pode levar muito mais tempo do que a narração humana, especialmente porque os humanos podem se adaptar rápido - a IA é rígida e soa menos natural quando a sincronização é necessária, por exemplo.

    • Foi muito mais demorado.
    • Levou dezenas de horas de análise, manipulação, testes, edição e masterização.
    • Teria levado algumas horas de trabalho de narração.
  • Custo: menor, mas ainda alto, com notável desperdício de tempo e recursos.

    • Em termos de preço, não vi muita diferença entre o custo de locução de IA e o de um projeto de narração com um profissional.
    • Passei muito mais tempo com essa narração de IA do que com qualquer narração humana. Como consequência, a empresa cobriu muito mais horas da minha participação do que teria gasto se tivesse chamado um dublador ou locutor profissional ou um talento de voz para fazer isso.
    • Sei o preço pelo qual eles estão vendendo o serviço e não é barato. Afinal, eles estão comprometidos com a qualidade e com a adição de um toque humano (supervisão humana e controle de qualidade).
  • Qualidade: ótima clareza geral da fala - indicada para uso informativo.

    • A qualidade do resultado fica aquém da qualidade de uma gravação feita por um dublador ou locutor profissional.
    • Pelo espectrograma, posso dizer que falta riqueza, frequência e transientes claros.
    • De ouvido, sinto falta da cadência natural, da variação, das pausas e respirações naturais.
    • A mensagem principal ainda é facilmente compreendida com uma fala de IA.
    • A qualidade fica entre uma gravação de microfone muito simples (sem ruído de fundo mas com falhas na captação) e uma mensagem ouvida pelo telefone.

Terminei este artigo sabendo que tinha muito mais a relatar e compartilhar com vocês sobre Inteligência Artificial, IA Generativa, Clonagem de Voz e Voz TTS.

Este assunto não termina aqui. Envie-me um e-mail para assinar minha newsletter e ficar informado com antecedência. Acompanhe-nos para obter informações de fontes seguras e ideias originais sobre IA, mercado do áudio e da voz.

Artigo publicado originalmente em inglês, em 2024, sob autoria de Amanda de Andrade e sob o título "AI Voice vs Human Voice - An Expert analysis"

Converse com a Amanda

Envie sua mensagem. Amanda responde imediatamente.

Sinta-se à vontade para compartilhar detalhes do projeto - mantemos as informações em sigilo.