Converse com a Amanda
Envie sua mensagem. Amanda responde imediatamente.
Sinta-se à vontade para compartilhar detalhes do projeto - mantemos as informações em sigilo.
Era uma quinta-feira de agosto de 2023 quando alguém me ligou da Itália. Não consegui atender o telefone imediatamente, então recebi um e-mail na sequência: a empresa multinacional estava estudando lançar um novo serviço e eles queriam me consultar sobre a viabilidade desse novo serviço em português brasileiro.
Descubra os insights e escute a história completa:
Nomes de pessoas e empresas, ou qualquer outra informação que pudesse identificá-los ou não pudesse ser divulgada, foram omitidos.
Nós nos encontramos numa reunião 30 minutos depois e tivemos uma discussão interessante sobre esse novo serviço que eles estavam considerando explorar: Produção e pós-produção de voz de IA, também conhecido como Síntese e edição de voz por inteligência artificial.
Fui indicada por uma pessoa de dentro (pela qual tenho muito carinho) para ser a especialista em som e linguagem em Português Brasileiro para:
Em resumo, fui solicitado a combinar minha experiência e conhecimento como linguista e engenheira de som especialista em voz e locução em português brasileiro para avaliar a viabilidade e a qualidade do resultado deste novo serviço.
Foi uma proposta de negócio interessante da minha perspectiva como engenheira de áudio e linguista. Eu iria:
Então, neste ponto, você já deve ter percebido que este não é um artigo de uma locutora demonizando e criticando a era das vozes sintéticas de IA. É um artigo de uma engenheira de som especializada em voz e que tem uma mente aberta e um desejo verdadeiro de entender o atual estado da indústria de TTS e a real viabilidade, riscos, contras e prós do serviço de voz de IA.
Somente sendo aberta, técnica e honesta, eu poderia chegar a uma conclusão lúcida e imparcial (no final do artigo).
Em setembro de 2023, a empresa preparou um projeto de teste - assim como um projeto de locução real, com o briefing, os requisitos e o roteiro do cliente prontos para serem gravados.
No final de setembro e durante outubro e novembro de 2023, tivemos nosso primeiro projeto real, e desta vez o cliente exigiu sincronização de locução de IA com os vídeos em inglês.
Com base na experiência da fase de testes e do projeto real, eu me pergunto por que eles escolheram a voz de IA para tal projeto.
Poderia ter sido a aspiração inicial do meu cliente, mas não foi o que eles receberam no final do projeto.
Atualmente, a narração de IA soa mais como um locutor estranho e desequilibrado com um microfone e ambiente ruins (com ruídos, glitches e falhas), do que uma voz robótica clara, descritiva e limpa.
Além disso, se o objetivo fosse ter uma narração da Voz de Deus (neutra, mas não robótica, é claro), um dublador ou locutor profissional seria o caminho mais curto - ou melhor, o único caminho.
A propósito, o timbre da voz de IA em português brasileiro não soou mal na maioria das vezes. Em alguns momentos (quando não havia falhas, tremolos e cadências estranhas), a voz poderia ter sido percebida como sendo de uma locutora humana. Parecia a voz de uma pessoa real (sem técnicas de locução, habilidades de comunicação e empatia) de São Paulo (sotaque neutro paulista) cuja gravação era de qualidade mediana a baixa.
Então veja, o timbre de uma voz de IA não é mais um problema técnico para empresas de Inteligência Artificial. Os timbres chegaram a um estágio de desenvolvimento etal que a voz da IA é bem parecido com o timbre de um humano.
O problema agora é com o tom, a consistência, a qualidade das vogais e das consoantes, e muitos outros aspectos da voz humana que as tornam tão únicas, envolventes, versáteis e desejáveis.
E, a propósito, as empresas de IA estão investindo intensivamente cada vez mais em um tom coloquial e natural para suas vozes sintéticas. Então não acho que o cliente final estava procurando uma voz distante e robótica. Não consigo ver como isso poderia tê-los beneficiado neste projeto. E uma voz robótica não era o que eles consideravam como resultado esperado, de qualquer forma.
Não, porque a matemática não faz sentido. Se a voz da IA fosse gerada pelo próprio cliente final, certamente os custos teriam sido menores para eles. No entanto, por causa da empresa intermediária e do QA humano, eles estavam pagando grandes quantias para uma empresa renomada e profissionais qualificados em cada idioma para que pudéssemos consertar os erros e melhorar a qualidade percebida de algo que já era ruim em sua origem.
Absolutamente não. Bem, a empresa intermediária teve que lidar com quase a mesma quantidade de pessoas do que se fosse um projeto simples de voiceover. Não haviam locutores ou profissionais de voiceover, mas sim engenheiros de áudio e linguistas.
Possivelmente.
Possivelmente.
Isso também é possível. No entanto, como as vozes da IA estão sendo usadas mais comumente em projetos amadores e de baixo orçamento, não há vantagem competitiva para empresas sérias estarem conectadas a essa estética vocal de baixa qualidade.
Tempo: feito no do melhor jeito possível, a narração de IA pode levar muito mais tempo do que a narração humana, especialmente porque os humanos podem se adaptar rápido - a IA é rígida e soa menos natural quando a sincronização é necessária, por exemplo.
Custo: menor, mas ainda alto, com notável desperdício de tempo e recursos.
Qualidade: ótima clareza geral da fala - indicada para uso informativo.
Terminei este artigo sabendo que tinha muito mais a relatar e compartilhar com vocês sobre Inteligência Artificial, IA Generativa, Clonagem de Voz e Voz TTS.
Este assunto não termina aqui. Envie-me um e-mail para assinar minha newsletter e ficar informado com antecedência. Acompanhe-nos para obter informações de fontes seguras e ideias originais sobre IA, mercado do áudio e da voz.
Artigo publicado originalmente em inglês, em 2024, sob autoria de Amanda de Andrade e sob o título "AI Voice vs Human Voice - An Expert analysis"
Envie sua mensagem. Amanda responde imediatamente.
Sinta-se à vontade para compartilhar detalhes do projeto - mantemos as informações em sigilo.