Estrelas da era de ouro de Hollywood estão renascendo através de acordos de clonagem de voz de IA de propriedades de celebridades, um sinal de como algumas das preocupações do “Velho Oeste” sobre a representação não autorizada de IA estão sendo abordadas por novos modelos de negócios.
ElevenLabs, uma startup de tecnologia de áudio financiada por empresas de capital de risco, incluindo Andreessen Horowitz e Sequoia, assinou vários acordos com os espólios de atores lendários para seus Vozes icônicas ferramenta que permite aos usuários que vozes geradas por IA sejam lidas para eles por meio de um aplicativo de audiolivro. As estrelas incluem Burt Reynolds, Judy Garland, James Dean e Sir Laurence Olivier.
ElevenLabs, lançado em 2023, cria áudio para livros e artigos de notícias, personagens de videogame, pré-produção de filmes, mídias sociais e publicidade. A empresa já trabalha com editoras como o New York Times e o Washington Post e, no início deste ano, a empresa foi selecionada pela Disney para aderir ao seu programa acelerador.
“Você precisa de cerca de 30 minutos de áudio de alta qualidade para criar um clone de voz profissional”, disse Sam Sklar, membro da equipe de crescimento da ElevenLabs, e as vozes são geradas a partir do catálogo da celebridade. Uma vez criado, ele pode ser usado para leitura de texto (artigos, PDFs, ePubs, boletins informativos ou outro conteúdo de texto). Porém, a voz e o conteúdo não podem ser exportados, sendo toda a audição em um aplicativo de leitura.
Um usuário pode, por exemplo, ter artigos narrados por James Dean dentro do aplicativo, mas os usuários não podem acessar as vozes de qualquer conteúdo que ainda não esteja no aplicativo.
Esses tipos de acordos podem ajudar a estabelecer os limites para um futuro em que o conteúdo de voz gerado por IA seja menos controverso e mais controlado e com curadoria. O Google Play e o Apple Books já utilizam vozes geradas por IA até certo ponto, embora existam grandes obstáculos para recriar o ritmo, a entonação e a emoção da voz humana.
A indústria de IA tem sido atormentada por preocupações sobre o uso de vozes de celebridades, com a OpenAI fazendo uma reviravolta em maio, depois que a atriz Scarlett Johansson acusou a empresa de roubar sua voz depois que ela rejeitou ofertas para licenciá-la.
“Estamos muito atentos aos riscos associados à mídia sintética e levamos muito a sério o uso seguro de nossas ferramentas”, disse Sklar. As salvaguardas incluem moderação ativa de conteúdo, responsabilização com proibições e disposições especiais para salvaguardar o impacto de Voz da IA nas eleições de 2024.
Entre a atual geração de atores, permanece uma ansiedade significativa em torno do uso da IA na geração de conteúdo de voz. Dubladores para jogos de vídeo levantaram preocupações, e a greve do cinema e da televisão do ano passado teve raízes significativas nas ansiedades sobre o uso da IA. A utilização de vozes icónicas vendidas por propriedades é um nicho de mercado que potencialmente evita estas armadilhas, representando um novo fluxo de rendimentos da IA, em vez de um fluxo de rendimentos perdidos devido à IA.
O uso de vozes de celebridades semelhantes é um problema anterior à IA, como o caso de 1988 de Frito Lay usando um som parecido com Tom Waits em seus anúncios e outro caso de Waits em 2007depois que o próprio Waits recusou por muito tempo acordos publicitários. A IA apresenta um caminho mais fácil para a criação de sons semelhantes, e ações judiciais recentes movidas contra a startup de IA Lovo por uso supostamente impróprio e não compensado O número de dubladores na geração de suas vozes de IA é um lembrete de que o mundo da geração de vozes de IA provavelmente continuará, até certo ponto, complicado e litigioso. (Lovo negou as alegações do processo e também apontou para um modelo de divisão de receitas que oferece aos atores para vozes clonadas.)
É difícil avaliar as proteções em locais sem revisar a linguagem específica dos contratos do IconicVoices, disse Steve Cohen, sócio da Pollock & Cohen que representa dubladores em um setor não relacionado. ação judicial alegando clonagem de vozes sem autorização.
ElevenLabs aponta como sua ferramenta IconicVoices obtém permissões e seleciona o uso das vozes.
“Dar permissão para usar a voz é um dos princípios básicos”, disse Cohen. “Acho que os fatores-chave são permissão, compensação e controle.”
Leis novas e mais claras também podem ser um desincentivo para as pessoas tentadas a apropriar-se indevidamente de uma voz, “não para bandidos graves, mas para casos extremos”, disse Cohen. Mas citando Bette Davis em “All About Eve”, ele acrescentou: “‘Apertem os cintos; será uma jornada acidentada'”.
O quão realistas são as vozes clonadas também é uma questão em evolução. Muitos especialistas dizem que, como a IA não “sabe” o que está dizendo, a qualidade do desempenho é limitada. Sklar disse que o mais recente nível de qualidade de fala do ElevenLabs é indistinguível da fala humana real. “As ferramentas de conversão de texto em fala da ElevenLabs podem compreender o contexto das palavras”, disse ele.
A IA é tão boa quanto os modelos nos quais é treinada, e os conjuntos de dados de voz dos atores tornam-se parte do processo.
“Os modelos neurais derivam suas capacidades da imitação/memorização de nuances e padrões presentes em seus dados de treinamento”, disse Nauman Dawalatabad, pós-doutorado associado no Laboratório de Ciência da Computação e Inteligência Artificial do MIT com extensa pesquisa em geração de voz de IA. “A qualidade e a diversidade dos dados de treinamento influenciam significativamente o desempenho do modelo.”
A entrega vocal de estrelas de cinema poderia aumentar a imitação e o aprendizado da IA, fornecendo o tipo de “conjuntos de dados de voz de alta qualidade para treinamento e ajuste fino de grandes modelos” que Dawalatabad disse ser essencial para o processo. Mas ele expressou reservas sobre “soar humano” como sendo o teste certo para o campo de voz da IA, pois isso poderia reforçar uma relação antagônica entre as vozes humanas e sintéticas.
Os dubladores continuam divididos quanto à tecnologia, com alguns se recusando a considerar qualquer acordo, mas outros dizendo que as oportunidades de clonar suas vozes para uma produção mais rápida e barata em algumas formas de audiolivros não podem ser ignoradas. “A tecnologia de IA pode ajudar os fluxos de trabalho. A IA não é uma ferramenta nova para dubladores, produtores e editores, muitos dos quais a utilizam para melhorar seu controle de qualidade na pós-produção”, disse Michele Cobb, diretora executiva da Audio Publishers Association. CNBC no ano passado.
Modelos generativos recentes mostraram avanços substanciais em comparação com iterações anteriores, tornando cada vez mais difícil distinguir entre vozes falsas e autênticas apenas de ouvido, de acordo com Dawalatabad. O licenciamento de voz de IA poderia aliviar a carga de trabalho dos dubladores, acrescentou, sem suplantá-los, pois eles “intercedem no processo, concentrando-se em oferecer correção ou aprimoramento de aspectos inefáveis, como entonação, calor e ênfase, que ainda apresentam desafios”.