Por Álvaro Bufarah

Embora a inteligência artificial (IA) generativa tenha ganhado visibilidade nos últimos tempos, o uso cotidiano de chatbots ainda não é tão amplo. De acordo com o Pew Research Center, apenas um quarto dos americanos experimentou o ChatGPT da OpenAI. Diante dessa resistência, grandes empresas de tecnologia como Meta, OpenAI, ElevenLabs, Microsoft e Amazon estão investindo em uma inovação de peso: sistemas de IA com vozes personalizadas que simulam interações altamente convincentes, capazes de convencer os usuários de que estão falando com humanos reais.

A Meta, por exemplo, anunciou recentemente que licenciou vozes de celebridades como Awkwafina, Judi Dench, John Cena, Keegan-Michael Key e Kristen Bell para integrar seu Meta AI. Dessa forma, com a personalidade dessas vozes, o chatbot pode responder a perguntas, fazer piadas e interagir em conversas. Segundo Mark Zuckerberg, CEO da empresa, “a voz será uma forma muito mais natural de interagir com IA do que o texto”. Ao imitar a inflexão, ritmo e características próprias de cada celebridade, a Meta aposta em criar uma experiência em que o usuário não apenas interaja, mas sinta que está falando com uma pessoa de verdade.

Essa tendência também é adotada pela ElevenLabs, que incluiu em sua plataforma de áudio a voz de Deepak Chopra, autor renomado, e de ícones do cinema como Judy Garland e James Dean. Além de reproduzir vozes icônicas, o sistema permite aos usuários criarem clones de sua própria voz com uma amostra mínima. No aplicativo Reader, essas vozes podem ler livros, artigos ou PDFs em uma simulação que chega a enganar o ouvinte sobre a autenticidade da voz. São centenas de opções em mais de 30 idiomas, com variações tonais que reforçam a percepção de uma interação genuína.

A OpenAI também atualizou seu ChatGPT com vozes aperfeiçoadas, inclusive após uma pausa nas funcionalidades de áudio devido a uma disputa envolvendo a atriz Scarlett Johansson, que alegou uso de características vocais similares às suas. Agora, com um total de nove vozes com sotaques diversos e modulações naturais, o Modo de Voz Avançado permite conversas realistas e está disponível para assinantes do ChatGPT Plus e Team. Esses aprimoramentos criam um nível de interação em que o usuário pode se sentir em uma conversa autêntica, como se o chatbot fosse capaz de raciocinar como uma pessoa.

A Microsoft, por sua vez, incluiu novos recursos vocais em seu Copilot. Além de responder por voz, a funcionalidade “Think Deeper” promove uma análise mais detalhada e permite que o usuário interrompa ou ajuste o rumo da conversa. Ao criar uma experiência mais interativa e menos linear, a IA da Microsoft estabelece um diálogo que parece ter nuances humanas, dificultando a percepção de que se trata de um sistema automatizado.

Na Amazon, a Alexa está em processo de atualização para oferecer respostas mais naturais e expressivas. A nova versão da assistente de voz promete uma conversação que imita cada vez mais o tom humano, explorando modulações vocais e padrões de fala característicos das interações diárias. Essa tecnologia busca não apenas responder, mas adaptar o tom e o contexto para criar uma comunicação mais verossímil.

Essas inovações em IA de voz representam um passo significativo na criação de sistemas que imitam a fala humana de forma tão realista que, para muitos usuários, torna-se difícil distinguir entre uma interação com um chatbot e uma conversa com outra pessoa. O avanço desses assistentes coloca o setor de comunicação em um novo paradigma, onde a IA não apenas responde, mas participa ativamente das conversas, explorando o potencial de influência e convencimento através de uma presença vocal que cativa. Essas melhorias podem acelerar a aceitação dessas tecnologias, abrindo portas para interações mais fluidas, com impacto direto na rotina de trabalho e lazer dos usuários, que já estão sendo preparados para um mundo em que a linha entre humano e máquina está mais tênue do que nunca.

(Crédito: Aviiperu.com)

Para finalizar, vale explorar algumas considerações sobre os possíveis impactos e desafios que essas inovações em IA de voz trarão para o futuro da comunicação e da interação humana:

  1. Implicações éticas e legais: Com a crescente capacidade dos sistemas de IA em imitar a voz humana, surgem preocupações éticas, especialmente no que se refere à privacidade e ao uso não autorizado de vozes de figuras públicas. O caso envolvendo Scarlett Johansson, que mencionou a replicação indevida de seu tom, é um exemplo relevante de como essas questões podem levantar debates legais sobre consentimento e uso de dados biométricos, incluindo voz.
  2. Possibilidade de manipulação e fake news: Outra questão relevante é o potencial uso de IA de voz para criar deepfakes auditivos, em que vozes idênticas às de figuras públicas poderiam ser usadas para fazer afirmações falsas. Isso adiciona uma camada de complexidade no combate à desinformação e na necessidade de filtros e verificações de autenticidade. Empresas e desenvolvedores estão trabalhando em sistemas que possam identificar e combater esses usos indevidos, mas o avanço tecnológico pode tornar essa tarefa cada vez mais desafiadora.
  3. Humanização das interfaces e efeitos psicológicos: Estudos mostram que vozes e personalidades associadas aos chatbots podem criar um vínculo emocional com o usuário, tornando as interações mais envolventes. Contudo, essa humanização também levanta questionamentos sobre o impacto psicológico de interações com uma máquina que simula empatia e resposta emocional. Profissionais de comunicação e especialistas em IA precisam avaliar o impacto dessas interações para que os sistemas sejam utilizados de forma ética e saudável para o público.
  4. Aplicações no mercado e na experiência do usuário: Em termos comerciais, os assistentes de voz avançados já começam a transformar o atendimento ao cliente, o suporte técnico e até mesmo áreas como saúde mental, onde chatbots simulam conversas terapêuticas. Empresas de todos os setores devem observar as possibilidades que esses sistemas oferecem para melhorar a experiência do cliente, mas também devem considerar os limites e as necessidades de supervisão humana para que o atendimento mantenha a qualidade e a segurança.
  5. Educação e capacitação profissional: O aumento do uso de IA de voz e a sua sofisticação trazem uma necessidade de capacitação para profissionais de comunicação e tecnologia, que precisam entender não só o funcionamento técnico desses sistemas, mas também suas implicações sociais. Profissionais da área devem estar preparados para lidar com o surgimento dessas novas tecnologias, compreendendo os riscos e as oportunidades que apresentam para o mercado e para a sociedade em geral.

Ou seja, temos muitas tecnologias inovadoras, mas também ainda um longo caminho até que tudo seja realmente seguro e ético.


Álvaro Bufarah

Você pode ler e ouvir este e outros conteúdos na íntegra no RadioFrequencia, um blog que teve início como uma coluna semanal na newsletter Jornalistas&Cia para tratar sobre temas da rádio e mídia sonora. As entrevistas também podem ser ouvidas em formato de podcast neste link.

(*) Jornalista e professor da Fundação Armando Álvares Penteado (Faap) e do Mackenzie, pesquisador do tema, integra um grupo criado pela Intercom com outros cem professores de várias universidades e regiões do País. Ao longo da carreira, dedicou quase duas décadas ao rádio, em emissoras como CBN, EBC e Globo.

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comentários
Inline Feedbacks
View all comments