Nova Sonic: Amazon lança IA que conversa igual gente

O modelo de IA Nova Sonic processa voz de forma nativa e gerar fala com som natural, segundo a Amazon; saiba mais

Pedro Spadoni08/04/2025 14h14

Ilustração de rosto e ondas de voz com elementos tecnológicos — (Imagem: ArtemisDiana/Shutterstock)

Tudo sobre Inteligência Artificial

A Amazon lançou o Nova Sonic nesta terça-feira (08). É um modelo de inteligência artificial (IA) capaz de processar voz de forma nativa e gerar fala com som natural, segundo a empresa. Em outras palavras, é uma IA que conversa igual gente.

Ainda de acordo com a Amazon, o desempenho do Nova Sonic rivaliza com os modelos de voz mais avançados da OpenAI e do Google. Testes apontaram vantagens em velocidade, reconhecimento de fala e qualidade da conversação, segundo comunicado da empresa.

O Nova Sonic é a resposta da Amazon a modelos de voz mais recentes, como o do ChatGPT. Esses modelos oferecem fala mais natural do que assistentes mais antigos, como a Alexa e a Siri, consideradas engessadas hoje em dia.

Nova Sonic é o ‘modelo de voz por IA mais econômico’, diz Amazon

A Amazon descreveu o Nova Sonic como “o modelo de voz por IA mais econômico” do mercado. Ele é cerca de 80% mais barato do que o GPT-4o, da OpenAI.

Logotipo da Nova Sonic, nova IA da Amazon, com linha de ondas sonoras de voz passando por ele — Nova Sonic, da Amazon, é cerca de 80% mais barato do que o GPT-4o, da OpenAI (Imagem: Amazon)

O Nova Sonic está disponível por meio da plataforma Bedrock, usada para o desenvolvimento de aplicações de IA corporativas.

Componentes do Nova Sonic já estão sendo utilizados na Alexa+, versão melhorada da assistente de voz da Amazon. A informação foi confirmada por Rohit Prasad, vice-presidente sênior e cientista-chefe de IA Geral da empresa.

Em entrevista ao TechCrunch, Prasad explicou que o Nova Sonic é fruto da experiência da Amazon com “grandes sistemas de orquestração”, a infraestrutura por trás da Alexa. Segundo ele, o modelo se destaca em direcionar comandos para diferentes APIs.

Isso permite que o sistema use a ferramenta certa para buscar informações em tempo real, acessar dados ou interagir com aplicativos externos.

Mão quase tocando linhas coloridas de código em formato que ilustra conceito de inteligência artificial — Nova IA da Amazon entende intenções do usuário mesmo com erros e ruídos, diz executivo da empresa (Imagem: NicoElNino/Shutterstock)

Durante as conversas, o Nova Sonic espera o momento certo para falar, levando em conta pausas e interrupções do usuário. Ele também gera transcrições em texto, que podem ser usadas por desenvolvedores.

Prasad afirma que o modelo comete menos erros de reconhecimento de fala do que seus concorrentes. Além disso, é eficaz em entender a intenção do usuário, mesmo com murmúrios, erros ou ruídos no ambiente.

Testes e próximos passos

No teste Multilingual LibriSpeech, que avalia o reconhecimento em vários idiomas, o Nova Sonic teve uma taxa de erro de palavras de 4,2% em inglês, francês, italiano, alemão e espanhol.

Celular com logomarca da Amazon na tela colocado em cima de teclado de computador — Amazon planeja desenvolver Inteligência Artificial Geral – AGI, na sigla em inglês (Imagem: Marc_Stock/Shutterstock)

Em outro teste, o Augmented Multi Party Interaction, que mede a precisão em ambientes com vários participantes e ruídos, o modelo foi 46,7% mais preciso que o GPT-4o-transcribe da OpenAI.

A Amazon também destaca a velocidade do modelo. O Nova Sonic tem uma latência média de 1,09 segundo, mais rápido que os 1,18 segundo do GPT-4o da OpenAI, segundo a Artificial Analysis.

Prasad diz que o Nova Sonic faz parte da estratégia da Amazon para desenvolver uma Inteligência Artificial Geral (AGI), capaz de realizar tudo que um humano faz num computador. Aguardemos.