
A Amazon lançou o Nova Sonic nesta terça-feira (08). É um modelo de inteligência artificial (IA) capaz de processar voz de forma nativa e gerar fala com som natural, segundo a empresa. Em outras palavras, é uma IA que conversa igual gente.
Ainda de acordo com a Amazon, o desempenho do Nova Sonic rivaliza com os modelos de voz mais avançados da OpenAI e do Google. Testes apontaram vantagens em velocidade, reconhecimento de fala e qualidade da conversação, segundo comunicado da empresa.
O Nova Sonic é a resposta da Amazon a modelos de voz mais recentes, como o do ChatGPT. Esses modelos oferecem fala mais natural do que assistentes mais antigos, como a Alexa e a Siri, consideradas engessadas hoje em dia.
Nova Sonic é o ‘modelo de voz por IA mais econômico’, diz Amazon
A Amazon descreveu o Nova Sonic como “o modelo de voz por IA mais econômico” do mercado. Ele é cerca de 80% mais barato do que o GPT-4o, da OpenAI.

O Nova Sonic está disponível por meio da plataforma Bedrock, usada para o desenvolvimento de aplicações de IA corporativas.
Componentes do Nova Sonic já estão sendo utilizados na Alexa+, versão melhorada da assistente de voz da Amazon. A informação foi confirmada por Rohit Prasad, vice-presidente sênior e cientista-chefe de IA Geral da empresa.
Em entrevista ao TechCrunch, Prasad explicou que o Nova Sonic é fruto da experiência da Amazon com “grandes sistemas de orquestração”, a infraestrutura por trás da Alexa. Segundo ele, o modelo se destaca em direcionar comandos para diferentes APIs.
Isso permite que o sistema use a ferramenta certa para buscar informações em tempo real, acessar dados ou interagir com aplicativos externos.

Durante as conversas, o Nova Sonic espera o momento certo para falar, levando em conta pausas e interrupções do usuário. Ele também gera transcrições em texto, que podem ser usadas por desenvolvedores.
Prasad afirma que o modelo comete menos erros de reconhecimento de fala do que seus concorrentes. Além disso, é eficaz em entender a intenção do usuário, mesmo com murmúrios, erros ou ruídos no ambiente.
Testes e próximos passos
No teste Multilingual LibriSpeech, que avalia o reconhecimento em vários idiomas, o Nova Sonic teve uma taxa de erro de palavras de 4,2% em inglês, francês, italiano, alemão e espanhol.

Em outro teste, o Augmented Multi Party Interaction, que mede a precisão em ambientes com vários participantes e ruídos, o modelo foi 46,7% mais preciso que o GPT-4o-transcribe da OpenAI.
A Amazon também destaca a velocidade do modelo. O Nova Sonic tem uma latência média de 1,09 segundo, mais rápido que os 1,18 segundo do GPT-4o da OpenAI, segundo a Artificial Analysis.
Prasad diz que o Nova Sonic faz parte da estratégia da Amazon para desenvolver uma Inteligência Artificial Geral (AGI), capaz de realizar tudo que um humano faz num computador. Aguardemos.