Atualização de áudio nativo Gemini 2.5, além de atualizações de modelo de conversão de texto em fala

I.A Tecnologia

O que os clientes estão dizendo

Clientes do Google Cloud já estão usando os recursos de áudio nativos do Gemini para gerar resultados comerciais reais, desde o processamento de hipotecas até chamadas de clientes.

  • “Os usuários muitas vezes esquecem que estão conversando com a IA um minuto depois de usar o Sidekick e, em alguns casos, agradeceram ao bot após um longo bate-papo… Os novos recursos de IA da API ao vivo oferecidos pelo Gemini (2.5 Flash Native Audio) capacitam nossos comerciantes a vencer.” – David Wurtz, vice-presidente de produto, Shopify
  • “Ao integrar o modelo Gemini 2.5 Flash Native Audio… aprimoramos significativamente os recursos do Mia desde o lançamento em maio de 2025. Essa combinação poderosa nos permitiu gerar mais de 14.000 empréstimos para nossos corretores parceiros.” – Jason Bressler, diretor de tecnologia, United Wholesale Mortgage (UWM)
  • “Trabalhar com o modelo Gemini 2.5 Flash Native Audio por meio da Vertex AI permite que os recepcionistas da Newo.ai AI obtenham inteligência de conversação incomparável… Eles podem identificar o orador principal mesmo em ambientes barulhentos, mudar de idioma no meio da conversa e soar notavelmente natural e emocionalmente expressivo.” – David Yang, cofundador, Newo.ai

Tradução de fala ao vivo

Gemini agora suporta nativamente novos recursos de tradução de fala para fala ao vivo, projetados para lidar com escuta contínua e conversação bidirecional.

Com a escuta contínua, o Gemini traduz automaticamente a fala de vários idiomas para um único idioma de destino. Isso permite que você coloque fones de ouvido e ouça o mundo ao seu redor no seu idioma.

Para conversas bidirecionais, a tradução de fala ao vivo do Gemini lida com a tradução entre dois idiomas em tempo real, alternando automaticamente o idioma de saída com base em quem está falando. Por exemplo, se você fala inglês e deseja conversar com alguém que fala hindi, você ouvirá traduções em inglês em tempo real em seus fones de ouvido, enquanto seu telefone transmite hindi quando você terminar de falar.

A tradução de fala ao vivo do Gemini possui vários recursos importantes que ajudam no mundo real:

  • Cobertura linguística: Traduz fala em mais de 70 idiomas e 2.000 pares de idiomas, combinando o conhecimento mundial e os recursos multilíngues do modelo Gemini com seus recursos de áudio nativos
  • Transferência de estilo: Captura as nuances da fala humana, preservando a entonação, o ritmo e o tom do locutor para que a tradução pareça natural.
  • Entrada multilíngue: Compreende vários idiomas simultaneamente em uma única sessão, ajudando você a acompanhar conversas multilíngues sem precisar mexer nas configurações de idioma.
  • Detecção automática: Identifica o idioma falado e inicia a tradução, assim você nem precisa saber qual idioma está sendo falado para começar a traduzir.
  • Robustez de ruído: filtra o ruído ambiente para que você possa conversar confortavelmente mesmo em ambientes externos barulhentos.

Fonte: www.blog.google
Link da Fonte

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *