OpenAI lança modelos de áudio para tarefas de voz em tempo real
Lançamento da API leva a criadora do ChatGPT além da transcrição e chat
Startup fez lançamento voltado para desenvolvedores – Imagem: Mehaniq/Shutterstock
Tudo sobre Inteligência Artificial
Tudo sobre OpenAI
A OpenAI apresentou, nesta quinta-feira (7), três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.Continua após a publicidadeO lançamento da interface de programação de aplicações (API, na sigla em inglês) leva a criadora do ChatGPT além da transcrição e chat, direcionando para agentes que podem ouvir, traduzir e agir durante conversas ao vivo.
Os novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI;
O GPT-Realtime-2 foi projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas;
O segundo modelo suporta tradução de mais de 70 idiomas para 13 idiomas de saída, direcionado para suporte ao cliente, educação e outros ambientes;
O GPT-Realtime-Whisper fornece conversão de fala para texto ao vivo, permitindo que legendas, notas de reuniões e atualizações de fluxo de trabalho sejam geradas enquanto o palestrante fala.
Novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI – Imagem: Primakov/ShutterstockLeia mais:Clientes da OpenAI e preços dos novos modelosEntre os clientes testando os modelos estão o marketplace imobiliário online Zillow, a agência de viagens online Priceline e a empresa europeia de telecomunicações Deutsche Telekom. Os preços do GPT-Realtime-2 começam em US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio, o GPT-Realtime-Translate custa US$ 0,034 (R$ 0,17) por minuto e o GPT-Realtime-Whisper US$ 0,017 (R$ 0,084) por minuto.GPT-Fone? Rumores sobre celular da OpenAI estão aumentando
A OpenAI pode estar desenvolvendo seu primeiro produto de hardware: um smartphone voltado ao ChatGPT. De acordo com o analista de cadeia de suprimentos Ming-Chi Kuo, o projeto está sendo acelerado, com previsão de início da produção em massa no começo de 2027.Leia a matéria completa aqui
Rodrigo Mozelli
Rodrigo Mozelli é jornalista formado pela Universidade Metodista de São Paulo (UMESP) e, atualmente, é redator do Olhar Digital.
Ver todos os artigos →
Bruno Capozzi
Bruno Capozzi é jornalista, mestre em Ciências Sociais e editor executivo do OD.
Ver todos os artigos →
Gostou? Compartilhe!
Ajude mais pessoas a ficarem informadas.