A OpenAI, criadora do ChatGPT, anunciou nesta segunda-feira (13) o lançamento do GPT-4o, a nova versão do seu famoso modelo de inteligência artificial (IA). Esta versão se destaca por ser o primeiro modelo da OpenAI capaz de combinar textos, imagens e áudios em tempo real de forma autônoma.
De acordo com a empresa, o GPT-4o possui uma capacidade aprimorada para compreender esses diferentes tipos de conteúdo em comparação com seu antecessor, o GPT-4, que foi lançado em março de 2023 e é pago.
A nova atualização será disponibilizada gradualmente para todos os usuários, incluindo aqueles que utilizam a versão gratuita (leia mais).
O que muda na prática?
A principal promessa do GPT-4o é a capacidade de interagir de forma mais natural e rápida, permitindo que os usuários falem e mostrem conteúdos ao robô, recebendo respostas em uma velocidade comparável a uma conversa humana, ao invés de apenas digitar suas perguntas ou solicitações.
Nas redes sociais, os usuários compararam a nova versão à assistente virtual do filme “Ela” (“Her” no original), onde o protagonista se apaixona por um sistema operacional. A comparação chegou até Sam Altman, CEO da OpenAI, que mencionou o nome do filme em seu perfil no X (antigo Twitter).
Até então, o ChatGPT seguia várias etapas para analisar e responder comandos de voz. Primeiro, era preciso usar um modelo para converter o áudio para texto. Depois, o GPT-3.5 ou o GPT-4 interpretava o conteúdo e criava uma resposta. Por fim, outro modelo transformava o material de volta para áudio.
Segundo a OpenAI, o GPT-4o leva, em média, 320 milissegundos para responder comandos de áudio – o tempo mínimo foi de 232 milissegundos. A empresa diz que ele é muito mais veloz que os modelos antecessores: em média, o GPT-3.5 leva 2,8 segundos e o GPT-4, que é pago, toma 5,4 segundos.
“Com o GPT-4o, treinamos um único modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural”, disse a OpenAI, em comunicado.
O presidente-executivo da OpenAI, Sam Altman, afirmou que este é o melhor modelo já criado pela empresa. “É inteligente, é rápido, é nativamente multimodal”, disse.
A empresa também anunciou um aplicativo do ChatGPT para computador, que se junta à versão para navegadores e ao aplicativo para Android e iOS.