A OpenAI está introduzindo um novo modelo de geração de vídeo denominado Sora. A empresa de inteligência artificial afirma que o Sora “pode produzir cenas realistas e imaginativas a partir de instruções de texto”. Este modelo de texto para vídeo permite aos usuários criar vídeos fotorrealistas com duração de até um minuto, tudo com base nas instruções que escreverem.
De acordo com a postagem introdutória no blog da OpenAI, o Sora é capaz de criar “cenas complexas com múltiplos personagens, movimentos específicos e detalhes precisos do ambiente e do cenário”. A empresa também destaca que o modelo pode compreender como os objetos “existem no mundo físico” e pode “interpretar adereços com precisão, além de gerar personagens envolventes que expressam emoções vibrantes”.
Além disso, o modelo pode gerar um vídeo a partir de uma imagem estática, além de preencher quadros faltantes em um vídeo existente ou estendê-lo. Algumas das demonstrações geradas pelo Sora, incluídas na postagem do blog da OpenAI, mostram uma cena aérea da Califórnia durante a corrida do ouro, um vídeo que aparenta ter sido filmado de dentro de um trem em Tóquio, entre outros. Embora muitos destes vídeos possuam alguns sinais reveladores de IA, como um movimento de chão suspeito em um vídeo de um museu, a OpenAI afirma que o modelo “pode ter dificuldades para simular com precisão a física de uma cena complexa”. No entanto, os resultados são, no geral, bastante impressionantes.
Há alguns anos, eram os geradores de texto para imagem, como o Midjourney, que estavam na vanguarda da capacidade dos modelos em transformar palavras em imagens. No entanto, recentemente, os modelos para vídeo começaram a melhorar significativamente: empresas como Runway e Pika apresentaram seus próprios modelos impressionantes de texto para vídeo, e o Lumiere do Google também se destaca como um dos principais concorrentes da OpenAI neste campo. Similar ao Sora, o Lumiere oferece aos usuários ferramentas de conversão de texto em vídeo e também possibilita a criação de vídeos a partir de imagens estáticas.
Atualmente, o Sora está disponível apenas para “red teamers” que estão avaliando o modelo em busca de possíveis danos e riscos. A OpenAI também concedeu acesso a alguns artistas visuais, designers e cineastas para obter feedback. Observa-se que o modelo pode não simular com precisão a física de uma cena complexa e pode não interpretar adequadamente certos casos de causa e efeito.
No início deste mês, a OpenAI anunciou que está adicionando marcas d’água à sua ferramenta de conversão de texto em imagem, DALL-E 3, mas observa que essas marcas podem “ser facilmente removidas”. Assim como em seus outros produtos de IA, a OpenAI terá que lidar com as consequências de vídeos fotorrealistas falsos e gerados por IA sendo confundidos com reais.