O Google deu uma pequena amostra de duas novas ferramentas de inteligência artificial que transformam texto em vídeo. Uma se concentra em oferecer imagens de qualidade, mais realistas, enquanto outra permite a criação de clipes mais longos.
Google Imagen Video
A primeira ferramenta é a Imagen Video. O Google Imagen é um sistema mais antigo da empresa, lançado para rivalizar com o DALL-E e outras tecnologias semelhantes. A versão em vídeo parte do mesmo pressuposto, mas adiciona uma técnica de IA mais aprimorada e um componente capaz de transformar uma única imagem estática em várias com o movimento fluido.
O resultado lembra bastante os GIFs tradicionais e mescla cenários, estilos visuais e conteúdos surreais em um visual estilizado. É claro que algumas imagens ainda parecem bastante falsas, mas há tantas outras que impressionam — alguém retirando neve com a pá e uma pessoa pegando uma xícara de café.
A IA ainda parece ser incapaz de reproduzir corretamente o movimento de pessoas e animais reais, criando algumas deformações. Mesmo assim, não dá para negar o quão fascinante é saber que tudo isso foi criado apenas com orientações textuais, sem qualquer interferência humana na edição.
Como são criadas imagens no Imagen Video
O Google ainda divulgou quais foram as legendas usadas para criar cada imagem. Muita gente pensa que é necessário ser extremamente preciso para criar conteúdos nessas ferramentas de IA, mas isso não é verdade. Obviamente que quanto mais detalhista você for, maiores as chances de o resultado sair como o esperado.
O modelo usado pelo Imagen Video produz 16 quadros de imagens de 3 fps e resolução de 24×48 pixels. O conteúdo de baixa resolução original é automaticamente redimensionado graças a uma ferramenta embutida, resultado em GIFs com 128 quadros de imagens com 24fps e resolução de 1280×768.
A ideia do Google parece inspirada na iniciativa da Meta. A controladora do Facebook e Instagram compartilhou recentemente um novo modelo de IA que transforma scripts de texto em vídeos curtos e sem som.
Tal como ocorre na maioria dos modelos guiados por aprendizado de máquina, sempre existe o temor de IAs reproduzirem preconceitos sociais. Os engenheiros de software do Google disseram ter testado alguns filtros para evitar o uso indevido, mas não disseram se pretendem implementá-los.
As pessoas podem acabar usando essas ferramentas para criar deepfakes, pornografia não autorizada, racismo, discursos de ódio e incentivos à violência. É possível que sejam futuramente implementadas algumas travas de palavras-chave para evitar a criação deste tipo de conteúdo indesejado quando o público tiver acesso.
Google Phenaki
O outro modelo apresentado pelo Google é chamado Phenaki. Embora a tecnologia seja bem parecida com o Imagen, o foco aqui é criar vídeo mais longos a partir dos roteiros mais detalhados.
Na prática, a ferramenta deve possibilitar a criação de pequenas histórias animadas, como ocorreria em quadrinhos, quando o desenhista recebe o script pronto para o autor e tenta transformá-lo em desenho. Essa IA deve ser mais voltada para o mercado profissional, já que exigirá conhecimentos avançados em roteirização e descrição.
Por exigir mais na hora da criação, o resultado do Phenaki é muito menos impressionante sob a ótica da qualidade visual. As imagens geradas tem uma resolução baixa e a movimentação é bem artificial.
Mas se você pensar que o vídeo de 2 minutos e 21 segundos foi inteiramente construído por uma inteligência artificial, a partir de um parágrafo de descrição, verá a grandiosidade da ferramenta. Há vários projetos desenvolvidos pelos pesquisadores do Google e disponibilizados no site para impressionar o usuário.
Segundo a publicação oficial, o modelo será capaz de gerar vídeos sem limitação de tempo e com som. Versões futuras serão parte de um conjunto de ferramentas voltadas para artistas e não artistas explorarem sua criatividade. Já imaginou construir uma animação inteira somente pelo Phenaki? Isso ainda não é possível, mas pode ser uma realidade no futuro. Pixar que se cuide…