Uma produtora de TV de Londres, no Reino Unido, criou uma propaganda para lá de bizarra com inteligência artificial para promover uma marca de cerveja fictícia. A Privateisland.tv usou ferramentas de IA para desenvolver um pequeno vídeo que parece extraído de um filme de terror.
O problema é que as imagens geradas por IA são estranhíssimas, com rostos deformados, objetos flutuantes e efeitos que não fazem o menor sentido. Em certo momento, há pessoas pegando fogo e garrafas que se fundem em copos de cerveja.
O vídeo de 30 segundos é embalado pela música “All Star”, do Smash Mouth, e mostra pessoas em uma festa. O estilo lembra bastante o adotado por marcas de bebida para divulgar produtos alcoólicos, geralmente associado a churrascos e eventos esportivos.
Sabendo da bizarrice, a própria PrivateIsland brinca na legenda ao dizer “nenhuma pessoa real aparece no vídeo”. E complementa dizendo que ninguém pode lutar contra o futuro, mas “pode bebê-lo”.
Como foi criada a propaganda com IA
A produtora não disse quais programas usou para chegar ao resultado, mas dá para ter uma ideia. É provável que tenha sido mais de um, afinal não existe uma IA capaz de produzir vídeos tão longos e detalhados.
A aposta dos usuários do Instagram, onde o vídeo foi originalmente publicado, seria a geração de fotos com o Stable Diffusion, cuja capacidade envolve a criação de clipes a partir de imagens estáticas. As imagens estáticas então ganham o movimento distorcido visto no vídeo.
Para fazer a animação, é provável o uso do Runway AI, ferramenta de criação de vídeos curtos a partir de comandos de texto. Assim, você pode juntar vários clipes para formar um conteúdo único como se tivesse sido editado em algum software.
O comercial bizarro de uma pizzaria criada por IA parece fichinha perto desse. Se não fosse a música feliz, talvez esse conjunto de imagens estivesse em algum filme trash.
Por que vídeos gerados por IA são tão esquisitos?
Embora as IAs de geração de imagem sejam impressionantes, ainda há um longo caminho a ser percorrido. As imagens resultantes normalmente apresentam imperfeições em áreas que exigem detalhes, como mãos e pés.
Já na parte de criação de vídeo, a tecnologia ainda está bem distante de algo realista. Simular a movimentação é algo complexo que animadores profissionais levam meses para fazer. Imagine, então, o quão difícil é para uma IA atuante sem intervenção humana e com poucos segundos para apresentar um resultado.
Mesmo que consigam reproduzir a estética de comerciais de cerveja, simular o ato de uma pessoa beber ou conversar é complicado. Com a aprendizagem de máquina, é possível que chegue algum momento no qual os algoritmos de vídeos conseguirão fazer essa reprodução de modo mais realista, mas isto pode levar muitos meses.
No caso do Runway AI, por exemplo, já existe uma clara evolução. A segunda geração foi treinada com base em 240 milhões de imagens estáticas e 6,4 milhões de videoclipes. Pode parecer muito em uma rápida olhada, mas ainda é pouco se comparado aos serviços de imagens.
O DALL-E 2, da OpenAI, usou mais de 650 milhões de combinações imagem-texto extraídos da internet para entregar os resultados atuais. Gerar artes e fotografias estáticas é muito mais simples do que vídeos em movimento, razão pela qual existe tanta discrepância.