O aparecimento do DALL-E e dos seus grandes concorrentes, Midjourney ou Stable Diffusion, despertou o interesse em modelos generativos de IA no campo artístico. São muitas as empresas que criaram produtos fantásticos e apelativos – ou os integraram em outros já existentes, como a todo-poderosa Adobe – mas ainda há espaço para outras soluções.
Isso é demonstrado pelo Pikaso, a nova ferramenta de criação artística do Freepik. A empresa já trabalha há algum tempo em soluções baseadas em IA generativa e agora apresenta sua nova e interessante opção. Em Xataka pudemos testá-lo e fale com Omar Pera, um de seus gestores.
No Pikaso a geração de imagens é especialmente notável porque ocorre (quase) em tempo real. Esse é o grande diferencial de uma plataforma que nos permite gerar imagens que combinam um prompt de texto com um esboço que podemos criar facilmente com a ferramenta de desenho oferecida pela interface.
A mistura das duas opções torna o sistema capaz de agir instantaneamente para criar o que procuramos. A interface é simples e se concentra em oferecer uma “tela” à esquerda para desenhar nosso esboço, uma caixa de resultados gerados pela IA à direita e uma terceira caixa de texto abaixo dessas duas na qual podemos inserir o prompt.
É especialmente importante sermos descritivos com o prompt, pois os detalhes que damos nesse texto serão aqueles que permitirão ao motor de IA “entender” o que queremos e aplicá-lo ao esqueleto do esboço que temos criada. Ambos os inputs – estamos tratando de um sistema multimodal – são os que definem o comportamento e o resultado final do Pikaso.
Desenhar por acaso na tela de um computador ou celular não é particularmente fácil, principalmente se não temos experiência, mas isso não importa muito: Pikaso não precisa de muito para trabalhar: alguns rabiscos são suficientes (e nem isso) e a descrição acima mencionada do prompt.
No painel que nos permite desenhar existe de facto um acesso especial a uma biblioteca de formas geométricas e ícones. Os primeiros facilitam a adição desses tipos de elementos ao nosso esboço.
Estes últimos permitem que a nossa tela tenha elementos que queremos incluir para que sejam facilmente reconhecíveis pela IA e não nos dêem trabalho excessivo se quisermos esboçá-los.
A partir daí, do lado direito um primeiro projeto preliminar aparecerá, geralmente em tons suaves e provavelmente ficará desfocado. A diversão começa aí: três controles aparecem acima da janela direita.
O primeiro, um controle deslizante com a “Imaginação” que o modelo utiliza (quanto mais alto, mais imaginativo e criativo), o segundo, um controle para “reimaginar” o design e mudar um pouco o foco. E terceiro, um botão “Aprimorar” que é responsável por criar uma imagem final mais detalhada e de melhor qualidade.
O que é realmente impressionante sobre a ferramenta é que à medida que fazemos alterações, isso faz com que o resultado do lado direito mude em tempo real, ou quase. Podemos fazer um novo traço no lado esquerdo, adicionar mais detalhes no prompt de texto, incluir uma nova forma geométrica ou ícone, mover os que já temos… todas essas mudanças será refletido imediatamente no resultado finalalgo realmente marcante e que demonstra a potência do modelo.
Em Xataka conseguimos falar com Omar Pera (@ompemi), um dos responsáveis pela criação deste novo recurso do Freepik. Como ele nos contou, Pikaso se baseia em um estudo recente que analisa os chamados Modelos de Consistência Latente (LCM), modelos generativos capazes de gerar imagens de alta resolução por meio de descrições de texto.
Ao contrário de outras técnicas, estes sistemas aprendem a prever a representação “latente” de uma imagem a partir do prompt de entrada, em vez de gerar a imagem pixel por pixel. Isso simplifica muito o processo em comparação com os modelos de difusão, que requerem inúmeras etapas adicionais para gerar essas imagens.
Como destacou Pera, “eles encontraram uma maneira muito mais eficiente de gerar imagens por IA, e isso abre um novo mundo. Antes demorava segundos, agora leva milissegundos. E viemos de bancos de imagens elaborados em horas. As IAs generativas em imagem e vídeo permitem multiplicar por dez o número de pessoas que conseguem criar designs e serem criativas, sem a necessidade de outros aplicativos complexos que podem se tornar uma barreira de entrada para capturar suas ideias.”
Há também outra seção importante no Pikaso que este desenvolvedor destacou para nós. Existem diversas plataformas que também aproveitaram rapidamente o progresso dos LCMs, mas o Freepik é até capaz de evitar que você precise desenhar algo no esboço: os ícones e elementos gráficos que estão disponíveis na biblioteca do serviço podem ser adicionados diretamente e, a partir deles e no prompt, crie a imagem desejada.
Em Xataka | A startup espanhola Freepik já é uma das ‘saídas’ mais importantes da história de Espanha depois de ter sido comprada pelo fundo EQT