Poucos meses detrás, se você quisesse gerar uma imagem de um pouco, você tinha que ser capaz de esboçar, pintar ou usar uma das ferramentas de photoshop sobre as quais os outros falam. Depois de 2022, porém, tudo mudou, tudo graças à IA – sim, uma vez que em “perceptibilidade sintético”.
Em vez de tentar dominar o mundo, as ferramentas de IA com inclinação artística podem transformar qualquer coisa que você descreva para elas em uma imagem.
Venha conosco enquanto entramos no mundo da visualização de texto com perceptibilidade sintético e veja uma vez que você pode usar essas ferramentas para transmudar seus pensamentos em imagens reais simplesmente digitando o que você tem em mente.
Dall-E: O lado artístico do GPT-3 da OpenAI
As primeiras ferramentas baseadas em IA que se tornaram populares foram baseadas no GPT-3 da OpenAI. Uma das razões foi a buraco do projeto ao aproximação extrínseco, o que levou a algumas sugestões de que o GPT-3 é o horizonte do trabalho criativo.
Hoje você pode usar as ferramentas oficiais encontradas no site beta do OpenAI ou soluções de terceiros que aproveitam seus superpoderes linguísticos. Por exemplo, você pode pedir ao GPT-3 para gerar um rascunho para uma postagem, responder a perguntas simples ou até mesmo revisar ou transcrever qualquer texto.
Em 2022, o OpenAI revelou que o GPT-3 era também bom na geração de imagens. O projeto DALL-E, uma pândega com o filme WALL-E da Pixar e o nome de Dali, usa o GPT-3 não para trabalhar com texto, mas uma vez que um mecanismo de geração de imagens.
Assim uma vez que com GPT-3 e texto, DALL-E não é realmente um gênio criativo, materializando imagens do zero. Em vez disso, foi “treinado” em milhões de imagens que já existem online. Seus poderes de IA estão em averiguar essas imagens, tirar elementos delas, ajustar, transformar, ajustar e, finalmente, combiná-las em novas imagens.
Pelo menos, essa é uma versão simplificada do que acontece em segundo projecto. A maioria das pessoas só se importa com o que vê na frente delas, e essa é uma caixa de texto onde você pode digitar um pouco e vê-lo transformado em imagem depois alguns minutos.
Resposta de imagem do Google
O Google é um dos três principais “jogadores” na pesquisa de IA. Ainda assim, seu progresso não é facilmente perceptível, nem suas implementações em produtos são tão acessíveis quanto as ofertas da OpenAI.
Uma das primeiras implementações amplamente disponíveis do Google AI foi no Google Docs e no Gmail, na forma de preenchimento automático e sugestões mais inteligentes, sabido uma vez que Smart Compose. Não entraremos em detalhes, pois já abordamos o Smart Compose (e uma vez que você pode usá-lo).
Quando esses recursos estão ativos, os aplicativos da web do Google comparam o que o usuário digita com o que milhões de outros escreveram no pretérito. Logo, sugere o que eles digitaram depois.
É a prova de que, apesar do que gostamos de encarregar, não somos tão diferentes. Se 99 em cada 100 pessoas digitarem “mais tarde” depois de “até mais”, provavelmente é isso que continuaríamos digitando também.
Todos nós já usamos alguma forma de preenchimento automático, mesmo de volta ao sistema de texto preditivo T9 da era “dumbphone”. É por isso que as ferramentas de IA do Google não pareciam tão inteligentes quanto o GPT-3 do OpenAI. Eles não se sentiram muito mais em uso do que um sistema T9 melhor correcto para o século 21. E é também por isso que a revelação de Imagen foi um pouco chocante.
Porquê um DALL-E em esteróides, o Imagen é uma utensílio de visualização de texto. Com base no que está disponível hoje, o Imagen pode produzir imagens mais “limpas” e vívidas, além de saber uma vez que mourejar com recursos avançados uma vez que espalhamento e transparência.
Infelizmente, no momento da redação deste item, o aproximação ao Imagen permanece restrito, por isso não pudemos experimentá-lo.
DALL-E Mini and Friends: desimpedido para negócios
Você não pode acessar livremente DALL-E e Imagen—ainda. Ainda assim, muitas alternativas já estão disponíveis se você quiser folgar com a geração de imagens textuais com perceptibilidade sintético.
Tendo em mente que esses são os primeiros dias, e os resultados ou a experiência do usuário que eles oferecem podem estar longe do ideal, ainda vale a pena conferir alguns dos itens a seguir.
Fazendo memes com o Dall-E Mini
Graças a uma combinação de resultados mais do que adequados e uma interface amigável, mas mais importante, sua ampla disponibilidade, o DALL-E mini tornou-se um dos visualizadores de texto de IA mais populares.
Longe de ser perfeito, às vezes os resultados do DALL-E mini podem ser mais abstratos do que o solicitado.
Outras vezes, pode não gerar o que você tinha em mente, mas pode chegar muito perto.
Depois sua explosão de popularidade, os criadores do DALL-E mini o mudaram para uma novidade morada com uma novidade marca. Agora você pode encontrar a última versão do DALL-E mini uma vez que Craiyon em seu próprio site.
Usar o Craiyon hoje é tão fácil quanto pesquisar online uma imagem existente. Você pode visitar seu site, digitar uma descrição de sua imagem em seu campo de texto e pressionar Enter. Depois de um tempo, você verá os resultados na tela.
O que impressiona é o quão bom Craiyon e ferramentas semelhantes são em imitar estilos visuais. Por exemplo, pedimos para relembrar imagens de um filhote de cachorro em um skate:
Logo, usamos a frase exata, mas adicionamos um “estilo Pixar” depois dela. Depois de um tempo, Craiyon mostrou uma grade de imagens mais “desenhadas”, mais próximas do que percebemos uma vez que gráficos ray-traced da Pixar em seus amados filmes.
Craiyon nos deu resultados ainda melhores quando substituímos “estilo Pixar” por “estilo anime” no mesmo prompt.
O anime é mais estilizado em sua semblante do que as imagens mais realistas da Pixar, o que parece ter ajudado Craiyon a produzir algumas imagens quase prontas para uso.
Brincando com a espalhamento latente
O padrão Latent Diffusion treinado no conjunto de dados LAION-400M é outro visualizador de texto de IA interessante. No entanto, também é mais complicado em seu uso. Você deve executá-lo online em uma máquina virtual e folgar com seus vários parâmetros em vez de simplesmente digitar em um campo de texto. Ainda assim, é mais fácil do que parece.
- Visite o espaço colab Google Latent Diffusion que atualmente é sua morada.
- Role um pouco para insignificante e observe o Pronto campo sob Parâmetros. Substitua o prompt padrão pelo que você deseja que sua imagem represente.
- Escolher Executar tudo de Tempo de realização menu ou pressione CTRL + F9.
- Se você deseja exportar as imagens produzidas diretamente de dentro da utensílio, responda positivamente quando perguntado se deseja vinculá-la à sua conta do Google Drive. A utensílio morosidade um pouco para concluir sua forma e precisa subtrair alguns arquivos durante o processo.
Aumentando os valores de Passos, Iteraçõese Samples_in_parallel, pode levar a resultados mais detalhados. No entanto, a utensílio é extremamente exigente em recursos nos servidores do Google. Porquê resultado, ele pode travar se você aumentar muito esses valores ou o processo de geração de uma imagem específica se tornar mais complicado do que o esperado.
Alternativas interessantes
Passamos uma quantidade significativa de tempo testando DALL-E mini e Latent Diffusion. Nosso método científico consistia em duas partes distintas. Primeiro, tivemos que gerar conceitos que pudessem ser descritos com precisão uma vez que malucos. Em seguida, peça a esses visualizadores de IA para transformá-los em imagens. Mais frequentemente do que o esperado, eles conseguiram, chegando perto da forma universal que tínhamos imaginado.
Também tentamos algumas das alternativas disponíveis para nascente item. Ainda estamos aguardando o aproximação a outros. Alguns dos que vale a pena conferir são (sem ordem específica):
A arte gerada por IA substituirá as artes visuais?
A riqueza e a crescente popularidade das ferramentas de geração de imagens baseadas em IA levam muitos a concluir que as artes visuais morrerão em breve. Qual é o sentido de investir tempo e vontade para aprender a riscar ou usar software complicado para visualizar as coisas quando uma IA pode fazê-lo mais rápido (e logo melhor) do que você?
Se você notou, essas ferramentas são todas “treinadas em conjuntos de dados”. Em linguagem simples, isso significa que eles fazem o que fazem graças aos humanos que já fizeram a mesma coisa antes.
Essa é a dica de por que essas ferramentas não podem substituir a arte, a originalidade e a engenhosidade humana. Eles são imitadores, replicadores inteligentes. Sem os originais produzidos humanamente nos quais eles são treinados, eles não seriam capazes de produzir qualquer saída.
Ainda assim, isso é o agora, e admitimos que não sabemos o que o horizonte suplente. Por enquanto, os artistas visuais podem dormir em segurança. No entanto, no ritmo em que a IA está evoluindo, muitos especialistas no material concordam que não é uma questão de substituir o trabalho de pessoas uma vez que o seu de verdade. É exclusivamente uma questão de quando.
Mas ei, nem tudo é desgraça e melancolia. Enquanto a Skynet se prepara para comportar nossos empregos, pelo menos podemos contentar nosso humor criando sem esforço imagens de filhotes em skates!