A IA de texto para imagem do Google pode fornecer “imagens fotorrealistas”


Em uma época em que a IA é novamente o foco do mundo da tecnologia, o Google criou seu gerador de IA text-ti-image que pode fornecer imagens com base na entrada de texto. É o sistema Imagen AI, que foi criado pela equipe do Google Brain e, se acreditarmos no Google e no monte de imagens de amostra, ele pode gerar “imagens fotorrealistas e profundo nível de compreensão da linguagem.“Aqui está uma olhada nos detalhes.

Aqui está o que o Imagen AI pode fazer!

Como o nome sugere, o trabalho não é difícil. Tudo o que você precisa fazer é digitar o que deseja ver e, com base em seu entendimento, após ler muitos dados, o Image gerará uma imagem para você.

O site Imagen mostra alguns casos de uso e o que vemos é bastante impressionante. A imagem combina modelos de linguagem de grande transformador na compreensão de modelos de texto e difusão para criar imagens de alta qualidade.

imagem de amostra de IA da imagem do Google
Imagem: Imagem

As saídas parecem bastante precisas e oferecem uma forte concorrência a outros modelos de IA de texto para imagem, como o popular DALL-E da OpenAI (que ainda tem um sucessor), VQ-GAN + CLIP e Modelos de difusão latente. O Google ainda tem provas. Ele introduziu uma ferramenta de benchmark chamada DrawBench para isso e seus dados percebem o Imagen como o melhor.

resultados do drawbench de IA da imagem do Google
Imagem: Imagem

O Google também revela que no COCO, o Imagen conseguiu atingir um COCO FID de 7,27 e os avaliadores humanos encontraram os resultados “a par com as imagens de referência. ”

Mas você deve saber que as imagens de amostra fornecidas por esses sistemas de IA são geralmente as que são consideradas as melhores e as que dão errado permanecem bem atrás das cortinas. Portanto, considerar o modelo de IA do Google o melhor pode ser muito cedo.

O modelo de IA também tem seu conjunto de ressalvas, que o Google não deixa de destacar. A IA pode ser usada como ferramenta para atividades maliciosas como a criação de conteúdo depreciativo ou imagens falsas e, portanto, ainda não está disponível para as pessoas experimentarem. Além disso, a IA pode ser propensa a vários preconceitos sociais.

o Leituras do site da imagemImagen apresenta sérias limitações ao gerar imagens que retratam pessoas. Nossas avaliações humanas descobriram que o Imagen obtém taxas de preferência significativamente mais altas quando avaliadas em imagens que não retratam pessoas, indicando degradação na fidelidade da imagem. A avaliação preliminar também sugere que o Imagen codifica vários preconceitos e estereótipos sociais, incluindo um viés geral para gerar imagens de pessoas com tons de pele mais claros e uma tendência de imagens que retratam diferentes profissões se alinharem aos estereótipos de gênero ocidentais.

Portanto, seria seguro dizer que o Imagen ainda precisa de algum trabalho para poder funcionar corretamente. No entanto, para a parte divertida, o Imagen parece uma boa escolha e, se você pretende ver algo pateta e irreal, talvez o Imagen possa ajudar. O que você acha da IA ​​de texto para imagem do Google? Deixe-nos saber nos comentários abaixo.

você pode gostar também