Com o avanço da Inteligência Artificial no campo das imagens e textos, ferramentas como ChatGPT (DALL·E), Midjourney e Gemini têm se tornado populares entre nós – criadores de conteúdo, designers e entusiastas digitais no Brasil.
Teste comparativo entre as Inteligências Artificiais ChatGPT, Midjourney e Gemini usando o mesmo prompt de imagem realista
Para entender melhor como cada inteligência artificial (IA) interpreta um mesmo pedido criativo, fiz um teste utilizando o seguinte prompt de imagem de Feliz Dia dos Pais:
A realistic photo-style image of a father and his young son sharing a joyful hug at sunset. Both are smiling with genuine happiness. The setting is an open field with warm golden sunlight and soft natural shadows. The atmosphere is peaceful, full of love and connection. Include the phrase ‘Feliz Dia dos Pais’ in elegant, clearly visible cursive text positioned in the lower part of the image, making sure the text is complete and unobstructed.
O objetivo era gerar uma imagem foto realista para o Dia dos Pais, com destaque para o carinho entre pai e filho e um texto legível em português. A seguir, os resultados observados:
1. ChatGPT (com DALL·E)
- Qualidade da imagem: Alta
- Dimensão: 1024 x 1536 pixels (formato vertical)
- Texto na imagem: Correto, com a frase completa e bem posicionada
- Estilo: Realista, com iluminação dourada e expressões emocionais bem retratadas
O DALL·E, integrado ao ChatGPT, apresentou um ótimo equilíbrio entre fidelidade ao prompt, realismo da cena e qualidade do texto. A imagem apresenta um cenário harmonioso, boa composição e um estilo fotográfico convincente. O destaque positivo foi a ortografia perfeita na frase “Feliz Dia dos Pais”, algo que nem todas as Inteligências artificiais (IA) conseguem fazer.
2. Midjourney
- Qualidade da imagem: Muito alta
- Dimensão: 2048 x 2048 pixels (formato quadrado)
- Texto na imagem: Apresentou erros ortográficos (palavras incompletas ou distorcidas)
- Estilo: Extremamente realista, com renderização rica em detalhes
O Midjourney continua sendo referência em qualidade visual e riqueza de detalhes. No entanto, a geração de textos legíveis é seu principal ponto fraco, especialmente com frases em português. Mesmo com quatro variações geradas por padrão, nenhuma delas apresentou a frase corretamente escrita. Para imagens que exigem lettering correto, o Midjourney ainda depende de edição manual posterior.
3. Gemini
- Qualidade da imagem: Alta
- Dimensão: Similar à do ChatGPT (vertical)
- Texto na imagem: Correto, com boa caligrafia e sem erros
- Estilo: Muito parecido com o da imagem gerada pelo ChatGPT
O Gemini gerou uma imagem surpreendentemente muito semelhante à do ChatGPT, especialmente nos rostos dos personagens e nas cores das roupas. O menino tinha camiseta semelhante, e os rostos dos pais também seguiam o mesmo padrão estético. A frase “Feliz Dia dos Pais” foi apresentada com clareza e precisão.
Por que as imagens do ChatGPT e do Gemini são tão parecidas?
Essa semelhança ocorre por fatores técnicos e de infraestrutura. Tanto o ChatGPT (com DALL·E) quanto o Gemini utilizam modelos de IA que compartilham bases de dados semelhantes e treinamento em bibliotecas visuais parecidas, priorizando imagens mais genéricas e com representações universais. Ambos usam redes neurais voltadas para coerência com o prompt textual, o que tende a gerar padrões visuais muito semelhantes, especialmente quando o prompt é detalhado.
Além disso, é possível que os dois sistemas utilizem conjuntos de dados públicos e bancos de imagens amplamente utilizados para treinar seus modelos generativos, o que favorece uma “estética comum”.
O Midjourney possui um modelo próprio
Já o Midjourney possui um modelo próprio, mais artístico e com menos foco em replicar cenas específicas com precisão textual. Ele prioriza estilo visual, textura e iluminação complexa, o que leva a resultados distintos e menos padronizados — mas também menos previsíveis em relação a textos e detalhes linguísticos.
Como as IAs escolhem os biotipos das pessoas nas imagens?
As IAs geradoras de imagem não “escolhem” diretamente um biotipo com intenção consciente. Elas funcionam com base em probabilidades estatísticas e padrões aprendidos a partir de milhões de imagens reais.
Isso significa que, ao gerar a imagem de um “pai e filho felizes”, o sistema busca padrões visuais comuns a esse tipo de relação, considerando:
- Expressões emocionais universais (sorriso, abraço)
- Representações majoritárias encontradas no dataset (por isso é comum ver biotipos ocidentais)
- Iluminação e poses mais frequentes em bancos de imagem
A menos que o prompt especifique etnia, idade ou características físicas, a IA tende a seguir padrões neutros ou dominantes em seu conjunto de dados de treinamento.
Plataforma | Qualidade da Imagem | Texto Correto | Dimensão | Diferencial |
---|---|---|---|---|
ChatGPT | Alta | ✅ Sim | 1024 x 1536 px | Imagem realista, frase perfeita |
Midjourney | Muito alta | ❌ Não | 2048 x 2048 px | Estilo visual incrível, mas texto problemático |
Gemini | Alta | ✅ Sim | Similar ao ChatGPT | Visual quase idêntico ao ChatGPT |
Se a prioridade for qualidade do texto e fidelidade ao prompt, o ChatGPT e o Gemini se destacam. Já se o objetivo for um visual artístico impactante, mesmo com limitações no texto, o Midjourney continua sendo imbatível.
⚠️ Atenção na criação dos prompts
Ao trabalhar com inteligência artificial para gerar imagens, é essencial redigir prompts específicos e bem direcionados. Descrições genéricas ou vagas tendem a ativar padrões comuns aprendidos pelos modelos, o que pode resultar em imagens visualmente semelhantes às já existentes em bancos de dados públicos ou na internet — reduzindo a originalidade da arte. Isso vale especialmente para representações humanas, que seguem biotipos e composições recorrentes nos datasets de treinamento.
Para quem busca exclusividade visual, vale investir tempo em detalhar características como etnia, vestimenta, cenário, enquadramento, estilo artístico ou fotográfico e até emoções específicas — o que pode gerar resultados mais únicos e personalizados.
Sobre o Autor
O autor, Ronaldo Baker, é designer e ilustrador profissional há mais de 30 anos. É proprietário da Baker Design, empresa especializada em design gráfico e marketing digital. Possui vários sites sobre design como nfldesigns.com, topfootballdesigns.com, bakerdesign.com.br, mensagensevangelicas.com.br e bakermarcas.com.br