A OpenAI anunciou o lançamento da geração de imagens no GPT-4o, um modelo multimodal avançado que combina texto e imagem para produzir resultados precisos, realistas e úteis. Com esta novidade, o GPT-4o não só gera imagens visualmente impressionantes, mas também atende a necessidades práticas, como a criação de diagramas, logótipos e ilustrações informativas.
Geração de Imagens Útil e Inteligente
Desde os primórdios da humanidade, a comunicação visual tem sido essencial para transmitir ideias e informações. Embora os modelos generativos atuais consigam criar cenas fantásticas, muitos ainda falham ao produzir imagens mais técnicas e descritivas. O GPT-4o revoluciona este cenário ao integrar conhecimentos contextuais e capacidades avançadas de renderização, garantindo imagens alinhadas às intenções dos utilizadores.
Com esta tecnologia, é possível criar imagens com textos legíveis, seguir instruções detalhadas e até transformar imagens enviadas pelos utilizadores. Além disso, a geração de imagens é interativa, permitindo refinamentos através de conversas contínuas no ChatGPT.
Capacidades Aprimoradas
O GPT-4o foi treinado em uma ampla base de dados de imagens e texto, aprendendo não apenas a relação entre linguagem e imagens, mas também como os elementos visuais se conectam entre si.
Como resultado, o modelo oferece:
- Renderização de Texto Aprimorada: Incorporando símbolos e palavras nas imagens para facilitar a comunicação visual.
- Geração Contínua e Iterativa: A capacidade de modificar imagens ao longo da conversa garante consistência e adaptação.
- Seguir Instruções Precisamente: Diferente de outros modelos, o GPT-4o pode processar até 20 objetos distintos em uma única imagem, mantendo precisão e coerência.
- Aprendizagem Contextual: O modelo compreende e integra elementos de imagens carregadas pelos utilizadores para gerar criações mais personalizadas.
- Conhecimento Mundial: A ligação entre texto e imagem melhora a precisão da informação representada visualmente.
- Fotorealismo e Estilos Diversos: O GPT-4o pode produzir imagens realistas ou estilizadas conforme a necessidade do utilizador.
Compromisso com a Segurança
A OpenAI reforça a sua política de segurança na geração de imagens. Todas as imagens geradas incluem metadados C2PA, permitindo a identificação da origem. Além disso, foi desenvolvida uma ferramenta interna de busca reversível para verificar se determinada imagem foi criada pelo modelo.
A plataforma mantém restrições rigorosas contra conteúdos inapropriados, incluindo imagens de abuso infantil, deepfakes sexuais e violência gráfica. A moderação utiliza um modelo de raciocínio baseado em especificações humanas para garantir que as diretrizes sejam seguidas de forma clara e consistente.
Disponibilidade e Acesso
A nova funcionalidade de geração de imagens está disponível para utilizadores das versões Plus, Pro, Team e Free do ChatGPT, com expansão para clientes Enterprise e Edu em breve. Além disso, os desenvolvedores terão acesso à API do GPT-4o nas próximas semanas.
Para aqueles que ainda preferem o DALL·E, este continua disponível como um modelo dedicado dentro do ecossistema da OpenAI.
Criar imagens agora é tão simples quanto conversar com o ChatGPT. Basta descrever a cena desejada, incluindo detalhes como proporções, cores exatas ou fundos transparentes. Embora a renderização de imagens mais detalhadas leve até um minuto, o resultado promete elevar a experiência da geração de imagens a um novo patamar de utilidade e precisão.
Para mais informações clica aqui.