Noticias
La generación de imágenes en chatgpt se ha mejorado mucho

Resumen
-
La generación de imágenes 4O en ChatGPT ofrece imágenes fotorrealistas con una consistencia mejorada y sigue con precisión las instrucciones.
-
Los usuarios pueden convertir imágenes en diferentes estilos y refinarlas a través de indicaciones.
-
Las imágenes cargadas se pueden emplear como referencias, o ChatGPT puede utilizar su propia base de conocimiento.
Cuando Operai deja una nueva característica, a menudo hay una pequeña cantidad de zumbido entre las personas interesadas, pero rara vez rompe Internet. Sin embargo, con el lanzamiento de un modelo actualizado de generación de imágenes, ChatGPT hizo exactamente eso.
La generación de imágenes 4O ha reemplazado a Dall-E como la herramienta de generación de imágenes predeterminada en ChatGPT, y los resultados son muy impresionantes. Ha llevado a que las personas inundan Internet con imágenes que han generado utilizando la herramienta, y su popularidad parece haber tomado por sorpresa por sorpresa.
La generación de imágenes 4O está integrada en GPT-4O
Como su nombre indica, 4O Generación de imágenes está integrada en el modelo GPT-4O. Mientras esté utilizando ese modelo, no necesita hacer nada más que pedirle a ChatGPT que cree una imagen, y la generación de imágenes 4O llegará a funcionar. Algunos modelos, como O1, no le permiten crear imágenes, pero parece que 4O Generation de imágenes no se limita a GPT-4O. Intenté crear una imagen en GPT-4, y todavía usaba la generación de imágenes 4O en lugar del modelo Dall-E que se usaba anteriormente.
Si prefiere usar Dall-E por algún motivo, todavía hay un Dall-E GPT dedicado disponible en la tienda pública GPT. Puede usar esto para generar imágenes utilizando el modelo más antiguo y menos capaz. Hay poco uso para eso ahora, aparte de ver cuán mejor se ha vuelto la generación de imágenes.
Crear excelentes imágenes fotorrealistas
Una de las mejoras más obvias sobre Dall-E es que la generación de imágenes 4O puede producir algunas imágenes fotorrealistas excelentes, sin que tenga que preocuparse demasiado por la elaboración rápida. Mientras que las imágenes tardan un poco en generarse y revelan lentamente de arriba hacia abajo de una manera que recuerda cómo las imágenes se solucionan lentamente sobre el acceso telefónico, los resultados son muy superiores a lo que Dall-E podría producir.
Relacionado
La nueva generación de imágenes de Chatgpt se siente como un acceso telefónico de nuevo
Ver mis imágenes aparecer lentamente de arriba hacia abajo me lleva de regreso a los viejos tiempos.
Le pedí a Dall-E una imagen fotorrealista de un mono con un sombrero de copa, y esto es lo que me dio:
Esta es una imagen generada por la generación de imágenes 4O utilizando el mismo aviso:
La diferencia es asombrosa y, francamente, un poco aterradora. Hasta ahora, generalmente es posible saber si una imagen era generada por AI si parecía lo suficientemente fuerte para dedos adicionales o texto destrozado. Sin embargo, las imágenes que genera ChatGPT son muy difíciles de distinguir de lo real, y como se dice comúnmente sobre los nuevos desarrollos de IA, este es lo peor que jamás sean.
Puedes convertir imágenes en diferentes estilos
Una de las cosas que ha incorporado Internet desde el lanzamiento de 4O Generation de imágenes es la capacidad de pedirle a ChatGPT que convierta sus imágenes en diferentes estilos. Por ejemplo, puede subir una foto tuya y pedirle a ChatGPT que la cambie al estilo de Van Gogh. Esto no es algo nuevo, pero la calidad de los resultados es un gran paso adelante de Dall-E.
Esto hizo que muchas personas comenzaran a subir imágenes de sí mismas o de la cultura popular que se habían transformado en el estilo de Studio Ghibli, el popular estudio de animación detrás de películas clásicas como Enérgico y Mi vecino Totoro. Los resultados suelen ser impresionantes, pero provocó un debate en línea sobre cuán ético es usar AI para robar esencialmente el estilo de un artista sin su permiso. En el momento de escribir, sin embargo, todavía podía hacer imágenes al estilo de Studio Ghibli sin problemas.
Es fácil refinar imágenes a través de indicaciones
Otra mejora importante es que la generación de imágenes 4O tiene una excelente consistencia. Esto significa que si hay una pequeña cosa mal con su imagen, puede pedirle a ChatGPT que lo arregle, y dejará solo el resto de la imagen. Dall-E a menudo hará cambios importantes en el resto de la imagen cuando intente arreglar una parte de ella.
Esto hace que sea mucho más fácil obtener la imagen exacta que desea, que a menudo es una gran fuente de frustración con Dall-E. Tendría que probar varias veces incluso para acercarse a la imagen que quería, y a veces fallaría por completo. Ahora, por ejemplo, puede pedir tener el sombrero de copa del mono en un ángulo diferente, y el sombrero cambiará, pero el resto de la imagen permanecerá igual.
Esta consistencia también lo hace excelente para producir múltiples imágenes de la misma persona o carácter. Puede pedir que el mismo personaje aparezca en una configuración diferente, y ChatGPT preservará la apariencia del personaje en su nueva imagen.
Chatgpt finalmente puede manejar el texto
Este es uno de los mayores cambios en la generación de imágenes 4O. Dall-E podría agregar texto a las imágenes, pero realmente, realmente luchó por hacerlo. Por lo general, recibirías un mensaje de texto que se parecía principalmente a las palabras que querías, pero que estaban muy ligeramente apagados. Suficiente para arruinar sus imágenes, al menos. Usando la generación de imágenes 4O, puede crear el texto exacto que desea, y genera sin problemas.
Esto, combinado con la consistencia mejorada, significa que puede crear cosas usando la generación de imágenes 4O que simplemente no eran posibles antes. Bosquejé un terrible dibujo de un alienígena de dibujos animados y pude crear una caricatura de cuatro paneles que usó ese personaje, completo con burbujas de habla con texto perfecto. Tomó más tiempo escribir el aviso que para generar mi dibujos animados completos.
4O La generación de imágenes seguirá las instrucciones
Esto es enorme. Uno de los mayores problemas que tuve con Dall-E es que a menudo se negaría a seguir una instrucción, especialmente si esa instrucción involucraba un negativo. Pasé horas tratando de generar una imagen de Santa con bigote pero sin barba (solo para ver cómo se vería, obviamente), y no importa lo que intentara, obtendría una barba completa cada vez.
La única forma en que logré acercarme al éxito fue pedirle que generara una imagen de Hercule Poirot disfrazada de Santa, e incluso entonces, tomó múltiples intentos antes de obtener una imagen sin la barba y un bigote blanco. Ahora, sin embargo, puedo obtener una imagen de Santa sin barba en el primer intento.
Sin embargo, la adhesión de instrucciones es aún más impresionante. Puede definir hasta 20 objetos diferentes, describiendo cada uno, y la generación de imágenes 4O seguirá las instrucciones para cada objeto. El ejemplo que ofrece OpenAI es para una cuadrícula 4×4 de emoji con formas y colores específicos, y ChatGPT puede crear una imagen con los 16 emoji exactamente como se describe.
Puede usar imágenes cargadas como referencias
Una desventaja de generar imágenes a partir de indicaciones es que describir lo que desea en una imagen puede ser difícil, pero describir el estilo de la imagen puede ser aún más difícil. Decirle a ChatGPT que produzca el aspecto exacto que tiene en la cabeza no siempre es tan fácil.
Afortunadamente, no solo necesitas usar texto. Puede cargar imágenes para indicar el tipo de estilo que desea para sus imágenes. CHATGPT usará estas imágenes para informar la imagen final que genera a partir de su mensaje.
Si desea un elemento específico en su imagen, por ejemplo, puede cargar una imagen de él en ChatGPT. Si desea que las personas se encuentren en una pose específica, puede subir una imagen de personas que se encuentran en esa pose. Si encuentra una ilustración que desea que fuera una imagen fotorrealista, puede cargarla y pedirle a ChatGPT que lo convierta en una fotografía.
Incluso puede dibujar un bosquejo aproximado de cómo quiere que se vea la imagen, tomar una foto y subirlo a Chatgpt. Luego puede generar una imagen fotorrealista basada en su terrible boceto. Hace que sea mucho más fácil generar la imagen exacta que desea.
Las imágenes pueden llamar al conocimiento de Chatgpt.
La generación de imágenes 4O no se limita a la información en su mensaje o los archivos que carga. GPT-4O tiene su propia base de conocimiento a la que puede recurrir, para ayudarlo a crear las imágenes que desea. Las imágenes Studio Ghibli son un excelente ejemplo; No necesitas explicar cómo se ve Studio Ghibli Animation; Chatgpt ya lo sabe.
Sin embargo, esto va mucho más allá de conocer diferentes estilos artísticos. Cualquier conocimiento que ChatGPT tenga se puede aplicar a sus imágenes. Por ejemplo, puede solicitar un diagrama que explique el ciclo del agua, y no necesita explicar cuál es el ciclo del agua; ChatGPT extraerá la información clave de su propio conocimiento.
4O La generación de imágenes no es perfecta (todavía)
4O La generación de imágenes es increíblemente buena. De hecho, es tan bueno que Sam Altman, el CEO de OpenAI, tuviera que agregar límites de tarifa porque las GPU de la compañía comenzaban a derretirse.
Inicialmente, puede crear tantas imágenes como quisiera, pero ahora a menudo verá un mensaje que le dice que debe esperar unos minutos antes de crear otra imagen. No es el único problema que puede encontrar con la generación de imágenes 4O.
También hay limitaciones en la creación de ciertos tipos de contenido. En teoría, al menos, no debería poder generar nada ofensivo o inapropiado. Si intenta crear imágenes con caracteres con derechos de autor, ChatGPT también puede rechazar. Las líneas están un poco borrosas aquí. Por lo general, puede crear personajes de un estilo similar, si no los personajes en sí, o evitar las restricciones utilizando indicaciones ligeramente vagas.
El seguimiento de las instrucciones no siempre funciona perfectamente, y todavía ocasionalmente también tengo problemas con el texto. Ahora es muy raro, pero ocasionalmente, arrojará una letra adicional, especialmente si agregar esa letra todavía hace que el texto sea una palabra válida. Sin embargo, generalmente puede corregir fácilmente estos errores con la próxima generación.
La generación de imágenes 4O es un salto considerable en la generación de imágenes de IA, con un fotorrealismo mejorado, una mejor consistencia y una instrucción significativamente mejor. Ahora es increíblemente fácil crear imágenes fotorrealistas que se ven exactamente como quieres.
Sin embargo, hay muchas preguntas éticas que esto plantea. Si eres un diseñador gráfico o un fotógrafo, esta actualización enviará escalofríos por la columna vertebral. Lo que no se puede negar es que esta actualización ha hecho que sea mucho más fácil para los usuarios de ChatGPT crear imágenes muy impresionantes, sean cuales sean los dilemas éticos.