Sora es el último modelo de IA de OpenAI diseñado para generar videos de alta fidelidad a partir de descripciones de texto, lo que lleva la creación de contenido con IA a nuevas alturas.
A diferencia de las herramientas tradicionales de generación de videos, Sora puede producir escenas complejas y dinámicas con movimiento realista, entornos detallados y personajes consistentes.
Aviso: ¿Puede generar una imagen colorida realista de perro con un traje en la calle en una relación 16: 9?
Captura de pantalla de Sabrina Ortiz/Zdnet
OpenAi puede haber iniciado la moda de la generación de texto a imagen con su modelo Dall-E, pero desde esos días de gloria anteriores, la oferta de la compañía de IA ha sido lapada por modelos de imagen mucho más capaces. Como resultado, cuando Operai lanzó su último y mejor modelo de generación de imágenes GPT-4O, me escéptico. Después de probarlo, he cambiado de opinión por completo.
Empezando
Cuando Dall-E se lanzó por primera vez, vivió en su sitio web independiente; Desde entonces, se ha movido a Chatgpt. La medida llegó con muchos beneficios, incluso poder pedirle al chatbot Ai una imagen que desee en la misma interfaz donde ya está charlando sobre otra cosa, eliminando así la necesidad de un cambio de contexto constante.
Con el lanzamiento de la generación de imágenes GPT-4O, OpenAI mantuvo este formato conveniente, cambiando el generador de imagen predeterminado de Dall-E a GPT-4O para suscriptores pagados. Como resultado, fue muy fácil comenzar a crear nuevas imágenes desde mi cuenta ChatGPT Plus. Todo lo que tenía que hacer era ingresar el mensaje de lo que quería ver, y luego los generaría. Los usuarios también pueden acceder a él desde la interfaz Sora.
También: Cómo usar Sora de OpenAi para crear impresionantes videos generados por AI
Cuidado: aún puede generar imágenes de manera similar si es un usuario gratuito. Sin embargo, si no está impresionado, eso se debe a que, aunque en el lanzamiento, se anunció que el modelo venía a todos los usuarios, incluidos los gratuitos, el CEO de Operai, Sam Altman, anunció un día después que el despliegue al nivel libre ahora se “retrasaría por un tiempo”.
Las imágenes
En el momento en que has estado esperando: las imágenes. Después de insertar una solicitud, el IA genera la generación en menos de un minuto. El proceso lleva un poco más de lo que solía, pero las imágenes valen la pena, entregando muchos detalles, textura, realismo e incluso precisión del texto. En lugar de describirlo, incluiré ejemplos a continuación para que pueda verlo usted mismo.
Inmediato: ¿Puedes generar una imagen realista de un camaleón, de cerca, filmado como si estuviera en National Geographic en la relación 16: 9?
Sabrina Ortiz/Zdnet a través de chatgpt
Inmediato: ¿Puede generar una imagen de una computadora portátil abierta en un escritorio que dice: “Este modelo es tan bueno que incluso puede obtener texto y manos correctos, que generalmente son desafíos importantes para los modelos de IA”, con las manos escribiendo en un teclado en una relación 16: 9?
Sabrina Ortiz/Zdnet a través de chatgpt
Inmediato: ¿Puedes generar una foto realista de un primer plano de una mujer en una multitud en Times Square mirando la cámara y sonriendo, con la calidad de una tomada en una DSLR?
Sabrina Ortiz/Zdnet a través de chatgpt
Como se vio anteriormente, el generador de imágenes hace un gran trabajo al adherirse a la solicitud y entregar imágenes realistas de alta calidad. Sin embargo, al probar un modelo de IA, una de las verdaderas métricas de rendimiento es cómo se compara con los competidores en el mercado. Para darle un buen indicador de esto, lo hice generar el mismo aviso que probé en todos los principales generadores de imágenes de IA, incluidos MidJourney, Imagen 3 de Google, Adobe Firefly y más.
Adjunto la interpretación de GPT-4O a continuación. Puede ver cómo le va a todos los otros generadores de imágenes de IA en este artículo, incluida la interpretación de Dall-E, que claramente está muy por detrás de lo que el nuevo modelo puede hacer.
Inmediato: ¿Puedes generar una imagen de un colibrí vibrante y realista encaramado en un árbol?
Sabrina Ortiz/Zdnet a través de chatgpt
Otras características notables
Aunque la calidad de las imágenes es quizás una de las mayores victorias del modelo, también hay otros beneficios. Una de las más grandes es que vive en la interfaz del chatbot, lo que facilita el ajuste de las generaciones con simples indicaciones de lenguaje natural. Además, debido a que el chatbot tiene el contexto de lo que acabas de preguntar, puede considerar eso al construir la imagen.
Por ejemplo, si está charlando con él sobre organizar una fiesta de cumpleaños, es posible que pueda decir: “¿Puede crear ahora una invitación que tenga la información anterior?” en lugar de tener que volver a escribir. Por ejemplo, comencé a chatear con ChatGPT sobre lanzar un inauguración de la casa, y al pedir que hiciera que creara una invitación, no tuve que repetir la información que dije anteriormente.
Captura de pantalla de Sabrina Ortiz/Zdnet
También puede cargar imágenes de referencia y luego pedirle a ChatGPT que cree una versión diferente o las use como elementos de una nueva. Por ejemplo, puede ingresarlo como una selfie y generarla en estilo de anime, como se ve en la nueva publicación X de Altman.
Todas estas características de personalización lo convierten en una oferta realmente sólida para los creativos, que también pueden solicitar que se presente en un fondo transparente o incorpore guías de estilo de marca, como códigos hexagonales o logotipos.
Hablando de Altman, pude generar una imagen de él con un sombrero de fiesta. Podría hacerlo porque el nuevo modelo tiene salvaguardas mucho más sueltas, destinadas a permitir a los usuarios inclinarse en su libertad creativa. La publicación de blog que anunció el modelo señaló que limita lo que se puede crear cuando las personas reales están en el contexto, incluidas “salvaguardas particularmente robustas sobre la desnudez y la violencia gráfica”.
Sabrina Ortiz/Zdnet a través de chatgpt
No puedo decir si hay un caso de uso práctico para esta función, pero es un cambio notable que necesitaba probar por mí mismo. Cuando intenté crear una imagen de Mickey Mouse, decía que no podía debido a las implicaciones de los derechos de autor, por lo que parece que no todas las figuras públicas son un juego justo.
En general
En general, el generador de imágenes GPT-4O es una gran victoria sobre los modelos Dall-E y quizás entre los mejores de los muchos que he probado. ¿Vale la pena los $ 20 por mes? Si solo está interesado en la generación de imágenes de alta calidad, todavía hay versiones gratuitas que puede explorar que son realmente capaces, como Adobe Firefly o Google’s Imagen 3.
También: los mejores generadores de imágenes de IA: probado y revisado
Dicho esto, si es un usuario de ChatGPT frecuente, la actualización a ChatGPT Plus se vuelve significativamente más atractiva. Con esta actualización, tendrá acceso a todas las últimas y mejores funciones de chatbot de OpenAI, así como una generación de imágenes y videos de alta calidad, todo por $ 20 al mes, lo que no es un mal negocio, especialmente teniendo en cuenta otras ofertas en el mercado. Por ejemplo, la suscripción de MidJourney comienza en $ 10 por mes y solo ofrece generación de imágenes.
¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.
Sí, Apple realmente confía en el Vision Pro Guy con el futuro de Siri.Apple decidió entregar el liderazgo de Siri a Mike Rockwell, arquitecto y director ejecutivo a cargo del Vision Pro. Si bien Rockwell puede ser el ejecutivo más experimentado en el edificio, su último gran proyecto, el Vision Pro de $ 3,500, fue un fracaso de alto perfil, rivalizando con el Newton. ¿Qué costo entonces el CEO John Scully su trabajo (recuerdas eso, Tim?). A pesar de la ambición técnica de los auriculares de Apple, falló tanto con los consumidores como con los desarrolladores, lo que llevó a muchos a cuestionar por qué Apple lo lanzó. No es que estén solos. Meta tampoco sabe para qué sirve la pantalla. Ahora, Rockwell tiene la tarea de arreglar a Siri. Parir. Tim sabe mejor. Espero que la roca tenga un mejor resultado esta vez.
Apple Watch se ve en la mano de una persona en Polonia el 24 de noviembre de 2024. (Foto de Jakub … Más Porzycki/Nurphoto a través de Getty Images)
Nurphoto a través de Getty Images
Apple quiere convertir sus relojes en AI portátil. Apple explora la integración de IA en futuros modelos de Apple Watch que estarán equipados con cámaras para admitir características avanzadas de “inteligencia visual”, como la visión por computadora y la traducción de texto en tiempo real. El modelo de serie en el desarrollo puede albergar una cámara, mientras que el modelo Ultra podría presentar una lente montada en el lado. Esta iniciativa tiene como objetivo integrar las capacidades de IA directamente en el auricular. Mike, si todavía estás leyendo, esto también podría funcionar para ti. ¿Para qué sirve la pantalla?
Una foto de 1996 desvaída de mí y los niños se recrean coloridos como una imagen de anime en el estilo … Más Studio Ghibli. Hecho con el chatgpt recién actualizado de OpenAI.
Charlie Fink
Operai ha presentado un poderoso generador de imágenes de IA y poderoso integrado en su modelo de lenguaje GPT-4O. Esta característica ha provocado una tendencia de generar imágenes al estilo de artistas y estudios de renombre, en particular Studio Ghibli, que lleva a debates sobre los derechos de autor y la integridad artística. Los críticos argumentan que replicar estilos distintivos sin consentimiento infringe los derechos de los creadores, mientras que los partidarios lo ven como una herramienta para la exploración creativa. Operai ha implementado salvaguardas para evitar el mal uso, incluidas las restricciones en la generación de imágenes en el estilo de los artistas vivos.
VR se dirige de Jenny (Zenka) en 2017.
Charlie Fink
IDC dice que las ventas de auriculares de realidad virtual atornillaron al perro en 2024 y no mejoraron hasta que sean nuevos modelos en 2026.Dadas las ventas de nuevos modelos desde la Quest 2 (The Quest Pro, Quest 3 y 3s), no tengo idea de por qué IDC predeciría esto. La realidad virtual necesita una nueva propuesta de valor del consumidor. En este momento, la gente no parece estar interesada en ello, en comparación con, por ejemplo, Grand Theft Auto 6 (GTA IV).
Reve AI lanza un modelo avanzado de texto a imagen. La startup reve AI con sede en Palo Alto ha introducido Reve Image 1.0un modelo de generación de texto a imagen que enfatiza la adherencia rápida, la estética y la tipografía. Los usuarios pueden generar y modificar imágenes utilizando comandos de texto y cargar imágenes de referencia para lograr estilos específicos. En particular, el modelo sobresale en representar un texto claro y legible dentro de las imágenes, un desafío para muchos sistemas de IA, y maneja efectivamente las indicaciones de varios caracteres. Lugar de evaluaciones tempranas Reve Image 1.0 Antes de competidores como MidJourney V6.1 e Imagen 3 de Google en calidad de imagen. El modelo está actualmente disponible para una vista previa gratuita en Preview.reve.Art.
Bigscreen Beyond 2: Refinando una visión para los entusiastas de la realidad virtual sin Apple o Meta. Bigscreen ha presentado el Beyond 2, un auricular VR de peso ultraligero y de peso personalizado que pesa solo 107 gramos. Cuenta con un ajuste de lente independiente para acomodar distancias interpupilares asimétricas y cuenta con óptica de panqueques mejoradas para mejorar la claridad y un campo de visión más amplio. La variante Beyond 2E introduce capacidades opcionales de seguimiento ocular a través de sensores minúsculos, lo que permite aplicaciones como el movimiento de ojos Avatar en VRCHAT. Ambos modelos están disponibles para su pedido, y se espera que los envíos comiencen en junio de 2025.
Diferin aporta el cuidado del acné a Roblox con recompensas gamificadas. Dentsu, Differin y Dubit han lanzado la primera campaña de cuidado del acné sobre Roblox, combinando educación y entretenimiento inmersivo. El Difering nivel up lobby ofrece minijuegos, recompensas en el juego y UGC exclusivo en cinco experiencias de Roblox principales, incluidas Periódico y El piso es lava. Los jugadores pueden escanear los recibos para las compras de diferencias para desbloquear recompensas adicionales. En menos de dos semanas, la iniciativa ganó casi 700,000 impresiones y más de 200,000 jugadas. “Estamos pioneros en una nueva frontera en el compromiso digital”, dijo Val Vacante de Dentsu, destacando el atractivo de la estrategia al grupo de edad de 12 a 24 años, donde se cruzan el acné y los juegos.
Vivaldi 3.0 barre el 5º premio anual de Polys Inmersive Awards. El quinto premio anual de Polys Inmersive tiene lugar el domingo 23 de marzo en Microsoft Garage en Soho, Nueva York, destacando la innovación en XR con fiestas de relojes globales alojadas en VRCHAT y Engage VR. Organizado por Julie Smithson, con entrevistas de alfombra roja de Sophia Moshasha, el evento honró a creadores destacados en medios inmersivos. Vivaldi 3.0una interpretación virtual de Las cuatro estaciones Con el violinista Ara Malikian, dominó la noche, la experiencia ganadora del año, la experiencia educativa del año y la experiencia de entretenimiento del año. Un estudio XR, Cause+Christi y Andy Fidel produjeron la experiencia.
El juego del año fue a Dino Haber por 30 Ninjas y Dark Slope, un juego de realidad virtual que combina cuidado de dinosaurios y aprendizaje ecológico. Otros ganadores incluidos Bromear (Premio de elevación XR), Biel/Bienne: casco antiguo (Splat del año), Supersplat (Innovador del año) y Thomas Richter-Trummer (desarrollador del año).
Esta columna es el guión para la parte de noticias del podcast semanal del autor del autorCo-organizado por el ex futurista de Paramount y cofundador de Red Camera, y Rony Abovitz, fundador de Magic Leap, Mako Robotics y Synthbee AI. Esta semana, nuestros invitados son Nils Phil, CEO de Auki Labs, y Caspar Thykier, CEO de Zappar, que están utilizando códigos QR para crear navegación en interiores por humanos y robots. Se nos puede encontrar en Spotify, iTunes y YouTube.
Lo que estamos leyendo
La revolución cultural de AI está aquí (Elena Nikiforia/Supercargada con AI)
10 películas de ciencia ficción escalofriantes donde la IA se vuelve pícaro(Alisdair Hodgson/Whatculutre)
No esperaba que un producto Chatgpt se volviera viral a fines de marzo, pero aquí estamos. Openai sorprendió al mundo con el lanzamiento de GPT-4O Image Generation, un nuevo modelo de IA que está construido en ChatGPT, brindando a los usuarios características de generación de imágenes increíblemente avanzadas.
Envíe un mensaje detallado a la IA, y ChatGPT dibujará inmediatamente una imagen alucinante basada en sus instrucciones. Las imágenes pueden contener texto legible, el primero para la generación de imágenes ChatGPT, lo cual es impresionante. Además, la herramienta de generación de imágenes AI puede usar fotos reales para editarlas como desee.
El problema es que la nueva herramienta de generación de imágenes de Openai puso a disposición de los usuarios premium sin fuertes barandillas de seguridad. La red se inundó inmediatamente con defagos de Chatgpt que presentan celebridades y un montón de dibujos de IA inspirados en el estudio de Ghibli.
ChatGPT ni siquiera coloca una marca de agua en sus creaciones para informar a los espectadores que son imágenes generadas por IA. Los metadatos no son una función de seguridad lo suficientemente buena, no cuando alguien puede crear estas falsificaciones. Géminis podría eliminar las marcas de agua de las creaciones con derechos de autor, pero al menos coloca su propia marca de agua en los resultados.
Tecnología. Entretenimiento. Ciencia. Tu bandeja de entrada.
Regístrese para las noticias de tecnología y entretenimiento más interesantes que existen.
Al registrarse, acepto los Términos de uso y he revisado el Aviso de privacidad.
Lo que es peor es la respuesta sorda de Sam Altman a todo esto. El CEO de Operai está adoptando todos los elogios que recibió la herramienta ChatGpt AI, lo que ciertamente se merece, sin comprometerse con mejores salvaguardas.
Aquí está el mensaje que Altman publicó en X poco después del lanzamiento de la generación de imágenes 4O:
> Sé yo > Muela durante una década tratando de ayudar a hacer la superinteligencia para curar el cáncer o lo que sea > En su mayoría a nadie le importa durante los primeros 7.5 años, luego durante 2.5 años a todos odios tu por todo > Despierta un día a cientos de mensajes: “Mira, te convertí en un twink estilo ghibli jaja “
El mensaje acompañó un cambio de imagen de perfil para el perfil X de Altman, como se ve en la siguiente imagen. Altman reemplazó su foto con una versión de estilo Gibli creada por Chatgpt de sí mismo.
La reacción de Sam Altman en X al día después del lanzamiento O 40 Generación de imágenes en ChatGPT. Fuente de la imagen: x
Todo es divertido y juegos en este momento porque todavía tenemos que ver abusos reales. Pero no se equivoquen, las personas abusarán de la herramienta para crear defensores profundos que puedan engañar a las personas desprevenidas, especialmente a las personas menos expertas en tecnología y aquellas en países donde la IA podría no ser utilizada tan ampliamente.
No es solo Chatgpt lo que sufre de este problema de seguridad. Google tiene sus propias herramientas avanzadas de generación de imágenes para Gemini que también se pueden usar para crear falsificaciones con facilidad.
Pero Operai deliberadamente eligió no imponer reglas más estrictas. En su anuncio inicial, Openai tiene un capítulo sobre seguridad que aborda ciertos tipos de abuso, y eso es encomiable. Las imágenes de IA vienen con metadatos C2PA que identifican imágenes creadas con IA, pero todo lo que necesita hacer es tomar una captura de pantalla de esa imagen, y eliminará esos datos.
Tome la imagen superior en esta publicación anterior; Es una captura de pantalla de una imagen de estilo ghibli generada por ChatGPT que la IA hizo con el siguiente mensaje:
Hazme una imagen de estilo Gibli de estudio basada en lo que acabamos de hablar. Lo quiero en una relación de aspecto de 16:10, tienes libertad para imaginarme a mí y a ti mismo
Además, ChatGPT bloquea las solicitudes específicas, “como materiales de abuso sexual infantil y defectos sexuales”. Operai también dijo: “Cuando las imágenes de personas reales están en contexto, hemos aumentado restricciones con respecto a qué tipo de imágenes se pueden crear, con salvaguardas particularmente robustas sobre la desnudez y la violencia gráfica”. Pero esto no cambia el hecho de que cualquier usuario de ChatGPT ahora puede crear defensores profundos que puedan ser abusados. No tienen que ser sexuales para ser potencialmente peligrosos.
Operai podría hacer más aquí, pero elige no hacerlo a pesar de saber completamente que algunas de las imágenes que provienen de ChatGPT se verán como fotos reales. Esto es lo que dijo Altman en X después de que se lanzó la herramienta:
Estamos lanzando una cosa nueva hoy: ¡las imágenes en ChatGPT!
Dos cosas que decir al respecto:
1. Es una tecnología/producto increíble. Recuerdo haber visto algunas de las primeras imágenes salir de este modelo y pasar un mal rato las que realmente las hará. Creemos que a la gente le encantará, y estamos emocionados de ver la creatividad resultante.
Felicidades a nuestros investigadores @gabeegoooh @prafdhar @ajabri @eliza_luth @kenjihata @dmed256
2. Esto representa una nueva marca de alta agua para nosotros al permitir la libertad creativa. La gente va a crear algunas cosas realmente increíbles y algunas cosas que pueden ofender a las personas; Lo que nos gustaría apuntar es que la herramienta no crea cosas ofensivas a menos que lo desee, en cuyo caso lo hace. Mientras hablamos en nuestra especificación de modelo, creemos que poner esta libertad y control intelectuales en manos de los usuarios es lo correcto, pero observaremos cómo va y escuchar a la sociedad. Creemos que respetar los límites muy amplios que la sociedad eventualmente elegirá establecer para AI es lo correcto, y cada vez más importante a medida que nos acercamos a AGI. Gracias de antemano por la comprensión mientras trabajamos en esto.
También está el elefante obvio en la habitación que Altman ni siquiera aborda. Los poderes de generación de imágenes de ChatGPT acaban de hacer que los diseñadores gráficos sean obsoletos. O cerca de él. Esto siempre iba a suceder, pero las empresas de IA como OpenAi deberían al menos tratar de fingir que se preocupan por el impacto de sus productos en los trabajos y la vida tal como lo conocemos.
Volviendo a todas las imágenes de ChatGPT que veo en las redes sociales, también anotaré el desprecio de OpenAI por los derechos de autor aquí. Chatgpt no dibujará personajes que pertenecen a Studio Ghibli, claro, pero copiará el estilo y lo adaptará a lo que desee.
No es de extrañar que la reacción de Hayao Miyazaki al usar IA para la animación haya resurgido en línea esta semana. El cofundador de Studio Gibli dijo que la animación generada por IA era un “insulto a la vida en sí” cuando se le presentó una herramienta interna con AI hace unos años que podía crear dibujos en estilo Gibli. Estoy seguro de que no está muy feliz de ver que ChatGPT copia el estilo de su empresa tan fácilmente.
Eso no quiere decir que la IA no pueda usarse con fines creativos o que la nueva tecnología de generación de imágenes de ChatGPT no sea impresionante, porque lo es.
Además, en defensa de Chatgpt, vi protecciones de seguridad en mis pruebas, incluidas las relacionadas con los derechos de autor. Pero esto no cambia el hecho de que OpenAi hace que sea increíblemente fácil para cualquiera usar Deepfakes que parezcan casi indistinguibles de las fotos reales, y al CEO de la compañía no parece importarle.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.