Connect with us

Noticias

Cómo el generador de imágenes OpenAI 4O reformulan la creatividad

Published

on

El lanzamiento del generador de imágenes 4O de Operai ha encendido una moda de anime infundida con IA.

El desarrollo desencadenó una discusión renovada sobre las capacidades, limitaciones y problemas de derechos de autor de la creación visual asistida por AI-AI. A diferencia de los modelos anteriores de Dall.E (inspirados en el pintor surrealista español Salvador Dalí) que se centró principalmente en la interpretación artística y las transferencias de estilo, el generador de imágenes 4O aparece diseñado para abordar puntos específicos del dolor profesional, particularmente en la representación de texto y la consistencia de la imagen múltiple.

Este desarrollo se produce a medida que el campo se llena cada vez más, con cada plataforma de IA importante que desarrolla especializaciones que revelan tanto el progreso como los desafíos persistentes de la IA generativa.

El panorama competitivo

El mercado de generación de imágenes de IA se ha convertido en un ecosistema especializado donde diferentes herramientas tienen propósitos marcadamente diferentes. MidJourney ofrece a pintores digitales y artistas conceptuales una amplia gama de opciones estilísticas. Sus resultados aparecen regularmente en carteras profesionales e incluso exposiciones de museos, aunque su tendencia hacia el adorno brillante y surrealista puede frustrar a los usuarios que buscan representaciones más realistas.

Gemini 2.5 de Google adopta un enfoque diferente, priorizando la integración con los servicios de Google. Meta AI se especializa en generar imágenes adaptadas a los casos de uso de las redes sociales, aprovechando los vastos datos de los medios y la experiencia en los medios para crear contenidos como memes. Sus sugerencias de colaboración y subtítulos en tiempo real también lo hacen adaptable a fines de comunicación en línea. Grok AI aprovecha la capacidad de generación de imágenes dentro de los chats, facilitando las sesiones iterativas de lluvia de ideas donde las imágenes emergen gradualmente de las discusiones textuales.

En el frente comercial, Adobe’s Firefly ha obtenido la adopción corporativa al ofrecer imágenes legalmente examinadas e integración directa con aplicaciones creativas en la nube, y el agregado de dos preocupaciones principales para los usuarios comerciales.

Aplicaciones de la generación de imágenes de IA

El generador de imágenes 4O de Openai adopta el reciente desarrollo de modelos autorregresivos. En un artículo reciente, investigadores de UC San Diego y Nvidia explica que un modelo autorregresivo toma “tanto imágenes como instrucciones como entradas, y predice que las imágenes editadas hacen los tokens en un paradigma de token de vainilla.

Con el modelo autorregresivo, el nuevo generador de imágenes de abrir AI muestra una fuerza particular en:

Renderización de texto: Demuestra una mejora marcada en la generación de texto legible dentro de las imágenes, una notoria debilidad en modelos anteriores. Los equipos de marketing ahora pueden crear maquetas con logotipos y consignas plausibles, mientras que los educadores informan que el éxito de la generación de diagramas científicos precisos con el etiquetado adecuado.

Consistencia contextual: A diferencia de Dall-E 3, que a menudo luchaba por mantener la consistencia de carácter u objeto en múltiples imágenes, 4O muestra un rendimiento mejorado en la generación en serie. Esto puede ayudar a los diseñadores, animadores, narradores digitales a reducir el tiempo de revisión al crear secuencias de guiones gráficos.

Adherencia rápida: El modelo parece menos propenso a la reinterpretación creativa que hizo que las versiones anteriores fueran impredecibles para el uso profesional.

Los generadores de imágenes AI están transformando cómo las empresas crean y entregan contenido visual a escala. Por ejemplo, Daboon construyó una plataforma de IA generativa que capacita a los narradores de narradores para producir 50,000 imágenes por día, acelerando dramáticamente los flujos de trabajo creativos. Del mismo modo, AYNA utilizó el servicio Azure OpenAI para entrenar modelos de difusión que permiten a las marcas generar sesiones de fotos de catálogo y experiencias de prueba virtuales en minutos, sin pasar el tiempo y el costo de las configuraciones de estudio tradicionales. En el sector minorista de alimentos, Blinkit aplicó AI generativo para crear miles de imágenes de recetas personalizadas vinculadas a su catálogo de productos, mejorando la participación del cliente con contenido visualmente rico y personalizado. Estas aplicaciones demuestran cómo la generación de imágenes de IA está remodelando las industrias al aumentar la velocidad, la personalización y la innovación visual. La División de Marketing Asiático de Unilever aprovecha los activos generados por la IA para las imágenes de productos, informando una reducción del 50% en el tiempo de producción.

Sin embargo, las limitaciones persisten en los generadores de imágenes y videos de IA. Por ejemplo, la interpretación casi perfecta de las caras humanas, los pelos de los animales, las superficies de los objetos, a menudo hacen que las imágenes generadas por IA parezcan plástico y antinatural. Las expresiones faciales exageradas pueden ser más fáciles de detectar, reconocer y, por lo tanto, producidas por los generadores de imágenes. Sin embargo, los humanos reales no resuenan con estas escenas y expresiones demasiado escenificadas. AI generó anuncios, como los comerciales navideños de 2024 de Coca Cola, también provocó controversia sobre su falta de autenticidad.

La paradoja de la creatividad

A medida que estas herramientas democratizan la creación de imágenes, simultáneamente devaltan ciertas formas de arte técnico. El surgimiento de la generación de imágenes de IA desplaza los roles tradicionales al tiempo que crea demanda de nuevas habilidades mejoradas con AI. Según el Informe del Future of Jobs del Foro Económico Mundial 2025, se proyecta que trabajos como diseñadores gráficos, profesionales de publicidad y trabajadores de impresión disminuyan significativamente para 2030, en parte debido a la automatización en la creación de contenido y el diseño visual.

Al mismo tiempo, los roles que respaldan la IA generativa, como especialistas en aprendizaje automático, ingenieros de datos y expertos en transformación digital, se encuentran entre los de más rápido crecimiento. Este cambio señala una transformación más amplia: los trabajadores creativos ahora deben adaptarse adoptando roles híbridos que combinan el juicio humano con las capacidades de IA, a medida que las herramientas generativas se integran cada vez más en las tuberías de producción visual.

Pero los patrones históricos muestran que la interrupción tecnológica generalmente redefine en lugar de reemplazar las profesiones creativas. Así como la fotografía transformó el papel de la pintura en la cultura visual, y los gráficos generados por computadora reforman las películas animadas, la generación de IA parece estar cambiando la creatividad humana hacia los dominios que lucha por replicar: comprensión cultural matizada, resonancia emocional rica e innovaciones más tangibles.

En medio de un potencial de automatización drástica en las industrias creativas, vemos el creciente aprecio público por el arte que conlleva rastros de mano de obra manual. La prima colocada en la animación dibujada a mano en producciones de alto presupuesto; el resurgimiento de la fotografía analógica entre la demografía más joven; y el atractivo persistente de las artesanías artesanales, todos atestiguan los valores únicos del tacto humano, los recuerdos vividos y los detalles minuciosos que ofrecen contextos y significados ricos.

Avanzar

La evolución de la generación de imágenes de IA sugiere que no la transformación utópica ni la amenaza existencial, sino una reconfiguración de la comunicación visual. Los adoptantes profesionales que ven el mayor éxito tienden a 1) implementan políticas de uso claras que especifiquen aplicaciones aceptables. 2) Mantener la supervisión humana para los resultados finales, especialmente en dominios sensibles. 3) Desarrolle flujos de trabajo híbridos que aprovechen la velocidad de AI mientras preservan el juicio humano. 4) Evaluar continuamente las métricas cuantitativas y el impacto cualitativo.

A medida que la tecnología madura, su valor final se determinará no solo por capacidades técnicas, sino por cuán cuidadosamente las organizaciones lo integran en sus procesos creativos y operativos. Los usuarios más exitosos probablemente serán aquellos que vean herramientas como GPT-4O Generator de imágenes no como reemplazos para la creatividad humana, sino como colaboradores que pueden manejar ciertas tareas mientras dejan a otros a especialistas humanos.

Este enfoque matizado reconoce que, si bien la IA puede generar imágenes, el juicio humano sigue siendo esencial para determinar qué imágenes valen la pena generar, y qué significan en última instancia. En un paisaje visual cada vez más sintético donde los generadores de imágenes de IA se vuelven más precisos, el verdadero desafío permanece, ¿pueden volverse más auténticos para las experiencias humanas?

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

El estudio sugiere que Openai no está esperando la exención de derechos de autor • El registro

Published

on

El magnate del libro de texto tecnológico Tim O’Reilly afirma que OpenAi minó los tomos protegidos por derechos de autor de su editorial para los datos de capacitación y lo alimentó con su modelo GPT-4O de primer nivel sin permiso.

Esto se produce cuando el advenedizo generativo de IA enfrenta demandas sobre su uso de material con derechos de autor, supuestamente sin el debido consentimiento o compensación, para capacitar a su familia de redes neuronales GPT. Openai niega cualquier irregularidad.

O’Reilly (el hombre) es uno de los tres autores de un estudio [PDF] Titulado “Más allá del acceso público en los datos de pre-entrenamiento de LLM: contenido de libros no públicos en los modelos de OpenAI”, emitido por el Proyecto de Divulgaciones de AI.

Por no público, los autores significan libros que están disponibles para humanos detrás de un muro de pago, y no están disponibles públicamente para leer de forma gratuita a menos que cuente sitios que piratean ilegalmente este tipo de material.

El trío se propuso determinar si GPT-4O tenía, sin el permiso del editor, haber ingerido 34 libros de medios O’Reilly de derechos de autor. Para sondear el modelo, que impulsa el chatgpt de fama mundial, realizaron los llamados ataques de inferencia de copas descritos en este documento previo a la presencia 2024.

Así es como funcionó: el equipo planteó el modelo de OpenAI una serie de preguntas de opción múltiple. Cada pregunta pidió al software que seleccionara de un grupo de párrafos, etiquetado A a D, el que es un paso de texto literal de un libro de O’Reilly (el editor). Una de las opciones se levantó directamente del libro, las otras parafrases generadas por ametralladoras del original.

Si el modelo OpenAI tendía a responder correctamente e identificar los párrafos literales, eso sugirió que probablemente estaba entrenado en ese texto con derechos de autor.

Más específicamente, las opciones del modelo se usaron para calcular lo que se denomina un área bajo la puntuación operativa del receptor (AUROC), con cifras más altas que indican una mayor probabilidad de que la red neuronal se entrenara en pasajes de los 34 libros de Reesilles. Mientras tanto, los puntajes más cercanos al 50 por ciento se consideraron una indicación de que el modelo no había sido entrenado en los datos.

Pruebas de modelos OpenAI GPT-3.5 Turbo y GPT-4O Mini, así como GPT-4O, en 13,962 párrafos descubiertos resultados mixtos.

GPT-4O, que se lanzó en mayo de 2024, obtuvo un 82 por ciento, una fuerte señal de que probablemente fue entrenada en el material del editor. Los investigadores especularon que OpenAI puede haber entrenado el modelo utilizando la base de datos de LibGen, que contiene los 34 libros probados. Puede recordar que Meta también ha sido acusado de capacitar a sus modelos de llama utilizando este notorio conjunto de datos.

El papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo

La puntuación AUROC para el modelo GPT-3.5 de 2022 llegó a poco más del 50 por ciento.

Los investigadores afirmaron que el puntaje más alto para GPT-4O es evidencia de que “el papel de los datos no públicos en los datos de pre-entrenamiento modelo de OpenAI ha aumentado significativamente con el tiempo”.

Sin embargo, el trío también encontró que el modelo GPT-4O más pequeño, también lanzado en 2024 después de un proceso de entrenamiento que terminó al mismo tiempo que el modelo GPT-4O completo, no aparentemente no estaba entrenado en los libros de O’Reilly. Piensan que no es un indicador que sus pruebas son defectuosas, pero que el recuento de parámetros más pequeño en el mini modelo puede afectar su capacidad de “recordar” el texto.

“Estos resultados resaltan la necesidad urgente de una mayor transparencia corporativa con respecto a las fuentes de datos de pre-entrenamiento como un medio para desarrollar marcos formales de licencia para la capacitación de contenido de IA”, escribieron los autores.

“Aunque la evidencia presente aquí sobre las violaciones de acceso al modelo es específica para los libros de medios de OpenAi y O’Reilly, este es probablemente un problema sistemático”, agregaron.

El trío, que incluyó a Sruly Rosenblat e Ilan Strauss, también advirtió que no podría resultar en compensar adecuadamente a los creadores por sus obras, y si puede perdonar la jerga, la presentación de todo Internet.

“Si las compañías de IA extraen valor de los materiales producidos de un creador de contenido sin compensar justicios al creador, corren el riesgo de agotar los recursos de los cuales dependen sus sistemas de IA”, argumentaron. “Si no se abordan, los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet”.

Los datos de capacitación no compensados ​​podrían conducir a una espiral descendente en la calidad y diversidad de contenido de Internet

Los gigantes de IA parecen saber que no pueden confiar en el raspado de Internet para encontrar el material que necesitan para entrenar modelos, ya que han comenzado a firmar acuerdos de licencia de contenido con editores y redes sociales. El año pasado, Operai Tinked acuerdos con Reddit y Time Magazine para acceder a sus archivos con fines de capacitación. Google también hizo un acuerdo con Reddit.

Recientemente, sin embargo, Operai ha instado al gobierno de los Estados Unidos a relajar las restricciones de derechos de autor de manera que facilitaría la capacitación de modelos de IA.

El mes pasado, el Super-Lab presentó una carta abierta a la Oficina de Ciencia y Tecnología de la Casa Blanca en la que argumentó que “las reglas rígidas de derechos de autor reproducen innovación e inversión”, y que si no se toma medidas para cambiar esto, los constructores de modelos chinos podrían superar a las empresas estadounidenses.

Mientras que los fabricantes de modelos aparentemente luchan, los abogados están bien. Como informamos recientemente, Thomson Reuters ganó un juicio sumario parcial contra Ross Intelligence después de que un tribunal de EE. UU. Descubrió que la startup había infringido los derechos de autor utilizando los notas de los Westlaw de Newswire para capacitar su sistema de IA.

Mientras que los entrenadores de redes neuronales presionan para un acceso sin restricciones, otros en el mundo tecnológico están introduciendo obstáculos para proteger el material con derechos de autor. El mes pasado, Cloudflare lanzó una IA de botes de bot diseñada para hacer la vida miserable para raspadores que ignoran las directivas de robots.txt.

El “laberinto de IA de AI” de Cloudflare funciona atrayendo a Rogue Crawler a los bots de Rogue en un laberinto de páginas de señuelo, desperdiciando su tiempo y calculando recursos mientras protege el contenido real.

Operai no respondió de inmediato a una solicitud de comentarios; Te avisaremos si escuchamos algo. ®

Continue Reading

Noticias

La ronda de financiamiento de $ 40 mil millones de OpenAI desafía el momento profundo y cements su dominance de IA

Published

on

La semana pasada, los procesadores de GPU de Openai “derretidos”, como lo expresaron el fundador y CEO Sam Altman. La razón: el modelo actualizado de generación de imágenes de la compañía, integrado en CHATGPT, entregó un salto significativo en las capacidades de comprensión, entrada y salida en comparación con modelos similares en el mercado. En poco tiempo, el modelo encendió un fenómeno en línea, con usuarios que generan versiones de imágenes familiares al estilo del legendario estudio de animación Ghibli. La demanda del software era tan alta que Openai se vio obligada a imponer restricciones de uso, a pesar de que el modelo estaba disponible solo para pagar a los usuarios.

Este evento ofrece una explicación clara de por qué, incluso después de que el momento profundo de Deepseek sacudió la industria de la IA en enero, los inversores siguen seguros de que el dominio de OpenAI no es cuestionado. ¿Qué tan seguro? Lo suficientemente seguro de respaldar a la compañía con una ronda de financiación récord de $ 40 mil millones, valorando a Openai en $ 300 mil millones después del dinero.

1 Ver galería

מנכ"ל OpenAi סם אלטמן 2023

Sam Altman

(Foto: Joel Saget/AFP)

Anunciado el martes, la ronda casi duplica la valoración de Operai de su aumento anterior y es el más grande para una empresa privada. Según OpenAI, los fondos acelerarán el desarrollo de la inteligencia general artificial (AGI). “[The funding] Nos permite impulsar las fronteras de la investigación de IA aún más, escalar nuestra infraestructura de cómputo y ofrecer herramientas cada vez más poderosas para los 500 millones de personas que usan CHATGPT cada semana “, dijo la compañía en un comunicado de prensa.” Estamos emocionados de trabajar en asociación con SoftBank Group: las compañías completan cómo escalar tecnología transformadora como lo hacen. Su apoyo nos ayudará a continuar construyendo sistemas de IA que impulsen el descubrimiento científico, permitan la educación personalizada, mejoren la creatividad humana y allanen el camino hacia AGI que beneficie a toda la humanidad “.

La ronda está dirigida por el SoftBank de Japón, el socio clave de OpenAI en el Proyecto Stargate, una ambiciosa iniciativa para construir una infraestructura informática de IA en los Estados Unidos con una inversión total de $ 500 mil millones. Según Bloomberg, en la primera fase, SoftBank invertirá $ 7.5 mil millones, mientras que un sindicato de inversores, incluidos Microsoft, Coatue Management, Altimeter Capital Management y Thrive Capital, contribuirá con $ 2.5 mil millones. La segunda fase, que cerrará a fin de año, hará que SoftBank invierta otros $ 22.5 mil millones, con el sindicato de inversores agregando $ 7.5 mil millones. Las conversaciones también están en marcha con el capital de Magnetar de Peter Thiel y los fundadores para unirse al sindicato.

La inversión completa de SoftBank depende de que Operai complete su transición a una estructura con fines de lucro para fin de año (actualmente está controlada por una organización sin fines de lucro). Si la transición no se completa, SoftBank tendrá la opción de reducir su inversión de $ 30 mil millones a $ 20 mil millones, lo que permite a OpenAI buscar inversores adicionales para cerrar la brecha.

Al finalizar la ronda de financiación, OpenAI se convertirá en la segunda compañía privada respaldada por la empresa más grande del mundo por capitalización de mercado, según la firma de investigación Pitchbook. Solo seguirá el SpaceX de Elon Musk, valorado en $ 350 mil millones, y superará a la empresa matriz de Tiktok Bytedance, que está valorada en $ 220 mil millones. La ronda de $ 40 mil millones también es la cantidad más grande jamás recaudada en una sola ronda por una empresa privada, eclipsando el récord anterior establecido por el grupo de hormigas de China, que recaudó $ 14 mil millones en 2018.

The Deepseek Moment: Un desafío que no pudo sacudir OpenAi

Hace solo dos meses, un aumento tan ambicioso parecía mucho menos seguro. El 20 de enero, la compañía china Deepseek presentó su modelo de razonamiento R1 AI, que ofreció un rendimiento comparable a los modelos líderes de OpenAI y sus competidores, pero según los informes, a una fracción de la potencia y el costo informático. Esta revelación envió ondas de choque a través de la industria de la IA (NVIDIA, por ejemplo, vio una pérdida de $ 1 billón en la capitalización de mercado), lo que generó dudas sobre la estrategia de alto costo que OpenAi había seguido.

El dominio de OpenAI se ha basado en inversiones masivas en desarrollo de modelos, capacitación e implementación, mejor ejemplificado por el ambicioso proyecto Stargate. La ventaja competitiva de la compañía también se ha basado en ensamblar un equipo de investigación de IA de primer nivel capaz de producir avances de vanguardia. Sin embargo, el momento de Deepseek calificó esta estrategia: si una empresa china relativamente pequeña podría lograr resultados similares con mucha menos inversión, el foso competitivo de OpenAi parecía estar en riesgo. Lógicamente, su valoración debería haber disminuido. En cambio, con la última ronda, Operai casi ha duplicado su valoración en solo seis meses.

Tres factores clave explican por qué los inversores siguen siendo optimistas en OpenAi a pesar del desafío Deepseek:

1. Las capacidades de Deepseek pueden haber sido exageradas. Después de que el bombo inicial se desvaneció, quedó claro que los costos de desarrollo de Deepseek no eran tan bajos como se creía inicialmente. Además, hay indicios de que Deepseek puede haber aprovechado los propios modelos de OpenAI en su desarrollo, lo que el gobierno de los Estados Unidos ha referido como robo de propiedad intelectual. Si esto es cierto, Operai puede tomar medidas para bloquear la explotación futura, reforzando su foso.

2. Confianza de los inversores en el liderazgo de Altman y OpenAi. La fortaleza financiera de Operai es solo una parte de su éxito; Su equipo de liderazgo, dirigido por Altman, es igualmente crucial. Los inversores confían en la capacidad del equipo para adaptarse a los cambios de mercado, como incorporar métodos de capacitación más baratos mientras asignan el poder informático a tareas más avanzadas.

3. La interrupción de Deepseek en realidad puede beneficiarse de OpenAi. Al demostrar que los modelos de IA pueden ser entrenados de manera más eficiente, Deepseek ha aumentado la demanda general del mercado de IA avanzada. Los inversores creen que Openai está mejor posicionado para capitalizar esta demanda, aprovechando tanto sus modelos existentes como sus iteraciones futuras desarrolladas con métodos más eficientes inspirados en el enfoque de Deepseek.

La revolución de IA que OpenAi encendió hace dos años y medio ahora se está acelerando aún más, y los inversores están convencidos de que la compañía permanecerá a la vanguardia. Su voto de confianza de $ 40 mil millones lo dice todo.

Continue Reading

Noticias

El plan de Google para robar la cuota de mercado de Chatgpt se trata de nivel gratuito de Gemini

Published

on

No es ningún secreto que OpenAi salió, bueno, a todos cuando lanzó Chatgpt hace más de dos años. Ahora, a medida que compañías como Google y Apple intentan competir, están comenzando detrás de Openai, al menos a los ojos del público. ¿Qué tan grande tiene la ventaja de la cabeza? A partir de marzo de 2025, ChatGPT tiene 700 millones de usuarios activos mensuales, lo cual es un total asombroso.

Eso no significa que Google sea impotente en la lucha contra OpenAI para la mayor parte de la participación de mercado de IA de grado de consumo. En los años transcurridos desde que se lanzó ChatGPT, Google aumentó el desarrollo de IA primero a través de Bard, más tarde renombrado Gemini. Mientras que el plan de Openai para monetizar el chatgpt implicó hacer un montón de características tempranas gratuitas y bloquear las avanzadas detrás de un muro de pago, Google está haciendo lo contrario.

Continue Reading

Trending