Connect with us

Noticias

Estos profesionales fueron aturdidos por Operai Deep Research

Published

on

¿Eres un periodista que quiere cubrir la IA? ¿O un experto en IA que busca entrar en el periodismo? La fecha límite para el 2025 Tarbell Fellowship es este viernes.

Comprender la IA es una publicación participante, lo que significa que podría recibir $ 50,000 para escribir para este boletín. Puede haga clic aquí Para obtener detalles sobre lo que estoy buscando o Vaya directamente al sitio web de Tarbell para aplicar.

A principios de este mes, Openai lanzó un nuevo producto llamado investigación profunda. Basado en una variante del modelo de razonamiento O3 (aún inédito), la investigación profunda puede pensar incluso para los modelos de razonamiento convencionales, hasta 30 minutos para las preguntas más difíciles. Y de manera crucial, puede buscar en la web, lo que le permite recopilar información sobre temas que son demasiado nuevos o oscuros para estar bien cubiertos en sus datos de capacitación.

Quería probar a fondo investigaciones profundas, por lo que solicité preguntas difíciles de una muestra aleatoria de lectores de IA. Uno de ellos fue Rick Wolnitzek, un arquitecto retirado que dirige el sitio web Architekwiki. Wolnitzek solicitó una lista de verificación detallada del código de construcción para un edificio educativo de 100,000 pies cuadrados.

Para responder a la pregunta de Wolnitzek, las investigaciones profundas comenzaron a explorar la web para obtener información sobre los códigos de construcción. Pronto descubrió el sitio web del Consejo de Código Internacional, pero parte de la información que necesitaba estaba detrás de un muro de pago.

“Teniendo en cuenta un sitio que no es de ICC, tal vez de un estado, podría ser un buen movimiento”, pensó el modelo.

La investigación profunda pronto encontró un página en el sitio web del Departamento de Educación de Arkansas que incluía un PDF de tres páginas de estándares ICC para instituciones educativas. En el sitio web del condado de Douglas, Nevada, encontró un PDF describiendo el número mínimo de accesorios de plomería requeridos para varios tipos de edificios. A Página del Departamento de Educación de California Resumió el número de baños requeridos en las escuelas K-12. La ciudad de Chelan, Washington, tenía un PDF de 13 páginas resumiendo los cambios de código recientes.

En total, el modelo de investigación profunda de Openai pensó durante 28 minutos y consultó 21 fuentes en línea para producir un Lista de verificación de 15,000 palabras.

El informe impresionó a Wolnitzek. Era “mejor que el trabajo interno, y cumple con el nivel de un profesional experimentado”, me dijo. “Creo que tomaría de seis a ocho horas o más preparar un informe como este, y sería una referencia útil para todo el equipo de diseño”.

Wolnitzek fue uno de los 19 lectores de IA comprensivos, incluidos un abogado antimonopolio, un maestro de secundaria, un ingeniero mecánico y un investigador médico, que me ayudó a poner a prueba las investigaciones profundas. No todos estaban tan impresionados con las respuestas de Operai como Wolnitzek. Pero siete de cada 19 encuestados, incluidos Wolnitzek, la respuesta de OpenAi fue en o cerca del nivel de un profesional experimentado en sus campos. La mayoría de los encuestados estimaron que tomaría al menos 10 horas de trabajo humano para producir un informe comparable.

Veo estos resultados como muy significativos. No es solo que una investigación profunda sea útil en una amplia gama de industrias. Su rendimiento demuestra las impresionantes capacidades del modelo O3 subyacente.

La investigación profunda descubre información de la misma manera iterativa que los investigadores humanos. Hará una búsqueda, encontrará un documento y lo leerá. Luego hará otra búsqueda, encontrará otro documento y lo leerá. A medida que el modelo lee más documentos y aprende más sobre un tema, puede refinar sus criterios de búsqueda y encontrar documentos que no aparecieran en resultados de búsqueda anteriores. Este proceso, que a veces las personas describen como “bajar una madriguera del conejo”, permite una investigación profunda para obtener una comprensión mucho más profunda de un tema de lo que era posible con los modelos de IA anteriores.

Todo esto es posible posible por la “capacidad de atención” más larga de O3, el modelo de razonamiento más poderoso de Openai. Tenemos conocido por tres años Esos modelos de lenguaje grande producen mejores resultados cuando se les pide que “piensen paso a paso”. Pero los LLM convencionales tendieron a confundirse o distraerse cuando intentaron realizar una larga secuencia de pasos de razonamiento.

Operai utilizó una técnica llamada refuerzo de aprendizaje para capacitar a los modelos de razonamiento para mantenerse enfocados mientras trabajan a través de cadenas de razonamiento más largas. Este enfoque funcionó particularmente bien para dominios como las matemáticas y la programación de computadoras donde el algoritmo de entrenamiento podría verificar fácilmente si el modelo había alcanzado una respuesta correcta.

Una gran pregunta abierta después del lanzamiento de O1 fue qué tan bien se generalizarían las mismas técnicas para los dominios “más suaves” como la ley, la arquitectura o la medicina. El sólido desempeño de las investigaciones profundas sugiere que esas técnicas se generalizan mejor que muchas personas, incluidas las cosas, esperadas. Y si eso es cierto, deberíamos esperar ver un rápido progreso continuo en las capacidades de IA durante el próximo año, y tal vez más allá de eso.

Operai no inventó esta categoría de producto. Esa distinción va a Google, que introdujo su propio producto de investigación profunda en diciembre. Entonces les pedí a mis voluntarios que evaluaran ambos modelos.

Cada participante me envió una pregunta difícil en su área de especialización. Envié dos respuestas, una de Openai y otra de Google. No les dije qué modelo produjo qué respuesta.

Las respuestas más cortas de Openai fueron de alrededor de 2,000 palabras y tardaron de cuatro a cinco minutos en escribir. El más largo, un análisis detallado de jugadores y estrategias de fútbol de fantasía: enoque más de 18,000 palabras y tomó una investigación profunda de Openai 17 minutos para escribir. En promedio, las respuestas de Google tendían a ser un poco más rápidas y más cortas que las de OpenAI.

Dieciséis de 19 lectores dijeron que preferían la respuesta de OpenAI, mientras que solo tres personas pensaron que la respuesta de Google era mejor.

Muchos de mis jueces voluntarios quedaron impresionados por las respuestas de Operai. Un abogado antimonopolio me dijo un Informe de 8,000 palabras “Se compara favorablemente con un abogado de nivel de entrada” y que un investigador humano tardaría de 15 a 20 horas en compilar la misma información. Ella dijo que le gustaría usar la herramienta de OpenAI profesionalmente, especialmente si se pudiera conectar a bases de datos comerciales como Westlaw o Lexisnexis, lo que le daría acceso a decisiones legales más oscuras.

Chris May, un ingeniero mecánico, solicitó instrucciones sobre cómo construir una planta de electrólisis de hidrógeno. Estimó que se necesitaría un profesional experimentado una semana para crear algo tan bueno como el Informe de 4.000 palabras OpenAi generó en cuatro minutos.

Heather Black Alexander, una maestra de secundaria en Chicago, elogió un Informe de 12,000 palabras Acerca de los programas de asesoramiento de la escuela intermedia que OpenAi produjeron en siete minutos. Alexander dijo que el informe era mejor de lo que esperaría de un empleado de nivel de entrada, y estimó que un investigador humano tardaría una semana en escribirlo.

Algunas personas notaron que las respuestas omitieron información reciente como la elección de Donald Trump. Esto podría deberse a que los modelos fueron entrenados antes de que Trump ganara las elecciones. Sin embargo, también se supone que estos productos de “investigación profunda” buscan información adicional al buscar en la web, por lo que deberían poder aprender sobre desarrollos recientes.

En la tabla anterior, las barras verdes representan a las personas que dijeron que un modelo produjo un trabajo que estaba a nivel de un profesional experimentado, o al menos por encima del nivel de un trabajador de nivel de entrada en su campo. El amarillo representa a las personas que compararon las respuestas de investigación profundas con los empleados o pasantes de nivel de entrada. Red representa a las personas que los compararon con estudiantes de medicina, estudiantes universitarios, estudiantes de secundaria o peor. Como puede ver, los lectores quedaron significativamente más impresionados con el modelo de OpenAI.

Aquí he desglosado cuánto tiempo pensaba que la gente se necesitaría para un ser humano producir un informe de calidad comparable. Había un gran rango. Cuatro personas estimaron que un investigador humano tomaría una semana duplicar un informe de OpenAI. Nadie pensó que ninguno de los informes de Google tomaría tanto tiempo. Por otro lado, dos lectores dijeron que solo tomaría 30 minutos reproducir las respuestas de Google. Nadie dijo eso sobre un informe de Operai.

Si es un suscriptor que paga, puede desplazarse hacia abajo hasta la parte inferior de este artículo para ver cómo cada uno de los 19 participantes calificó las respuestas de OpenAI y Google.

Las empresas se han apresurado a adoptar LLM en los últimos dos años. Una de las aplicaciones más populares ha sido los chatbots impulsados ​​por una técnica llamada generación de recuperación aumentada.

Suponga que ejecuta una empresa que tiene un millón de documentos en sus servidores: memorandos corporativos, solicitudes de servicio al cliente, manuales de instrucciones, contratos de venta, etc. Desea un chatbot que “conozca” todos estos documentos y pueda responder preguntas sobre su contenido.

Cuando un usuario hace una pregunta, un sistema RAG busca documentos relevantes utilizando una búsqueda de palabras clave, base de datos vectorialu otras técnicas. Los documentos más relevantes se insertan en la ventana de contexto de un LLM. Cuando funciona bien, un sistema de trapo crea la ilusión de un chatbot que comprende miles o incluso millones de documentos.

Pero si la pregunta del usuario es compleja o mal redactada, el sistema RAG podría no recuperar los documentos correctos. Este es un modo de falla común porque las técnicas utilizadas para encontrar y clasificar los documentos relevantes no son tan “inteligentes” como el LLM que genera la respuesta final.

Los nuevos productos de investigación profunda apuntan hacia un mejor paradigma para las aplicaciones RAG: si la búsqueda inicial no aparece los documentos correctos, el sistema puede buscar nuevamente con diferentes palabras clave o parámetros. Hacer esto una y otra vez, a lo que la investigación profunda de Openai lo hace, producirá un resultado mucho mejor que una tubería de trapo tradicional.

La razón por la que la gente no ha estado haciendo esto ya es que los primeros LLM no eran lo suficientemente buenos para seguir largas cadenas de razonamiento. Si alguien hubiera tratado de usar la técnica de investigación profunda con GPT-4 en 2023, el modelo se habría “atascado” después de algunas búsquedas.

Pero ahora que Openai ha demostrado qué tan bien funciona este paradigma, debería ser sencillo para que las empresas con aplicaciones de RAG existentes y de bajo rendimiento los actualicen con mejores modelos y un proceso más iterativo para la recuperación de documentos. Eso debería producir un rendimiento dramáticamente mejor, y espero que impulse el entusiasmo renovado por este tipo de sistema.

Curiosamente, el producto de investigación profunda de Google parece estar en algún lugar entre el enfoque de OpenAI y un sistema de trapo tradicional. Al igual que un sistema de RAG tradicional, la investigación profunda de Google opera en dos fases, primero recuperando un montón de documentos y luego generando una salida. Pero dentro de la primera etapa, la investigación profunda de Google tiene un proceso de búsqueda iterativo donde el resultado de una búsqueda informa la siguiente.

No sé si el producto de Google funciona relativamente mal porque tiene un proceso de razonamiento más rígido o porque el modelo subyacente de Google simplemente no es tan bueno como el O3 de OpenAI. O tal vez estos problemas están conectados: tal vez el proceso de búsqueda abierto utilizado por el producto de OpenAI solo es posible con un poderoso modelo de razonamiento como O3.

De cualquier manera, estoy seguro de que Google está trabajando duro para recuperar su liderazgo en una categoría de productos que Google inventó hace solo unos meses.

El éxito de Deep Research también sugiere que hay mucho espacio para mejorar los modelos de IA utilizando el “auto juego”. La gran idea de O1 era que permitir que un modelo “piense” durante más tiempo conduce a mejores respuestas. La investigación profunda de OpenAI demuestra que esto es cierto para una amplia gama de campos más allá de la programación de matemáticas y computadoras.

Y esto sugiere que hay mucho espacio para que estos modelos se “enseñen” a mejorar en una amplia gama de tareas cognitivas. Una empresa como OpenAI o Google puede generar datos de capacitación al tener un modelo “pensar” en una pregunta durante mucho tiempo. Una vez que tiene la respuesta correcta, puede usar la respuesta, y las fichas de pensamiento asociadas, para entrenar a la próxima generación de modelos de razonamiento.

Debido a que el algoritmo de entrenamiento sabe la respuesta correcta, debería poder entrenar al nuevo modelo para llegar a la respuesta correcta más rápidamente. Y luego, este nuevo modelo puede generar un nuevo lote de datos de entrenamiento que se centra en problemas aún más difíciles.

No espero que este proceso obtenga modelos de IA hasta la inteligencia a nivel humano porque eventualmente se toparán con las limitaciones I escribió acerca de en diciembre. Pero el éxito de la investigación profunda me hace pensar que el paradigma actual tiene más espacio para la cabeza de lo que pensé hace solo unas semanas.

Ahora aquí hay una ventaja para pagar suscriptores: un resumen de cómo cada uno de mis 19 voluntarios juzgó las respuestas de Openai y Google.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Las imágenes de estilo Ghibli Studio de Chatgpt muestran su poder creativo, pero plantean nuevos problemas de derechos de autor

Published

on

Las redes sociales se han inundado recientemente con imágenes que parecían pertenecer a una película de Studio Ghibli. Los selfies, las fotos familiares e incluso los memes han sido reimaginados con la paleta suave y pastel característica de la compañía de animación japonesa fundada por Hayao Miyazaki.

Esto siguió a la última actualización de Openai a ChatGPT. La actualización mejoró significativamente las capacidades de generación de imágenes de CHATGPT, lo que permite a los usuarios crear imágenes convincentes de estilo ghibli en solo segundos. Ha sido enormemente popular, tanto así, de hecho, que el sistema se bloqueó debido a la demanda del usuario.

Los sistemas generativos de inteligencia artificial (IA) como ChatGPT se entienden mejor como “motores de estilo”. Y lo que estamos viendo ahora es que estos sistemas ofrecen a los usuarios más precisión y control que nunca.

Pero esto también está planteando preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.

Cómo el nuevo chatgpt hace imágenes

Los programas generativos de IA funcionan produciendo salidas en respuesta a las indicaciones del usuario, incluidas las indicaciones para crear una imagen.

Generaciones anteriores de generadores de imágenes AI utilizaron modelos de difusión. Estos modelos refinan gradualmente datos aleatorios y ruidosos en una imagen coherente. Pero la última actualización de ChatGPT utiliza lo que se conoce como un “algoritmo autorregresivo”.

Este algoritmo trata las imágenes más como el lenguaje, descomponiéndolas en “tokens”. Así como ChatGPT predice las palabras más probables en una oración, ahora puede predecir diferentes elementos visuales en una imagen por separado.

Esta tokenización permite que el algoritmo separe mejor ciertas características de una imagen, y su relación con las palabras en un aviso. Como resultado, ChatGPT puede crear imágenes con mayor precisión a partir de indicaciones precisas del usuario que las generaciones anteriores de generadores de imágenes. Puede reemplazar o cambiar las características específicas al tiempo que preserva el resto de la imagen, y mejora el tema de larga data de generar texto correcto en las imágenes.

Una ventaja particularmente poderosa de generar imágenes dentro de un modelo de lenguaje grande es la capacidad de recurrir a todo el conocimiento ya codificado en el sistema. Esto significa que los usuarios no necesitan describir todos los aspectos de una imagen con detalles minuciosos. Simplemente pueden referirse a conceptos como Studio Ghibli y la IA entiende la referencia.

La reciente tendencia de Studio Ghibli comenzó con OpenAi en sí, antes de difundirse entre los ingenieros de software de Silcon Valley y luego incluso gobiernos y políticos, incluidos usos aparentemente improbables, como la Casa Blanca, que crea una imagen giblificada de una mujer que llora siendo deportada y el gobierno indio que promueve la narrativa del primer ministro Narendra Modi de una “nueva India”.

Comprender la IA como ‘motores de estilo’

Los sistemas generativos de IA no almacenan información en ningún sentido tradicional. En cambio, codifican texto, hechos o fragmentos de imagen como patrones, o “estilos”, dentro de sus redes neuronales.

Entrenados en grandes cantidades de datos, los modelos de IA aprenden a reconocer patrones en múltiples niveles. Las capas de red inferiores pueden capturar características básicas como relaciones de palabras o texturas visuales. Las capas más altas codifican conceptos o elementos visuales más complejos.

Esto significa que todo (objetos, propiedades, géneros de escritura, voces profesionales) se transforma en estilos. Cuando AI se entera del trabajo de Miyazaki, no almacena marcos reales de Studio Gibli (aunque los generadores de imágenes a veces pueden producir imitaciones cercanas de imágenes de entrada). En cambio, está codificando la “ghibli-ness” como un patrón matemático, un estilo que se puede aplicar a nuevas imágenes.

Lo mismo sucede con los plátanos, los gatos o los correos electrónicos corporativos. La IA aprende “plátano”, “gato” o “correo electrónico corporativo”, patrones que definen lo que hace que algo sea reconocible un plátano, un gato o una comunicación profesional.

La codificación y transferencia de estilos ha sido durante mucho tiempo un objetivo expreso en la IA visual. Ahora tenemos un generador de imágenes que logra esto con una escala y control sin precedentes.

Este enfoque desbloquea posibilidades creativas notables tanto en texto como en imágenes. Si todo es un estilo, entonces estos estilos se pueden combinar y transferir libremente. Es por eso que nos referimos a estos sistemas como “motores de estilo”. Intente crear un sillón al estilo de un gato o en estilo

https://www.youtube.com/watch?v=duwdqsy8ste

La controversia de los derechos de autor: cuando los estilos se convierten en identidad

Si bien la capacidad de trabajar con estilos es lo que hace que la IA generativa sea tan poderosa, también está en el corazón de la creciente controversia. Para muchos artistas, hay algo profundamente inquietante en ver sus enfoques artísticos distintivos reducidos a solo otro “estilo” que cualquiera puede aplicar con un mensaje de texto simple.

Hayao Miyazaki no ha comentado públicamente sobre la tendencia reciente de las personas que usan ChatGPT para generar imágenes en su estilo de animación de fama mundial. Pero él ha sido crítico con la IA anteriormente.

Todo esto también plantea preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.

Tradicionalmente, la ley de derechos de autor no protege los estilos, solo expresiones específicas. No puedes derechos de autor de un género musical como “SKA” o un movimiento de arte como “Impresionismo”.

Esta limitación existe por una buena razón. Si alguien pudiera monopolizar un estilo completo, sofocaría la expresión creativa para todos los demás.

Pero hay una diferencia entre los estilos generales y los muy distintivos que se vuelven casi sinónimos de la identidad de alguien. Cuando una IA puede generar trabajo “al estilo de Greg Rutkowski”, un artista polaco cuyo nombre se usó en más de 93,000 indicaciones en la difusión estable del generador de imágenes de IA: potencialmente amenaza tanto su sustento como su legado artístico.

Algunos creadores ya han tomado acciones legales.

En un caso presentado a fines de 2022, tres artistas formaron una clase para demandar a múltiples compañías de IA, argumentando que sus generadores de imágenes estaban capacitados en sus trabajos originales sin permiso, y ahora permiten a los usuarios generar trabajos derivados que imitan sus estilos distintivos.

A medida que la tecnología evoluciona más rápido que la ley, el trabajo está en marcha en una nueva legislación para tratar de equilibrar la innovación tecnológica con la protección de las identidades creativas de los artistas.

Cualquiera sea el resultado, estos debates resaltan la naturaleza transformadora de los motores de estilo AI, y la necesidad de considerar tanto su potencial creativo sin explotar como su protección más matizada de estilos artísticos distintivos.

Continue Reading

Noticias

Géminis, abril de 2025: Su horóscopo mensual

Published

on

Para Gemini carismático, adaptable y curioso: esto es lo que puede esperar disfrutar, trabajar y recibir durante todo el mes de abril.

El mes de abril tiene un comienzo lleno de baches cuando la luna creciente de depilación ingresa a su dominio celestial y rápidamente forma un cuadrado tenso con su planeta gobernante retrógrado, Mercurio. Esta fase retrógrada ya está plagada de desgloses de comunicación, retrasos en los viajes y percances tecnológicos. Emparejado con la energía de serptit de la luna creciente de depilación, esta alineación cósmica señala hacia los golpes en el camino en los primeros días del mes. Afortunadamente, esta racha de mala suerte no parece que dure mucho. Para el 5 de abril, una luna del primer trimestre formará un truido mucho más fortuito con mercurio retrógrado.

Videos de Vice

Dos días después, Mercury regresa directamente. Un cambio bienvenido después del estragos que causó en la última mitad de marzo, el regreso de su planeta gobernante a su ruta orbital habitual borra las vías de comunicación, aumenta la claridad mental y hace que los percances de tecnología y viajes sean menos probables. Pero ten cuidado, Géminis: Venus retrógrado seguirá en marcha en este punto. Este evento planetario permanecerá durante casi una semana más que Mercurio retrógrado. Durante este tiempo, este retrógrado puede conducir a una agitación financiera o emocional. Mantén un reloj de cerca en su corazón y billetera durante este tiempo. No dejes que un poco de vista de la luz al final del túnel te tienta a agotar todo lo que tienes que dar antes de alcanzar el final real. Estarás cerca de la línea de meta, pero todavía no.

Para el 10 de abril, la luna gibrosa de depilación forma una oposición directa a su planeta gobernante. Esta fase lunar particular tiende a lograr más conflictos, ya que nos anima a evaluar nuestro entorno y determinar qué tan cerca estamos hacia nuestros objetivos. Ya sea profesional, personal, romántico o de otro tipo, verificar estos objetivos periódicamente puede evitar que tenga que retroceder más allá de la quiebra que ha sido extraviada. Una luna gibosa de depilación con depilación con cera no siempre requiere una liberación o transformación. Pero es el momento oportuno para determinar si necesita uno, lo cual es igual de crítico.

El 13 de abril será un día increíblemente potente en el Cosmos, ya que la luna llena alcanza su máxima resistencia en Libra el mismo día en que Venus regresa directamente. La claridad emocional estará en su punto más alto. Esté atento a las señales universales durante este tiempo, Stargazer. Escucha tu intuición. Estos mensajes sutiles pero importantes a menudo se esconden en los lugares más obvios. Los sentimientos positivos y negativos pueden volverse más intensos bajo la luna llena. Esto ofrece luces verdes y rojas, respectivamente, a medida que continuamos nuestra caminata por nuestros caminos de vida. Asegúrese de prestar atención, particularmente en asuntos del corazón o billetera.

Todos los signos cósmicos apuntan a una mayor creatividad, confianza y progreso personal alrededor del 16 y 17 de abril. En el primero de estos días fortuitos, su planeta gobernante entra a Aries ardientes. Decir lo que piensa será más fácil como resultado. Y, de hecho, este tipo de apertura puede ser una bendición o una maldición, dependiendo de qué tan agudo permitas que tu lengua sea. Presenta tu verdad con coraje. Pero recuerde que la honestidad no siempre tiene que ser cruel. De hecho, el mejor tipo de autenticidad rara vez es, incluso si es algo desagradable.

Una luna gibosa menguante forma un trígono armonioso con mercurio ese mismo día, alentando un cambio hacia la gratitud y la autorreflexión. Estas dos alineaciones que coinciden entre sí parecen sugerir una llamada cósmica hacia la honestidad radical contigo mismo. Frente a este tipo de verdades consigo mismo puede ser difícil, sí. Pero las recompensas a menudo valen la pena el esfuerzo.

Al día siguiente, 17 de abril, Mercurio se une con Neptuno en la cúspide de Piscis y Aries. Esta combinación planetaria fomenta una mayor creatividad, una imaginación más amplia y una apertura a las ideas románticas (tanto en términos de relaciones interpersonales como de amor general a la vida). Capitalice esta energía evaluando y organizando sus ambiciones más altas. Si el dolor de cabeza logístico de la vida cotidiana no estaba en la imagen, ¿qué esperarías lograr? Comience con sus mayores sueños y avance desde allí. Nadie puede culparlo por tener objetivos altos para usted, Géminis. Si lo hacen, ese es su problema para reconciliarse, no el tuyo.

Un sextil favorable entre Mercurio y Plutón alrededor del 20 de abril abre la puerta para avances mentales y emocionales significativos. El último planeta enano típicamente supervisa el cambio y la transformación más importantes en un nivel individual y social. Con la energía comunicativa e intelectual de Mercurio en la mezcla, las estrellas parecen estar suavemente empujándote hacia revelaciones importantes que tendrán efectos positivos en casi todos los aspectos de tu vida. Mantenga un corazón y mente abiertos alrededor de este día.

Nunca debes subestimar la capacidad del Cosmos para sorprenderte para mejor, Stargazer. El mismo sextil entre Mercurio y la luna del último trimestre al día siguiente, el 21 de abril, refuerza aún más la idea de dejar ir y confiar en el universo para encontrar su centro de equilibrio como siempre lo hace.

Las estrellas cambian hacia el descanso, el rejuvenecimiento y la relajación alrededor del 25 de abril. Una conjunción de su planeta gobernante y la disminución de la luna gibosa ese día sirve como un recordatorio crucial. Para mejorar realmente nuestras mentes, cuerpos y espíritus, debemos saber cuándo descansar las tres. Explique algo de tiempo, incluso si es breve, recargar y recalibrar. Puede posponer esta práctica si así lo desea. Pero el universo encontrará una manera de hacer que disminuya la velocidad de una forma u otra.

Terminamos el mes de abril bajo la sombra de la luna nueva en Tauro. Este dominio celestial ya tiene una fuerte inclinación a casa, prefiriendo la estabilidad sobre la espontaneidad y la calma sobre el caos. Siga el reflujo y el flujo natural del cosmos durante este tiempo. Pronto habrá tiempo para la acción, según lo prometido por una luna creciente de depilación que ingresa a su dominio celestial el 29 de abril. Pero en los días previos a esta transición, sobre todo el 27 de abril bajo la luna nueva, las estrellas le instan a que tome las cosas con lento y estable.

Así concluye sus aspectos más destacados mensuales. Para análisis celestiales más específicos, asegúrese de leer su horóscopo diario y semanal también. ¡Buena suerte, Géminis! Nos vemos el próximo mes.

Continue Reading

Noticias

Cómo el generador de imágenes OpenAI 4O reformulan la creatividad

Published

on

El lanzamiento del generador de imágenes 4O de Operai ha encendido una moda de anime infundida con IA.

El desarrollo desencadenó una discusión renovada sobre las capacidades, limitaciones y problemas de derechos de autor de la creación visual asistida por AI-AI. A diferencia de los modelos anteriores de Dall.E (inspirados en el pintor surrealista español Salvador Dalí) que se centró principalmente en la interpretación artística y las transferencias de estilo, el generador de imágenes 4O aparece diseñado para abordar puntos específicos del dolor profesional, particularmente en la representación de texto y la consistencia de la imagen múltiple.

Este desarrollo se produce a medida que el campo se llena cada vez más, con cada plataforma de IA importante que desarrolla especializaciones que revelan tanto el progreso como los desafíos persistentes de la IA generativa.

El panorama competitivo

El mercado de generación de imágenes de IA se ha convertido en un ecosistema especializado donde diferentes herramientas tienen propósitos marcadamente diferentes. MidJourney ofrece a pintores digitales y artistas conceptuales una amplia gama de opciones estilísticas. Sus resultados aparecen regularmente en carteras profesionales e incluso exposiciones de museos, aunque su tendencia hacia el adorno brillante y surrealista puede frustrar a los usuarios que buscan representaciones más realistas.

Gemini 2.5 de Google adopta un enfoque diferente, priorizando la integración con los servicios de Google. Meta AI se especializa en generar imágenes adaptadas a los casos de uso de las redes sociales, aprovechando los vastos datos de los medios y la experiencia en los medios para crear contenidos como memes. Sus sugerencias de colaboración y subtítulos en tiempo real también lo hacen adaptable a fines de comunicación en línea. Grok AI aprovecha la capacidad de generación de imágenes dentro de los chats, facilitando las sesiones iterativas de lluvia de ideas donde las imágenes emergen gradualmente de las discusiones textuales.

En el frente comercial, Adobe’s Firefly ha obtenido la adopción corporativa al ofrecer imágenes legalmente examinadas e integración directa con aplicaciones creativas en la nube, y el agregado de dos preocupaciones principales para los usuarios comerciales.

Aplicaciones de la generación de imágenes de IA

El generador de imágenes 4O de Openai adopta el reciente desarrollo de modelos autorregresivos. En un artículo reciente, investigadores de UC San Diego y Nvidia explica que un modelo autorregresivo toma “tanto imágenes como instrucciones como entradas, y predice que las imágenes editadas hacen los tokens en un paradigma de token de vainilla.

Con el modelo autorregresivo, el nuevo generador de imágenes de abrir AI muestra una fuerza particular en:

Renderización de texto: Demuestra una mejora marcada en la generación de texto legible dentro de las imágenes, una notoria debilidad en modelos anteriores. Los equipos de marketing ahora pueden crear maquetas con logotipos y consignas plausibles, mientras que los educadores informan que el éxito de la generación de diagramas científicos precisos con el etiquetado adecuado.

Consistencia contextual: A diferencia de Dall-E 3, que a menudo luchaba por mantener la consistencia de carácter u objeto en múltiples imágenes, 4O muestra un rendimiento mejorado en la generación en serie. Esto puede ayudar a los diseñadores, animadores, narradores digitales a reducir el tiempo de revisión al crear secuencias de guiones gráficos.

Adherencia rápida: El modelo parece menos propenso a la reinterpretación creativa que hizo que las versiones anteriores fueran impredecibles para el uso profesional.

Los generadores de imágenes AI están transformando cómo las empresas crean y entregan contenido visual a escala. Por ejemplo, Daboon construyó una plataforma de IA generativa que capacita a los narradores de narradores para producir 50,000 imágenes por día, acelerando dramáticamente los flujos de trabajo creativos. Del mismo modo, AYNA utilizó el servicio Azure OpenAI para entrenar modelos de difusión que permiten a las marcas generar sesiones de fotos de catálogo y experiencias de prueba virtuales en minutos, sin pasar el tiempo y el costo de las configuraciones de estudio tradicionales. En el sector minorista de alimentos, Blinkit aplicó AI generativo para crear miles de imágenes de recetas personalizadas vinculadas a su catálogo de productos, mejorando la participación del cliente con contenido visualmente rico y personalizado. Estas aplicaciones demuestran cómo la generación de imágenes de IA está remodelando las industrias al aumentar la velocidad, la personalización y la innovación visual. La División de Marketing Asiático de Unilever aprovecha los activos generados por la IA para las imágenes de productos, informando una reducción del 50% en el tiempo de producción.

Sin embargo, las limitaciones persisten en los generadores de imágenes y videos de IA. Por ejemplo, la interpretación casi perfecta de las caras humanas, los pelos de los animales, las superficies de los objetos, a menudo hacen que las imágenes generadas por IA parezcan plástico y antinatural. Las expresiones faciales exageradas pueden ser más fáciles de detectar, reconocer y, por lo tanto, producidas por los generadores de imágenes. Sin embargo, los humanos reales no resuenan con estas escenas y expresiones demasiado escenificadas. AI generó anuncios, como los comerciales navideños de 2024 de Coca Cola, también provocó controversia sobre su falta de autenticidad.

La paradoja de la creatividad

A medida que estas herramientas democratizan la creación de imágenes, simultáneamente devaltan ciertas formas de arte técnico. El surgimiento de la generación de imágenes de IA desplaza los roles tradicionales al tiempo que crea demanda de nuevas habilidades mejoradas con AI. Según el Informe del Future of Jobs del Foro Económico Mundial 2025, se proyecta que trabajos como diseñadores gráficos, profesionales de publicidad y trabajadores de impresión disminuyan significativamente para 2030, en parte debido a la automatización en la creación de contenido y el diseño visual.

Al mismo tiempo, los roles que respaldan la IA generativa, como especialistas en aprendizaje automático, ingenieros de datos y expertos en transformación digital, se encuentran entre los de más rápido crecimiento. Este cambio señala una transformación más amplia: los trabajadores creativos ahora deben adaptarse adoptando roles híbridos que combinan el juicio humano con las capacidades de IA, a medida que las herramientas generativas se integran cada vez más en las tuberías de producción visual.

Pero los patrones históricos muestran que la interrupción tecnológica generalmente redefine en lugar de reemplazar las profesiones creativas. Así como la fotografía transformó el papel de la pintura en la cultura visual, y los gráficos generados por computadora reforman las películas animadas, la generación de IA parece estar cambiando la creatividad humana hacia los dominios que lucha por replicar: comprensión cultural matizada, resonancia emocional rica e innovaciones más tangibles.

En medio de un potencial de automatización drástica en las industrias creativas, vemos el creciente aprecio público por el arte que conlleva rastros de mano de obra manual. La prima colocada en la animación dibujada a mano en producciones de alto presupuesto; el resurgimiento de la fotografía analógica entre la demografía más joven; y el atractivo persistente de las artesanías artesanales, todos atestiguan los valores únicos del tacto humano, los recuerdos vividos y los detalles minuciosos que ofrecen contextos y significados ricos.

Avanzar

La evolución de la generación de imágenes de IA sugiere que no la transformación utópica ni la amenaza existencial, sino una reconfiguración de la comunicación visual. Los adoptantes profesionales que ven el mayor éxito tienden a 1) implementan políticas de uso claras que especifiquen aplicaciones aceptables. 2) Mantener la supervisión humana para los resultados finales, especialmente en dominios sensibles. 3) Desarrolle flujos de trabajo híbridos que aprovechen la velocidad de AI mientras preservan el juicio humano. 4) Evaluar continuamente las métricas cuantitativas y el impacto cualitativo.

A medida que la tecnología madura, su valor final se determinará no solo por capacidades técnicas, sino por cuán cuidadosamente las organizaciones lo integran en sus procesos creativos y operativos. Los usuarios más exitosos probablemente serán aquellos que vean herramientas como GPT-4O Generator de imágenes no como reemplazos para la creatividad humana, sino como colaboradores que pueden manejar ciertas tareas mientras dejan a otros a especialistas humanos.

Este enfoque matizado reconoce que, si bien la IA puede generar imágenes, el juicio humano sigue siendo esencial para determinar qué imágenes valen la pena generar, y qué significan en última instancia. En un paisaje visual cada vez más sintético donde los generadores de imágenes de IA se vuelven más precisos, el verdadero desafío permanece, ¿pueden volverse más auténticos para las experiencias humanas?

Continue Reading

Trending