Noticias

Google lanza Gemini 2.5 Pro, empujando los límites del razonamiento de IA

Published

6 días ago

27 marzo, 2025

Sergio Villanueva

Géminis 2.5

Google

Gemini 2.5 Pro es el último modelo de IA multimodal a gran escala de Google Deepmind, diseñado con capacidades incorporadas de “pensamiento” para manejar tareas complejas. Como el primer lanzamiento de la serie Gemini 2.5, el modelo Pro lidera muchos puntos de referencia de la industria mediante márgenes significativos y demuestra fuertes capacidades de razonamiento y codificación.

A diferencia de las generaciones anteriores de IA que simplemente predijeron texto basado en patrones, Gemini 2.5 Pro está diseñado para analizar la información profundamente, sacar conclusiones lógicas, incorporar un contexto matizado y tomar decisiones informadas antes de responder. Esta evolución en las posiciones de diseño Gemini 2.5 Pro como un modelo de propósito general altamente avanzado que es adecuado para aplicaciones empresariales que exigen precisión y adaptabilidad.

En el núcleo de las características avanzadas de Gemini 2.5 Pro hay un cambio fundamental en su diseño arquitectónico, avanzando hacia lo que Google se refiere como un “modelo de pensamiento”. Esto indica una ruptura de los modelos de IA tradicionales centrados principalmente en la predicción y la clasificación hacia un sistema que se involucra en la deliberación y el razonamiento internos antes de generar una respuesta. Este enfoque intencional conduce a un rendimiento y una precisión significativamente mejorados, especialmente cuando se abordan tareas complejas que requieren más que un mero reconocimiento de patrones.

El rendimiento mejorado de Gemini Pro 2.5 no se debe únicamente al aumento de la potencia computacional o el tamaño del modelo. Más bien, surge de una combinación sofisticada de un modelo base subyacente muy mejorado, aprovechando los avances en la arquitectura de la red neuronal, los conjuntos de datos de entrenamiento extensos y las metodologías refinadas posteriores a la capacitación. Estas técnicas posteriores a la capacitación, que con frecuencia implican el aprendizaje de refuerzo, son cruciales para ajustar el comportamiento del modelo, asegurando una mayor calidad y resultados más relevantes. Esta evolución arquitectónica permite que el modelo realice análisis de información más exhaustivos, lleguen a conclusiones más precisas y lógicas, comprenda mejor e incorpore matices contextuales y, en última instancia, tome decisiones más informadas y confiables, capacidad que son esenciales para aplicaciones comerciales estratégicas.

Más allá del razonamiento abstracto, Gemini 2.5 Pro ofrece un conjunto de capacidades avanzadas que son directamente relevantes para las necesidades empresariales. Lo más destacado es su mejora significativa en el dominio de la codificación. Los ingenieros de Google informan que el rendimiento de la codificación experimentó un salto considerable de Gemini 2.0 a 2.5, con más mejoras en el horizonte. El modelo 2.5 Pro se destaca en la generación y el código de refinación, capaz de crear un software complejo, como una aplicación web interactiva funcional, desde un aviso de alto nivel. En una demostración, el modelo desarrolló un juego completo de “corredor interminable” en HTML/JS a partir de un mensaje de una sola línea, ilustrando su capacidad para administrar las tareas de codificación a nivel de proyecto de forma autónoma. Gemini 2.5 Pro también se destaca en una sólida transformación y edición de código, por lo que es valioso para tareas como refactorizar el código heredado o la traducción del código entre idiomas. En un punto de referencia de ingeniería de software estandarizado (verificado por el banco SWE), el modelo logró una puntuación alta (63.8%) utilizando una configuración de agente autónomo, lo que indica su fuerza para abordar los desafíos de codificación complejos de varios pasos. Para las empresas, esto significa que la IA puede funcionar no solo como un asistente de conversación sino también como una ayuda de codificación capaz o incluso un agente de software semiautónomo.

Géminis 2.5 Pro

Google

Como parte del ecosistema de Géminis más amplio, Google también ha introducido TXGEMMA, un conjunto de modelos abiertos dirigidos a desafíos especializados de la industria. TXGEMMA es una colección de modelos derivados de la Serie Ligera de Gemma (versiones de código abierto de Gemini Technology) y adaptado específicamente para el desarrollo terapéutico de fármacos y biotecnología. Estos modelos están capacitados para comprender y predecir las propiedades de posibles medicamentos y terapias génicas, lo que ayuda a los investigadores a identificar candidatos prometedores e incluso pronosticar resultados de ensayos clínicos.

En esencia, TXGEMMA toma las técnicas de modelado y razonamiento del lenguaje central de Géminis y las aplica al dominio farmacéutico, donde puede examinar la literatura biomédica, los datos químicos y los resultados del ensayo para ayudar en las decisiones de I + D. El modelo de TXGEMMA más grande (con 27 mil millones de parámetros) ha demostrado el rendimiento a la par o excediendo modelos especializados en muchas tareas de descubrimiento de fármacos, todo mientras se conserva las habilidades generales de razonamiento. Para los líderes empresariales en atención médica y ciencias de la vida, TXGEMMA muestra la adaptabilidad de la arquitectura de Géminis a dominios misioneros críticos: ilustra cómo la IA de vanguardia puede acelerar flujos de trabajo altamente específicos como el descubrimiento de fármacos que tradicionalmente llevan años e incurrir en costos masivos.

Gemini 2.5 Pro representa un paso adelante significativo en el diseño del modelo de IA, combinando la potencia bruta con capacidades de razonamiento refinado que abordan directamente las tareas complejas del mundo real. Su arquitectura, con multimodalidad nativa y una longitud de contexto sin precedentes, permite a las empresas traer una variedad más rica de datos para tener problemas, extrayendo ideas que los modelos anteriores podrían haberse perdido. El fuerte desempeño del modelo en los puntos de referencia de codificación y razonamiento brinda la confianza de que puede manejar aplicaciones exigentes, desde la automatización de partes de la ingeniería de software hasta dar sentido a las amplias bases de conocimiento corporativo. Con el soporte de Google para la integración empresarial a través de plataformas en la nube y la aparición de ramas específicas de dominio como TXGEMMA, el ecosistema Gemini 2.5 Pro está listo para proporcionar la inteligencia general y las habilidades especializadas que buscan las empresas modernas. Para las CXO que planea la estrategia de IA de su empresa, Gemini 2.5 Pro ofrece una vista previa de cómo se pueden implementar sistemas de IA de próxima generación para impulsar la innovación y la ventaja competitiva, todos centrados en un razonamiento más profundo, un contexto más amplio y resultados tangibles.

Noticias

La ronda de financiamiento de $ 40 mil millones de OpenAI desafía el momento profundo y cements su dominance de IA

Published

4 horas ago

2 abril, 2025

Sergio Villanueva

La semana pasada, los procesadores de GPU de Openai “derretidos”, como lo expresaron el fundador y CEO Sam Altman. La razón: el modelo actualizado de generación de imágenes de la compañía, integrado en CHATGPT, entregó un salto significativo en las capacidades de comprensión, entrada y salida en comparación con modelos similares en el mercado. En poco tiempo, el modelo encendió un fenómeno en línea, con usuarios que generan versiones de imágenes familiares al estilo del legendario estudio de animación Ghibli. La demanda del software era tan alta que Openai se vio obligada a imponer restricciones de uso, a pesar de que el modelo estaba disponible solo para pagar a los usuarios.

Este evento ofrece una explicación clara de por qué, incluso después de que el momento profundo de Deepseek sacudió la industria de la IA en enero, los inversores siguen seguros de que el dominio de OpenAI no es cuestionado. ¿Qué tan seguro? Lo suficientemente seguro de respaldar a la compañía con una ronda de financiación récord de $ 40 mil millones, valorando a Openai en $ 300 mil millones después del dinero.

Anunciado el martes, la ronda casi duplica la valoración de Operai de su aumento anterior y es el más grande para una empresa privada. Según OpenAI, los fondos acelerarán el desarrollo de la inteligencia general artificial (AGI). “[The funding] Nos permite impulsar las fronteras de la investigación de IA aún más, escalar nuestra infraestructura de cómputo y ofrecer herramientas cada vez más poderosas para los 500 millones de personas que usan CHATGPT cada semana “, dijo la compañía en un comunicado de prensa.” Estamos emocionados de trabajar en asociación con SoftBank Group: las compañías completan cómo escalar tecnología transformadora como lo hacen. Su apoyo nos ayudará a continuar construyendo sistemas de IA que impulsen el descubrimiento científico, permitan la educación personalizada, mejoren la creatividad humana y allanen el camino hacia AGI que beneficie a toda la humanidad “.

La ronda está dirigida por el SoftBank de Japón, el socio clave de OpenAI en el Proyecto Stargate, una ambiciosa iniciativa para construir una infraestructura informática de IA en los Estados Unidos con una inversión total de $ 500 mil millones. Según Bloomberg, en la primera fase, SoftBank invertirá $ 7.5 mil millones, mientras que un sindicato de inversores, incluidos Microsoft, Coatue Management, Altimeter Capital Management y Thrive Capital, contribuirá con $ 2.5 mil millones. La segunda fase, que cerrará a fin de año, hará que SoftBank invierta otros $ 22.5 mil millones, con el sindicato de inversores agregando $ 7.5 mil millones. Las conversaciones también están en marcha con el capital de Magnetar de Peter Thiel y los fundadores para unirse al sindicato.

La inversión completa de SoftBank depende de que Operai complete su transición a una estructura con fines de lucro para fin de año (actualmente está controlada por una organización sin fines de lucro). Si la transición no se completa, SoftBank tendrá la opción de reducir su inversión de $ 30 mil millones a $ 20 mil millones, lo que permite a OpenAI buscar inversores adicionales para cerrar la brecha.

Al finalizar la ronda de financiación, OpenAI se convertirá en la segunda compañía privada respaldada por la empresa más grande del mundo por capitalización de mercado, según la firma de investigación Pitchbook. Solo seguirá el SpaceX de Elon Musk, valorado en $ 350 mil millones, y superará a la empresa matriz de Tiktok Bytedance, que está valorada en $ 220 mil millones. La ronda de $ 40 mil millones también es la cantidad más grande jamás recaudada en una sola ronda por una empresa privada, eclipsando el récord anterior establecido por el grupo de hormigas de China, que recaudó $ 14 mil millones en 2018.

The Deepseek Moment: Un desafío que no pudo sacudir OpenAi

Hace solo dos meses, un aumento tan ambicioso parecía mucho menos seguro. El 20 de enero, la compañía china Deepseek presentó su modelo de razonamiento R1 AI, que ofreció un rendimiento comparable a los modelos líderes de OpenAI y sus competidores, pero según los informes, a una fracción de la potencia y el costo informático. Esta revelación envió ondas de choque a través de la industria de la IA (NVIDIA, por ejemplo, vio una pérdida de $ 1 billón en la capitalización de mercado), lo que generó dudas sobre la estrategia de alto costo que OpenAi había seguido.

El dominio de OpenAI se ha basado en inversiones masivas en desarrollo de modelos, capacitación e implementación, mejor ejemplificado por el ambicioso proyecto Stargate. La ventaja competitiva de la compañía también se ha basado en ensamblar un equipo de investigación de IA de primer nivel capaz de producir avances de vanguardia. Sin embargo, el momento de Deepseek calificó esta estrategia: si una empresa china relativamente pequeña podría lograr resultados similares con mucha menos inversión, el foso competitivo de OpenAi parecía estar en riesgo. Lógicamente, su valoración debería haber disminuido. En cambio, con la última ronda, Operai casi ha duplicado su valoración en solo seis meses.

Tres factores clave explican por qué los inversores siguen siendo optimistas en OpenAi a pesar del desafío Deepseek:

1. Las capacidades de Deepseek pueden haber sido exageradas. Después de que el bombo inicial se desvaneció, quedó claro que los costos de desarrollo de Deepseek no eran tan bajos como se creía inicialmente. Además, hay indicios de que Deepseek puede haber aprovechado los propios modelos de OpenAI en su desarrollo, lo que el gobierno de los Estados Unidos ha referido como robo de propiedad intelectual. Si esto es cierto, Operai puede tomar medidas para bloquear la explotación futura, reforzando su foso.

2. Confianza de los inversores en el liderazgo de Altman y OpenAi. La fortaleza financiera de Operai es solo una parte de su éxito; Su equipo de liderazgo, dirigido por Altman, es igualmente crucial. Los inversores confían en la capacidad del equipo para adaptarse a los cambios de mercado, como incorporar métodos de capacitación más baratos mientras asignan el poder informático a tareas más avanzadas.

3. La interrupción de Deepseek en realidad puede beneficiarse de OpenAi. Al demostrar que los modelos de IA pueden ser entrenados de manera más eficiente, Deepseek ha aumentado la demanda general del mercado de IA avanzada. Los inversores creen que Openai está mejor posicionado para capitalizar esta demanda, aprovechando tanto sus modelos existentes como sus iteraciones futuras desarrolladas con métodos más eficientes inspirados en el enfoque de Deepseek.

La revolución de IA que OpenAi encendió hace dos años y medio ahora se está acelerando aún más, y los inversores están convencidos de que la compañía permanecerá a la vanguardia. Su voto de confianza de $ 40 mil millones lo dice todo.

Noticias

El plan de Google para robar la cuota de mercado de Chatgpt se trata de nivel gratuito de Gemini

Published

7 horas ago

2 abril, 2025

Sergio Villanueva

No es ningún secreto que OpenAi salió, bueno, a todos cuando lanzó Chatgpt hace más de dos años. Ahora, a medida que compañías como Google y Apple intentan competir, están comenzando detrás de Openai, al menos a los ojos del público. ¿Qué tan grande tiene la ventaja de la cabeza? A partir de marzo de 2025, ChatGPT tiene 700 millones de usuarios activos mensuales, lo cual es un total asombroso.

Eso no significa que Google sea impotente en la lucha contra OpenAI para la mayor parte de la participación de mercado de IA de grado de consumo. En los años transcurridos desde que se lanzó ChatGPT, Google aumentó el desarrollo de IA primero a través de Bard, más tarde renombrado Gemini. Mientras que el plan de Openai para monetizar el chatgpt implicó hacer un montón de características tempranas gratuitas y bloquear las avanzadas detrás de un muro de pago, Google está haciendo lo contrario.

Con Gemini, Google está desarrollando casi exclusivamente nuevas características para su nivel avanzado de Gemini pagado, pero eso no cuenta toda la historia. Esas características comienzan exclusivas del Plan Premium de AI de Google One, que cuesta $ 20 por mes, pero no permanecen allí por mucho tiempo. En el caso del último modelo experimental Gemini 2.5 Pro de la compañía, solo siguió siendo un beneficio avanzado de Géminis durante solo cuatro días antes de liberarse.

Entonces, ¿qué nos dice esto sobre la estrategia de IA de Google, e incluso vale la pena pagar por Gemini Advanced?

Por qué Gemini 2.5 Pro (EXP) ya está disponible para usuarios gratuitos

(Crédito de la imagen: Google)

ChatGPT tiene una gran ventaja de marca sobre Gemini, hasta el punto de que algunos usuarios casuales se refieren a la IA en su conjunto como solo “chatgpt”. Sin embargo, Google ha tenido la ventaja tecnológica sobre los modelos de lenguaje grande (LLM) de OpenAI desde hace algún tiempo. Está lanzando nuevos modelos a un ritmo bianual constante, a veces más rápido, y el último modelo experimental Gemini 2.5 Pro de Google es el máximo puntaje en múltiples puntos de referencia de IA.

Lmarena, un punto de referencia de IA multifacético, tiene la clasificación de Gemini 2.5 Pro primero en su clasificación, por delante de Grok 3, GPT-4.5 y Deepseek R1. Google lo llamó el “modelo de IA más inteligente” de la compañía en su anuncio de Gemini 2.5 Pro la semana pasada, y las pruebas independientes parecen respaldar esas afirmaciones.

Gemini 2.5 Pro Graphics y resultados de referencia.

(Crédito de la imagen: Google)

Eso nos lleva a por qué Google decidió hacer Gemini 2.5 Pro Experimental GRATIS el 29 de marzo, solo cuatro días después de que debutó el 25 de marzo. Para asumir realmente ChatGPT, Google no puede convencer a los nuevos usuarios de que use regularmente Gemini. También tiene que intentar atraer a los usuarios actuales de ChatGPT a cambiar a Gemini, y la mejor manera de hacerlo no es limitar el nivel gratuito a modelos obsoletos, es obtener los mejores modelos de Géminis en manos de la mayoría de las personas.

Aunque algunos usuarios avanzados de Gemini pueden haber sido tomados por sorpresa por el corto período de exclusividad, Google confirmó que esto es exactamente por qué hizo que Gemini 2.5 Pro experimental sea gratis en una publicación en las redes sociales.

“El equipo está corriendo, TPUS está funcionando y queremos que nuestro modelo más inteligente en las manos de más personas lo antes posible”, escribió la compañía en una publicación sobre X (anteriormente Twitter) en la cuenta de la aplicación Gemini. “Es por eso que decidimos lanzar Gemini 2.5 Pro (experimental) a todos los usuarios de Géminis, comenzando hoy”.

Gemini 2.5 Pro está despegando El equipo está corriendo, TPUS está funcionando y queremos poner nuestro modelo más inteligente en las manos de más personas lo antes posible. Es por eso que decidimos lanzar Gemini 2.5 Pro (experimental) a todos los usuarios de Géminis, comenzando hoy. Pruébalo en No … https://t.co/eqcjwwvhxj29 de marzo de 2025

El movimiento de Google con respecto a Gemini 2.5 Pro Experimental puede parecer único, hasta que observes ejemplos anteriores de funciones avanzadas de Gemini que se liberan. En los últimos meses, numerosas características remuneradas han llegado a usuarios gratuitos, incluidas gemas: versiones personalizadas de Gemini atendidas a tareas específicas. A partir de marzo de 2025, los usuarios gratuitos pueden crear sus propios bots gemini personalizados o usar gemas prefabricadas.

Este ejemplo es bastante importante, ya que desafía directamente a los GPT personalizados de OpenAI. Los GPT personalizados funcionan de manera similar a Gemini Gems, ya que son chatbots personalizados diseñados para satisfacer una necesidad específica. Sin embargo, los usuarios gratuitos de ChatGPT solo pueden probar GPTS personalizados existentes: no pueden crear los suyos propios. Mientras tanto, sabemos que Google ofrece una funcionalidad similar completamente gratuita con Gemini.

La lista de características avanzadas de Gemini pagadas disponibles para usuarios gratuitos incluye carga y análisis de documentos, generación de imágenes de imágenes, investigación profunda e información guardada. Una vez más, vale la pena señalar que la versión de Chatgpt de investigación profunda no es gratuita, lo que puede hacer que el equivalente de Géminis sea una opción más atractiva.

Por qué Gemini Advanced todavía tiene sentido para los usuarios avanzados

(Crédito de la imagen: Andrew Myrick / Android Central)

La estrategia de Google con respecto a Gemini es clara: la compañía quiere entregar más características gratuitas que sus competidores, todo mientras integra la IA en sus servicios existentes, como Google Search, Android, Workspace y YouTube, para ganar una ventaja competitiva. Pero, ¿dónde deja eso a los suscriptores avanzados de Géminis?

Sorprendentemente, todavía hay muchas razones para suscribirse a Google One Ai Premium para Gemini Advanced Access. Para empezar, los usuarios avanzados no alcanzarán los límites de tarifas tan pronto como los usuarios gratuitos. Incluso si los mismos modelos están disponibles para cuentas gratuitas y pagas, los usuarios avanzados de Gemini obtendrán recuentos de tokens más altos para una ventana de contexto más amplia.

Con Gemini 2.5 Pro Experimental, los clientes que pagan obtienen una ventana de contexto de un millón de token que se expandirá a dos millones en el futuro.

Una ventaja clave de Géminis avanzada es el soporte de token más alto. (Crédito de la imagen: futuro)

Eso es además de todas las otras características avanzadas de Géminis que aún son exclusivas de la suscripción, como NotebookLM, una de las herramientas de investigación y toma de notas de IA más potentes disponibles. Lo mismo ocurre con Gemini Live With Screen Sharing y Live Video Streaming, que se está implementando en dispositivos Android compatibles ahora.

El impactante movimiento de Google de hacer Gemini 2.5 Pro Experimental Free solo unos días después de su lanzamiento subraya lo importante que es el nivel no remunerado de Gemini para la estrategia de IA de la compañía. De alguna manera, tampoco viene a expensas de Géminis avanzada.

Noticias

Di de Chatgpt y Gemini 5 Image Solts, aquí está quién ganó

Published

8 horas ago

2 abril, 2025

Sergio Villanueva

Tanto Chatgpt como Gemini se consideran entre los mejores generadores de imágenes de IA. Con ambos modelos, puedes describir una escena y verla cobrar vida en segundos. Pero no todos los generadores de imágenes son creados iguales.

Para ver cómo se comparan, le di a ambas plataformas exactamente las mismas cinco indicaciones, desde la fantasía hasta el fotorrealismo, y evalué cómo cada IA respondió en términos de creatividad, detalle y qué tan bien interpretaron el informe.

Los resultados no siempre fueron lo que esperaba. En algunos casos, una herramienta eclipsó claramente a la otra. En otros, se redujo al estilo versus el realismo.

Así es como se realizó cada IA cuando se le dio el mismo desafío, y cuál podría ser la mejor opción para su próximo mensaje de imagen.

Cómo ver las comparaciones de imágenes

Para que sea fácil de seguir, el diseño es consistente en toda esta pieza. La salida de imagen de Chatgpt siempre aparecerá a la izquierday Géminis está a la derecha.

De esa manera, puede comparar fácilmente los dos uno al lado del otro y ver exactamente cómo cada IA interpretó el informe.

Esto se aplica a todas las indicaciones, excepto el número dos, en el que la imagen de la salida de Gemini está debajo de ChatGPT.

1. Un tazón fotorrealista de ramen en una mesa de madera

(Imagen: © Guía de Tom)

Para este aviso, quería probar hiperrealismo. La fotografía de alimentos es notoriamente difícil de fingir, por lo que un tazón humeante de ramen con ingredientes detallados, iluminación cálida y texturas visibles sería un fuerte indicador de qué tan bien cada IA hace realidad.

Si alguna imagen pudiera pasar para una foto de restaurante real de un vistazo, lo llamaría una victoria. Usé el siguiente mensaje: “Cree una imagen de un tazón fotorrealista de ramen con vapor que se eleva, colocado en una mesa rústica de madera en un restaurante suavemente iluminado”.

Ambos modelos lo hicieron bien aquí, pero Chatgpt se llevó la victoria. La imagen se veía genuinamente fotorrealista, hasta los detalles finos, como el ascensor de vapor y el caldo brillante. Si lo viera en mi feed, probablemente no lo cuestionaría.

La versión de Géminis, por otro lado, no aterrizó de la misma manera. El huevo parecía plano y carecía de una dimensión, y la composición general se sintió menos convincente. No estaba mal, pero no pasó el “¿Es esto real?” Prueba como lo hicieron los chatgpt.

2. Un par futurista de zapatillas para correr en un fondo de estudio blanco

(Imagen: © Guía de Tom)

Aquí estaba buscando un representación de productos limpios. Piense en el comercio electrónico listo: bordes afilados, iluminación de estudio y texturas de materiales realistas.

Es una prueba de qué tan bien cada IA puede producir imágenes de estilo comercial con un ruido de fondo mínimo. El aviso puede parecer simple, pero eso es exactamente por qué importa: la precisión y la presentación lo son todo.

Para este usé: “Cree una imagen de un par de zapatos futuristas, fotografiados en un fondo de estudio blanco, con sombras suaves y detalles reflectantes”.

No pude encajar ambas imágenes en la misma diapositiva, Entonces el Géminis está debajo.

….

(Imagen: © Guía de Tom)

Ambos AIS hicieron un trabajo decente interpretando el aviso, pero Gemini salió adelante en este caso.

El trabajo de sombreado y textura fue excelente, dando a los zapatos una dimensión y peso reales. Incluso hubo un efecto de brillo suave que se sumó al ambiente futurista.

Curiosamente, ambos modelos de IA produjeron diseños que se parecían mucho a los entrenadores de Nike existentes, pero la versión de Chatgpt se veía más plana en comparación, casi como una representación 2D en lugar de una foto de producto pulido.

3. Un castillo medieval flotando en el cielo al atardecer

(Imagen: © Guía de Tom)

Este aviso se inclina hacia construcción del mundo de fantasía – El tipo de cosas que esperarías en una portada de libro o en un mazo de arte conceptual de juego.

Prueba la composición, la iluminación y la atmósfera, además de cuán imaginativo puede ser cada IA con la estructura y la configuración. No se trata solo de seguir instrucciones, sino crear algo con estado de ánimo.

Para el mensaje de construcción del mundo de fantasía, fui con: “Cree una imagen de un gran castillo medieval hecho de piedra, flotando sobre las nubes al atardecer, con iluminación dramática y profundidad atmosférica”.

Chatgpt realmente clavó este. La iluminación era dramática, con la mitad del castillo lanzado en sombra y el resto brillando en luz dorada, exactamente el tipo de profundidad atmosférica que tenía en mente.

Géminis, mientras tanto, fue demasiado literal. El castillo estaba flotando, pero la sección inferior parecía confundida, como si no estuviera seguro de reflexionar en las nubes o estar enraizada en algo.

Dio una ligera vibra “Laputa: Castle in the Sky”, que fue un buen toque, pero no pegó el aterrizaje.

4. Un póster de viaje de estilo vintage para Marte

(Imagen: © Guía de Tom)

Este se trata de diseño gráfico y estética estilística. Quería ver si cada IA podía capturar la apariencia de los carteles de viajes de mediados de siglo: la tipografía audaz, las formas gráficas planas, las paletas de colores limitadas y las opciones de diseño intencional.

Se trata menos del realismo y más del control artístico y el lenguaje visual. Probé ambos modelos con el siguiente mensaje: “Cree un póster de viaje de estilo retro de la década de 1950 para Marte, con letras en negrita, panorama de planeta rojo estilizado y una paleta de colores vintage”.

Esta fue una llamada cercana, pero Chatgpt lo superó. Su versión tenía un acabado granulado y texturizado que realmente vendía el aspecto vintage, junto con una tipografía variada que le dio una sensación auténtica y apropiada para la ARA. Realmente podrías imaginarlo colgando en una exposición de ciencia ficción retro.

La versión de Gemini no estaba muy por detrás, utilizaba una paleta de colores adecuada y letras en negrita, pero carecía de ese personaje de diseño auténtico. Se sintió más como un póster inspirado por la época, en lugar de algo hecho en él.

5. Un retrato editorial

Para completar las cosas, quería algo estilizado pero enraizado en el realismo, el tipo de retrato que verías en una extensión editorial.

Esta pronta prueba la capacidad de cada IA para representar las características humanas con precisión, al tiempo que gestiona elementos visuales en capas como reflejos, iluminación y movimiento en un entorno urbano ocupado.

Para el último aviso que usé: “Cree un retrato estilizado de una mujer en Times Square por la noche, con gafas de sol reflectantes que muestran letreros de neón, iluminación cinematográfica”.

No hay absolutamente ninguna duda de que Géminis rompió este. El retrato era de alta resolución, perfectamente iluminado y lleno de detalles. Desde la textura de la piel hasta la sutil superposición de los labios, cada elemento era perfecto.

Examiné la imagen, buscando algo – cualquier cosa – Fuera, y salió vacío. El realismo fue excepcional, fácilmente a la par con lo que esperarías de MidJourney.

ChatGPT tomó “estilizado” en una dirección más artística, no está mal de ninguna manera, pero en términos de calidad y precisión fotográfica, la producción de Gemini estaba en una liga diferente.

Pensamientos finales ….

En las cinco indicaciones, ChatGPT toma la corona. Sus salidas de imagen fueron consistentemente creativas, bien compuestas y estrechamente alineadas con la intención de cada informe, particularmente cuando se trataba de fantasía, textura y imágenes estilizadas.

Manejó las indicaciones artísticas con confianza y entregó imágenes que se sentían cuidadosamente compuestas, no solo generadas.

Dicho esto, Gemini se mantuvo en sí, y en algunas áreas, superó a ChatGPT. Su retrato hiperrealista era impecable, y clavó el disparo al estilo del producto con mejor textura y profundidad.

También tiene una ventaja principal: Gemini generó imágenes notablemente más rápidas que ChatGPT a lo largo de la prueba. Si la velocidad y el realismo son sus prioridades, vale la pena usar Gemini.

Pero para la versatilidad general, la interpretación creativa y el polaco visual: ChatGPT fue el generador de imágenes más fuerte esta vez.

Ahora que has aprendido cómo Chatgpt y Gemini abordan la creación de imágenes de IA, ¿por qué no echar un vistazo a algunos de nuestros otros artículos de IA?

Echa un vistazo a 5 indicaciones de chatgpt alucinantes, desearía saber antes y 11 consejos para obtener mejores resultados. E incluso puede reemplazar a Alexa con Chatgpt en su Amazon Echo.