Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
El lanzamiento de Gemini 2.5 Pro el martes no dominó exactamente el ciclo de noticias. Aterrizó la misma semana en que la actualización de generación de imágenes de OpenAI se iluminó con las redes sociales con avatares inspirados en el estudio de Ghibli y renders instantáneos asombrosos. Pero mientras el zumbido fue a OpenAi, Google puede haber eliminado silenciosamente el modelo de razonamiento más listo para la empresa hasta la fecha.
Gemini 2.5 Pro marca un salto significativo para Google en la carrera de modelos fundamentales, no solo en puntos de referencia, sino en la usabilidad. Según los primeros experimentos, datos de referencia y reacciones prácticas para desarrolladores, es un modelo que vale la pena atención de los tomadores de decisiones técnicas empresariales, particularmente aquellos que históricamente han incumplido a OpenAI o Claude para el razonamiento de grado de producción.
Aquí hay cuatro conclusiones principales para equipos empresariales que evalúan Gemini 2.5 Pro.
1. Razonamiento transparente y estructurado: una nueva barra para la claridad de la cadena de pensamiento
Lo que distingue a Gemini 2.5 Pro no es solo su inteligencia, así es que claramente esa inteligencia muestra su trabajo. El enfoque de entrenamiento paso a paso de Google da como resultado una cadena de pensamiento estructurada (COT) que no se siente como divagar o conjeturas, como lo que hemos visto en modelos como Deepseek. Y estas cunas no se truncan en resúmenes poco profundos como lo que ves en los modelos de Openai. El nuevo modelo Géminis presenta ideas en pasos numerados, con sub-bullets y lógica interna que es notablemente coherente y transparente.
En términos prácticos, este es un avance para la confianza y la reflexión. Los usuarios empresariales que evalúan la producción para tareas críticas, como revisar las implicaciones de la política, la lógica de codificación o resumir la investigación compleja, ahora pueden ver cómo el modelo llegó a una respuesta. Eso significa que pueden validarlo, corregirlo o redirigirlo con más confianza. Es una evolución importante de la sensación de “caja negra” que todavía afecta muchas salidas de LLM.
Para obtener un tutorial más profundo de cómo funciona esto en acción, vea el desglose del video donde probamos Gemini 2.5 Pro Live. Un ejemplo que discutimos: cuando se les preguntó sobre las limitaciones de los modelos de idiomas grandes, Gemini 2.5 Pro mostró una notable conciencia. Recitó debilidades comunes y las clasificó en áreas como “intuición física”, “síntesis de concepto novedoso”, “planificación de largo alcance” y “matices éticos”, proporcionando un marco que ayuda a los usuarios a comprender lo que el modelo sabe y cómo se acerca al problema.
Los equipos técnicos empresariales pueden aprovechar esta capacidad para:
Depurar cadenas de razonamiento complejo en aplicaciones críticas
Comprender mejor las limitaciones del modelo en dominios específicos
Proporcionar una toma de decisiones más transparente asistida a las partes interesadas
Mejorar su propio pensamiento crítico estudiando el enfoque del modelo
Una limitación que vale la pena señalar: si bien este razonamiento estructurado está disponible en la aplicación Gemini y Google AI Studio, aún no es accesible a través de la API, una deficiencia para los desarrolladores que buscan integrar esta capacidad en aplicaciones empresariales.
2. Un verdadero contendiente para el estado del arte, no solo en papel
El modelo se encuentra actualmente en la parte superior de la clasificación de Chatbot Arena por un margen notable, 35 puntos Elo por delante del mejor modelo, que es la actualización de OpenAI 4O que cayó el día después de que Gemini 2.5 Pro cayó. Y aunque la supremacía de referencia es a menudo una corona fugaz (ya que los nuevos modelos caen semanalmente), Gemini 2.5 Pro se siente realmente diferente.
La parte superior de la clasificación de LM Arena, en el momento de la publicación.
Se destaca en tareas que recompensan un razonamiento profundo: codificación, resolución matizada de problemas, síntesis en todos los documentos, incluso la planificación abstracta. En las pruebas internas, se ha desempeñado especialmente bien en puntos de referencia previamente difíciles de pasar como el “último examen de la humanidad”, un favorito para exponer las debilidades de LLM en dominios abstractos y matizados. (Puede ver el anuncio de Google aquí, junto con toda la información de referencia).
Es posible que a los equipos empresariales no les importe qué modelo gana qué clasificación académica. Pero les importará que este pueda pensar, y mostrarle cómo está pensando. La prueba de VIBE es importante, y por una vez, es el turno de Google para sentir que lo han pasado.
Como señaló el respetado ingeniero de IA, Nathan Lambert, “Google tiene los mejores modelos nuevamente, ya que deberían haber comenzado toda esta floración de IA. El error estratégico se ha endurecido”. Los usuarios empresariales deberían ver esto no solo como Google alcanzando a los competidores, sino que potencialmente superarlos en capacidades que importan para las aplicaciones comerciales.
3. Finalmente: el juego de codificación de Google es fuerte
Históricamente, Google se ha retrasado detrás de Openai y Anthrope cuando se trata de asistencia de codificación centrada en el desarrollador. Gemini 2.5 Pro cambia eso, a lo grande.
En las pruebas prácticas, se muestra una fuerte capacidad de una sola vez en los desafíos de codificación, incluida la construcción de un juego de Tetris que funcionó en el primer intento cuando se exporta a la solicitud, no se necesita depuración. Aún más notable: razonó a través de la estructura del código con claridad, variables de etiquetado y pasos cuidadosamente, y exponiendo su enfoque antes de escribir una sola línea de código.
El modelo rivaliza con el soneto Claude 3.7 de Anthrope, que ha sido considerado el líder en la generación de código, y una razón importante para el éxito de Anthrope en la empresa. Pero Gemini 2.5 ofrece una ventaja crítica: una ventana de contexto token de 1 millón de 1 millón. El soneto de Claude 3.7 solo está llegando a ofrecer 500,000 tokens.
Esta ventana de contexto masivo abre nuevas posibilidades para razonar en las bases de código enteras, la lectura de la documentación en línea y el trabajo en múltiples archivos interdependientes. La experiencia del ingeniero de software Simon Willison ilustra esta ventaja. Cuando se usa Gemini 2.5 Pro para implementar una nueva característica en su base de código, el modelo identificó los cambios necesarios en 18 archivos diferentes y completó el proyecto completo en aproximadamente 45 minutos, con un promedio de menos de tres minutos por archivo modificado. Para las empresas que experimentan con marcos de agentes o entornos de desarrollo asistidos por AI-AI, esta es una herramienta seria.
4. Integración multimodal con comportamiento similar a un agente
Si bien algunos modelos como el último 4O de OpenAi pueden mostrar más deslumbrantes con una generación de imágenes llamativas, Gemini 2.5 Pro parece que está redefiniendo silenciosamente cómo se ve el razonamiento multimodal.
En un ejemplo, las pruebas prácticas de Ben Dickson para VentureBeat demostraron la capacidad del modelo para extraer información clave de un artículo técnico sobre los algoritmos de búsqueda y crear un diagrama de flujo SVG correspondiente, luego mejorar ese diagrama de flujo cuando se muestra una versión renderizada con errores visuales. Este nivel de razonamiento multimodal permite nuevos flujos de trabajo que anteriormente no eran posibles con los modelos solo de texto.
En otro ejemplo, el desarrollador Sam Witteveen subió una captura de pantalla simple de un mapa de Las Vegas y preguntó qué eventos de Google estaban ocurriendo cerca el 9 de abril (ver minuto 16:35 de este video). El modelo identificó la ubicación, inferió la intención del usuario, buscó en línea (con conexión a tierra habilitada) y devolvió detalles precisos sobre Google Cloud, incluidas fechas, ubicación y citas. Todo sin un marco de agente personalizado, solo el modelo central y la búsqueda integrada.
El modelo realmente razona sobre esta entrada multimodal, más allá de solo mirarla. Y sugiere cómo se vería los flujos de trabajo empresariales en seis meses: cargar documentos, diagramas, paneles, y hacer que el modelo haga síntesis, planificación o acción significativas basadas en el contenido.
Bonificación: es solo … útil
Si bien no es una conclusión separada, vale la pena señalar: este es el primer lanzamiento de Géminis que sacó a Google del LLM “Backwater” para muchos de nosotros. Las versiones anteriores nunca llegaron al uso diario, ya que modelos como OpenAi o Claude establecieron la agenda. Gemini 2.5 Pro se siente diferente. La calidad de razonamiento, la utilidad de contexto a largo plazo y los toques prácticos de UX, como la exportación de replicación de la exportación y el acceso al estudio, lo convierten en un modelo que es difícil de ignorar.
Aún así, son los primeros días. El modelo aún no está en el Vertex AI de Google Cloud, aunque Google ha dicho que se presentará pronto. Quedan algunas preguntas de latencia, especialmente con el proceso de razonamiento más profundo (con tantos tokens de pensamiento procesados, ¿qué significa eso para el momento de token?), Y los precios no se han revelado.
Otra advertencia de mis observaciones sobre su capacidad de escritura: OpenAi y Claude todavía sienten que tienen una ventaja en la producción de una prosa bien legible. Géminis. 2.5 se siente muy estructurado y carece de un poco de la suavidad conversacional que ofrecen los demás. Esto es algo en lo que he notado que Openai en particular gastando mucho enfoque últimamente.
Pero para las empresas que equilibran el rendimiento, la transparencia y la escala, Gemini 2.5 Pro puede haber hecho de que Google sea un contendiente serio nuevamente.
Como Zoom CTO Xuedong Huang lo puso en conversación conmigo ayer: Google permanece firmemente en la mezcla cuando se trata de LLM en producción. Gemini 2.5 Pro solo nos dio una razón para creer que podría ser más cierto mañana de lo que fue ayer.
Mira el video completo de las ramificaciones empresariales aquí:
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
La semana pasada, los procesadores de GPU de Openai “derretidos”, como lo expresaron el fundador y CEO Sam Altman. La razón: el modelo actualizado de generación de imágenes de la compañía, integrado en CHATGPT, entregó un salto significativo en las capacidades de comprensión, entrada y salida en comparación con modelos similares en el mercado. En poco tiempo, el modelo encendió un fenómeno en línea, con usuarios que generan versiones de imágenes familiares al estilo del legendario estudio de animación Ghibli. La demanda del software era tan alta que Openai se vio obligada a imponer restricciones de uso, a pesar de que el modelo estaba disponible solo para pagar a los usuarios.
Este evento ofrece una explicación clara de por qué, incluso después de que el momento profundo de Deepseek sacudió la industria de la IA en enero, los inversores siguen seguros de que el dominio de OpenAI no es cuestionado. ¿Qué tan seguro? Lo suficientemente seguro de respaldar a la compañía con una ronda de financiación récord de $ 40 mil millones, valorando a Openai en $ 300 mil millones después del dinero.
1 Ver galería
Sam Altman
(Foto: Joel Saget/AFP)
Anunciado el martes, la ronda casi duplica la valoración de Operai de su aumento anterior y es el más grande para una empresa privada. Según OpenAI, los fondos acelerarán el desarrollo de la inteligencia general artificial (AGI). “[The funding] Nos permite impulsar las fronteras de la investigación de IA aún más, escalar nuestra infraestructura de cómputo y ofrecer herramientas cada vez más poderosas para los 500 millones de personas que usan CHATGPT cada semana “, dijo la compañía en un comunicado de prensa.” Estamos emocionados de trabajar en asociación con SoftBank Group: las compañías completan cómo escalar tecnología transformadora como lo hacen. Su apoyo nos ayudará a continuar construyendo sistemas de IA que impulsen el descubrimiento científico, permitan la educación personalizada, mejoren la creatividad humana y allanen el camino hacia AGI que beneficie a toda la humanidad “.
La ronda está dirigida por el SoftBank de Japón, el socio clave de OpenAI en el Proyecto Stargate, una ambiciosa iniciativa para construir una infraestructura informática de IA en los Estados Unidos con una inversión total de $ 500 mil millones. Según Bloomberg, en la primera fase, SoftBank invertirá $ 7.5 mil millones, mientras que un sindicato de inversores, incluidos Microsoft, Coatue Management, Altimeter Capital Management y Thrive Capital, contribuirá con $ 2.5 mil millones. La segunda fase, que cerrará a fin de año, hará que SoftBank invierta otros $ 22.5 mil millones, con el sindicato de inversores agregando $ 7.5 mil millones. Las conversaciones también están en marcha con el capital de Magnetar de Peter Thiel y los fundadores para unirse al sindicato.
La inversión completa de SoftBank depende de que Operai complete su transición a una estructura con fines de lucro para fin de año (actualmente está controlada por una organización sin fines de lucro). Si la transición no se completa, SoftBank tendrá la opción de reducir su inversión de $ 30 mil millones a $ 20 mil millones, lo que permite a OpenAI buscar inversores adicionales para cerrar la brecha.
Al finalizar la ronda de financiación, OpenAI se convertirá en la segunda compañía privada respaldada por la empresa más grande del mundo por capitalización de mercado, según la firma de investigación Pitchbook. Solo seguirá el SpaceX de Elon Musk, valorado en $ 350 mil millones, y superará a la empresa matriz de Tiktok Bytedance, que está valorada en $ 220 mil millones. La ronda de $ 40 mil millones también es la cantidad más grande jamás recaudada en una sola ronda por una empresa privada, eclipsando el récord anterior establecido por el grupo de hormigas de China, que recaudó $ 14 mil millones en 2018.
The Deepseek Moment: Un desafío que no pudo sacudir OpenAi
Hace solo dos meses, un aumento tan ambicioso parecía mucho menos seguro. El 20 de enero, la compañía china Deepseek presentó su modelo de razonamiento R1 AI, que ofreció un rendimiento comparable a los modelos líderes de OpenAI y sus competidores, pero según los informes, a una fracción de la potencia y el costo informático. Esta revelación envió ondas de choque a través de la industria de la IA (NVIDIA, por ejemplo, vio una pérdida de $ 1 billón en la capitalización de mercado), lo que generó dudas sobre la estrategia de alto costo que OpenAi había seguido.
El dominio de OpenAI se ha basado en inversiones masivas en desarrollo de modelos, capacitación e implementación, mejor ejemplificado por el ambicioso proyecto Stargate. La ventaja competitiva de la compañía también se ha basado en ensamblar un equipo de investigación de IA de primer nivel capaz de producir avances de vanguardia. Sin embargo, el momento de Deepseek calificó esta estrategia: si una empresa china relativamente pequeña podría lograr resultados similares con mucha menos inversión, el foso competitivo de OpenAi parecía estar en riesgo. Lógicamente, su valoración debería haber disminuido. En cambio, con la última ronda, Operai casi ha duplicado su valoración en solo seis meses.
Tres factores clave explican por qué los inversores siguen siendo optimistas en OpenAi a pesar del desafío Deepseek:
1. Las capacidades de Deepseek pueden haber sido exageradas. Después de que el bombo inicial se desvaneció, quedó claro que los costos de desarrollo de Deepseek no eran tan bajos como se creía inicialmente. Además, hay indicios de que Deepseek puede haber aprovechado los propios modelos de OpenAI en su desarrollo, lo que el gobierno de los Estados Unidos ha referido como robo de propiedad intelectual. Si esto es cierto, Operai puede tomar medidas para bloquear la explotación futura, reforzando su foso.
2. Confianza de los inversores en el liderazgo de Altman y OpenAi. La fortaleza financiera de Operai es solo una parte de su éxito; Su equipo de liderazgo, dirigido por Altman, es igualmente crucial. Los inversores confían en la capacidad del equipo para adaptarse a los cambios de mercado, como incorporar métodos de capacitación más baratos mientras asignan el poder informático a tareas más avanzadas.
3. La interrupción de Deepseek en realidad puede beneficiarse de OpenAi. Al demostrar que los modelos de IA pueden ser entrenados de manera más eficiente, Deepseek ha aumentado la demanda general del mercado de IA avanzada. Los inversores creen que Openai está mejor posicionado para capitalizar esta demanda, aprovechando tanto sus modelos existentes como sus iteraciones futuras desarrolladas con métodos más eficientes inspirados en el enfoque de Deepseek.
La revolución de IA que OpenAi encendió hace dos años y medio ahora se está acelerando aún más, y los inversores están convencidos de que la compañía permanecerá a la vanguardia. Su voto de confianza de $ 40 mil millones lo dice todo.
No es ningún secreto que OpenAi salió, bueno, a todos cuando lanzó Chatgpt hace más de dos años. Ahora, a medida que compañías como Google y Apple intentan competir, están comenzando detrás de Openai, al menos a los ojos del público. ¿Qué tan grande tiene la ventaja de la cabeza? A partir de marzo de 2025, ChatGPT tiene 700 millones de usuarios activos mensuales, lo cual es un total asombroso.
Eso no significa que Google sea impotente en la lucha contra OpenAI para la mayor parte de la participación de mercado de IA de grado de consumo. En los años transcurridos desde que se lanzó ChatGPT, Google aumentó el desarrollo de IA primero a través de Bard, más tarde renombrado Gemini. Mientras que el plan de Openai para monetizar el chatgpt implicó hacer un montón de características tempranas gratuitas y bloquear las avanzadas detrás de un muro de pago, Google está haciendo lo contrario.
Tanto Chatgpt como Gemini se consideran entre los mejores generadores de imágenes de IA. Con ambos modelos, puedes describir una escena y verla cobrar vida en segundos. Pero no todos los generadores de imágenes son creados iguales.
Para ver cómo se comparan, le di a ambas plataformas exactamente las mismas cinco indicaciones, desde la fantasía hasta el fotorrealismo, y evalué cómo cada IA respondió en términos de creatividad, detalle y qué tan bien interpretaron el informe.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.