Connect with us

Noticias

Intenté recrear mis videos de la vida real con Sora: así es como fue

Published

on

Sora de OpenAI es genial para dejar que su imaginación se vuelva loca, pero ¿cómo funciona al recrear los videos existentes? Puse a prueba este software para ver cómo funcionaría. Los resultados fueron … mixtos, por decir lo menos.

Cómo replicé mi video con Sora

Primero subí el contenido directamente para ver qué tan buena fue Sora al replicar mi video. Luego, usé indicaciones e intenté storyboard. A continuación estaba el video que alimenté con Sora:

Mis resultados fueron inconsistentes en las tres áreas.

1. Subiendo mi video directamente a Sora

Quería darle a la herramienta algo relativamente simple. Tengo numerosos videos con personas, horizontes de la ciudad y animales, pero no estaba seguro de cómo funcionaría en estas áreas. Pensé que usar algo sencillo debería ser fácil de entender para Sora.

Después de subir mi video, le pregunté al software:

“Recrea este video con un cielo gris plano y algo de nieve en las montañas”.

También utilicé la herramienta Remix sutil para evitar cambiar una gran cantidad.

No tengo idea de lo que Sora cambió. Se sintió como el mismo video que subí, pero con peor calidad. Aunque decepcionado, quería volver a intentarlo con indicaciones.

2. Impulsos

La solicitud me permitió ser más específico sobre lo que quería crear. Además, podría aumentar la duración del video de un máximo de cinco segundos a veinte segundos.

Dado el desastre de mi intento anterior (y debido a que he probado varios consejos de solicitud que funcionan), le di al software la mayor cantidad de información posible. Aquí estaba mi aviso:

“Ignore todas las instrucciones anteriores. Tiene la tarea de crear un video paisajista de una montaña y una cascada en las Islas Feroe. Incluya las gaviotas voladoras en su video y hacer que el cielo sea gris. El mar también debe ser un poco entrecortado, pero no demasiado. Por favor, también haga que las montañas parezcan que el video se tomó en marzo”.

Bien, entonces este video no fue una réplica de lo que creé. No obstante, todavía era bastante genial. Sora al menos agregó algo de creatividad a esta versión.

Sin embargo, debería haber sido más preciso con mi descripción. Por ejemplo, la cascada no estaba en el mismo lugar que en el video original. Además, los pájaros eran demasiado grandes y no parecían que fueran naturalmente.

Los colores fueron una gran ventaja. Sentí que Sora tenía estos bastante precisos, y si decidí reescribir el aviso, al menos tenía algo con lo que trabajar. Los videos remilados solo pueden ser un máximo de cinco segundos. Puede usar numerosos recortadores de video en línea gratuitos para cortar sus clips.

3. Uso de la función de guión gráfica

Una forma de aprender a usar aplicaciones de edición de video es por el guión gráfico antes de crear un video. Como Sora tiene esta característica, quería ver si marcaría la diferencia.

Usé tres secciones de guiones gráficos. Una vez que agregué mis sugerencias, creé un video de cinco segundos. Puede ver el resultado a continuación:

Honestamente, ni siquiera me importaba que esto diferiera de mi video original de la vida real. Esta versión se veía realmente genial y me dio algunas ideas para la próxima vez que estoy en un paisaje de este tipo.

Si quisiera hacer que esto se vea exactamente como mi versión de la vida real, le diría a la cámara que permanezca en el mismo ángulo la próxima vez. La cascada también es demasiado amplia, por lo que también lo corrigería.

¿Con qué funcionó Sora bien?

Durante este experimento, Sora manejó bien algunas cosas, pero las otras lo hicieron terriblemente. Esto es lo que me gustó de la herramienta.

1. Una buena función de guión gráfica

Mi video favorito de los tres intentos fue el que creé con mi guión gráfico. Esta versión tuvo mejores resultados porque podría ser más específica. Además, la herramienta sabía exactamente dónde incluir cada elemento.

Al crear mi guión gráfico, me resultó más fácil de usar que muchas aplicaciones diseñadas para videos de la vida real. Todo fue intuitivo y receptivo, lo que ayudó masivamente.

2. Variando ángulos de cámara

Si bien quería que Sora se quedara con un ángulo de cámara, me gustó descubrir que podría usar diferentes para mis videos. Las imágenes donde la cámara voló cerca de la cascada era particularmente fresca.

En el futuro, usaré diferentes ángulos de cámara y otros consejos útiles de Sora para mejorar mis videos.

¿Dónde podría haber mejorado Sora?

Puedo ver el potencial de Sora, pero fue decepcionante cuando recreé mis videos. La aplicación necesita arreglar tres elementos antes de que me sienta cómodo vuelva a ejecutar este experimento y obtener mejores resultados.

1. Edición de video más precisa

Sora no parece manejar muy bien la edición de video. Cuando subí mis propias imágenes, todo lo que recibí a cambio era una versión de peor calidad de lo mismo. Quizás mis indicaciones debían ser más precisas, pero también sentí que el software jugaba un papel aquí.

En lugar de solicitar, creo que tener botones como la extracción de fondo funcionaría mejor.

2. Significaciones de video más largas

Estoy seguro de que Sora me permitirá hacer videos más largos en el futuro, pero subir contenido preexistente durante un máximo de cinco segundos fue frustrante. Este no es tiempo suficiente para ser verdaderamente creativo.

Si bien el límite de 20 segundos en los videos que creo en la aplicación es mejor, todavía es a veces limitante. Supongo que crear múltiples videoclips y reunirlos en una aplicación de edición de video externa. Por ejemplo, podría usar una de las alternativas a Capcut.

3. Mejores animaciones para personas y animales

Sora parecía funcionar bien con los paisajes, pero no se podía decir lo mismo de los animales. Por ejemplo, los pájaros volando en mis videos parecían muy antinaturales. En lugar de ir a algún lado, estas aves estaban efectivamente de pie en el aire.

Otros también se han quejado de lo mala que es Sora en las interacciones de los objetos. Me imagino que el software planchará esto a medida que obtenga más información y, con suerte, lo hace en poco tiempo.

¿Qué tipo de videos funcionan mejor con Sora?

No recomiendo usar Sora para recrear videos de la vida real. Si bien podría haber hecho ciertas cosas de manera diferente, el software no me impresionó.

En cambio, creo que Sora es mejor para crear videos desde cero. Ofrece muchas opciones si desea dejar que su creatividad funcione salvaje con indicaciones y guiones gráficos. Del mismo modo, usaría la herramienta para inspirarse en futuros proyectos de la vida real.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Sam Altman dice que las GPU de OpenAi se están ‘derritiendo’ sobre el arte de IA al estilo Gibli: lo que significa | Noticias tecnológicas

Published

on

Como las controversias que rodean la IA que emulan el estilo de Studio Ghibli, Openai parece haberse encontrado con un nuevo enigma. El CEO de OpenAI, Sam Altman, mientras acaba la respuesta al último generador de imágenes, ha dicho que las GPU de la compañía se están derritiendo. Altman agregó que la compañía está limitando el uso de la función. En esencia, la compañía se ve obligada a limitar cuántas imágenes genera el chatgpt. Altman dijo que el nivel libre podrá producir tres imágenes por día.

“Es muy divertido ver a la gente amar las imágenes en el chatgpt. Pero nuestras GPU se están derritiendo. Vamos a introducir temporalmente algunos límites de tarifas mientras trabajamos para hacerlo más eficiente. ¡Espero que no sea largo! Después del resumen del éxito de la capacidad del generador de imágenes, Altman había cambiado su imagen de pantalla con una imagen de sí mismo.

Openai dio a conocer el generador de imágenes nativas el martes a una respuesta abrumadora. La compañía liderada por Sam Altman presentó la herramienta como un generador de imágenes de alta calidad dentro de ChatGPT. La nueva herramienta se ofrece como un medio para generar imágenes, diagramas, logotipos, infografías, fotos de archivo, tarjetas de presentación, etc. Una de las características notables de la herramienta ha sido su capacidad para usar una imagen externa como punto de partida para el arte, que puede modificarse en una pintura o un tiro en la cabeza profesional.

¿Qué es una GPU y cómo puede derretirse?

Altman diciendo que el nuevo generador de imágenes está derritiendo GPU no es un humor simple. Las herramientas generativas de IA como ChatGPT, Dall-E e incluso autos autónomos dependen en gran medida de grandes cantidades de potencia informática. Y, en el corazón de esta potencia informática está la GPU, o la unidad de procesamiento de gráficos. Para comprender por qué las GPU se están derritiendo, uno necesita saber cómo funcionan y por qué los sistemas modernos de IA confían tanto en ellos.

La historia continúa debajo de este anuncio

En la escuela primaria, se nos ha enseñado cómo la CPU, o la unidad de procesamiento central, funciona como el cerebro de la computadora. Se sabe que la CPU maneja todo tipo de tareas, ya sea ejecutando el navegador web, reproducir música, cargar aplicaciones, etc. Al igual que el cerebro humano (absolutamente ninguna comparación aquí), la CPU puede realizar multitarea. Sin embargo, con los sistemas de IA, existe la necesidad de algo más. A diferencia de su computadora tradicional que realiza muchas tareas pequeñas en rápida sucesión, los sistemas de IA deben funcionar iterativamente, lo que significa que necesitan hacer los mismos problemas matemáticos varias veces, tal vez incluso un millón de veces. Esto requiere grandes cantidades de datos, y eso también, todo a la vez. Aquí es donde la GPU entra en la imagen.

Para simplificarse más, uno puede pensar en una CPU como alguien que puede hornear un pastel con perfección, aunque a la vez. Mientras que una GPU es como tener una panadería entera que literalmente puede hornear miles de pasteles a la vez. Si rastrea la historia de las GPU, fueron un concepto a fines de la década de 1980. Evolucionaron con el tiempo, esencialmente pidiendo una historia separada. Sin embargo, se debe tener en cuenta que las GPU se desarrollaron inicialmente para representar gráficos de videojuegos, y es por eso que se llamaron GPU. Sin embargo, hoy se han transformado en los motores de referencia para el entrenamiento y la ejecución de modelos de inteligencia artificial.

Oferta festiva

¿Qué tan poderosa es una GPU, en realidad?

Si lo piensas, el juego Super Mario 64 lanzado en 1996 necesitaba unos 100 millones de cálculos cada segundo. Y esto se traduciría en alrededor de 36 billones de cálculos por segundo para un juego moderno como Cyberpunk 2077. Este tipo de poder computacional es necesario para crear efectos visuales en tiempo real como iluminación, sombras y todos esos detalles realistas que uno podría ver en un videojuego.

Cuando se trata de chatgpt o dall-e, exigen sustancialmente más poder que los videojuegos. Esto se debe a que estos sistemas de IA están haciendo miles de millones o incluso billones de operaciones matemáticas, las multiplicaciones de matriz para ser precisos, en grandes cantidades de datos. Lo que Sam Altman quiso decir cuando dijo que las GPU de OpenAi se estaban derritiendo es que estaban siendo empujados al límite, como debido a la excesiva demanda del usuario, aparentemente estaban ejecutando sin parar a plena capacidad.

La historia continúa debajo de este anuncio

¿Cómo es una GPU ideal para sistemas de IA?

Las GPU modernas vienen con miles de pequeños procesadores, también conocidos como núcleos. Por ejemplo, el NVIDIA RTX 3090 viene con más de 10,000 núcleos, y la mayoría de ellos se conocen como núcleos CUDA, las unidades de procesamiento con GPU NVIDIA diseñadas para la computación paralela. Estos núcleos son como calculadoras pequeñas, y algunos de ellos son capaces de manejar tareas de IA y se conocen como núcleos de tensor. Todos estos núcleos funcionan simultáneamente, lo que esencialmente significa que pueden administrar diferentes partes de un gran problema al mismo tiempo. Este tipo de mecanismo es ideal para la IA.

Para simplificar, piense en aplicar un filtro en un píxel de pintura de tamaño natural por píxel; Una GPU puede hacer esto súper rápido, ya que asignaría diferentes núcleos a diferentes píxeles. Este es el mismo mecanismo aplicado para una red neuronal que analiza millones de palabras y genera imágenes Pixel por Pixel; Es solo que sería mucho más intenso. Las GPU no solo se calculan más rápido, sino que también están moviendo los datos dentro y fuera casi al instante. Es por eso que las GPU vienen con memoria de alta velocidad que es capaz de transferir terabytes de datos cada segundo.

¿Por qué las empresas de IA están obsesionadas con las GPU?

Como sabemos, capacitar a un modelo de IA grande puede llevar semanas, meses o incluso años de procesamiento sin parar de GPU. Una vez que están capacitados, estos modelos son capaces de generar cualquier tipo de texto, imagen, audio o código. Es por eso que Google, OpenAi, Meta, etc., han estado construyendo enormes centros de datos cargados de GPU. Esto a menudo cuesta millones de dólares; Por lo tanto, se llaman las nuevas plataformas petroleras de la era digital. En la actualidad, las demandas de las GPU son tan altas que están constantemente en pedidos de fondo. Con los modelos de IA que se vuelven más grandes y más avanzados, se necesita más energía.

https://www.youtube.com/watch?v=-P28LKWTZRI

Volviendo al nuevo generador de imágenes, lo que comenzó como una tendencia entre los usuarios de las redes sociales pronto se convirtió en una controversia sobre los derechos de autor, los artistas y el derecho a su trabajo. Muchos fanáticos ardientes de las películas de Ghibli expresaron su disgusto por el uso del generador de imágenes para colorear eventos históricos, a menudo tragedias grotescas, con la pincelada del célebre cineasta de Ghibli, Hayao Miyazaki.

Continue Reading

Noticias

5 formas prácticas de extraer información con Gemini en las hojas de Google

Published

on

Google Sheets ha sido durante mucho tiempo una herramienta de referencia para organizar y manipular datos. Recientemente, recibió una actualización significativa con la integración de Gemini. La IA de Google actúa como su socio de datos inteligentes, capaz de analizar grandes conjuntos de datos con notable velocidad y precisión. Permítanme mostrarle cómo esta poderosa IA puede transformar su flujo de trabajo de análisis de datos y permitirle ir más allá de los conceptos básicos de las fórmulas y las funciones.

Ya sea que analice las cifras de ventas, rastree las campañas de marketing o administre los datos financieros, Gemini lo ayuda a transformar esos números sin procesar en ventajas estratégicas. Dado que Google Sheets es una herramienta web, puede acceder a ella en su escritorio de Windows, Mac, PC Linux y Chromebook.

Relacionado

8 Configuración de hojas de Google Deberías cambiar de inmediato

Dominar estas opciones y se establecerá

Desbloquear Géminis en las hojas de Google

Géminis creó una plantilla en hojas

Antes de comenzar, suscríbase al plan avanzado de Gemini. Desbloquea a Gemini en todas las aplicaciones del espacio de trabajo, incluidos documentos, diapositivas, impulso, gmail y sábanas. El plan avanzado Gemini tiene un precio de $ 20 por mes. El gigante de la búsqueda ofrece un mes de prueba gratuita a todos los nuevos registros.

Después de suscribirse a Gemini Advanced, vaya a Google Sheets, abra una hoja de cálculo existente y busque el ícono de Gemini en la esquina superior derecha. Todos pueden configurar para utilizar la IA de vanguardia de Google en sus hojas de cálculo. Vamos a verlo en acción.

Relacionado

7 plantillas de sábanas de Google que uso regularmente

Aumente su productividad con estas plantillas gratuitas

5

Obtener información de datos de los informes de ventas

Gemini apoya las indicaciones del lenguaje natural y le permite solicitar resúmenes de manera conversacional. Por ejemplo, puede pedirlo que Resume los resultados clave de esta tabla de datos de ventas o Dame una breve descripción de los comentarios de los clientes en esta hoja. Y obtenga los resultados requeridos en poco tiempo.

Puede identificar tendencias clave, patrones y valores atípicos e incluirlas en el resumen. Abrí una hoja de cálculo de ventas con datos relevantes y seleccioné el Resumir esta tabla botón en la parte superior. Rápidamente me dio una resumen ordenado de la mesa. En lugar de revisarlo manualmente, Gemini produjo un resumen corto y fácil de entender con la información más importante.

Resumir la tabla de ventas con Gemini

Es un resumen básico, así que vayamos un paso más y hagamos a Gemini diferentes preguntas sobre la mesa. Yo pregunté ¿Cuánta ganancia generó Jim? y Gemini analizó rápidamente la tabla, calculó los datos de la columna de ganancias y dio una respuesta. En cualquier momento, puede seleccionar Insertar y agregue una respuesta a una celda.

Usa Géminis para obtener respuestas

Yo también pregunté ¿Cuántas ventas hicieron Dallas Store? Géminis mostró una respuesta correcta en poco tiempo. Aquí es donde Géminis me sorprendió. Le pregunté a Géminis, ¿Quién tuvo la mayor ganancia este año? Calcule su bono del 10% también. Recibí la siguiente respuesta a cambio.

Dwight generó la mayor ganancia este año, con $ 40,400. El bono del 10% de Dwight sería de $ 4,040.

Obtenga respuestas con Géminis

Géminis elimina el papel de las tablas de pivote. En lugar de crear tablas de pivote para extraer información específica, puede usar las indicaciones de texto para obtener las respuestas requeridas de la IA de Google. Este es un solo ejemplo. Las posibilidades son infinitas.

4

Resumir una base de datos de ventas

Resumir el uso de Géminis en Hojas

En lugar de hacer preguntas sobre cada vendedor y región, le pedí a Gemini que resume la mesa y dame hallazgos clave. Gemini mostró ventas totales por computadora portátil, vendedor, región de la tienda y ventas por mes.

Gemini agregó notas adicionales y señaló errores tipográficos en la columna del mes y datos faltantes como costos y gastos para completar el análisis de ganancias. Gemini alentó a especificar el año para que pudiera realizar comparaciones año tras año. Es una de las cosas que no tenía idea de que Géminis podía hacer.

En otro ejemplo, le pedí a Gemini que aumentara las ventas del próximo año en un 20% y creara una tabla objetivo de ventas para cada región de la tienda. Recomiendo experimentar con diferentes indicaciones de texto para obtener lo mejor de Géminis.

3

Resumir los informes de gastos y los estados financieros

Datos de gastos en el planificador de presupuesto de vacaciones

Gemini resume informes de gastos, presupuestos o estados financieros para identificar áreas clave de gasto o flujos de ingresos. También genera resúmenes de carteras de inversión para rastrear el rendimiento. Supongamos que creó un planificador de presupuesto de vacaciones con categorías de gastos como viajes, regalos, alimentos y gastronomía, actividades y entretenimiento, decoraciones, cantidades presupuestadas, cantidades reales, variaciones, métodos de pago y más.

Cuando su hoja de cálculo esté lista, use Gemini para resumir la hoja de cálculo utilizando las indicaciones a continuación:

  • Resumir los gastos presupuestados totales.

  • Dame los gastos reales totales.

  • Proporcione un resumen de las variaciones entre los costos presupuestados y reales.

  • Resumir el gasto por categoría.

  • Resumir el gasto por método de pago.

Obtenga respuestas usando Géminis en Hojas de Google

Del mismo modo, puede realizar un análisis de tendencia y comparación y obtener respuestas a preguntas específicas:

  • ¿Qué categorías de gastos excedieron el presupuesto más significativamente?

  • ¿Qué días tuvo el mayor gasto?

  • Compare los montos presupuestados con los montos reales para cada categoría.

  • Compare el gasto en diferentes métodos de pago.

  • ¿Cuánto se gastó en viajes?

  • ¿Cuál fue el total gastado en regalos?

Puede extraer rápida y fácilmente información financiera valiosas de su planificador de presupuesto de vacaciones y tomar decisiones en consecuencia.

2

Obtener información de datos de las respuestas de la encuesta del cliente

Infromgo del cliente en la hoja

Ya sea que se ocupe de las respuestas de las encuestas, las revisiones de los clientes, los boletos de soporte, las menciones de las redes sociales o los comentarios por correo electrónico, puede usar Gemini para extraer datos y obtener información. Gemini analiza los datos de texto para determinar el sentimiento (positivo, negativo o neutral) de los comentarios de los clientes.

Gemini resume grandes volúmenes de retroalimentación de texto y proporciona descripciones astutas de los hallazgos clave. Esto es útil para revisiones largas o grandes colecciones de comentarios. Estas son algunas de las indicaciones que puede ejecutar en su hoja de cálculo:

  • Analice las revisiones de los clientes en esta hoja y dígame el sentimiento general.

  • ¿Cuáles son las tres principales quejas recurrentes con respecto a los boletos de soporte?

  • Resume los temas clave de este conjunto de respuestas a la encuesta de clientes.

Las empresas pueden transformar los comentarios de los clientes en bruto en ideas valiosas y mejorar sus productos, servicios y experiencias de los clientes.

Relacionado

Creé una presentación completa usando Gemini en Google Diaides, así es como fue

De la idea a la presentación terminada

1

Resumir los plazos del proyecto

Resumir proyectos utilizando Géminis en las hojas de Google

Aunque Google Sheets no es una herramienta de gestión de proyectos dedicada, muchos todavía la usan para su interfaz familiar, capacidades de personalización y colaboración perfecta. Si está entre ellos, use Gemini para crear resúmenes de proyectos, pronosticar, administrar tareas y más. Aquí hay algunas indicaciones que puede ejecutar para simplificar su gestión de proyectos:

  • Resume el progreso actual del proyecto.

  • Dame un resumen de las tareas que están detrás de programas.

  • Resume el presupuesto del proyecto y resalte el gasto excesivo.

  • Identifique tareas que estén significativamente detrás del horario.

  • Flajera involuntarios de presupuesto inesperado.

  • Muéstrame las tareas que actualmente bloquean la finalización del hito de la Fase 2.

Gemini resume rápidamente el progreso, muestra los problemas y predice los plazos, ayudando a los gerentes de proyectos a mantenerse organizados y tomar mejores decisiones.

Supercargue sus hojas de cálculo

Géminis en las hojas de Google cambia fundamentalmente cómo interactuamos con los datos. Al identificar patrones, generar resúmenes y predecir tendencias, Gemini convierte las hojas de Google en una poderosa herramienta analítica. ¿Qué estás esperando? Regístrese para una prueba gratuita de un mes, tome a Gemini para dar una vuelta y prepárese para tomar decisiones informadas y basadas en datos.

Google Sheets va más allá del análisis de datos. Estas son las formas únicas de usar la herramienta de hoja de cálculo de Google más allá del crujido de números.

Continue Reading

Noticias

Gemini 2.5 Pro de Google es el modelo más inteligente que no está utilizando, y 4 razones por las que es importante para Enterprise AI

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


El lanzamiento de Gemini 2.5 Pro el martes no dominó exactamente el ciclo de noticias. Aterrizó la misma semana en que la actualización de generación de imágenes de OpenAI se iluminó con las redes sociales con avatares inspirados en el estudio de Ghibli y renders instantáneos asombrosos. Pero mientras el zumbido fue a OpenAi, Google puede haber eliminado silenciosamente el modelo de razonamiento más listo para la empresa hasta la fecha.

Gemini 2.5 Pro marca un salto significativo para Google en la carrera de modelos fundamentales, no solo en puntos de referencia, sino en la usabilidad. Según los primeros experimentos, datos de referencia y reacciones prácticas para desarrolladores, es un modelo que vale la pena atención de los tomadores de decisiones técnicas empresariales, particularmente aquellos que históricamente han incumplido a OpenAI o Claude para el razonamiento de grado de producción.

Aquí hay cuatro conclusiones principales para equipos empresariales que evalúan Gemini 2.5 Pro.

1. Razonamiento transparente y estructurado: una nueva barra para la claridad de la cadena de pensamiento

Lo que distingue a Gemini 2.5 Pro no es solo su inteligencia, así es que claramente esa inteligencia muestra su trabajo. El enfoque de entrenamiento paso a paso de Google da como resultado una cadena de pensamiento estructurada (COT) que no se siente como divagar o conjeturas, como lo que hemos visto en modelos como Deepseek. Y estas cunas no se truncan en resúmenes poco profundos como lo que ves en los modelos de Openai. El nuevo modelo Géminis presenta ideas en pasos numerados, con sub-bullets y lógica interna que es notablemente coherente y transparente.

En términos prácticos, este es un avance para la confianza y la reflexión. Los usuarios empresariales que evalúan la producción para tareas críticas, como revisar las implicaciones de la política, la lógica de codificación o resumir la investigación compleja, ahora pueden ver cómo el modelo llegó a una respuesta. Eso significa que pueden validarlo, corregirlo o redirigirlo con más confianza. Es una evolución importante de la sensación de “caja negra” que todavía afecta muchas salidas de LLM.

Para obtener un tutorial más profundo de cómo funciona esto en acción, vea el desglose del video donde probamos Gemini 2.5 Pro Live. Un ejemplo que discutimos: cuando se les preguntó sobre las limitaciones de los modelos de idiomas grandes, Gemini 2.5 Pro mostró una notable conciencia. Recitó debilidades comunes y las clasificó en áreas como “intuición física”, “síntesis de concepto novedoso”, “planificación de largo alcance” y “matices éticos”, proporcionando un marco que ayuda a los usuarios a comprender lo que el modelo sabe y cómo se acerca al problema.

Los equipos técnicos empresariales pueden aprovechar esta capacidad para:

  • Depurar cadenas de razonamiento complejo en aplicaciones críticas
  • Comprender mejor las limitaciones del modelo en dominios específicos
  • Proporcionar una toma de decisiones más transparente asistida a las partes interesadas
  • Mejorar su propio pensamiento crítico estudiando el enfoque del modelo

Una limitación que vale la pena señalar: si bien este razonamiento estructurado está disponible en la aplicación Gemini y Google AI Studio, aún no es accesible a través de la API, una deficiencia para los desarrolladores que buscan integrar esta capacidad en aplicaciones empresariales.

2. Un verdadero contendiente para el estado del arte, no solo en papel

El modelo se encuentra actualmente en la parte superior de la clasificación de Chatbot Arena por un margen notable, 35 puntos Elo por delante del mejor modelo, que es la actualización de OpenAI 4O que cayó el día después de que Gemini 2.5 Pro cayó. Y aunque la supremacía de referencia es a menudo una corona fugaz (ya que los nuevos modelos caen semanalmente), Gemini 2.5 Pro se siente realmente diferente.

La parte superior de la clasificación de LM Arena, en el momento de la publicación.

Se destaca en tareas que recompensan un razonamiento profundo: codificación, resolución matizada de problemas, síntesis en todos los documentos, incluso la planificación abstracta. En las pruebas internas, se ha desempeñado especialmente bien en puntos de referencia previamente difíciles de pasar como el “último examen de la humanidad”, un favorito para exponer las debilidades de LLM en dominios abstractos y matizados. (Puede ver el anuncio de Google aquí, junto con toda la información de referencia).

Es posible que a los equipos empresariales no les importe qué modelo gana qué clasificación académica. Pero les importará que este pueda pensar, y mostrarle cómo está pensando. La prueba de VIBE es importante, y por una vez, es el turno de Google para sentir que lo han pasado.

Como señaló el respetado ingeniero de IA, Nathan Lambert, “Google tiene los mejores modelos nuevamente, ya que deberían haber comenzado toda esta floración de IA. El error estratégico se ha endurecido”. Los usuarios empresariales deberían ver esto no solo como Google alcanzando a los competidores, sino que potencialmente superarlos en capacidades que importan para las aplicaciones comerciales.

3. Finalmente: el juego de codificación de Google es fuerte

Históricamente, Google se ha retrasado detrás de Openai y Anthrope cuando se trata de asistencia de codificación centrada en el desarrollador. Gemini 2.5 Pro cambia eso, a lo grande.

En las pruebas prácticas, se muestra una fuerte capacidad de una sola vez en los desafíos de codificación, incluida la construcción de un juego de Tetris que funcionó en el primer intento cuando se exporta a la solicitud, no se necesita depuración. Aún más notable: razonó a través de la estructura del código con claridad, variables de etiquetado y pasos cuidadosamente, y exponiendo su enfoque antes de escribir una sola línea de código.

El modelo rivaliza con el soneto Claude 3.7 de Anthrope, que ha sido considerado el líder en la generación de código, y una razón importante para el éxito de Anthrope en la empresa. Pero Gemini 2.5 ofrece una ventaja crítica: una ventana de contexto token de 1 millón de 1 millón. El soneto de Claude 3.7 solo está llegando a ofrecer 500,000 tokens.

Esta ventana de contexto masivo abre nuevas posibilidades para razonar en las bases de código enteras, la lectura de la documentación en línea y el trabajo en múltiples archivos interdependientes. La experiencia del ingeniero de software Simon Willison ilustra esta ventaja. Cuando se usa Gemini 2.5 Pro para implementar una nueva característica en su base de código, el modelo identificó los cambios necesarios en 18 archivos diferentes y completó el proyecto completo en aproximadamente 45 minutos, con un promedio de menos de tres minutos por archivo modificado. Para las empresas que experimentan con marcos de agentes o entornos de desarrollo asistidos por AI-AI, esta es una herramienta seria.

4. Integración multimodal con comportamiento similar a un agente

Si bien algunos modelos como el último 4O de OpenAi pueden mostrar más deslumbrantes con una generación de imágenes llamativas, Gemini 2.5 Pro parece que está redefiniendo silenciosamente cómo se ve el razonamiento multimodal.

En un ejemplo, las pruebas prácticas de Ben Dickson para VentureBeat demostraron la capacidad del modelo para extraer información clave de un artículo técnico sobre los algoritmos de búsqueda y crear un diagrama de flujo SVG correspondiente, luego mejorar ese diagrama de flujo cuando se muestra una versión renderizada con errores visuales. Este nivel de razonamiento multimodal permite nuevos flujos de trabajo que anteriormente no eran posibles con los modelos solo de texto.

En otro ejemplo, el desarrollador Sam Witteveen subió una captura de pantalla simple de un mapa de Las Vegas y preguntó qué eventos de Google estaban ocurriendo cerca el 9 de abril (ver minuto 16:35 de este video). El modelo identificó la ubicación, inferió la intención del usuario, buscó en línea (con conexión a tierra habilitada) y devolvió detalles precisos sobre Google Cloud, incluidas fechas, ubicación y citas. Todo sin un marco de agente personalizado, solo el modelo central y la búsqueda integrada.

El modelo realmente razona sobre esta entrada multimodal, más allá de solo mirarla. Y sugiere cómo se vería los flujos de trabajo empresariales en seis meses: cargar documentos, diagramas, paneles, y hacer que el modelo haga síntesis, planificación o acción significativas basadas en el contenido.

Bonificación: es solo … útil

Si bien no es una conclusión separada, vale la pena señalar: este es el primer lanzamiento de Géminis que sacó a Google del LLM “Backwater” para muchos de nosotros. Las versiones anteriores nunca llegaron al uso diario, ya que modelos como OpenAi o Claude establecieron la agenda. Gemini 2.5 Pro se siente diferente. La calidad de razonamiento, la utilidad de contexto a largo plazo y los toques prácticos de UX, como la exportación de replicación de la exportación y el acceso al estudio, lo convierten en un modelo que es difícil de ignorar.

Aún así, son los primeros días. El modelo aún no está en el Vertex AI de Google Cloud, aunque Google ha dicho que se presentará pronto. Quedan algunas preguntas de latencia, especialmente con el proceso de razonamiento más profundo (con tantos tokens de pensamiento procesados, ¿qué significa eso para el momento de token?), Y los precios no se han revelado.

Otra advertencia de mis observaciones sobre su capacidad de escritura: OpenAi y Claude todavía sienten que tienen una ventaja en la producción de una prosa bien legible. Géminis. 2.5 se siente muy estructurado y carece de un poco de la suavidad conversacional que ofrecen los demás. Esto es algo en lo que he notado que Openai en particular gastando mucho enfoque últimamente.

Pero para las empresas que equilibran el rendimiento, la transparencia y la escala, Gemini 2.5 Pro puede haber hecho de que Google sea un contendiente serio nuevamente.

Como Zoom CTO Xuedong Huang lo puso en conversación conmigo ayer: Google permanece firmemente en la mezcla cuando se trata de LLM en producción. Gemini 2.5 Pro solo nos dio una razón para creer que podría ser más cierto mañana de lo que fue ayer.

Mira el video completo de las ramificaciones empresariales aquí:

https://www.youtube.com/watch?v=c7ldiiea7oc

Continue Reading

Trending