Noticias

O3 de OpenAI muestra un progreso notable en ARC-AGI, lo que genera un debate sobre el razonamiento de la IA

Published

4 meses ago

24 diciembre, 2024

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información

El último modelo o3 de OpenAI ha logrado un gran avance que ha sorprendido a la comunidad de investigación de IA. o3 obtuvo una puntuación sin precedentes del 75,7 % en el súper difícil punto de referencia ARC-AGI en condiciones de computación estándar, y una versión de alta computación alcanzó el 87,5 %.

Si bien el logro en ARC-AGI es impresionante, aún no prueba que se haya descifrado el código de la inteligencia artificial general (AGI).

Corpus de razonamiento abstracto

El punto de referencia ARC-AGI se basa en el Abstract Reasoning Corpus, que prueba la capacidad de un sistema de IA para adaptarse a tareas novedosas y demostrar una inteligencia fluida. ARC se compone de un conjunto de acertijos visuales que requieren la comprensión de conceptos básicos como objetos, límites y relaciones espaciales. Si bien los humanos pueden resolver fácilmente los acertijos ARC con muy pocas demostraciones, los sistemas de inteligencia artificial actuales tienen dificultades con ellos. ARC se ha considerado durante mucho tiempo una de las medidas de IA más desafiantes.

Ejemplo de rompecabezas ARC (fuente: arcprize.org)

ARC ha sido diseñado de manera que no pueda ser engañado entrenando modelos con millones de ejemplos con la esperanza de cubrir todas las combinaciones posibles de acertijos.

El punto de referencia se compone de un conjunto de formación pública que contiene 400 ejemplos sencillos. El conjunto de capacitación se complementa con un conjunto de evaluación pública que contiene 400 acertijos que son más desafiantes como medio para evaluar la generalización de los sistemas de IA. El Desafío ARC-AGI contiene conjuntos de prueba privados y semiprivados de 100 rompecabezas cada uno, que no se comparten con el público. Se utilizan para evaluar sistemas de IA candidatos sin correr el riesgo de filtrar los datos al público y contaminar sistemas futuros con conocimientos previos. Además, la competencia establece límites en la cantidad de cálculos que los participantes pueden utilizar para garantizar que los acertijos no se resuelvan mediante métodos de fuerza bruta.

Un gran avance en la resolución de tareas novedosas

o1-preview y o1 obtuvieron un máximo de 32% en ARC-AGI. Otro método desarrollado por el investigador Jeremy Berman utilizó un enfoque híbrido, combinando Claude 3.5 Sonnet con algoritmos genéticos y un intérprete de código para lograr un 53%, la puntuación más alta antes de o3.

En una publicación de blog, François Chollet, el creador de ARC, describió el desempeño de o3 como “un aumento sorprendente e importante de la función escalonada en las capacidades de IA, que muestra una capacidad novedosa de adaptación de tareas nunca antes vista en los modelos de la familia GPT”.

Es importante señalar que el uso de más computación en generaciones anteriores de modelos no pudo alcanzar estos resultados. Para ponerlo en contexto, los modelos tardaron 4 años en progresar del 0% con GPT-3 en 2020 a solo el 5% con GPT-4o a principios de 2024. Si bien no sabemos mucho sobre la arquitectura de o3, podemos estar seguros de que sí. no es un orden de magnitud mayor que sus predecesores.

*Rendimiento de diferentes modelos en ARC-AGI (fuente: arcprize.org)*

“Esto no es simplemente una mejora incremental, sino un avance genuino, que marca un cambio cualitativo en las capacidades de la IA en comparación con las limitaciones anteriores de los LLM”, escribió Chollet. “o3 es un sistema capaz de adaptarse a tareas que nunca antes había encontrado, posiblemente acercándose al rendimiento a nivel humano en el dominio ARC-AGI”.

Vale la pena señalar que el rendimiento de o3 en ARC-AGI tiene un costo elevado. En la configuración de computación baja, al modelo le cuesta entre 17 y 20 dólares y 33 millones de tokens resolver cada rompecabezas, mientras que en la configuración de computación alta, el modelo utiliza alrededor de 172 veces más computación y miles de millones de tokens por problema. Sin embargo, a medida que los costos de la inferencia sigan disminuyendo, podemos esperar que estas cifras se vuelvan más razonables.

¿Un nuevo paradigma en el razonamiento LLM?

La clave para resolver problemas novedosos es lo que Chollet y otros científicos denominan “síntesis de programas”. Un sistema de pensamiento debería ser capaz de desarrollar pequeños programas para resolver problemas muy específicos y luego combinar estos programas para abordar problemas más complejos. Los modelos de lenguaje clásicos han absorbido mucho conocimiento y contienen un rico conjunto de programas internos. Pero carecen de composicionalidad, lo que les impide resolver acertijos que están más allá de su distribución de entrenamiento.

Desafortunadamente, hay muy poca información sobre cómo funciona el o3 bajo el capó, y aquí las opiniones de los científicos divergen. Chollet especula que o3 utiliza un tipo de síntesis de programa que utiliza razonamiento de cadena de pensamiento (CoT) y un mecanismo de búsqueda combinado con un modelo de recompensa que evalúa y refina las soluciones a medida que el modelo genera tokens. Esto es similar a lo que los modelos de razonamiento de código abierto han estado explorando en los últimos meses.

Otros científicos como Nathan Lambert del Instituto Allen de IA sugieren que “o1 y o3 pueden ser en realidad sólo pasos directos de un modelo de lenguaje”. El día en que se anunció o3, Nat McAleese, investigador de OpenAI, publicó en X que o1 era “solo un LLM capacitado con RL. o3 está impulsado por una mayor ampliación de RL más allá de o1”.

El mismo día, Denny Zhou, del equipo de razonamiento de Google DeepMind, calificó la combinación de búsqueda y los enfoques actuales de aprendizaje por refuerzo como un “callejón sin salida”.

“Lo más hermoso del razonamiento LLM es que el proceso de pensamiento se genera de forma autorregresiva, en lugar de depender de la búsqueda (por ejemplo, mcts) en el espacio generacional, ya sea mediante un modelo bien ajustado o un mensaje cuidadosamente diseñado”, publicó. en X.

Si bien los detalles de las razones de o3 pueden parecer triviales en comparación con el avance de ARC-AGI, pueden definir muy bien el próximo cambio de paradigma en la formación de LLM. Actualmente existe un debate sobre si las leyes de escalamiento de los LLM a través de datos de entrenamiento y computación se han topado con un muro. Si el escalado en el tiempo de prueba depende de mejores datos de entrenamiento o de diferentes arquitecturas de inferencia puede determinar el siguiente camino a seguir.

No AGI

El nombre ARC-AGI es engañoso y algunos lo han comparado con resolver AGI. Sin embargo, Chollet enfatiza que “ARC-AGI no es una prueba de fuego para AGI”.

“Aprobar ARC-AGI no equivale a alcanzar AGI y, de hecho, no creo que o3 sea AGI todavía”, escribe. “O3 todavía falla en algunas tareas muy fáciles, lo que indica diferencias fundamentales con la inteligencia humana”.

Además, señala que o3 no puede aprender estas habilidades de forma autónoma y depende de verificadores externos durante la inferencia y de cadenas de razonamiento etiquetadas por humanos durante el entrenamiento.

Otros científicos han señalado los defectos de los resultados informados por OpenAI. Por ejemplo, el modelo se ajustó en el conjunto de entrenamiento ARC para lograr resultados de última generación. “El solucionador no debería necesitar mucha ‘formación’ específica, ni en el dominio en sí ni en cada tarea específica”, escribe la científica Melanie Mitchell.

Para verificar si estos modelos poseen el tipo de abstracción y razonamiento para el que se creó el punto de referencia ARC, Mitchell propone “ver si estos sistemas pueden adaptarse a variantes en tareas específicas o a tareas de razonamiento utilizando los mismos conceptos, pero en otros dominios además de ARC. “

Chollet y su equipo están trabajando actualmente en un nuevo punto de referencia que supone un desafío para o3, ya que podría reducir su puntuación a menos del 30 % incluso con un presupuesto de cómputo elevado. Mientras tanto, los humanos podrían resolver el 95% de los acertijos sin ningún entrenamiento.

“Sabrás que AGI está aquí cuando el ejercicio de crear tareas que sean fáciles para los humanos comunes pero difíciles para la IA se vuelva simplemente imposible”, escribe Chollet.

Información diaria sobre casos de uso empresarial con VB Daily

Si quiere impresionar a su jefe, VB Daily lo tiene cubierto. Le brindamos información privilegiada sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que pueda compartir información para obtener el máximo retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulte más boletines de VB aquí.

Se produjo un error.

Noticias

Windsurf: la apuesta potencial de $ 3b de OpenAI para impulsar el movimiento de ‘codificación de vibra’

Published

30 minutos ago

18 abril, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

‘Vibe Coding’ es un término del momento, ya que se refiere a un uso más aceptado de IA y indicaciones de lenguaje natural para la finalización del código básico.

Según los informes, Openai busca participar en el movimiento, y poseer más de la experiencia de codificación de pila completa, ya que mira una adquisición de $ 3 mil millones de Windsurf (anteriormente Codeium). Si el acuerdo se materializa, sería la adquisición más costosa de OpenAI hasta la fecha.

La noticia se produce inmediatamente después de la liberación de O3 y O4-Mini de la compañía, que son capaces de “pensar con imágenes” o comprender más intuitivamente bocetos y diagramas de baja calidad. Este desarrollo sigue el lanzamiento de la familia Modelo GPT-4.1. La compañía de IA Nadie puede dejar de hablar también recientemente recientemente aumentó una ronda de financiación de $ 40 mil millones.

Los observadores de la industria y los expertos han estado llenos sobre el posible acuerdo, ya que no solo podría hacer de OpenAi un jugador de la industria aún más grande de lo que ya es, sino que también acelera aún más la adopción cultural de la codificación de ambas.

“Windsurf podría cambiar el juego para Operai porque es una de las herramientas a las que los desarrolladores están compitiendo”, dijo Lisa Martin, directora de investigación del Futurum Group, a VentureBeat. “Este acuerdo podría solidificar OpenAi como el mejor amigo de un desarrollador”.

¿Una apuesta por la codificación de vibra?

La codificación asistida es una nueva concepto de un sh largoOT, pero la “codificación de vibos”, un término acuñado por el cofundador de OpenAi Andrej Karpathy, es un enfoque relativamente nuevo, ya que aprovecha las indicaciones generativas de IA y lenguaje natural para automatizar las tareas de codificación.

Esto se compara con otros asistentes de codificación de IA y herramientas sin código y código bajo que utilizan elementos visuales de arrastrar y soltar. La codificación de vibos se trata de incorporar la IA en flujos de trabajo de desarrollo de extremo a extremo, y el enfoque es la intención en lugar de las minucias de codificación manual.

Windsurf se encuentra entre las herramientas principales del espacio, junto con el cursor, la presentación de replicación, adorable, Bolt, Devin y Asider. La compañía lanzó Wave 6 a principios de este mes, cuyo objetivo es abordar los cuellos de botella del flujo de trabajo común.

“Windsurf ha liderado la carga de construir herramientas de desarrollo nativas verdaderamente ai, ayudando a los desarrolladores a acelerar la entrega sin comprometer la experiencia”, dijo Mitchell Johnson, director de desarrollo de productos de la firma de seguridad de software Sonatype. “Al igual que el código abierto temprano, esto comenzó como ‘Outlaw Tech’, pero rápidamente se está volviendo fundamental”.

Andrew Hill, CEO y cofundador de Crowdsource AI Agent Platform Recall, dijo que la adquisición potencial es “una apuesta por la codificación de ambientes como el futuro del desarrollo de software”. Windsurf tiene bucles de retroalimentación rápidos, buenos valores predeterminados y “el correcto alternar” para las personas con la intuición adecuada para guiar la IA para resolver sus problemas. También es un entorno diseñado para la creación conjunta.

“Deje que el salto de codificación comience de la plención de la Replicación, Claude, Cursor, Windsurf, ¿qué sigue?”, Dijo Hill, llamando a Vibe codificando un “desbloqueo de productividad”. “Los mejores agentes serán construidos por humanos que puedan ambiente a través de cien ideas en un fin de semana”.

Operai posee más de la pila

Otros señalan que si OpenAi adquiere Windsurf, señala un movimiento claro para poseer más de la experiencia de codificación de pila completa en lugar de solo suministrar los modelos subyacentes.

“Windsurf se ha centrado en los flujos de trabajo centrados en el desarrollador, no solo la generación de código sin procesar, que se alinea con la creciente necesidad de herramientas de codificación contextuales y colaborativas”, dijo Kaveh Vahdat, observador de la industria de IA y fundador de Riseangle y Riseopp.

Arvind Rongala, CEO de la compañía de servicios de capacitación corporativa Edstellar, lo calificó más en un movimiento de poder que un agarre de software. Con la codificación de ambientes, los desarrolladores quieren entornos que sean “expresivos, intuitivos y casi colaborativos, en lugar de simplemente editores de texto”.

Con Windsurf, OpenAi tendría acceso directo a la próxima generación de creación e intercambio de códigos, señaló, con el plan de integración vertical. “La capa de inteligencia ya pertenece a OpenAi. Ahora quiere el lienzo”.

Operai tiene un enorme poder no solo sobre lo que se desarrolla, sino también cómo se construye, dijo Rongala, ya que posee las herramientas creativas que los desarrolladores usan durante horas todos los días. “No se trata de quitar la cuota de mercado de la presentación de replicación o Github”, dijo. “Hacer que tales plataformas parezcan anticuadas es el objetivo”.

¿Un movimiento de estrategia o una lucha?

Vahdat señaló que una adquisición de Windsurf pondría a OpenAi en una competencia más directa con GitHub Copilot y Amazon Codewhisperer, ambos respaldados por gigantes de la plataforma.

“El valor real aquí no es solo en la herramienta en sí, sino en los datos de distribución y comportamiento del usuario que conlleva”, dijo. “Ese tipo de información es estratégicamente importante para mejorar los sistemas de codificación de IA a escala”.

El movimiento es especialmente interesante porque podría posicionar a OpenAi más directamente contra Microsoft, a pesar de que los dos se asocian estrechamente a través de herramientas como GitHub Copilot, señaló Brian Jackson, director de investigación principal de Info-Tech Research Group.

Un acuerdo admitiría la “estrategia más amplia de Openi de ir más allá de las simples interacciones de chat y convertirse en una herramienta que ayuda a los usuarios a tomar medidas reales y automatizar los flujos de trabajo cotidianos”, dijo.

Aún así, Johnson de Sonatype señaló, ¿qué pasa si Windsurf se combina con el ecosistema de OpenAi? Los desarrolladores se benefician más cuando las herramientas pueden integrarse libremente con los modelos de IA que se adaptan a sus necesidades, ya sea GPT, Claude o de código abierto.

“Si la propiedad limita esa flexibilidad, podría introducir una forma de bloqueo de proveedores que ralentiza el mismo impulso que Windsurf ayudó a crear”, dijo.

Mientras tanto, algunos críticos de Openai lo ven como un movimiento desesperado. Matt Murphy, socio de Menlo Ventures, llamado Anthrope Superior en la codificación, y la compañía tiene los mejores modelos y las alianzas más fuertes.

“El movimiento de Openi aquí se siente como una lucha para cerrar la brecha, pero corre el riesgo de alienar a los aliados clave y aún no aborda el problema central: Claude es el mejor modelo”, le dijo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

Noticias

Google Guilty Again, Meta On Trial, OpenAI Social, IR Rolls Up Touchcast AI

Published

36 minutos ago

18 abril, 2025

Sergio Villanueva

POLAND – 2020/05/04: In this photo illustration a Google AdWords logo seen displayed on a … More smartphone. (Photo Illustration by Filip Radwanski/SOPA Images/LightRocket via Getty Images)

SOPA Images/LightRocket via Getty Images

A federal judge found Google guilty of creating an ad-tech monopoly today, following the same finding in August, 2024, of its search business. Mark Zuckerberg wrapped three days of antitrust testimony over Meta’s acquisitions of Instagram (2012) and WhatsApp (2014). That seems like a long time ago, but the wheels of justice, and so forth. Big tech went all-in for Trump in the home stretch of last year’s elections, but so far all they’ve gotten for their loyalty is choice seats at the inauguration. If the government is serious, this could lead to the breakup of two of the world’s biggest companies.

Satya Nadella, chief executive officer of Microsoft Corp., left, departs from federal court in … More Washington, DC, US, on Monday, Oct. 2, 2023. Nadella took the stand today as part of the Justice Department’s antitrust trial against Alphabet Inc’s Google. Photographer: Nathan Howard/Bloomberg

On April 17, 2025, U.S. District Judge Leonie Brinkema ruled that Google has illegally monopolized key segments of the digital advertising market. The court determined that Google abused its dominance by tying its publisher ad server and ad exchange, thereby stifling competition and maintaining over 90% market share in those areas. This decision follows an earlier ruling in August 2024, where Judge Amit Mehta found that Google violated antitrust laws by paying substantial sums to secure default search engine status on various devices and browsers, effectively maintaining its monopoly in the search market. Google says it will appeal both decisions.

WASHINGTON, DC – APRIL 15: Facebook CEO Mark Zuckerberg (L) departs from the E. Barrett Prettyman … More United States Court House on April 15, 2025 in Washington, DC. The U.S. Federal Trade Commission’s antitrust trial against Meta continued today over allegations that the company holds a monopoly in the social networking market with its acquisitions of Instagram and WhatsApp. (Photo by Anna Moneymaker/Getty Images)

Getty Images

Meta Faces Landmark Antitrust Trial Over Instagram and WhatsApp Acquisitions. CEO Mark Zuckerberg has concluded three days of testimony in the FTC’s antitrust trial, defending the acquisitions of Instagram and WhatsApp as strategic investments rather than attempts to stifle competition. He acknowledged considering a spin-off of Instagram in 2018 amid antitrust concerns and admitted Meta was slow to recognize TikTok’s competitive threat. Zuckerberg also revealed discussions about introducing an all-ad feed and even resetting users’ friend connections to revitalize Facebook. The FTC contends these acquisitions were part of a “buy or bury” strategy to maintain monopoly power, while Meta contends it operates in a competitive landscape that includes platforms like TikTok and YouTube.

The ChatGPT logo appears on a smartphone screen in this illustration photo in Reno, United States, … More on January 3, 2025. (Photo Illustration by Jaque Silva/NurPhoto via Getty Images)

NurPhoto via Getty Images

OpenAI Developing Social Network. The internal prototype is centered on ChatGPT’s image generation capabilities. CEO Sam Altman has been seeking feedback on the project, though it’s unclear whether it will be a standalone app or integrated into ChatGPT. A product like this would give OpenAI access to the type of user data X and Meta use to train their AI models. Altman “accidentally” revealed they have 800M monthly users at TED in Vancouver last week.

Lisbon , Portugal – 12 November 2024;c John Acunto, Co-founder & CEO, Infinite Reality; on Marketing … More Summit Stage during day one of Web Summit 2024 at the MEO Arena in Lisbon, Portugal. (Photo By Carlos Rodrigues/Sportsfile for Web Summit via Getty Images)

Sportsfile via Getty Images

Infinite Reality Continues Its Buying Spree, Acquiring Touchcast for $500M. The Metaverse platform company will acquire AI avatar company Touchcast for $500 million in cash and stock, adding advanced agentic AI to its immersive media platform. Infinite Reality (IR) itself raised $3 billion in January 2025 from a private investor, bringing its valuation to $12.25 billion. The funding enabled iR to roll up immersive technology companies like Touchcast. IR’s acquisitions include Napster ($207 million), Landvault ($350 million), and Zappar ($45 million).

Loti AI, a Seattle-based deepfake detection startup, has secured an additional $16.2 million. Khosla Ventures led the Series A round, raising its total to $23 million. Initially focused on protecting public figures, Loti AI has expanded its services to consumers seeking to safeguard their digital identities. The company’s technology detects and removes unauthorized content, including deepfakes and voice simulations. Strategic partnerships with talent agencies WME and CAA bolster its reach.

Nexad Raises $6M to Build AI-Native Ad Platform. The San Francisco startup develops AI-integrated advertising tools. The $6 million seed funding round was led by a16z Speedrun and Prosus Ventures, with backing from Point72, Umami, and others. The company embeds dynamically generated ads into AI systems like chatbots and search agents. Early partners include iAsk.Ai and Monica.im. Nexad claims its model delivers higher engagement and conversion rates than traditional digital ads by tailoring messaging in real time.

Wonder founders Justin Hackney and Xavier Collins.

Wonder

Wonder Raises $3M to Launch AI-First Creative Studio. The London-based company has raised $3 million in pre-seed funding to develop an AI-native studio for original film and interactive content. Backers include LocalGlobe, Blackbird, and angel investors from ElevenLabs, DeepMind, OpenAI, Campfire Studios, and Activision Blizzard. Founded by Xavier Collins and Justin Hackney, Wonder says its tools allow creators to generate high-quality visuals and reduce production costs to a fraction of traditional methods. The company describes itself as a platform for emerging filmmakers and technologists, with partnerships already in place with Campfire Studios, ElevenLabs, and Ravensbourne University.

Horiar AI Raises Funds to Advance Genimate Filmmaking Platform
The Turkish startup, which is focused on generative media tools, has raised an undisclosed investment from Biomka Holdings at a $12 million valuation. The company’s core product, Genimate, is an AI-powered platform that turns short scripts into cinematic video by automatically generating characters, environments, camera angles, and scene transitions. Horiar claims the system maintains near-total continuity across scenes, producing coherent, stylized output without manual intervention. CEO Mustafa Bilek described the deal as “the beginning of the unicorn journey.”

Dedicated Computing’s Kim Crawford and Marek Polcak, Vrgineers CEO.

Vrgineers

Dedicated Computing and Vrgineers Partner on XR Flight Training Solutions. The collaboration pairs Vrgineers’ professional-grade headsets and simulators—including the XTAL and Somnium VR1—with Dedicated’s rugged A9xxx simulation engines. The systems are designed for portability, high performance, and deployment in diverse environments, from classrooms to field operations. Both companies say the bundled solutions will offer scalable, TAA-compliant training for commercial and defense customers, with support for lifelike physics and real-time feedback.

The entrance portal to the Epic Universe theme park in Orlando, Florida, US, on Saturday, April 5, … More 2025. Epic Universe, the $7 billion attraction from Comcast Corp.’s Universal Destinations & Experiences division, offers five distinct lands and opens to the public on May 22. Photographer: Thomas Simonetti/Bloomberg

Universal’s Epic Universe Opens May 22, 2025, Amid Global Uncertainty. Universal’s $7 billion theme park opens May 22, 2025, during a period of global economic uncertainty and reduced international travel. Spanning over 100 acres, the park features five immersive lands: Celestial Park, Super Nintendo World, How to Train Your Dragon – Isle of Berk, The Wizarding World of Harry Potter – Ministry of Magic, and Dark Universe. Highlights include the AR-enhanced “Mario Kart: Bowser’s Challenge,” the dueling coaster “Stardust Racers,” and the dark ride Harry Potter and the Battle at the Ministry, which merges elements from both the main films and the Fantastic Beasts series.

Georgia Tech Develops Ultra-Miniature Brain-Computer Interface
Researchers at Georgia Tech have unveiled a high-fidelity brain-computer interface (BCI) small enough to fit between hair follicles. The device uses microneedles and flexible wiring to capture neural signals just beneath the skin, enhancing signal quality while minimizing invasiveness. In tests, six participants used the BCI to control augmented reality video calls with 96.4% accuracy. The device functions effectively for up to 12 hours, suggesting potential for short-term applications in healthcare and human-computer interaction.

Dedicated Computing’s Kim Crawford and Marek Polcak, Vrgineers CEO.

Vrgineers

Dedicated Computing and Vrgineers Partner on XR Flight Training Solutions. The two companies announced a strategic partnership to co-develop integrated XR simulation bundles for pilot training. The collaboration pairs Vrgineers’ professional-grade headsets and simulators—including the XTAL and Somnium VR1—with Dedicated’s rugged A9xxx simulation engines. The systems are designed for portability, high performance, and deployment in diverse environments, from classrooms to field operations. Both companies say the bundled solutions will offer scalable, TAA-compliant training for commercial and defense customers, with support for lifelike physics and real-time feedback. Joint offerings will be showcased at industry events throughout 2025.

Curious Refuge Announces Winners of Inaugural AI Animation Competition. Curious Refuge has announced the winners of its first AI Animation Competition, sponsored by AI studio Promise and Luma Labs. Entrants were required to utilize AI-generated visuals in every shot. Hal Watmough’s LATE secured first place, winning $10,000. Second place went to Danny Tseng’s GRAVEYARD, while ROHKI’s A Million Trillion Pathways took third. Audience favorite was THE SLIP by Tim Evans. The competition judges included animation heavyweight Rob Minkoff, director of The Lion King, Stuart Little, Haunted Mansion, Paws of Fury, Peabody & Sherman and many other films).

Sandbox VR Surpasses $200M in Sales, Plans Major Expansion.
Location-based VR startup Sandbox VR has exceeded $200 million in lifetime sales, following a strong 2024 with $75 million in revenue and over 1.4 million players. The company has 127 new locations in development, including 83 franchise units sold since early 2024. CEO Steve Zhao credits the growth to a franchise model that enables rapid scaling and reinvestment in content. Recent collaborations include Netflix’s Squid Game Virtuals, and the company is exploring cultural learning experiences beyond gaming. Younger audiences, particularly Gen Z, now comprise about 40% of Sandbox VR’s customer base.

Titanic VR Launches in Early Access on Quest 3 and 3S. Titanic VR, previously available only on PC VR and PlayStation VR, is now in Early Access on Meta’s Quest 3 and 3S headsets. Developed by Engage XR, the experience leverages the XR2 Gen 2 chipset to deliver a detailed recreation of the Titanic, including hundreds of NPCs and intricate ship interiors. Currently, users can explore the shipwreck via submarine in Exploration mode. An upcoming Experience mode will allow players to relive the 1912 sinking from a survivor’s perspective. The title is available at Meta Horizon Store.

V-Nova has released two immersive cinematic experiences, Sharkarma: Guardian of the Oceans and Weightless, using its PresenZ format. The technology enables six-degrees-of-freedom (6DoF) exploration within volumetric scenes. Sharkarma is an animated ocean adventure endorsed by WildAid and StopFinning. Weightless is a music video by Diane Warren and Arilena Ara. Both are available on ImmersiX, a new SteamVR app. The format avoids motion sickness and uses standard CG pipelines, allowing creators to adapt or remaster content for immersive platforms.

This column serves as the script for the news segment of our weekly AI/XR Podcast, co-hosted by former Paramount futurist and co-founder of Red Camera, and Rony Abovitz, founder of Magic Leap, Mako Robotics, and Synthbee AI. This week’s guest is Adam Draper, thought leader and VC. You can find us on Spotify, iTunes, and YouTube.

What We’re Reading

Tim Cook Reportedly Prioritizes AR Glasses Development Over Other Projects Apple CEO Tim Cook is reportedly “hell bent” on launching true augmented reality glasses before Meta achieves the same, according to Bloomberg’s Mark Gurman. Cook has made the development of lightweight, all-day wearable AR glasses a top priority, with sources indicating it’s his primary focus in product development. While Apple continues to iterate on its Vision Pro headset, these efforts are seen as stepping stones toward the ultimate goal of AR glasses. Significant technical challenges remain, including the need for high-resolution displays, efficient chips, and compact batteries to enable a viable consumer product.

Noticias

Modelo ChatGPT Model Combatido: se enfrenté a los modelos O3, O4-Mini, GPT-4O y GPT-4.5 AI y los resultados me sorprendieron

Published

42 minutos ago

18 abril, 2025

Sergio Villanueva

Openai, como si intentara romper su propio récord para la alineación de productos más confusa de la historia, ha lanzado dos nuevos modelos AI para ChatGPT: OpenAi O3 y OpenAI O4-Mini.

Estos se unen a GPT-4.5, que todavía está en pruebas, y GPT-4O, la opción predeterminada para los usuarios de ChatGPT. Naturalmente, quería ver cómo funcionarían entre sí.

Pero, si bien hay todo tipo de pruebas de estrés para que AI vea el límite de lo que pueden hacer, estoy más interesado en cómo funcionan en circunstancias más normales. ¿Le importaría a una persona promedio que usa AI a la que se dirigió el Modelo Chatgpt para su pregunta ocasional de trivia o foto divertida?

Diseñé cuatro indicaciones distintas: uno centrado en la lógica visual, una sobre creatividad visual, una sobre lingüística y traducción, y otra en poesía. Luego corrí cada aviso a través de O3, O4-Mini, GPT-4O y GPT-4.5 y vi cómo lo manejaban.

Antes de mirar los resultados, vale la pena señalar en qué se supone que cada modelo es mejor, al menos OpenAi. Se supone que el nuevo modelo O3 es el genio entre los genios, con capacidades de razonamiento excepcionales y una habilidad especial para interpretar imágenes. Todavía está bajo el paraguas de la familia GPT-4, pero OpenAi dice que funciona mejor que sus hermanos en muchos frentes. El modelo O4-Mini es la alternativa económica. Es más rápido y más barato, aunque un poco menos potente.

GPT-4.5 es supuestamente el modelo más capaz OpenAI ha construido en el sentido más amplio. Supuestamente es más reflexivo, mejor para comprender el contexto, para pensar en términos más largos y, en general, combinar la lógica y la empatía.

Para la mayoría de las personas, el modelo ChatGPT con el que tratarán es GPT-4O. El primer modelo multimodal de OpenAI puede hacerlo todo y hacerlo bien, incluso si carece de los florituras lógicas o emocionales de sus hermanos más nuevos.

Sudoku

(Crédito de la imagen: capturas de pantalla de chatgpt)

Comencé con una prueba del razonamiento visual en el que los nuevos modelos afirman ser tan expertos. Decidí combinarlo con algunas pruebas lógicas que incluso yo podía entender: un rompecabezas de sudoku.

También quería que explicaran su respuesta, como de lo contrario, no es un gran asistente de IA, solo una máquina para resolver sudoku. Quería que no solo dejaran una respuesta, sino que caminen por la lógica. Subí la misma imagen a cada modelo y pregunté: “Aquí hay una foto de un rompecabezas de Sudoku. ¿Puedes resolverlo y explicar tu razonamiento paso a paso?”

La respuesta fue sí para todos ellos. Las versiones O3 y O4-Mini mostraron su pensamiento antes de pasar por la respuesta, pero todas ellas lo hicieron bien. Lo que fue más interesante fue la brevedad del O4-Mini y el razonamiento matemático en ambos modelos nuevos.

Mientras que los 4o y 4.5 fueron más conversacionales al explicar por qué “no se puede poner ningún otro número aquí”, en lugar de mostrar una ecuación real. Como prueba adicional, puse una hoja de Sudoku deliberadamente imposible en la misma prueba. Todos vieron el problema, pero donde todos simplemente atravesaron los problemas, GPT-4O, por alguna razón, escribió una hoja de ‘respuesta’ que solo tenía muchos ceros.

Poesía

(Crédito de la imagen: capturas de pantalla de chatgpt)

Este estaba destinado a probar la creatividad, con algunas limitaciones para sazonarla con la lógica. Le pedí a los modelos que: “Escriba un poema breve sobre las temporadas cambiantes, pero cada línea debe comenzar con la siguiente letra del alfabeto, comenzando con ‘A'”.

Este tipo de rápido obliga a un modelo a lograr un equilibrio entre la estructura y la imaginación. Necesita creatividad para describir las estaciones y la disciplina para seguir el formato alfabético. Mientras todos siguieron el formato, O3 se destacó por ser el único que no rimó.

Todos los demás lograron atenerse al breve, con mayor o menor capacidad artística, y todos tenían una mezcla de pareados y rimas de cuatro líneas. Todos eran un poco suaves, buenos para una tarjeta de felicitación tal vez, pero apenas Dickinson. Aún así, el poema GPT-4.5 era encantador y valía la pena compartir como lo hice anteriormente.

¿Qué puedo cocinar?

(Crédito de la imagen: capturas de pantalla de chatgpt)

Para esta prueba, reuní un montón de ingredientes aleatorios y tomé una foto de ellos, luego subí la imagen, que incluía un aguacate, trozos de mango congelado, queso feta, una batata, pan de masa fermentada, garbanzos, menta, sriracha, lima y mantequilla de pranja.

¿Por qué esa mezcla? Sin otra razón que no sea ver qué pasaría cuando le dije a los modelos AI: “Aquí hay una foto de los ingredientes que tengo. ¿Qué puedo cocinar con ellos?”

El O3 fue muy práctico con una sugerencia de “tostadas picantes de potato y garbanzos con Smash de aguacate -mango y llovizna de maní -riracha”. Desglosó los diferentes componentes en una mesa con los ingredientes y la receta para cada uno, e incluso una lista de razones de bala de razones por las que sabría bien.

La receta de O4-Mini, que puedes ver anteriormente, para “tostadas de aguacate de chickpea picantes”, fue sencilla con las instrucciones y una buena descripción del “resultado” de la receta. GPT-4O tuvo una idea similar con “tostada de chickpea de aguacate dulce y picante”, pero, sorprendentemente para el modelo de conversación, fue una guía muy breve, incluso más corta que el O4-Mini.

Quizás no sea sorprendente que GPT-4.5 saliera con un menú completo de platos, que incluye “tostadas de aguacate y garbanzos con salsa de mango”, “Buatador y tofu Buddha Bowl”, “Spicy Mango-Peanut Tofu Wrap”, “Sopa de camarote y garbanzos de estilo tailandés de estilo tailandes

Además, cada uno tenía una descripción y una discusión sobre el gusto y el estilo. Estoy realmente ansioso por hacer el sorbete. Dado que es solo una mezcla de cubos de mango congelados con menta fresca, un apretón de lima y una cucharada de mantequilla de maní para que sea cremosa, luego se congelas y lo sirves con hojas de menta y ralladura de lima.

La lluvia traduce

(Crédito de la imagen: capturas de pantalla de chatgpt)

La última prueba fue sobre matices. Le pedí a los modelos AI que: “Traducir la frase ‘está lloviendo a los gatos y los perros’ en japoneses, asegurando que el significado se conserva culturalmente”.

Las traducciones literal de modismos rara vez funcionan. Lo que estaba buscando era una comprensión no solo de las palabras, sino del contexto. Este fue principalmente un recordatorio de cuán lejos han llegado los modelos de ChatGPT de referencia. Todos regresaron con variaciones en la misma respuesta: que no hay una traducción exacta, pero lo más cercano es decir que está lloviendo como si alguien hubiera volcado un cubo.

GPT-4.5 me dio la traducción literal, al tiempo que explicó por qué no tendría sentido en japonés decirlo. Personalmente, disfruté del uso extremo de emoji de GPT-4O, que sintió, por alguna razón, que también tuvo que traducir la frase en esas pequeñas fotos.

Modelo manía

Diré que ninguno de los modelos funcionó mal. Definitivamente, cada uno tenía sus propias peculiaridades y enfatizaba cosas diferentes. O3 es el más analítico y preciso, O4-Mini tenía el mismo enfoque pero fue un poco más rápido. GPT-4.5 definitivamente se esforzó para imitar las respuestas humanas más, y GPT-4O simplemente ama a los emojis.

En los niveles más extremos de pruebas o indicaciones complejas, estoy seguro de que cada modelo se destaca como muy diferente de los demás. Pero, para las indicaciones básicas, no comerciales o de software centradas en el código, no puede salir mal con ninguno de ellos. Sin embargo, si estoy en la cocina, puedo diferir a GPT-4.5, al menos si el sorbete resulta tan bien como promete.