Incluso cuando el creador de chatgpt Openai enfrenta un aluvión de casos de infracción de derechos de autor en algunos países, la compañía cree que su advenimiento Rival chino Deepseek Puede haber copiado de su tecnología de inteligencia artificial (IA). No solo Openai, sino uno de los principales asesores del presidente de los Estados Unidos, Donald Trump, también ha nivelado esta afirmación, sin presentar muchas pruebas.
La entrada de Deepseek en el espacio de IA, promocionado por ser de código abierto, su precisión y afirmaciones de que se basa en la fracción del costo como sus competidores estadounidenses, han causado una agitación en la industria de la tecnología. Ha enviado el stock de Nvidia en una espiral descendente, ya que su modelo fue capacitado en unites de procesamiento de gráficos inferiores (GPU) en comparación con lo que tienen acceso a OpenAI. Y su entrada ha reavivado la conversación sobre controles de exportación más estrictos.
Es en este contexto que OpenAi ha dicho que Deepseek puede haber utilizado una técnica llamada “destilación”, que permite que su modelo aprenda de un modelo previo al estado de ejercicio, en este caso ChatGPT. Si bien Deepseek ha sido acusado de robo de propiedad intelectual desde que recibió atención principal, algunos expertos de la industria han desestimado estas afirmaciones diciendo que se derivan de una comprensión inadecuada de cómo los modelos como Deepseek están capacitados.
La historia continúa debajo de este anuncio
La sospecha de Openai sobre Deepseek
OpenAI prohíbe la práctica de capacitar a un nuevo modelo de IA al consultar repetidamente un modelo más grande y pre-entrenado, una técnica comúnmente conocida como destilación, según sus términos de uso. Y la compañía sospecha que Deepseek puede haber intentado algo similar, lo que podría ser una violación de sus términos.
“Sabemos que los grupos de la RPC (China) están trabajando activamente para usar métodos, incluido lo que se conoce como destilación, para replicar los modelos AI avanzados de EE. UU.”, Dijo un portavoz de OpenAI en un comunicado. “Somos conscientes y revisando las indicaciones de que Deepseek puede haber destilado inapropiadamente nuestros modelos y compartirá información como sabemos más”.
David Sacks, asesor de IA de Trump, dijo a Fox News: “Hay evidencia sustancial de que lo que hizo Deepseek aquí es que destilaron el conocimiento de las modelos de OpenAi … y no creo que OpenAi esté muy contento con esto”.
Los actores de la industria contrarrestan las afirmaciones de Openai
La historia continúa debajo de este anuncio
Sin embargo, algunos no están de acuerdo con las afirmaciones de que Deepseek copió la tecnología de OpenAi y similares.
“Hay muchas ideas erróneas de que China” clonó “las salidas de OpenAi. Esto está lejos de ser cierto y refleja una comprensión incompleta de cómo estos modelos están entrenados en primer lugar … “Aravind Srinivas, CEO de Perpleity en una publicación sobre X.
“Deepseek R1 ha descubierto RL (aprendizaje de refuerzo) Finetuning. Escribieron un artículo completo sobre este tema llamado Deepseek R1 Zero, donde no se usó SFT (ajuste fino supervisado). Y luego lo combinó con un poco de SFT para agregar conocimiento del dominio con un buen muestreo de rechazo (también conocido como filtrado). La razón principal por la que es tan bueno es que aprendió razonamiento desde cero en lugar de imitar a otros humanos o modelos ”, agregó.
La idea de usar el aprendizaje de refuerzo (RL) se convirtió en un punto de enfoque para las compañías de IA en 2024. “Este nuevo paradigma implica comenzar con el tipo de modelos prenederos ordinarios, y luego como segunda etapa utilizando RL para agregar las habilidades de razonamiento”, explicó Dario. AMODEI, CEO de Anthrope, en una publicación de blog.
La historia continúa debajo de este anuncio
El ajuste fino supervisado (SFT) es un proceso en el aprendizaje automático donde un modelo previamente capacitado está capacitado (ajustado) en un conjunto de datos etiquetado específico para una tarea en particular. Este enfoque aprovecha el conocimiento general que el modelo ya ha adquirido durante su fase inicial de pre-entrenamiento y lo adapta para funcionar bien en una tarea más especializada.
Según un resumen adjunto con el modelo de Deepseek en su página de GitHub, la compañía dijo que aplicó el aprendizaje de refuerzo al modelo base sin depender del ajuste superior supervisado como un paso preliminar.
“Este enfoque permite que el modelo explore la cadena de pensamiento (cot) para resolver problemas complejos, lo que resulta en el desarrollo de Deepseek-R1-Zero. Deepseek-r1-cero demuestra capacidades como la autoverificación, la reflexión y la generación de cunas largas, marcando un hito significativo para la comunidad de investigación. En particular, es la primera investigación abierta para validar que las capacidades de razonamiento de los LLM se pueden incentivar puramente a través de RL, sin la necesidad de SFT. Este avance allana el camino para futuros avances en esta área. ”, Dijo el resumen.
Los propios problemas de derechos de autor de Openai
La historia continúa debajo de este anuncio
En todo el mundo, y específicamente en países como Estados Unidos e India, existe un creciente escepticismo de los editores de noticias sobre las preocupaciones de material con derechos de autor, como informes de noticias, utilizados por compañías como OpenAI para capacitar a sus modelos fundamentales, sin permiso o pago.
En noviembre pasado, la agencia de noticias Ani había demandado a OpenAi en el Tribunal Superior de Delhi, acusando a la compañía de usar ilegalmente material con derechos de autor indio para capacitar a sus modelos de IA. A principios de esta semana, una serie de editores de noticias digitales, incluido el Indian Express, han presentado una intervención en el caso.
La afirmación es que compañías como OpenAI han desarrollado grandes modelos de idiomas (LLM) al “capacitar” sobre grandes cantidades de texto, incluidas, sin licencia o permiso, obras protegidas por derechos de autor. Esta “utilización ilegal de materiales con derechos de autor beneficia exclusivamente a Openai y a sus inversores, en detrimento de los trabajos creativos en toda la industria de la India”, dijo la Asociación de Publishers de Noticias Digital (DNPA) en un comunicado.
Operai también enfrenta una serie de demandas similares en otras jurisdicciones. En diciembre de 2023, el New York Times demandó a la compañía y Microsoft, citando el uso “ilegal” de contenido con derechos de autor. La publicación ha alegado que los modelos de idiomas grandes de Openai y Microsoft, que alimentan el chatgpt y el copiloto, “pueden generar el resultado que recita el contenido textual, lo resume de cerca e imita su estilo expresivo”. Este “socavo[s] y daño[s]”La relación del Times con los lectores, al tiempo que la prive de” suscripción, licencias, publicidad e ingresos por afiliados “.
ChatGPT es utilizado por 400 millones de personas por semana, según lo confirmado por Operai en un Reuters informe. Ese es un número impactante, teniendo en cuenta que el chatbot Ai tiene solo un poco más de dos años. Hace de ChatGPT una de las herramientas digitales más utilizadas del planeta, colocándola en la misma liga que los motores de búsqueda y las plataformas de redes sociales.
ChatGPT fue un gran éxito de su debut, alcanzando a 1 millón de usuarios en cinco días después del lanzamiento en noviembre de 2022. Pero, el ritmo de adopción solo se ha acelerado, ya que, en diciembre, había alcanzado 300 millones de usuarios semanales, pero sus números lo han hecho. Rodado por 100 millones solo dos meses después.
Las compañías de viajes han estado utilizando inteligencia artificial durante años, pero la aparición de IA generativa, lo que le da la capacidad de crear texto, imágenes, audio y video, abrió la puerta de par en par a una variedad de nuevas posibilidades.
Más de dos años después, después del lanzamiento público de ChatGPT, la visión todavía está tomando forma. Ha habido desarrollos incrementales, con la industria trabajando para usar IA para ofrecer recomendaciones personalizadas, marketing y servicio al cliente. Muchas de las aplicaciones hasta ahora están trabajando detrás de escena.
Aquí hay una línea de tiempo de los mayores anuncios y avances y su impacto en los viajes:
Febrero de 2023: Bing Relanzes de Bing, propiedad de Microsoft, alrededor de Chatgpt
El motor de búsqueda de Bing de Microsoft lanzó un chatbot podría simplificar cómo las personas podrían buscar la planificación de viajes en los motores de búsqueda. Una diferencia con ChatGPT son las anotaciones de las fuentes y las sugerencias sobre consultas adicionales.
Marzo de 2023: Google lanza Bard
Google anunció que lanzaría Bard, su rival a ChatGPT. El reportero de Travel Technology, Justin Dawes, escribió que parecía funcionar de manera similar a ChatGPT, excepto que responde a las indicaciones con más de una respuesta.
Dawes agregó que la tecnología tiene grandes implicaciones para la industria de viajes, con marcas como Booking.com y Expedia explorando cómo se puede utilizar para alimentar el futuro de la planificación y la reserva de viajes.
Abril de 2023: Expedia lanza ChatGPT ai chatbot en la aplicación móvil
Expedia lanzó la primera versión de un chatbot de planificación de viajes en su aplicación móvil, convirtiéndose en la primera agencia de viajes en línea prominente en Occidente en hacerlo. (Trip.com, con sede en Singapur, lanzó un chatbot a principios de 2023.)
Dawes informó que los usuarios de Expedia podrían usar la herramienta, un chatbot separado del agente virtual que la aplicación ya tenía, para ayudar durante la planificación de viajes haciendo preguntas generales sobre un destino o ideas de viaje.
Una demostración demostró cómo la herramienta guardó automáticamente hoteles que el chatbot recomendó. Un usuario podría ir a la pestaña “Viajes” dentro de la aplicación y hacer clic en los elementos guardados para ver la disponibilidad para la reserva.
Dawes informó que Google Search estaba recibiendo una actualización con IA generativa de Bard, lo que significa que una solicitud de búsqueda para viajar podría ser más detallada por adelantado. Además, la parte superior de la página de resultados incorporará una imagen más completa de información, incluida una respuesta más corta generada por AI.
Google Maps estaba recibiendo una actualización que proporcionaría a los usuarios una vista de pájaro de una ruta, que el CEO de Google, Sundar Pichai, dijo que podría ser útil, por ejemplo, para los ciclistas que buscan una ruta panorámica con un rastro de bicicletas. Ese usuario podría verificar la calidad del aire, el tráfico y el clima, así como cómo eso podría cambiar en las próximas horas.
Junio de 2023: Priceline lanza una nueva plataforma AI y ‘Penny’ The Chatbot
Un día después de que Sister Company Booking.com presentó un planificador de viajes de IA para los miembros de su genio recompensas de viajes en su aplicación móvil, Priceline anunció que lanzaría una serie de 40 nuevas herramientas de reserva y actualización desarrolladas utilizando el generador de aplicaciones de IA generativos de Google Cloud. Una de esas herramientas es un chatbot de IA llamado “Penny” que se extiende por toda la red de hoteles de Priceline y puede usarse como guía local, contacto de la mesa de ayuda y conserje 24/7.
Dawes escribió que tres grandes compañías tecnológicas, Amazon Web Services, Meta y Microsoft, habían realizado recientemente grandes lanzamientos de productos relacionados con la IA generativa.
Amazon Web Services lanzó Amazon Bedrock, una plataforma que permite a las compañías de viajes crear herramientas y aplicaciones de IA que acceden a sus propios datos patentados, que Dawes señaló que es necesario para que una herramienta sea útil. Meta lanzó un chatbot de IA generativo llamado Meta AI, que utiliza el modelo de IA generativo patentado de la compañía para responder preguntas similares a ChatGPT, que Dawes escribió podría incluir preguntas sobre los viajes de planificación, la reserva de vuelos y más.
Y Microsoft dijo que estaba trabajando con la compañía de TI Accenture para pilotar a un asistente de viaje en asociación con Amadeus. Por ejemplo, un usuario puede pedirle a Microsoft 365 Chat que busque un vuelo que coincida con ciertos requisitos, y el chatbot responde con las opciones de vuelo.
Kayak lanzó una herramienta llamada PriceCheck que dijo que puede leer la información de la tarifa de vuelo de una captura de pantalla y luego buscar un mejor precio. Aunque Kayak emitió una advertencia dentro de Pricecheck instando a los usuarios a verificar la precisión antes de la reserva, Dawes informó que una prueba de Skift mostró que la herramienta lo hizo todo bien: las fechas, los tiempos, la aerolínea y los aeropuertos. Y encontró un precio más bajo.
Google dijo que agregaría varias herramientas nuevas diseñadas para ayudar a los viajeros a planificar viajes y explorar destinos. El gigante tecnológico también agregó una capacidad experimental de creación de itinerario basada en IA a su herramienta de búsqueda tradicional para que los usuarios opten. Los usuarios podrían solicitar un itinerario para un determinado destino, y recibirían opciones de vuelo y hotel además de sugerencias para atracciones y comidas.
Mayo de 2024: ChatGPT está recibiendo una actualización importante
Operai dio a conocer un grupo de actualizaciones que Dawes escribió podría resultar en que los viajeros tengan un traductor de voz robótico en su bolsillo. Las capacidades de traducción actualizadas fueron parte del nuevo modelo GPT-4O, que Operai dijo que es mucho más rápido que la versión anterior y mejor para interactuar con voz, fotos y videos.
Operai dijo en una publicación de blog sobre la actualización que un usuario ahora podría tomar una foto de un menú y pedirle a ChatGPT que lo traduzca, así como proporcionar información cultural sobre un plato y hacer recomendaciones sobre qué pedir.
Mayo de 2024: el siguiente paso de Google en la planificación del viaje de IA
Google anunció que Gemini Advanced, la versión paga del Gemini Generation AI Chatbot, podría construir itinerarios de viaje con un mensaje simple en un lenguaje fácil de entender. Sissie Hsiao, vicepresidenta y gerente general de Google de Gemini Experiences, utilizó un ejemplo de viaje para demostrar cómo el chatbot está dando un paso más hacia el objetivo de ser un “verdadero asistente de IA”.
Hsiao dijo que Gemini Advanced podría crear unas vacaciones personalizadas utilizando múltiples fuentes de información para una familia que planea un viaje de fin de semana a Miami, donde el esposo del usuario buscaba lugares para comer mariscos frescos.
Junio de 2024: el Siri de Apple se vuelve mejor
Apple anunció en su conferencia mundial de desarrolladores que su asistente digital Siri pronto podría ayudar a los usuarios a planificar los viajes. Mientras Dawes escribió que Siri no podría realizar tareas complicadas en ese momento, como reservar vuelos, Siri podría extraer información de las aplicaciones propiedad de Apple.
Por ejemplo, un usuario podría solicitar detalles sobre un próximo vuelo reservado, y Siri referiría información sobre el vuelo de un correo electrónico o un mensaje de texto con información de seguimiento de vuelo en tiempo real para proporcionar la hora de llegada más actualizada. Siri también pudo encontrar planes para una reserva de almuerzo realizada por mensaje de texto, y luego informar al usuario cuánto tiempo tomaría viajar desde el aeropuerto al restaurante.
Septiembre de 2024: el nuevo botón de la cámara del iPhone 16 se integra con AI
Apple anunció que los iPhones más nuevos vendrían con una manera fácil de preguntar la IA generativa sobre las imágenes de la vida real, lo que proporcionaría a los viajeros formas más fáciles de navegar en nuevas ciudades. Dawes señala que el iPhone16 y el iPhone 16 Pro activan una herramienta para preguntarle a AI sobre las imágenes a través de la cámara. Por ejemplo, al señalar un restaurante, el iPhone levanta una ventana con horas, clasificaciones y opciones para ver el menú y hacer una reserva a través de OpenTable.
Octubre de 2024: Chatgpt Advanced Voice: ¿El futuro de la reserva de viajes o la muerte de las OTA?
Thomas Reiner, socio de Altimeter Capital, escribió que el modo de voz avanzado de Chatgpt podría representar el futuro de la reserva de viajes. Proporcionó un ejemplo de pedirle a ChatGPT que busque un hotel en Puglia que cumpliera con criterios específicos, y recibió respuestas personalizadas que creía que tardaría mucho más en reconstruir manualmente en la reserva o Expedia.
Si bien Reiner escribió que no está claro si las agencias de viajes en línea se adaptarán o se volverán obsoletas en la era de la IA, agregó que los consumidores se beneficiarán de una planificación de viajes más personalizada, eficiente e incluso más barata proporcionada por la IA.
Octubre de 2024: la nueva característica de AI de Anthrope se asemeja a los agentes de viajes humanos
Anthrope, una startup y competidor de IA generativa de OpenAI, presentó una versión temprana de una característica destinada a realizar tareas informáticas, incluida la fabricación de planes de viaje, de la misma manera que lo haría un humano. Dawes informó que la nueva tecnología mostró una versión temprana de cómo podría operar un agente de viajes con IA.
Una versión más avanzada de la tecnología de Anthrope podría eliminar los desafíos de navegar manualmente las opciones, comparar los precios y hacer reservas. Las mejoras en la tecnología podrían impulsar a los usuarios a evitar las agencias de viajes en línea para recurrir a la IA para encontrar mejores ofertas.
Octubre de 2024: el chatgpt se convierte en un motor de búsqueda de viajes
El editor ejecutivo Dennis Schaal escribió que ChatGPT convertirse en un motor de búsqueda basado en el navegador con enlaces en tiempo real, mapas, clima, deportes, acciones y noticias tenía muchas implicaciones para los viajes. Señaló simplemente pedirle a Chatgpt.com que planee un viaje a lo largo de la Carretera de la Costa del Pacífico de California, produjo un itinerario de 5 días desde San Francisco a Santa Bárbara que sacaba información y enlaces de una amplia variedad de fuentes.
Noviembre de 2024: Airbnb dice AI Chatbot para la planificación del viaje no en el horizonte
Dave Stephenson, director de negocios de Airbnb, dijo que los esfuerzos de la compañía para incorporar IA en su aplicación no incluirían un chatbot para la planificación de viajes en el corto plazo a pesar de trabajar con OpenAI para desarrollar uno para los usuarios.
“Creo que las herramientas en la interfaz en este momento, usar el chat como método para planificar un viaje, simplemente no creemos que sea realmente suficiente, y en realidad no cumplió con nuestros criterios de diseño”, dijo Stephenson durante la conferencia Phocuswright en Fénix.
Enero de 2025: el chatgpt puede hacer restaurantes y eventos de auto-books
Operai anunció que lanzaría un asistente digital que puede completar búsquedas y compras en línea para viajes, eventos, restaurantes y más. Operai dice que se ha asociado con varias compañías para asegurarse de que la herramienta, conocida como operador, pueda acceder a los datos de los sitios web, incluidas las marcas de viajes Booking.com, TripAdvisor y Priceline.
Enero de 2025: aparición de una búsqueda profunda
Deepseek, un nuevo modelo de IA generativo con sede en China, podría volar a Silicon Valley y la industria de viajes. El rápido aumento de la startup, que según dice surgió en una fracción del costo en comparación con los rivales OpenAi y los Géminis de Google, causó que las acciones de IA cayeran. Las marcas de viajes que trabajan para adoptar la IA podrían ser grandes ganadores a largo plazo si Deepseek ayuda a reducir el costo de la tecnología.
Febrero de 2025: TripAdvisor recibe un impulso de la asociación de perplejidad
TripAdvisor comenzó una prueba en enero para alimentar algunas respuestas relacionadas con el viaje en la perplejidad del motor de búsqueda de IA, una asociación que se centra en compartir datos de TripAdvisor que no están disponibles en gran medida para los motores de búsqueda de terceros, incluida la información sobre los hábitos de sus usuarios. El CEO de TripAdvisor, Matt Goldberg, y el director financiero Mike Noonan dijeron al mes siguiente que la asociación con perplejidad, la primera de TripAdvisor con un motor de búsqueda de IA, ha sido una bendición para los negocios.
The AI world is moving so fast that it’s easy to get lost amid the flurry of shiny new products. OpenAI announces one, then the Chinese startup DeepSeek releases one, then OpenAI immediately puts out another one. Each is important, but focus too much on any one of them and you’ll miss the really big story of the past six months.
The big story is: AI companies now claim that their models are capable of genuine reasoning — the type of thinking you and I do when we want to solve a problem.
And the big question is: Is that true?
The stakes are high, because the answer will inform how everyone from your mom to your government should — and should not — turn to AI for help.
If you’ve played around with ChatGPT, you know that it was designed to spit out quick answers to your questions. But state-of-the-art “reasoning models” — like OpenAI’s o1 or DeepSeek’s r1 — are designed to “think” a while before responding, by breaking down big problems into smaller problems and trying to solve them step by step. The industry calls that “chain-of-thought reasoning.”
These models are yielding some very impressive results. They can solve tricky logic puzzles, ace math tests, and write flawless code on the first try. Yet they also fail spectacularly on really easy problems: o1, nicknamed Strawberry, was mocked for bombing the question “how many ‘r’s are there in ‘strawberry?’”
AI experts are torn over how to interpret this. Skeptics take it as evidence that “reasoning” models aren’t really reasoning at all. Believers insist that the models genuinely are doing some reasoning, and though it may not currently be as flexible as a human’s reasoning, it’s well on its way to getting there.
The best answer will be unsettling to both the hard skeptics of AI and the true believers.
What counts as reasoning?
Let’s take a step back. What exactly is reasoning, anyway?
AI companies like OpenAI are using the term reasoning to mean that their models break down a problem into smaller problems, which they tackle step by step, ultimately arriving at a better solution as a result.
But that’s a much narrower definition of reasoning than a lot of people might have in mind. Although scientists are still trying to understand how reasoning works in the human brain — nevermind in AI — they agree that there are actually lots of different types of reasoning.
There’s deductive reasoning, where you start with a general statement and use it to reach a specific conclusion. There’s inductive reasoning, where you use specific observations to make a broader generalization. And there’s analogical reasoning, causal reasoning, common sense reasoning … suffice it to say, reasoning is not just one thing!
Now, if someone comes up to you with a hard math problem and gives you a chance to break it down and think about it step by step, you’ll do a lot better than if you have to blurt out the answer off the top of your head. So, being able to do deliberative “chain-of-thought reasoning” is definitely helpful, and it might be a necessary ingredient of getting anything really difficult done. Yet it’s not the whole of reasoning.
One feature of reasoning that we care a lot about in the real world is the ability to suss out “a rule or pattern from limited data or experience and to apply this rule or pattern to new, unseen situations,” writes Melanie Mitchell, a professor at the Santa Fe Institute, together with her co-authors in a paper on AI’s reasoning abilities. “Even very young children are adept at learning abstract rules from just a few examples.”
In other words, a toddler can generalize. Can an AI?
A lot of the debate turns around this question. Skeptics are very, well, skeptical of AI’s ability to generalize. They think something else is going on.
“It’s a kind of meta-mimicry,” Shannon Vallor, a philosopher of technology at the University of Edinburgh, told me when OpenAI’s o1 came out in September.
She meant that while an older model like ChatGPT mimics the human-written statements in its training data, a newer model like o1 mimics the process that humans engage in to come up with those statements. In other words, she believes, it’s not truly reasoning. It would be pretty easy for o1 to just make it sound like it’s reasoning; after all, its training data is rife with examples of that, from doctors analyzing symptoms to decide on a diagnosis to judges evaluating evidence to arrive at a verdict.
Besides, when OpenAI built the o1 model, it made some changes from the previous ChatGPT model but did not dramatically overhaul the architecture — and ChatGPT was flubbing easy questions last year, like answering a question about how to get a man and a goat across a river in a totally ridiculous way. So why, Vallor asked, would we think o1 is doing something totally new and magical — especially given that it, too, flubs easy questions? “In the cases where it fails, you see what, for me, is compelling evidence that it’s not reasoning at all,” she said.
Mitchell was surprised at how well o3 — OpenAI’s newest reasoning model, announced at the end of last year as a successor to o1 — performed on tests. But she was also surprised at just how much computation it used to solve the problems. We don’t know what it’s doing with all that computation, because OpenAI is not transparent about what’s going on under the hood.
“I’ve actually done my own experiments on people where they’re thinking out loud about these problems, and they don’t think out loud for, you know, hours of computation time,” she told me. “They just say a couple sentences and then say, ‘Yeah, I see how it works,’ because they’re using certain kinds of concepts. I don’t know if o3 is using those kinds of concepts.”
Without greater transparency from the company, Mitchell said we can’t be sure that the model is breaking down a big problem into steps and getting a better overall answer as a result of that approach, as OpenAI claims.
She pointed to a paper, “Let’s Think Dot by Dot,” where researchers did not get a model to break down a problem into intermediate steps; instead, they just told the model to generate dots. Those dots were totally meaningless — what the paper’s authors call “filler tokens.” But it turned out that just having additional tokens there allowed the model more computational capacity, and it could use that extra computation to solve problems better. That suggests that when a model generates intermediate steps — whether it’s a phrase like “let’s think about this step by step” or just “….” — those steps don’t necessarily mean it’s doing the human-like reasoning you think it’s doing.
“I think a lot of what it’s doing is more like a bag of heuristics than a reasoning model,” Mitchell told me. A heuristic is a mental shortcut — something that often lets you guess the right answer to a problem, but not by actually thinking it through.
Here’s a classic example: Researchers trained an AI vision model to analyze photos for skin cancer. It seemed, at first blush, like the model was genuinely figuring out if a mole is malignant. But it turned out the photos of malignant moles in its training data often contained a ruler, so the model had just learned to use the presence of a ruler as a heuristic for deciding on malignancy.
Skeptical AI researchers think that state-of-the-art models may be doing something similar: They appear to be “reasoning” their way through, say, a math problem, but really they’re just drawing on a mix of memorized information and heuristics.
Other experts are more bullish on reasoning models. Ryan Greenblatt, chief scientist at Redwood Research, a nonprofit that aims to mitigate risks from advanced AI, thinks these models are pretty clearly doing some form of reasoning.
“They do it in a way that doesn’t generalize as well as the way humans do it — they’re relying more on memorization and knowledge than humans do — but they’re still doing the thing,” Greenblatt said. “It’s not like there’s no generalization at all.”
After all, these models have been able to solve hard problems beyond the examples they’ve been trained on — often very impressively. For Greenblatt, the simplest explanation as to how is that they are indeed doing some reasoning.
And the point about heuristics can cut both ways, whether we’re talking about a reasoning model or an earlier model like ChatGPT. Consider the “a man, a boat, and a goat” prompt that had many skeptics mocking OpenAI last year:
What’s going on here? Greenblatt says the model messed up because this prompt is actually a classic logic puzzle that dates back centuries and that would have appeared many times in the training data. In some formulations of the river-crossing puzzle, a farmer with a wolf, a goat, and a cabbage must cross over by boat. The boat can only carry the farmer and a single item at a time — but if left together, the wolf will eat the goat or the goat will eat the cabbage, so the challenge is to get everything across without anything getting eaten. That explains the model’s mention of a cabbage in its response. The model would instantly “recognize” the puzzle.
“My best guess is that the models have this incredibly strong urge to be like, ‘Oh, it’s this puzzle! I know what this puzzle is! I should do this because that performed really well in the training data.’ It’s like a learned heuristic,” Greenblatt said. The implication? “It’s not that it can’t solve it. In a lot of these cases, if you say it’s a trick question, and then you give the question, the model often does totally fine.”
Humans fail in the same way all the time, he pointed out. If you’d just spent a month studying color theory — from complementary colors to the psychological effects of different hues to the historical significance of certain pigments in Renaissance paintings — and then got a quiz asking, “Why did the artist paint the sky blue in this landscape painting?”… well, you might be tricked into writing a needlessly complicated answer! Maybe you’d write about how the blue represents the divine heavens, or how the specific shade suggests the painting was done in the early morning hours which symbolizes rebirth … when really, the answer is simply: Because the sky is blue!
Ajeya Cotra, a senior analyst at Open Philanthropy who researches the risks from AI, agrees with Greenblatt on that point. And, she said of the latest models, “I think they’re genuinely getting better at this wide range of tasks that humans would call reasoning tasks.”
She doesn’t dispute that the models are doing some meta-mimicry. But when skeptics say “it’s just doing meta-mimicry,” she explained, “I think the ‘just’ part of it is the controversial part. It feels like what they’re trying to imply often is ‘and therefore it’s not going to have a big impact on the world’ or ‘and therefore artificial superintelligence is far away’ — and that’s what I dispute.”
To see why, she said, imagine you’re teaching a college physics class. You’ve got different types of students. One is an outright cheater: He just looks in the back of the book for the answers and then writes them down. Another student is such a savant that he doesn’t even need to think about the equations; he understands the physics on such a deep, intuitive, Einstein-like level that he can derive the right equations on the fly. All the other students are somewhere in the middle: They’ve memorized a list of 25 equations and are trying to figure out which equation to apply in which situation.
Like the majority of students, AI models are pairing some memorization with some reasoning, Cotra told me.
“The AI models are like a student that is not very bright but is superhumanly diligent, and so they haven’t just memorized 25 equations, they’ve memorized 500 equations, including ones for weird situations that could come up,” she said. They’re pairing a lot of memorization with a little bit of reasoning — that is, with figuring out what combination of equations to apply to a problem. “And that just takes you very far! They seem at first glance as impressive as the person with the deep intuitive understanding.”
Of course, when you look harder, you can still find holes that their 500 equations just happen not to cover. But that doesn’t mean zero reasoning has taken place.
In other words, the models are neither exclusively reasoning nor exclusively just reciting.
“It’s somewhere in between,” Cotra said. “I think people are thrown off by that because they want to put it in one camp or another. They want to say it’s just memorizing or they want to say it’s truly deeply reasoning. But the fact is, there’s just a spectrum of the depth of reasoning.”
AI systems have “jagged intelligence”
Researchers have come up with a buzzy term to describe this pattern of reasoning: “jagged intelligence.” It refers to the strange fact that, as computer scientist Andrej Karpathy explained, state-of-the-art AI models “can both perform extremely impressive tasks (e.g., solve complex math problems) while simultaneously struggling with some very dumb problems.”
Drew Shannon for Vox
Picture it like this. If human intelligence looks like a cloud with softly rounded edges, artificial intelligence is like a spiky cloud with giant peaks and valleys right next to each other. In humans, a lot of problem-solving capabilities are highly correlated with each other, but AI can be great at one thing and ridiculously bad at another thing that (to us) doesn’t seem far apart.
Mind you, it’s all relative.
“Compared to what humans are good at, the models are quite jagged,” Greenblatt told me. “But I think indexing on humans is a little confusing. From the model’s perspective, it’s like, ‘Wow, those humans are so jagged! They’re so bad at next-token prediction!’ It’s not clear that there’s some objective sense in which AI is more jagged.”
The fact that reasoning models are trained to sound like humans reasoning makes us disposed to compare AI intelligence to human intelligence. But the best way to think of AI is probably not as “smarter than a human” or “dumber than a human” but just as “different.”
Regardless, Cotra anticipates that sooner or later AI intelligence will be so vast that it can contain within it all of human intelligence, and then some.
“I think about, what are the risks that emerge when AI systems are truly better than human experts at everything? When they might still be jagged, but their full jagged intelligence encompasses all of human intelligence and more?” she said. “I’m always looking ahead to that point in time and preparing for that.”
For now, the practical upshot for most of us is this: Remember what AI is and isn’t smart at — and use it accordingly.
The best use case is a situation where it’s hard for you to come up with a solution, but once you get a solution from the AI you can easily check to see if it’s correct. Writing code is a perfect example. Another example would be making a website: You can see what the AI produced and, if you don’t like it, just get the AI to redo it.
In other domains — especially ones where there is no objective right answer or where the stakes are high — you’ll want to be more hesitant about using AI. You might get some initial suggestions from it, but don’t put too much stock in it, especially if what it’s saying seems off to you. An example would be asking for advice on how to handle a moral dilemma. You might see what thoughts the model is provoking in you without trusting it as giving you the final answer.
“The more things are fuzzy and judgment-driven,” Cotra said, “the more you want to use it as a thought partner, not an oracle.”
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.