La semana pasada le conté sobre los lanzamientos modelo recientes de la compañía de IA China Deepseek y por qué son un logro tan técnico. El equipo de Deepseek parece haber obtenido un gran kilometraje al enseñar a su modelo a descubrir rápidamente qué respuesta habría dado con mucho tiempo para pensar, un paso clave en los avances anteriores de aprendizaje automático que permite mejoras rápidas y baratas.
Noticias
La startup de IA china Deepseek está venciendo a compañías como OpenAi en los usuarios

Esta semana quiero saltar a una pregunta relacionada: ¿Por qué estamos hablando de Deepseek? Se ha llamado el momento Ai Sputnik de Estados Unidos. Está en la parte superior de la App Store de iPhone, desplazando el chatgpt de OpenAI. Los CEO de las principales compañías de IA están publicando defensivamente en X al respecto. Las personas que generalmente ignoran la IA me dicen, oye, ¿has visto a Deepseek?
Me he hecho, y no me malinterpreten, es un buen modelo. Pero también lo son los modelos más avanzados de OpenAI O1 y O3, y el LLM actual de mejor rendimiento en la tabla de clasificación de Chatbot Arena es en realidad Gemini de Google (Deepseek R1 es cuarto).
Todo lo cual plantea una pregunta: ¿Qué hace que algunos desarrollos de IA se rompan al público en general, mientras que otros, igualmente impresionantes, solo son notados por los expertos?
Varios meses antes del lanzamiento de ChatGPT a fines de 2022, OpenAI lanzó el modelo, GPT 3.5, que luego sería el chatgpt subyacente. Cualquiera podría acceder a GPT 3.5 de forma gratuita yendo a Openi’s Sandbox, un sitio web para experimentar con sus últimos LLM.
GPT 3.5 fue un gran paso adelante para los modelos de idiomas grandes; Exploré lo que podía hacer y me impresionó. También lo fueron muchas otras personas que siguieron de cerca los avances de IA. Y, sin embargo, prácticamente nadie más se enteró o lo discutió.
Cuando Operai lanzó ChatGPT, llegó a 100 millones de usuarios en solo dos meses, un récord. ChatGPT fue exactamente el mismo modelo que el GPT 3.5 cuyo lanzamiento se había vuelto en gran medida sin notificar. La diferencia era que, en lugar de una “caja de arena” con frases y configuraciones técnicas (como, ¿qué “temperatura” quieres que sea la IA?), Era un chatbot de ida y vuelta, con una interfaz familiar para cualquiera que Alguna vez había escrito texto en un cuadro en una computadora.
No fue la tecnología la que impulsó la rápida adopción de ChatGPT: fue el formato en el que se presentó. Y creo que ese es el mismo fenómeno que impulsa nuestro fervor actual de Deepseek.
Deepseek R1 no es la mejor IA que existe. Como modelo en gran parte abierto, a diferencia de los de OpenAi o Anthrope, es un gran problema para la comunidad de código abierto, y es un gran problema en términos de sus implicaciones geopolíticas como evidencia clara de que China es más que mantenerse al día con el desarrollo de la IA. Pero nada de eso es una explicación para que Deepseek esté en la parte superior de la App Store, o para el entusiasmo que la gente parece tener por ello.
Sospecho que lo que impulsó su adopción generalizada es la forma en que hace un razonamiento visible para llegar a su respuesta. Es el primero en tener una cadena de pensamiento visible empaquetada en una amigable interfaz de usuario de chatbot. A la gente le encanta ver a Deepseek pensar en voz alta. Hablan sobre cómo presenciarlo “pensar” les ayuda a confiar más y aprender a provocarlo mejor. (Irónicamente, también hace que la censura impulsada por el gobierno chino del modelo sea más visible, no lo preguntes sobre Taiwán, pero creo que eso es algo bueno, en comparación con hacer una censura ideológica similar más sutilmente).
Operai, por el contrario, tomó la decisión al liberar O1 (que hace un pensamiento y un razonamiento similar antes de producir una respuesta) para no hacer que el “proceso de pensamiento” sea público y visible. Probablemente, esto sea por varias razones: es un secreto comercial, por uno, y el modelo es mucho más probable para “deslizarse” y romper las reglas de seguridad a mitad de carrera que hacerlo en su respuesta final. (De hecho, ha habido muchos videos de Deepseek R1 que dicen cosas críticas de China antes de que se dé cuenta del problema y las retroceso).
Pero creo que el proceso de pensamiento hace algo similar para los usuarios típicos a lo que hizo la interfaz de chat. Hace que la IA sea más inmediata, más accesible, más interactiva y menos confusa. No es una gran diferencia en el producto subyacente, pero es una gran diferencia en lo inclinadas que son las personas para usar el producto.
“Ver el razonamiento (incluso lo serio que es sobre lo que sabe y lo que podría no saber) aumenta la confianza del usuario por mucho”, escribió el presidente de Y Combinator, Garry Tan.
AI ha mejorado desde la última vez que se registró
Respondamos rápidamente a algunos de los conceptos erróneos más destacados de DeepSeek: no, no significa que todo el dinero que las compañías estadounidenses están poniendo se hayan desperdiciado. Deepseek demostró (si tomamos sus reclamos de proceso al pie de la letra) que puede hacer más de lo que la gente pensó con menos recursos, pero aún puede hacer más que eso con más recursos.
Deepseek podría ser un desafío existencial para Meta, que estaba tratando de forjar el nicho de modelos de código abierto barato, y podría amenazar el modelo de negocio a corto plazo de OpenAI. Pero el modelo de negocio a largo plazo de la IA siempre ha estado automatizando todo el trabajo realizado en una computadora, y Deepseek no es una razón para pensar que será más difícil o menos comercialmente valioso.
Otra cosa que está impulsando el frenesí de Deepseek es sencillo: la mayoría de las personas no son usuarios de IA y no han sido testigos de los dos años de avances desde que se lanzó ChatGPT por primera vez. Pero durante esos dos años, la IA ha mejorado dramáticamente a lo largo de casi todas las métricas medibles, especialmente para los modelos fronterizos que pueden ser demasiado caros para el usuario promedio.
Entonces, si estás registrando por primera vez porque escuchaste que había una nueva AI de la que la gente está hablando, y el último modelo que usaste fue la versión gratuita de Chatgpt, sí, Deepseek R1 te dejará boquiabierto. Y aunque es un modelo muy bueno, una gran parte de la historia es simplemente que todos los modelos han mejorado mucho mucho en los últimos dos años.
Escribí a principios de año que, ya sea que te guste o no prestar atención a la IA, se mueve muy rápido y está listo para cambiar mucho nuestro mundo, e ignorar que no cambiará ese hecho.
Es por eso que es bueno cada vez que cualquier nueva aplicación viral de IA convence a las personas para que echen otro vistazo a la tecnología. Para decidir qué enfoque de política queremos llevar a la IA, no podemos razonar a partir de las impresiones de sus fortalezas y limitaciones que están desactualizadas dos años, no con una tecnología que se mueve esto rápidamente. En la medida en que Deepseek ha inspirado a los responsables políticos a detenerse y darse cuenta de cómo el mundo de 2025 es diferente del mundo de 2023, eso es una gran noticia.
Sin embargo, en la medida en que Deepseek inspira un pánico generalizado sobre China, creo que son menos buenas noticias. El Partido Comunista Chino es una entidad autoritaria que molesta sistemáticamente tanto a sus propios ciudadanos como al resto del mundo; No quiero que gane más poder geopolítico, ya sea de IA o de crueles guerras de conquista en Taiwán o de los Estados Unidos que abdican todas nuestras alianzas globales. Pero la carrera de IA no es como la carrera de armas nucleares, porque nunca hubo riesgo de que las armas nucleares decidieran tomar el asunto en sus propias manos.
La IA, los expertos advierten con bastante enfatismo, literalmente podría tomar el control del mundo de la humanidad si hacemos un mal trabajo al diseñar miles de millones de agentes de IA súper inteligentes y súper potentes que actúan de forma independiente en el mundo. (¿Seríamos tan descuidados? Sí, absolutamente, ¡estamos trabajando duro en ello!)
Mucha gente, nerviosa por esta situación, se ha llevado al humor mórbido. “Llámame nacionalista o lo que sea”, dice una publicación popular X. “Pero espero que la IA que me convierta en un clip de papel sea hecho de fabricación estadounidense”. Pero nos pongamos serios aquí. China no quiere destruir el mundo. Hay indicios de que imitan la mayoría de las medidas de seguridad recomendadas por las instituciones estadounidenses y tomadas por los laboratorios estadounidenses. Esas medidas son totalmente inadecuadas en este momento, pero si adoptamos medidas adecuadas, creo que también podrían copiarlas, y deberíamos trabajar para que eso suceda.
Estamos en una competencia geopolítica real con apuestas reales y enormes, pero no podemos permitirnos perder de vista dónde hay un terreno común, y no crear una nueva entidad geopolítica poderosa que con gusto se apodere del control de nosotros y el PCCh es un lugar donde hay terreno común.
Una versión de esta historia apareció originalmente en el futuro boletín perfecto. ¡Regístrese aquí!